Корпусна лінгвістика, предмет дослідженні я завдання

  1. Стратегії створенні текстозорієнтованих баз даних
  2. Повнотекстові бази
  3. Електронні картотеки
  4. Продукти опрацювання текстозорієнтованих баз даних, зокрема компютерні словопоказчики, конкорданси та частотні словники

Текстозорієнтовані бази даних – є бази оссновою формування яких є різноманітні за тематикою структурою, обсягом жанром, мовою та часом створення тексти. З появою сканерів процес формування таких баз знчно спростився проте вони не розвязали власне лінгвістичні проблеми побудови таких баз даних такі як:

Виділення різних типів представленої в них інформації про мову та обєкти позамовної дійсності так званої внутрішньої та позамовної інформації. Отже текстозорієнтовані бази даних можуть виступати залежно від способу організації в них інформацї, як бази даних так і бази знань про мову та відбиту в ній картину світу. Такі бази даних та самі корпуси текстів становлять обєкт вивчення корпусної лінгвістики, самостійної дисципліни в межах прикладної. На сьогодні сформувалося 2 напрямки створення текстозорієнтованих баз даних, це формування корпусів текстів, або повнотекстових баз даних і створення електронних картотек, або ілюстративних баз даних. Структура і конкретне наповнення повнотекстових баз даних зумовлені х-м тих теоритичних і практичних завдань, які така база покликана розвязувати. За повнотою представлення функціонування мовної с-ми можна виділити фундаментальні та дослідницькі корпуси текстів. Свого часу лінгвіст Герд запропонував розрізняти корпуси текстів реєструвального та інтерпретаційного або дослідницького типу. Реєструвальні корпуси становлять фактичне підгрунтя для створенні інших і подають тексти як цілісні обєкти, як факт реалізації мовнох с-ми. Корпуси інтерпретаційні становлять інформаційно-довідкові та дослідницькі с-ми, що дають користувачеві змогу одержувати з корпусу текстів потрібну йому інформацію про окремі мовні обєкти та їхні властивості. До фундаментальних належить Браунівський корпус американського варіанта сучасної анлійської мови створений в 1962-63рр під керівництвом френсіса.

Британський національний корпус він був сформований протягом 1991-92х рр під проводом видавництва Оксфордького Університету. Цей корпус постійно оновлюють і наявні всі жанри літератури. Укладачі цього корпусу......... Також інсує франтекст – це корпус текстів французькою мовою створюваний в місті Нансі. Вивчення сучаного стану мовних с-м формуються так звані динамічні корпуси текстів. Одним з таких корпусів є корпус текстів російської сучасної публіцистики створений в 90х рр 20ст відмітною рисою якого є повнотекстовий, а не вибірковий х-р. Кожен тип інформації про вміщений у корпусі теаст становить окремий параметр класифікації такого тексту, та його конкретні реалізації так званий «фасет» від французького грань. Такий спосіб організації інформації про описувані обєкти предметної галузі здобув назву фасетної класифікації. Фасетна класифікація текстів описуваного корпусу російської публіцистики враховує такі параметри:

· Джерело

· Автор

· Назва статті

· Політична орієнтація видання

· Жанр

· Тема

· Час публікації

Для української мові завдання створенні різноманітних корпусів текстів та текстозорієнтованих баз даних стоїть не менш гостро ніж формування словникових баз даних і конструювання компютерних словників та компютернних лексикографічних с-м. У відділі структурно-математичної лінгвістики іституту мовознавства імені Потебні корпуси текстів створюються передусім для розвязання кокретних дослідницьких завдань повязаних із статистичними обстеженнями функціонування мовних одиниць у текстах зокрема наукових та вивчення закономірностей структурної організації текстів. Це корпуси дослідницького пошукового х-ру, а їхня організація підпорядкована стратегії укладання різних типів частотних словників української мови. Таким є корпуси текстів сучасної української публіцистики та сучасного українського наукового стилю. Обсяг кожного з цих корпусів 300тис слововживань. Корпус текстів сучасної української публіцистики форумувався на основі низки укр газет таких як: Урядовий крєр, сільські вісті, голос україни за 94й рік. Корпус текстів сучасного українського наукового стилю містить тексти монографії, статей в наукових збірниках та журнали з гуманітарних наук. Корпуси текстів, звукові компютерні хрестоматії-фонотеки, для говірок Донецької та Полтавської областей створив колектив співробітників каедри українскьої мови Донецького національного університету. Проте завдання стоїть ширше, а саме, необхідне створення фундаментальних корпусів текстів як у письмовій так і у звуковій формі не лише для різних регіонів України а й для різних комунікативних ситуацій, що дасть змогу обстежити адекватну картину стану сучасного уркаїнського лексикону та граматичного ладу української мови. Створення електронних картотек є не менш важливим завданням. Сьогодні найбільш інформативними для користувачів виявилися картотеки повязані з повнотекстовими базами даних працюючи з якими користувач може перейти від окремого слова або цитати до цілісного тексту в яких вони функціонують. Саме таку стратегію побудови автоматизованої лексикографічної с-ми ьуло прийнято на початку 80х років 20 ст у ленінграді в інституті лінгвістичних досліджень. Стрижень цієї с-ми становив корпус текстів класичної російської художньої літератури 19-20 ст. за допомогою спеціального текстового процесора в кілька етапів здійснюється формування електронної лексичної картотеки. Компютерні продукти крім дослідницької цінності для лексикографів можуть виконувати ф-ції самостійних супровідних баз даних з інформаційно довідковими та дослідницькими ф-ціями. Першим з таким продуктів опрацювання стали словопказчики окремих текстів. Словопазчик, або індекс тексту становить упорядковий список всіх вжитих в ньому слів з їхніми адресами та додаткової інформації про них. Він містить словоформу, її адресу в тексті(номер сторінки і рядок), а також показник абсолюної частоти вживання. Самий список можна впорядкувати за абеткою початку або кінця слова, а також за показниками інформації про таку словоформу, зокрема:

Спадок частот слів послідовністю нумерації сторінок, або рядків у межах сторінки. Завдаки йому користувач отримує інформацію про весь спектр вживання певної словооформи в аналізованому корпусі текстів.

21.09

Для одержання вирогидних статистичних характеристик генеральна сукупнисть текстив повинна бути одноридноию.У лингвостатистици галузи лингвистики яка для вивчення мовних явищ використовуэ статистични методи принято розризняти однориднисть лингвистичну та статистичну. Пербинис визначила для текстив яки складають лингвистично одноридну генеральну сукупнисть таки необхидни ознаки:час написання, жанр, тематика, належнисть одному автору

Статистична однориднисть в генеральний сукупности забезпечуэ ии обстеження за эдиними статистичними методиками и подальший анализ на пидстави эдиних статистичних харктеристик. Залежно вид мети статистичного обстеження мовного материалу дослидник може будувати ризни типи вибирок: механични, випадкови та типови.

1.Механична вибирка прагне до ривномирного розподилу анализованих одиниць по всий генеральний сукупности ии використовують при обстеженни невеликих за обсягом текстив.

2.Випадкова формуэться за допомого таблици випадкових чисел

3.Типова становить обстеження з допомого таблици випадкових чисел тексти одноридних за часом створення чи публикации, жанром, стилем, будовою,автором, мовою оформлення.

Випадкови та типови вибирки формують для анализу великих за обсягом текстив за способом подання мовних одиниць для яких встановлено частотни характеристики видиляють повни словники, що мистять вси одиници вжити в анализованих текстах та неповни, що мистять лише одиници з частотою яка = або перевищуэ заданий пориг тобто граничний показник частоти. Частотни словники можуть ризнитися и за типами представлених у них статистичних характеристик.Абсолютна частота слова -це килькисть всих його вживань в окремиц пидвибирци або вибирци в цилому. Видносну частоту словва засвидчуэ видношення абсолютнои частоти його вживання у вибирци до загальнои килькости слив у ний. Середню частоту вживання слова обраховують як видношення суми абсолютних частот його вживння в окремих пидвибирках вибирки до суми таких пидвибирок. Показник мири коливання середньои частоти в тексти даэ змогу встановити розподил обстежуванои одиници текстив значущисть стабильнисть ии появи в ньому. Ризни види частотних характеристик доповнюють та оточнують один одного. 19.. було опубликовано 2 томний частотний словник сучаснои укр. худ.прози за редакциэю Перебинис. Методико статистичного опрацювання текстив та вироблений формат частотного словника Первинис були використани в 2 комп. словниках зокрема в частотних словниках суч.укр.публицистики та суч.укр. наук.стилю. Новим э визначений у цих словниках статистичний показник коефициент стабильности вживання слова в корпуси текстив або показник регулярности появи слова в тексти. Останни роки спивробитники лаборатории комп. лингвистики працюють над створенням интегрованого частотного словника суч.укр. поетичного мовлення на основи творив 20-21ст. Винграновський, Костенко,Драч, Стус, Калинця.Статистична лексикография все бильше тяжиэ до створення словникив комплексних типив таких яки в описи тих чи инших мовних одиниць видображали ризни ознаки ихних форм, змисту або використання в тексти прикладом може служити словник Достоэвського створений Росийським институтом пид керивництвом Шайкевича.

 

 

Тема7: Компютерний фонд укр.мови в институти мовознавства имени Потебни

План

1.История становлення

2.Джередьна база;

3.Принципи формування;

4.Здобутки;

5.Перспективи розбудови;

1) Поява компютера и можливисть моделювання з його доапомогою ризноманитних мовних обэктив покликала до життя идею створення комп. або машинних фондив национальних мов.Вони мислились як видомости про будову та функционування мови, и як якисно нове фактичне пидгрунтя для вивчення мови та опрацювання мовни информации.Перши таки фонди зявились в США, Великобритании, Италии, Швеции ще в середини 50 рокив минулого столиття.Вони будувались як словнико та тексто зориентовани бази даних про мову.У колишньому радянському союзи над проблемою формування машинних фондив национальних мов почали працювати з кинця 70-тих рокив минулого столиття.Одним з перших идею комп. фонду рос. мови висловив академик Эршов.Вин видилив у формуванни моделей як зовнишни позалингвистични так и внутришни власне лингвистични фактори. До зовнишних вин виднис проблеми навчання мови, видавничу справу,розроблення систем взаэмодии людини з компютером.Важливе значення вбачав у нових потужних можливостях глибше пизнати природу мови ставити й успишно розвязувати нови теоретичний практични дослидницьки завдання яки надавали таки комп. системи представлення и опрацювання мовнои информации.Новий розвиток у лингвистичних дослидженнях уможливлюэ детальне структурування мовних даних, цилисне представлення мови як взаэмоналаштованих пидсистем мовних одиниць ризних ривнив. у 1983 роци м.Вороново зибралась перша всесоюзна конференция з проблем створення машинного фонду для автоматизованои системи лексикографичних дослиджень. У ний взяли участь и укр. вчени институту мовознавства Потебни та кибернетики имени Глушкова таки як Перебийнись,Пещак,Билецька.И пидтримали створити проект машинного фонду рос. мови.Виконання проекту передбачало розвязання 4 завдань:

-Створення академичних словниково-граматичних баз даних;

-Формування автоматично поповнюваних словопокажчикив та словникив на бази тексту дилових та розмовних стилив, а також текстив науково тех. стилив та документаций;

-Обэднання даних про загальновживану рос. мову та даних теринологичних фондив.

-Створення фонду лингвистичних алгоритмив та програм включаючи процесори укр. мовою;

В укр. дослидження здийснювали лингвисти, матиматики, програмисти в науково-дослидних усстановах вузах Киэва, Харкова,Львова. На прикинци 60-р було створено институт мовознавста Потебни виддил структурно-математичнои лингвистики на чоли Перебийнис. Вин активно працював над виробленням ормализованих моделей опису та интерпритации мовних явищ.Вин почав активне формування повнотекстових баз даних та укладання на их основи ризних частотних словникив и конкорданцив.В 1991 р колектив продовжив роботу на материали укр. мовних текстив ризнои тематики наукових художних публицистичних.На сьогодни повнотекстова база даних фонду. Мистить 700 000 лововживань оснажена процедурами орфографичного контролю текстив,анализу ихньои морфологичнои, синтаксичнои та семантичнои структури.Для опрацювання та створення баз даних розроблени спец. текстови процесори яки включають системи комп. анализу тексту на морфологичному, синтаксичному та логико семантичному ривни.До складу таких процесорив увийшли системи математичного орфографичного контролю и редагування текстив та системно-машинного рос-укр. перекладу.З кинця 70 х рокив колектив пид керивництвом Пещак розробляла проблему формализацию анализу симантики слив.их дослидження сперались на вивчення метамов словникив ризного типу, зокрема тлумачних.1988 року колектив дослидникив очолений Клименко поставив перед собою основне завдання створити базу даних про морфемну будову суч. укр слова на материали словникив суч. укр мови и розробити засоби автоматизованого укладання морфемних та словотвирних словникив компютерни модели анализу та синтезу слив тобто морфемно словотвирний фонд укр. мови.Паралельно здийснюались формування словникозориэнтованои бази даних моремно словотирного фонду укр. мови та виконання власне дослидницьких лингвистичних задань. База даних формувалась як генеральний реэстр слив суч. укр мови. зведений за мтериалами 5 автритетних словникив:

1.11-томний тлумачний словник укр. мови;

2. 2-томний словник -довидник морфемний анализ;

3.2-томний частотний словник суч.укр.мови

омний словник суч.укр.худ.прози.;

4.Словник иншомовних слив;

5.Словник довидник з правопису та слововживання.

Цей зведений реэст наличуэ 166385 слив з видомостями про их морфену бдову, их значення абсолютну частоту вживання та частиномовну належнисть.За материалами фонду було укладно комп.

1.Словник-символьних моделей морфемнои будови слова;

2.Словник афиксальних морфем укр.мови

3.Кореневи гниздовий ловник кр. мови

До складу бази даних увийшли идеографичний словник именникив укр. мови автор Снижко та идеогрфичний словник перемищення укр. мови автор Середницька.Сьогодни комп. фонд укр. мови маэ розгалужену архитектуру вин складаэться з 3 основних пидонди:

1.Текстовои бази;

2.Генерального реэстр укр. слив;

3.Пидфонду лингвистичних процесорив;

Окремий модуль фонду становлять бази сатилити основних модултв, що митсять продукти виконання ризних завдань опрацювання основних баз даних це- словники,словопокажчики,конкорданси,таблици сполучуваности одиниць.Комп.граматики текстив.Накопичений в укр. створений досвид баз даних формування машинних копий та версии ризнотипних традицийних словникив, розроблення словникових и текстових процесорив ставлять завдання обэднання иснуючои информации в загально державний фонд укр. мови який виконував би таки функции:

-информацийно-довидкову;

-Дослидницьку;

-навчльну;

-редакцийно-видавничу;

Информацийно довидкова функция полягаэ в одержанни додатковои инфо як про систему и функционування мови так и про способи их моделювання у фонди.

Навчальна-це навчання мови та методам ии комп.анализу за допомогою инфо.фонду.

Дослидницька полягаэ у виконанни лингвистичних пошукових завдань спрямованих на одержання новои инфо про мову або якисно нових продуктив представляння инфо

Редакцийно видавнича- це автоматизоване редагування и укладання словникив або инших продуктив опрацювання словникив вмищенои у фонди. а також автоматизоване перевидання комп. копий и версии словникив або текстив джерел формування фонду.

 

Новий роздил.............................................................................................................

Тема1: Природний и штучний интелект

План

1.Интелект як инструмент пизнання дийсности;

2.Складники интелектуальнои дияльности людини:пизнання,розуминня знаннь та вминня их застосовувати;

3.Пидходи до створення систем штучного интелекту;

4.Машина Т.Т Тьюринга;

1) П.Л як самостийна мовознавча дисциплина маэ миждисциплинарний комплексний характер. Така двоистисть статусу п.л зпричинена належнистю мовою до лингвистики,що э обэктом та предметом дослидження, а за инструменто ии дослидження до информатики та комплексу дисциплин спрямованих на створення комп. систем з так звани штучним интелектом або штуним розумом визначають як певну комп. модель природного интелекту.Результатом мисленнэвои дияльности людини щоб стати притупними для передачи иншим особам та для их сприйняття ними повинни бути унаочненими це видбуваэться завдяки ови, яка фиксуэ наслидки розумових процесив людини тобто вербализуэ мовни одиници. Инши знакови системи фиксации мисленнэвои дияльности людини виступають стосовно мови як вториннои.Для того щоб зрозумити пидходи и стратегии створення систем штучного интелекту треба дослидити елемент природного интелекту проанализувати розуминня яке визначаэ ривень розвитку комплекс наук про людину яка мислить або розумиэ.Слово интелект латинського походженняя означаэ роздум поняття, спостереження.Интелект - це субстанция або певна здатнисть мозку людини керувати ии диями ришеннями повидинкою в певних ситуациях.Визначення розумна людина вказуэ на певну норму розвитку интелекту настановлення якои в тий чи инший людський спильноти впливають социальни етнокультурни психоментальни чинники.Для ступеня розвитку интелекту людини виришальними виявилися таки ознаки ии мисленнэвои дияльности повнота та адекватни сприйняття дийсности уминня правильно ставити завдання розумовои дияльности добирати потрибну инфо продослиджувани обэкти дийсности структурувати обэкт розумовои дияльности.Видповидно до норм та уявлень певного суспильства оцинювати, категоризувати и класификувати одержану информацию робити несуперечни и адекватни висновки та узагальнення. Виднаходити ришення яки б дозволяли розвязувати завдання и досягати в найпростиший спосиб мети в розумовий дияльности. Якисть процесу реализации интелекту характеризують таки критерии яки також визначають ривень интелекту людини:

1.Швидкисть здийснення необххидних процедур;

2.Вибир оптимального способу виконання завдання;

3.Вминня дибрати и организувати необхидни знання про обэкт;

4.Здатнисть будувати адекватну модель оюэкта предатну для ефективного опису анализу та пояснення информацию про модельовани дилянки дийсности.

Поняття интелект та розум позначени лексемами сидомисть, мислення, пизнання, память, интуиция, кмитливисть, обдарування, сенс, рация. глузд, розсуд,розмирковування,умовивид и навить гений. Уси вони повязани з процесом анализу оцинки и використання розумовои дияльности людини информации яку вона сприймаэ з навколишньо дийсности з процесом створення в мозку людини знань про себе й довкилля. Поняття интелект як и поняття людина миждисциплинарне.Психологи вважають те що вимирюють и визначають интелектуальни тести IQ. Термин штучний интелект зявився 1956 роци у мисти Хановер у США.Словник информатики та обчислювальнои техники подають визначення штучнои интелектики це здатнисть автоматики виконувати ункции мозку. З накопиченням знань про навколишню дийснисть удосконаленням тех. засобив их опрацювання и використання,Всебильше интелектуальних завдань переходить до формализованои тобто до механичних рутинних яки пиддаються численню и невимагають специальних интелектуальних комп. засобив.Саме в ризноплановости интелектуальнои дияльности людини полягаэ складнисть побудови ефективних комп. моделей природного интелекту и систем штучного интелекту.

Причиною пизньои появи термину штучний интелект можна вбачати в тому що створення комп. дало можливисть зиминутувати послидовни етами мисленнэвои дияльности людини уможливило формализацию ризних типив информации про навколишню дийснисть информацию сприйману не лише мозком але й зором слухом дотиком, и формувати на основии ии опрацювання ризни модели знання про саму людину и ии оточення.Для узагальненого представлення процесу комп. моделювання розумовои дияльности людини Алан Матисон Тьюринг у 1936 р. запропонував про образ компютера який миг читати тобто сприймати, розумити або розпизнавати мовну информацию у графичний форми, а також писати й стирати символи тобто приймати ришення представляти их у певний графичний форми и заминювати одне приняте ришення иншим.Роботу такого уявного пристрою який дистав назву машина Дюринга можна було описати найпростишим алгоритмом.Так Алан Тьюринг змоделював у найпростишому вигляди крок за кроком процес розумовои дияльности людини. и саме йому належить знамените формалювання проблеми Чи може машина мислити?

Процес машинного мислення - це успишне й передбачуване виконання створеною людиною програми розвязання певного завдання це неочикувани результати виконання нову несподивану непередбачену програмою информацию надану компютером.Це видмова працювати за програмою вказивка на невраховани людинои причиною неможливости виконання завдань за таким алгоритмом.Тьюринг запропонував один з можливих критериив оцинки машинки мислення видомий як тест Тьюринга. Незважаючи на свою субэктивнисть тест Тьюринга як критерии интелектуальности маэ велики переваги оскильки спираэться на поривняння з людиною.Доки в нас нема загальнои теории мислення визнати дещо мислячим можна тильки поривнявши його з людиною эдиною истотою яка маээ цю характеристику. На сьогодни мови зи штучного интелекту накреслилися таки напрями в розбудови яких э певни здобутки та перспективи:

1.Доведення теорем;

2.Розпизнавання образив;

3.Теория игор;

4.Адаптивне динамичне и еврестичне програмування;

5.Прийняття ришень;

6.Природна мова та ии машинне розуминня або спилкування з ЕОМ природною мовою.

7.Робот-роботика;

8.Створення комп. музики;

9.Самонавчальни мережи;

10.Оброблення даних представлени природною мовою;

11.Вербальне и конциптуальне навчання;

За свидченням Ханта таких програм иснуэ понад 100. Штучний интелект постаэ в 2 ипостасях:

1.Комп. модель интелектуальнои дияльности звичайнного мовця;

2.Комп. модель интелектуальнои дияльности лингвиста фахивця що маэ спец. знання про мову.

Дослидники окреслюють шлях штучного интелекту вид систем з так званою чорною скринькою через системи машини знань до интерпритацийнои идеологии моделювання природного интелекту. Цей шлчх засвидчуэ глибоке проникнення розробникив систем штучного интелекту в сутнисть мисленнэвои дияльности людини як джерела и приймача инфо. про довкилля.Якщо в системах чорнои скриньки опрацьовувались дани, а самий хид залишався невидомим то в системах з машинами знання опрацьовувались судження про дани, знанн про дийснисть тобто весь спектр знань про довкилля.

 

Вони можуть повязуватись иэрархичними видношеннями (рид, вид частина, циле) и неповязуватись видношеннями а виступати як складники одниэи предметнои галузи або як ознаки одниэи стереотипнои ситуации у таких випадках пидфрейми перебувають у кореляцийних видношеннях або кореляции и фрейм маэ будову реаляцийнои модели.Обэкти у склади фрейма в цилому або окремих його пидфренив становлять певни вузли так звани терминальни вузли.Ознаки термив значення параметрив их опису дистали назви слоти. Слоти и э тими нишами яки вмищують знання про обэкт або терм.Конкретне значення слота це його змист.Декларативни знання про терм або обэкт можуть бути суто мовними и позамовними тобто енциклопедичними мовни це знання про назву поняття а позамовни це знання про характер вживання особливости побутування реалий або явища у навколишньому середовищи.Енциклопедични знання можуть включати ризни етнолингвистични лингвокультурни социо политични, психоментальни, компоненти так звани фонови знання тобто знання про тло. Фрей становить статичну модель яка унаочнюэ внутришню организацию обэктив видомости миж внутришними звязками миж обэктами даэ така естетична довична организация знань симантична ситка.Вона подаэ обэкти у властивих им видношеннях навидмину вид фрейма як наслидку моделювання ранкового моделювання яке обмежене унаочненням самого обэкта.Семантична ситка це ориэнтований граф у вершинах або в вузлах якого розташовани обэкти, а ребра графа або звязки миж вузлами ситки вказують на характер видношень миж темами.Ребра у семантичний ситци мають властивисть рекурсивности здатнисть до зворотнього звязку. Симантична ситка виявилась ефективним засобом моделювання обэднань лексем що виражають спильне поняття а отже належать до спильних концептуальних та лексико симантичних полив поняттэих чи тематичних рух лексики. Побудувати тематичну ситку можна виконавши певни анализи и описи окремои сукупности одноридних обэктив.

1.Виявивши вси складники;

2.Визначити семантичну будову;

3.Симантични видношення;

Фрейм и статична ситка моделюють статични модели, а оживляють динамични модели знання яки представляють обэкти довкилля не лише в певних видношеннях а у тих процесах яки миж ними видбуваються, моделюють рух обэктив.Для найменування таких моделей використовують сценарий що э динамичною моделлю представлення знань про обэкти яка побудована на певний послидовности логично повязаних сцен тобто ситуаций в яких миж обэктами видбуваються певни дии.Иншим ризновидом динамичних моделей знання э скрипти, що э послидовнистю дий з обэктами повязаних причиновими звязками що мають загально принятий загальнозрозумилий стереотипний характер.Их запропонував американський вчений Роджер Шенк, а свою теорию модеелювання инфо про певни ситуации дийсности за допомогою скриптив вин назвав теорию концептуальних залежностей.Отже сценарии та скрипти це найбильш видкрити для инфо. лингвокультурного етно лингвистичного характеру оскильки повединку людини в певних ситуациях ии ставлення до инших людей та до дийсности в цилому реглюють приписи морали, етики,культури, звичаи та традиции усталени в певному сусп. середовищи в певний период його иснування.Важливими э ризноманитни фонови знання для лингвиста що стосуються модельованои ситуации врахування особливостей сприйняття такои модели тим кому вона адресована.Моделюючи певни ситуации доводиться враховувати и певни усталени уявлення про символику особливости сприйняття тих чи инших реалий дийсности повединку людей в певних спильнотах.

 

Тема:12.10

1.Системи автоматичного перероблення тексут або автоматизовани системи опрацювання тексту АСОТ.

2.Модули систем АПТ або АСОТ-аналоги ривнив будови та розуминня текстив;

3.Пидходи та стратегия створення системи автоматизованого морфологичного анализу тексту;

4.Модули системи автоматизованого морфологичного анализу тобто доморфологичний флективний та контекстний анализ тексту.

1.Опрцювання текстовои инфо. незминно залишаэться завданням прикладнои лингвистики нши знання про дийснисть втилюються у певний вербализований форми.Навчити комп. розумити текст и означаэ надилити його здатнистю видобувати з нього потрибну для виконання завдання информацию.Таке розуминня тексту полягаэ у вминни анализувати його на ризних ривнях представлення инфо:морфологичному,синтаксичного,логико-семантичного и узагальнювати результати у визначений форми.

2.АПТ-або АСОт э основним ризновидом лингвистичних интелектуальних комп.систем.яки моделюють при розвязанни теоретичних програм. Системи АПТ або АСОТ це лингвистични интелектуальни системи призначени для анализу тексту на морф,лог та идентичному ривнях складникив тексту видповдних модулив компютерив граматики.У стратегии створення комп. систем текстовои инфо. э 2 основни пидходи:

1.Словниковий який передбачаэ створення допомижних лингвистичних баз даних-тобто словникив зведень правил перетворення форми одиниць.Визначення их идентичности для виконання розроблених алгоритмив.

2.безсловниковий або незалежний який передбачаэ представлення всих потрибних видомостей про мовни одиници у вигляди алгоритмичних правил.Вихидним модулем системи АПТ або АСОт э модуль автоматичного,морфологичного анализу тексту.В наслидок його здийснення комп. для кожного слов в тексти визначаэ його граматичний клас або частиномовну належнисть та в межах граматичних класив тобто розряди слив зи спильними змистовими формальнними та функциональними властивостями здебильшого це слова належни до ризних граматичних категорий у межаш окремих частин мови.Марчук запропонував видиляти таки типи АМА залежно вид характеру лингвистичного забезпечення та способу розпизнання:

1.З словником основ слив;

2.АМА з словником словоформ4

3.АМА методом логичного множення;

4.АМА за допомогою таблиць;

1тип э найбильш поширенийякий грунтуэться на достатньо показових для лексиуону мови, а також на допмижних таблицях з правилами формальних перетворень основ та их сполучуваности и окремими флексиями. АМА 2 типу виявився предатним для опрацювання тексти в мовоми з бидною морфологиэю тобто з обмеженою вариативнистю форми слив у процесахфомозмини чи словотворення.3тип АМА на використання словника основ з автоматичним зняттям за допомогою процедури логичного множення омографии флексии.Цей тип АМА розробив на початку 60х р. Ленинградський математик Фити алов процедура полягаэ у визначенни функций реализованих у слови окремими графемами и флексий та встановлення таких граматичних характристик що э спильними для всих складникив такои флексии.На 1 системи.Для його реализации було створено допомижну таблицю кинцивок слив яки дозволяли встановляти граматичний клас слив тексту або их частиномовну належнисть и ци кинцивки отримали назву квазифлексий. В склади системи АГАТ правильно визначено частиномовну належнисть 98% слив.Текстови одиници яки не потрибують визначення текстових характеристик на зразок формул або цифр вилучаються за допомогою АГАТ на етапи до морф. анализу.Усунути омографию квазифлексий етап контекстного анализу словоформ тексту тобто анализ таких слив у певному текстовому оточенни за опорними точками.За опорни точки обираються слова та пунктуацийни знаки яки дають для певнои словоформи дианостичний контекст якому вдаэться встановити диагностичний пидтекст

 

 

Автоматичний синтаксичний анализ тексту

План

1.Стратегии анализу синтаксичнои будови тексту;

2.Графични способи представлення результатив АСА;

3.Метод безпосередних складникив;

4.Граматика залежностей;

АСА становить важливу системи АПТ,а його лингвистичне забезпечення складаэ 2 необхидний компонент комп. граматики комп.синтаксиз.Вин спрямований на виявлення в тексти синтаксичних структур та их формализоване представлення.У прикладний лингвистици розризняють килька типив АСА залежно вид сфери його застосування вихидних елементив та способив викконання.За першою ознакою виризняють глобальни системи придатни для розвязання окремих дослидницьких завдань наприклад розвязання текстив та певни структуризавдань.

За другою структурою виявились системи АСА що становлять синтаксични структури в тексти та за их синтксичними ролями тобто за членами речення.

За третьою ознакою видиляють системи АСА з безпрервним та цикличним тобто повторювальним перегляом тексту.Перши ориэнтовани на 1 перегляд тексту пид час якого для кожного слова встановлюються його синтаксични звязки з иншими словами в тексти, а други передбачають пид час 1 перегляду встановлення тильки 1 типу синтаксичних одиниць або одного розновиду синтаксичних звязкив наприклад видилення лише пидметив або лише слив з узгоджувальним звязком атрибутивних словосполукОскильки ци типи систем АСА залежно вид способу здийснення поцедури перегляду тексту видиляють синтаксични одиници ризнои складности то их ще називають интегральними та локальними.

Интегральни системи як результат передбачають одержання сиэи синтаксичои структури речення а локальни лише якоись частини такои структури.Розризнення интегральних та локальних систем АСА прямо повязани з ризною стратегиэю здийснення в таких системах процедури розкладу тексту на минимальни синтагми,тобто пари слив повязани певним типом синтаксичного звязку це можуть бути координации миж пидметом и присудком або узгоджень керування або прилягання.Локальни системи для цього використовують процедури методу безпосередних складникив або анализу контактних слив у реченни або розроблени представниками амереканськои дескриптивнои лингвистики.Кожний з названи методив виконнаня АСА маэ сои графични способи представлення.У локальних системах результати АСА представляють у вигляди душкових записив пар безпосередних складникив або записив з допомогою стрилок.В интегральних системах АСА також використовують записи зи стрилками але найпоширенишими э представлення синтаксичних структур у вигляди ориэнтованого графа дерева залежностей миж словами в реченни та миж реченнями.Для розроблення систем АСА застосовувались ризни стратегии серед яких найбильш ефективними виявились 4:

1.Послидовнисть

2.Передбачувальний анализ

3.Методика опорних точок

4.Методика фильтрив;

Вси ци методики як доили диючи системи АСА мають взаэмодоповнюючий характер так методика послидовного анализу тексту и виявлення синтаксичнои структури представлених у ньому речень передбачаэ створення словника етлонив словосполук тобто синтагм записаних у терминах граматичних класив слив.Методика передбачувального анализу грунтуэться на наборах синтаксичних передбаень гипотетичних у певних типах речень типив синтаксичних структур синтаксичних функций окремих слив ии розвитком э методика опорних точок яка для слив з певними характеристиками визначаэ типови контексти що диагностують вживання слова з тиэю чи иншою синтаксичною функциэю в рази його багато функциональности. Методика фильтрив дозволяэ завдяки вастановлюваним обмежникам на вживання сполучуванисть або перемищення слив у реченни з уього набору инфо. про певни слова виявити слова реалантно саме для анализованого тексту. У системи АГАТ модуль АМА становить часткову интегральну систему з пезперервним переглядом тексту.Основою для створення пробнои версии модуля були тексти росийських науково техничних рефератив з програмування та прикладнои математики.Результати анализу синтаксичнои структури речень представлено на виходи роботи цього модуля у вигляди дерева залежности. У системи АГАТ модуль АСА в своий роботи спираэться на результати роботи модуля А, тобто на його входи перебуваэ текст якому для кожного слова визначено граматичний клас та граматични пидкласи в процедурах виконання АСА для подилу тексту на речення, речень на их складники використовуються опорни точки тобто роздилови знаки та сполучники.Крим того пид час подилу на речення чи на их частини полидовно з лива на право номеруються вси частини в ньому,що писля АМА отримали коди грматичних класив та пидкласив.Отже алгоритмични правила АСА ориэнтовани на частини речень чи на речення що розташовани миж певними опорними точками. З допомогою певних правил встановлюються таки типи звязкив миж членами речення.Видилення пари пидмет+присудок,видилення пари з граматичним звязком узгодження,видилення пари з диэсливним керуванням,видилення пари з именним керування:

Уперше запропонована модель словизми укр. именникив

1.Узгодження-укр.именникив;

2.Видилення пари з диэсливним керуванням-уперше запропонована;

3.Именне керування

В системи АГАТ моуль АСА здатен анализувати вси типи синтаксичних структур як прости так и ускладненни та складни речення.Залежно вид типу речення модуль працюэ в 4 етапи на кожному з яких виконуэ таки процедури:

1Сигментация тексту на видризки обмежени опорними точками в середени видилених сигментив за кодами граматичних класив та пидкласив визначають членив предекативнои пари видилени в таких сигментах вставни слова т конструкции передають для анализу спец.алгоритмом;

2.Внутришньо сигментний анализ передбачаэ здийснення 2 основних операций

а)Формування синтагм з звязком координации;

б)приэднання до сигментив з предекативними парами в межах речень сегментив яки таких пар немають.

3.Видокремлення в тексти простих речень вид складних речень.Ця процедура передбачаэ виконання 3 операций:

а)Визначення структурного типу речення;

б)Встановленнямеж частин речення з предикативними парами або його предекативних частин та их номераций;

в)Визначення типу интаксичного звязку миж предкативними частинами складного речення;

4.Анализ в середени простого речення або предекативних частин складного речення.На цьому етапи роботи модуля АСА передбачено виконання 4 операций:

а)Виявлення присливних звязкив;

б)Анализ видокремлених зворотив тобто напивпредекативних синтаксичних одиниць;

в)Зясування функционального навантаження роздилових знакив;

г)Зняття омонимии граматичних форм яка залишилась писля роботи модуля АМА та писля перших 3 етапив модуля АСА.

Вихидний продукт виконання всих 4 етапив роботи модуля АСА в системи АГАТ и становить графичне зображення синтаксичнои структури речень тексту у вигляди ориэнтованого графа тобто дерева залежностей миж словами речнь визначеними для кожного слова синтаксичними ролями в реченни й тиами синтаксичних звязкив у ньому з иншими словами.

Тема:Автоматичний логико семантичний анализ тексту

План

1.Методика визначення в тексти ключових слив;

2.Автоматичне индексування тексту;

3.Ризновиди системи инфо.пошуку (документальни та фактографични);

4.Инфо. пошукови мови.Класификаторни та дискрипторни;

5.Инфо пошукови тезауруси;

Автоматичне опрацювання текстовои инфо.на всих ривнях анализу будови тексту(Морфемного,синтаксичного)неменуче повязане з проблемами розпизнавання змисту одиниць тексту,саме унаочнення логико семантичнои структури тексту спрямованисть и системи його опрацювання.На думку Марчука сучасна технология анализу тексту все бильше спераэться на семантику, а не синтаксико зориэнтоаний пидхид.Тисний звязок синтаксеса з симантикою не даэ можливости одеожати ефективни системи та алгоритми синтаксичного анализу у видриви вид змисту висловлювання та тексту в цилому.У напрямку розроблення проблеми автоматизации логико семантичного анализу тексту досягнуто значного поступу и одержано результати важливи не лише для практики сусп життя а й для розвитку самои лингвистики як прикладнои так и традицийнои.Результати опрацювання циэи дисциплини формують 3 необхидний компонент граматики мови-компютерну семасиологию.Розпизнавання змисту тексту становить важливу дилянку в системах так званого инфо пошуку якому передуэ процес индекування текстив або их розмищення за типами вмищення в них инфо.Ризновид таких систем становлять библиотечни або архивни каталоги чи био библиографични инфо.довидкови системи ризних установ та видомств автоматизовани инфо. довидкови служби.Залежно вид того чи предмет пошуку становить обэкти дийсности чи описи таких обэктив тобто документи ризнои будови здебильшого реферати та патенти. Инфо. пошукови системи подиляють на фактографични та документальни.Кожна инфо.система Маэ специальну мову доступу и роботу з нею тобто инфо пошукову мову. Прикладу ИПМ класификацийного э унверсальна десятична класификация УДК библиотечко биографична класификация ББК, або система мижнародних стандартив.Отже крим универсальних ИПМ класиикций э ИПМ цього типу зориэнтовани на роботи ИПС з текстами певнои предметнои галузи тематики тобто ИПМ класификации спец. призначення. Таку оригинальн ИПМ класификацийного типу розробили автори двотомного словаря словянського-лингвистичиской терминологии. Цей словник подаэ 2266 сучасних терминив,понять всима словянськими й 3 захидно эвропейськими мовами який розподилено на 9 предметних галузей:

1.Загальни поняття;

2.Звуковий вик мови;

3.Графичний вик мови;

4.Словниковий склад;

5.Частини мови;

6.Структура слова;

7.Синтаксис;

8.Стиль;

9.Нови лингвистични напрями и методи;

Иншим способом унаочнення змисту в системах инфо. пошуку э видилення в текстах так званих ключових слив або слив концептив.Таки слова виражають основну инфо. про змист тексту.Для их позначення використовують спец одиници.Тобто дискриптори и тому ИПМ такого типу отримали назву дискриптори.ИПМ класификации и ИПМ дискрипторного типу доповнюють одна одну.Мови дискрипторного типу бильше привязани до текстив конкретнои предметнои галузи и тому виявляють бильшу гнучкисть та ефективнисть у процеси автоматичного анализу их змисту.В ИМП дискриптори можуть становити окреми слова,словосполуки або й частини слив яки виражають засадничи для окремих предметних галузив поняття. ИПтезаурус складаэ системи. Дисккриптори упорядковують на основи парагматичних и сигматичних видношень.Саме завдяки сигматичних видношень в ИПТ увиразнюють видношення контекстнои синонимии коли дискриптори на позначення певних понять зближуються лише в текстах,що стосуються окремои предметнои галузи або певнои проблемнои ситуации в ии межах.До ИПТ потрапляють так звани асоциативни дискриптори тобто слова що ожуть виявляти лише опосередковану семантичну близькисть у певних комуникативних ситуациях Розробники ИПТ видбирають в них таки видношенння миж дискрипторами: рыд, вид; частина циле, причина - наслидок, обэкт и його типова функция. Процедура пошуку информации в ИПС здийснюэться в режими - запит-видповидь. Запит на пошуки информации мистить специальний пошуковий образ документа, який стоврюють вручну, або за доп. компютера, индексуючи текст з доп. одиниць певноъ ИПМ, зовкрема дискрипторив. Видповидь або пошуковий припис на такий запит становить певним чином упорядкована сукупнисть дискрипторыв, яки описують певну проблемну ситуацию, або предметну галузь у цилому в ИПТ системи. Писля поривняння пошукового образу док. ы припису користувач ИПС отримуэ вси док. певноъ библиотеки, архиву, або взагали будь-якого масиву, змыст яких видповидаэ дискрипторам або одиницям мов класификаций. При цьому основними вимогами э: повнонота та точнысть видачи информации. Повноту обчислюють як видношення килькости спильних одиниць у пошуковому образи приклада та пошуковому приписи - ПП до заг. к-сты одиниць у ПП. Друга вимируэться в цилому видповиднистю ПОД и ПП, тобто к-ти ъхних одиниць, характеру звязкив миж ними. Чим вище параметри поноти и точности информацийного пошуку, тим менше у такий с-ми показник информацийного шуму, або неправильно виданоъ у видповидь на запит информации. Для усунення информацийного шуму застосовують методики индексування тексту, яки вираховують комуникативну значущисть та функцыональне навантаження слив у ньому. Одну з таких методик видилення в тексти ключових слив на основи процедур ситкового моделювання лексики розробив укр. дослидник Скороходько. Найефективнишими виявилися гнучкы методики встановлення ключових слив, яки поэднуюють ризни функциональни властивосты слыв, зокрема ъхню частоту, комуныкативну значущысть, силу звязкыв з ин. словами в тексти. Рудник та Карпатова уклали словник ключових слив славистичного мовознавства, де вел. к-сть слив, врорядкованих за абеткою и миж ними встановлено парадигматични та сигмантични видношення. Для родового термына ключового слова лингвистичних текстив "мова", укладачи словника встановили ключовы слова текстив, призначених окремим лингвистичним проблемам. Серед таких видивих, ключових слив э назви ризновидив мови за походженням, або належнистю до певноъ групи, чи родини за генеалогичною класификациэю мов: украинська, хорватська и т.инши. За типом будови мови: аналитична, флективна, сентетична мова. За сферою сусп. життя, яку обслуговуэ мова: наукова, сакральна, розмовна, мова реклами та политики. Синонимични видношення або видношення ривноправности в иэрархии ключових слив виявили таки пари лингвистичних терминив як: мова засобив масовоъ информации и мова масмедия,мова етнычна и етнолект. Великого поширення набули сьогодни методики так званого контент анализу або анализу змисту текст за певними концептуальними зминними, що позначають центарльне поняття анализовного тексту. Таки методики застосовують з дослидженням з политичноъ лингвистики, напрямку мовознавчих дослиджень, що вивчаэ мовни механизми формування громадськоъ свидомости, впливу на громадську думку.

Саме нови ефективни методики встановлення у тексти ключових слив дали можливисть застосувати в с-мах ИПС напротивгу пошуку потрибноъ информации за допомогою ИПТ метод так званого безтезаурусного пошуку. Вин передбачаэ роботу з масивами документив в интерактивному режими з допомогою специальоъ диалоговоъ системи, що дозволяэ користувачеви створювати потрыбни пошукови образи документив пид час безпосереднього перегляду того чи ин. информацийного масиву и залежно вид типу опрацьованих документив вносити в таки пошукови образи необхидни корективи.

ТЕМА: СИСТЕМИ МАШИННОГО ПЕРЕКЛАДУ - МП

1. Сучасни стратегии створення с-м МП.

2. Види с-м МП.

3. Мова-посередник (интер-лингва) та трансфер в с-мах МП.

4. Автоматизоване робоче мысце АРМ перекладача.

Моделювання ителекту людини передбачаэ створення комп. моделей для будь-яких ризновидив, ъъ мисленнэвоъ дияльности, що набувають суспильного значення. Серед цих завдань розроблення моделей перекладацькоъ дыяльности людини оформлений засобами одниэъ мови, засобами иншоъ мови посидаэ чильне мисце в нинишний ситуации активноъ мижмовноъ та мижкультурноъ комуникации в свити. Особливого значення створення таких с-м з украъномовною компонентою набуваэ для пиднесення престижу украинськоъ мови у свити повноцинного входження украинськоъ держави и ъъ мови у мижнародну комуникацийну мережу. Оскильки процедури розвязання мовних проблем закладають теоретичну и практичну основи створення с-м машинного перекладу, останнэ з повним правом можна вважати ризновидом лингвистичних интелектуальних с-м. Машинний переклад - МП - це процес перетворення компютером тексту, оформленого засобами одниэъ мови, текст оформлений засобами иншоъ мови. Моделюэ и автоматично здийснюэ цей процес комп. аналог такого ризновиду розмовноъ дыяльности людини як с-ма машинного перекладу. Один из пионерив у галузи розроблення систем машинного перекладу в колишньому радянському союзи був Пиотровський, який подылив ысторию дослиджень машинного перекладу на 2 периоди: романтична ера, яка характеризуэться ейфориэю вид швидкого отримання нових знань про обэкт; прозаъчний час, який характеризуэться рактичноъ роботою такоъ проблеми, чи идеъ. Романтична ера в истории машинного перекладу пройшла пид знаком розуминня мови, як одного з ризновидив математичного числення, однозначного й несуперечного виведення одних одиниць з инших, створення жорстких и детальних моделей, переторення структур одниэъ мовноъ с-ми в структури ин. мовноъ с-ми. на основи багаторичноъ роботи над стовренням мови посередника в с-мах МП, т.з. интерлингви Андреэв виробив особливий метод вивчення текстовоъ информации, який грунтувався на врахування статистичних та комбинаторних властивостей синтаксичних одиниць, який вин назвав статистико-комбинаторним методом. Важливого теор. значення набула и модель: змист-текст, розроблена для с-м МП,розроблена Мельчуком, Жовковським та Апресяном. Ця модель була призначена для створення правил переходу вид глибинноъ симантичноъ структури повидомлення, до ъъ оформлення засобами конкретноъ мови, тобто поверхневоъ структури. У комп. лингвистици вироблено класификацию с-м МП за такими ознаками:

- пидхид до опрацювання тексту: прямий, зориэнтований на певни вхидну та вихидну мови, в ихних межах на пидмови;

Непрямий, при якому змист тексту прямою мовою розпизнаэться засобами лингвистичного анализу, незалежно вид того, якою буде вих. мова перекладу.

- Спосиб зиставлення текстив вх. та вих. мовами: под. на наявнисть мови посередника (интерлингва), тобто специальноъ формально-лог. мови, яка подаэ опис змисту мовних одиниць та видношень у вхидному тексти, чи трансфера, специального модуля мижмовних перетворень, перезапису вх. информации, переносу в ходи структури та лексичного наповнення вхидного тектсу в коди тексту вих. мови.

- Спосиб опрацювання тексту вхидною мовою: локальни, при якому точку видлику в роб. с-ми МП становить анализ окремоъ одиници, слова чи словосполуки та глобальний спосиб, при якому точку видлику в роботи с-ми МП становить текст чи його складови, в структури яких анализують окреми слова чи словосполуки.

- Роль людини у здийсненни МП: с-ми машинного перекладу,в яких люд виконуэ роль пре- чи пост-редактора, а самий процес перекладу здийсюэ компютер та с-ми людино-машинного перекладу, де людина втручаэться в самий процес перекладу в режими онлайн.

- Спосиб представлення информации вхидноъ та вих. мовами: у вигляди корпусив текстив та терминологичних баз даних - БД на зразок 4-мовноъ БД - "Слово".

На думку Пиотровського история створення с-м МП колишнього рад. союзу середини 30-х рр минулого ст., коли рос. винахидник Смирнов-Троянський розробив метод механичного перекладу. Роб. над одниэю з перших диючих с-м МП розпочалася в 1952 р. у США. Ця с-ма здийснювала переклад англ. мовою рос. текстив з физики. Здийснювалася посливна замин вхидних слив на ъхни перекладни еквиваленти писля якоъ здийсювалися позицийни перестановки, що дозволяли одержувти дещо виддалено подибне до тексту англ. мовою. Одниэю з перших с-м МП була с-ма ЕТАП - електронно-техничний автоматичний переклад з версиями етап-1 - франц.-рос. переклад та етап-2 - англо- рос. переклад. Видминною рисою циэъ с-ми э ъъ потужна теоритична лингвистична основа, стратегия ъъ створення базуэться на поняттэвому и профедурному апарати модели змист-текст. У ций с-ми реализовано як локальний так и глобальний пидхид до опрацювання тексту. За способом зиставлення текстив вх. т вих. мовами - це с-ма з трансфером, тобто модулем мижмовних перетворень, який виконуэ интегральна модель опису и представлення морфологии, синтаксису та словника реализованих текстив вх. та вих. мови. С-му етап призначено для перекладу електро-техн. текстив та патентив. Промислова с-ма укр.-рос. та рос.-укр. перекладу Плай, авторами якоъ э Крицька, Грязнухина, Кравчук та ин. належать до ризновиду людино-машинних с-м МП та даэ можливисть втручатися перекладачу в с-му. Даэ можливисть користувачеви доповнювати словники новими словами, пропусккаючи у ньому слова з недопустими символами або невидоми слова. На сьогодни словникове забезп. с-ми Плай дозволяэ перекладати тексти из заг.-мовною лексикою, а також лексику хим., билогичноъ та ин. с-м. Ця с-ма релизуэ локальний та глобальний пидходи до машинного перекладу тексту. за способом опрацювання тексту ця с-ма також подаэ широки можливости, оскыльки в режими "транслейт" дозволяэ перекладати все, а в режими "ворд-транслейшн" даэ можливсить перекладати окреми слова, а в рази потреби доповнювати словники с-ми новими словами.

Завдяки морфологичном и синтаксичному анализу текстив створюэться специальний трансфер для мижмовних перетворень. Вона даэ на виходи задовильни за якистю та повнотою переклади.

С-ма МП з ии словниковими базами з лексикографичними та текстовими процесами для роб. з ними утворюють так зване роб. мисце для перекладача. Це ризновид автоматизованого роб. мисця будь-якого користувача-перекладача лингвистичних и интелектуальних комп. с-м. На думку Слокум добрим первинним перекладом вважають той, який э сенс виправляти, тобто той, який редактор готовий спробувати в чомусь зминити, проте не збираэться цилком його заперечувати, або заминювати власне своъм первинним перекладом. Переваги с-ми Плай пояснюються ъъ спиранням на розвинени профедури автоматичного, синтакстично анализу текстив вхидноъта вихидноъ мови, створенням детализованого набору правил, взаэмопереходив, розгалужених и налаштовних як на загальнонародну мову, так и на мови окремих предметних галузей, словникив еквивалентив слив, словосполучень, синтаксичних конструкций, зиставлюваних укр. та рос. мови.

Досить якисних с-м МП для флективних мов доводить, щомайбутнэ саме за ткими с-мами, яки завдяки граматичному т алогико-семантичному нализу тексту окреслюють модели функционування мовних одиниць у текстах певноъ структри та тематики. Ширше проблема вдосконалення таких с-м як ризновиду с-м штучного интелекту полягаэ в створенни ефективних, повних та глибоких стркутур представлення знань про предметну галузь та способи ъх вербализации засобами окремих природних мов,а в перспективи створення комп. моделей картин свиту для зиставлюваних природних мов.

Инший аспект прблеми вдосконалення таких с-м становить вивчення специфики процесу переходу як ризновиду комуникации процесу обмину информации та знаннями.

Ефективни сучасни с-ми МП довели важливисть для якости перекладу механизму мижмовних операций, правил перемивання одного мовного коду на ин., створенням якого и займаються прикладни лингвисти.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: