Автоматизований морфологічний аналіз тексту

Спецкурс.

Автор 

Доц. Наталія Петрівна Дарчук.

Інші назви 

Автоматичний морфологічний аналіз, Морфологічний аналіз у комп'ютерних системах.

* * *

Автоматичний морфологічний аналіз тексту (АМА) є одним із етапів роботи систем автоматичного аналізу тексту. У результаті роботи АМА кожному слововживанню приписуються значення граматичних категорій (частина мови, рід, число, відмінок, час, вид, тощо).

Правильність і повнота результатів аналізу тексту в системах обробки інформації залежить від кількох факторів:

1. Від рівня знань про мову і мовлення, тобто правильності лінгвістичної моделі, покладеної в основу АМА;

2. Від рівня формалізації цих знань у створюваній "машинній" граматиці.

"Машинна" граматика створюється у різних системах АМА по-різному, а вибір принципів «машинної» граматики зумовлений кількома факторами:

1. Система мови. У мові існує обмежений набір засобів вираження граматичних значень, і залежно від морфологічного типу мови визначається і шлях АМА. Якщо у мові переважають синтетичні засоби внутрішньослівного вираження граматичних значень, тобто словозміна, то за початковий етап визначення значень граматичних морфологічних категорій обирається аналіз структури слова. Якщо ж структура слова проста і морфологічні значення виражаються аналітично, за допомогою сполучення різних слів, то аналіз слова обмежуються тільки пошуком за словником визначених завчасно його морфологічних характеристик.

2. Система письма і друку. АМА звичайно створюється для писемного різновиду мовлення - текстів. Різні мови користуються різними системами письма (буквеними, складовими та ін.). Крім того, важливими є також дані про те, як співвідносяться усне та писемне мовлення (наприклад, у письмовому тексті можуть пропускатися деякі голосні, вказівка на місце наголосу та висоту тону, які мають статус морфологічних значень).

3. Закономірності породження мовлення. Закономірності розуміються у широкому сенсі - як закономірності організації мовних одиниць, їх порядку у тексті.

4. Тематика тесту. Кожному тексту, як результату мовленнєвої діяльності та засобу комунікації відповідає певна система понять, що відбиває його тематичну спрямованість. Дослідження лексичного складу, морфологічних характеристик, синтаксичних структур текстів різної тематичної спрямованості виявили розбіжності у використанні лінгвістичних одиниць, що необхідно враховувати при автоматизації автоматичного аналізу.

"Байдужість" ЕОМ до змісту інформації, яка їй надається, зумовила спрощення процесу розпізнавання морфологічних характеристик словоформ за допомогою введення так званих квазіодиниць, які одержуються емпірично із звичайних мовних одиниць і аналогічно до них. Квазіодиниці вибираються при аналізі буквеної структури словоформ за формальними правилами: буквосполучення повинні відповідати морфологічному значенню. Крім квазіодиниць (квазіфлексій, квазіоснов, квазісуфіксів, і т.п.) у "машинну мову" вводяться спеціальні лексико-граматичні класи (ЛГК), у які потрапляють словоформи-омоніми (їх розмежування можливе лише у контексті). У машинному аналогові природної мови співіснують як звичайні мовні одиниці, так і особливі "машинні". Списки цих одиниць використовуються при аналізі формальної структури словоформ для розпізнавання їх морфологічних характеристик, шляхом порівняння різних частин словоформи з одиницями списків.

Система обробки українського тексту АГАТ створена спільно творчим колективом співробітників Інституту мовознавства ім. О.О.Потебні та університету ім. Тараса Шевченка, зорієнтована на завдання дослідження структурної організації тексту. Власне АМА починається на етапі флективного аналізу. На цьому етапі словоформам приписуються значення граматичних категорій, передбачених у словнику квазіфлексій.

Усі слововживання тексту насамперед поділяються на: а) словоформи та б) слова, які не вимагають аналізу за словником квазіфлексій (етап доморфологічного аналізу). Це числа, символи, формули, іноземні слова.

Словоформи-омоніми після етапу флективного аналізу одержують коди відповідних омонімічних ЛГК та їх форм, а потім аналізуються на наступному етапі контекстного аналізу. За допомогою позиційного аналізу розмежовується більшість омонімічних словоформ, отже АМА передбачає два етапи - флективний та контекстний.

Мета спецкурсу - ознайомлення студентів з роллю та місцем АМА у системах автоматичної обробки текстової інформації, з лінгвістичними засадами створення алгоритмів АМА та різними їх типами, передумовами автоматизації МА, експериментальними та промисловими АМА, зокрема, з системою АГАТ.

Зміст

1) Місце морфологічного аналізу в процесі автоматичної обробки текстової інформації.

2) Передумови організації МА.

3) Експериментальні та промислові системи МА.

4) Принципи і процедури АМА з використанням словника основ (на прикладі системи Г.Г.Бєлоногова).

5) Автоматичний морфологічний аналіз на основі графемного аналізу словоформ.

6) Контекстний аналіз у системах автоматичної обробки тексту.

7) Визначення граматичних підкласів текстових словоформ.

8) Автоматичне виведення канонічної форми слова (лематизація).

9) Автоматичний синтез словоформ.

10) Автоматичний морфемний сегментатор.

Література

Белоногов Г.Г., Новоселов А.П. Автоматизация процессов накопления, поиска и обобщения информации. - М., 1979 - 253 с.

Виноградов В.В. Об омонимии в смежных явлениях // Вопр. языкознания. - 1960. - №5. - С.3-17.

Виноградов В.В. Проблемы морфологической структуры слова и явления омонимии в славянских языках. Славянское языкознание. - М., 1963. - С. 53-119.

Грязнухина Т.А., Дарчук Н.П., Клименко Н.Ф. Использование ЭВМ в лингвистических исследованиях. - К., 1990. - 223 с.

Зализняк А.А. Русское именное словоизменение. - М., 1967. - 369 с.

Мальковский М.Г. Диалог с системой искусственного интеллекта. - М., 1985.

Перебейнос В.И., Грязнухина Т.А., Дарчук Н.П. и др. Морфологический анализ научного текста на ЭВМ. - К., 1989. -262 с.

Уорт Д.С. Русский словобразовательный словарь: Введение // Новое в зарубежной лингвистике. - М., 1983. - Вып. 14. - С. 227-260.

Шевелева П.А. Алгоритм вычленения морфов внутри беспробельного текста // Науч. техн.-информ.,1973. - №6. - Сер.2. -С. 20-23.