Автоматизований синтаксичний аналіз тексту

Спецкурс.

Автор

Доц. Наталія Петрівна Дарчук.

Інші назви 

Автоматичний синтаксичний аналіз, Синтаксичний аналіз у комп'ютерних системах.

* * *

Кожен із нас щодня будує десятки, сотні речень. Як це вміння передати машині? Як навчити машину розуміти синтаксичну структуру речення, а також будувати нові правильні речення? Зрозуміло, що наше знання про синтаксичну структуру речення, тобто про лексико-граматичні зв'язки слів у ньому передати ЕОМ неможливо, оскільки в алгоритми аналізу речення не можна ввести команди типу "знайди підмет", "знайди прикметник, який визначає іменник" тощо, якщо немає детальних, автоматично виконуваних правил про те, як це робити. Адже машина розуміє тільки мову команд, а не мову їхнього розв'язання. Для того, щоб ці правила створити, необхідно пізнати ті закони, які діють у процесі побудови речення.

Існує два підходи щодо дослідження цього процесу. Мову можна уявити у вигляді кібернетичної системи, на вході якої є сума речень, а на виході - класи мовних одиниць і правила їх сполучуваності. Або навпаки: на вході системи - породжувані цією системою речення. Ці два підходи пізнання структури мови лежать в основі побудови синтаксичних моделей (індуктивних та дедуктивних) та розробляються у методиці структурних лінгвістичних досліджень.

Метод моделювання змусив переглянути існуючі синтаксичні теорії, а також точніше визначити основні поняття синтаксису, розробляти нові методи його вивчення. Заново були поставлені основні проблеми синтаксису: проблема його об'єкта, співвідношення із семантикою й морфологією; проблема слова, групи, фрази як синтаксичних одиниць, а також проблема основних понять синтаксису: відношення (зв'язку), функції, структури, формальних показників.

Чимало цікавих ідей, використаних для розробки автоматичного синтаксичного аналізу (АСА), висловили представники дескриптивної школи структурної лінгвістики: із суми спостережень над текстом лінгвіст здобуває первісну уяву про спосіб організації тексту й у вигляді чітких процедур - правил алгоритму - повідомляє автомату свої дії, а потім за його допомогою одержує на більшому матеріалі дані, що цікавлять дослідника.

У роботах з АСА прийнято два способи опису синтаксичної структури:

1) опис за безпосередніми складниками (БС);

2) опис за допомогою дерев залежностей, які називають деревами синтаксичного підпорядкування.

Ці два способи допомагають описати синтаксичну структуру на двох рівнях:

а) за допомогою БС описуються в явному вигляді словосполучення, але не розпізнається "хазяїн" і "слуга";

б) дерева залежностей дають можливість розрізнити характер зв'язків між словами. Якщо в результаті роботи алгоритму АСА встановлюються зв'язки, які більш-менш відповідають інтуїтивним уявленням носіїв мови, значить синтаксична структура речення "визначена" правильно.

Завдання АСА полягає у тому, щоб, використовуючи морфологічну інформацію про словоформи, одержану на попередньому морфологічному етапі, побудувати синтаксичну структуру вхідного речення. Об'єктом аналізу є речення, яке до моменту синтаксичного аналізу подається у вигляді інформаційних ланцюжків до словоформ. Виконувати синтаксичний аналіз повинен алгоритм СА, тобто інструкція, яка складається зі стандартних елементів, що здійснюють певну послідовність операцій над словоформами. Результатом аналізу є синтаксична структура речення, представлена як сукупність даних про синтаксичні зв'язки між його одиницями.

Мета

Дати студентам загальне уявлення про проблеми, які існують у структурному синтаксисі, та можливості використання його принципів у діючих системах АСА. У межах спецкурсу розглядатимуться питання про місце АСА у процесі розпізнавання машиною змісту текстів, а також про зв'язок синтаксичного аналізатора з морфологічним та семантичним. Особливу увагу приділено порівняльному аналізу граматики БС та граматики залежностей. Детально розглядатимуться питання будови ГЗ як основного інструменту АСА українського тексту у вирішенні таких проблем:

1) класифікації синтаксичних зв'язків;

2) визначення статусу мінімальної та максимальної синтаксичної одиниці;

3) вибору формальних ознак для здійснення АСА;

4) можливості аналізу сурядних зв'язків за допомогою ГЗ;

5) подолання протиріччя між лінійною морфологічною структурою речення та його багатомірною синтаксичною структурою;

6) формального відображення синтаксичної структури речення у вигляді ДЗ.

Крім того, розглядатимуться питання про засоби оптимізації АСА.

Зміст

1. Традиційний синтаксис і автоматичний синтаксичний аналіз.

2. Графічні способи представлення синтаксичних структур.

3. Деякі поняття теорії графів.

4. Проблема окремого слова й напрямок зв'язку у дереві залежностей.

5. Місце АСА у системах автоматичної обробки тексту.

6. Алгоритми автоматичного синтаксичного аналізу.

Література

Грязнухина Т.А., Дарчук Н.П. и др. Синтаксический анализ на ЭВМ. - К. 1993.

Долинина И.Б. Проблема представления синтаксической структуры в грамматике "членов предложения" // Проблемы моделирования языка. 3.2.Тарту. 1969 (Учен. Зап.Тарт ун-та. -Вып.228).

Кибрик А.Е. О соотношении понятия синтаксического подчинения с понятием согласования, управления и примыкания // Проблемы теоретической и экспериментальной лингвистики. - М., 1977. -С. 161-179.

Падучева Е.В. О способах представления синтаксической структуры предложения // Вопр. языкознания, 1964. - № 2. -С.99-113.

Пешковский A.M. Русский синтаксис в научном освещении. -М., 1956.- 511 с.

Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. - К., 1981. - 190 с.

Сучасна українська літературна мова. Синтаксис. - К., 1972. -511 с.

Фитиалов С.Я. О моделировании синтаксиса в структурной лингвистике.- М., 1962.- С. 100-114.