Принцип аналогії в морфології p>
У роботі Белоногова Г. Г. і Зеленкова Ю. Г. описується принцип побудови алгоритму морфологічного аналізу текстів на основі принципу аналогії. Цей принцип використовується в системах орфографічного контролю російських текстів, системах автоматичного індексування документів і системах машинного перекладу текстів з російської мови на англійську та з англійської мови на російську. Продуктивність програми на комп'ютері з процесором від 386 і вище становить близько 400 слів/с. P>
При автоматичній обробці тексту виникає проблема "нових" слів.
Для синтаксичного аналізу та синтезу необхідно знати граматичні характеристики слів. Якщо слова у словнику немає, то морфологічний аналіз не може бути виконаний, а отже не можуть бути визначені граматичні характеристики слова. P>
Для того, щоб визначити граматичні характеристики слів без словника, Белоногов запропонував принцип аналогії. Він заснований на тому, що існує сильний кореляційний зв'язок між граматичними характеристиками слів і буквеним складом їх кінців. Наприклад: організація, приватизація, концентрація мають ж. р., ім. п. і од. ч.; працюють, розуміють, привертають - це дієслова у 3-му особі мн. ч. і т. д. p>
Принцип аналогії перевірявся на ряді індоєвропейських мов:
(російська, болгарська, латиська, іспанська, англійська) і виявився ефективним. Спочатку він застосовувався для визначення граматичних характеристик слів, які не включені в машинний словник. Потім виникла ідея при проведенні морфологічного аналізу відмовитися від машинного словника. P>
Якщо за текстами великого обсягу скласти словник словоформ і призначити кожної словоформи деякі морфологічні ознаки, а потім перетворити цей словник у зворотний словник словоформ, то можна виявити, що багато ділянок словника мають однакові набори ознак. p>
Зворотний словник словоформ являє собою список словоформ з такими характеристиками як ознака довжини граматичного закінчення, номер флективна класу (типу словозміни) і числовий індекс, що характеризує такі ознаки як "дієслівної", "займенник",
"порівняльна ступінь". Наприклад: p>
масштабу 01/001/01 служба 01/056/01 виникли 02/105/10 батальйон 00/021/01 розраховуючи 00/152/10 p>
Зворотний словник використовується для автоматичного морфологічного аналізу текстів, якщо складові їх словоформи ототожнювати з словоформа словника і приписувати їм граматичну інформацію, зазначену в словнику. Словоформа тексту, які не є в словнику, можна приписувати граматичну інформацію тих словоформ словника, кінці яких максимально збігаються з кінцями цих нових словоформ тексту. P>
Обсяг зворотного словника можна скоротити, якщо на всіх його ділянках залишити по дві словоформи: початкову та кінцеву. Більш того з цих двох словоформ можна залишити тільки одну, і якщо словоформа тексту не співпаде з жодною словоформи зворотного словника, то їй приписується інформація безпосередньо попередньої словоформи цього словника. P>
Даний скорочений словник можна ще скоротити, якщо виключити з нього початкові літери словоформ, що не роблять вплив на результати морфологічного аналізу. При цьому у кожної пари поруч стоять словоформ залишаються справа збігаються кінцеві літеросполученні і ще по одній букві, які не збігаються. Наприклад: p>
аба 01/001/01 ЄБА 01/044/01 неба 01/071/01 авшіе 02/105/10 Тальоні 00/021/01 тивая 00/152/10 p> < p> Після виконання всіх операцій обсяг словника скорочується в 8 разів. На точність спочатку включених до словника словоформ це не вплине, а точність аналізу інших словоформ російської мови буде досить високою. P>
Для морфологічного аналізу текстів на основі методу аналогії достатньо мати у своєму розпорядженні зворотним словником решт слів. Але автори розробки зробили ще "Словник службових і коротких слів". У цей словник були включені спочатку прийменники, займенники, частки, спілки та короткі слова до 5 букв. Потім до нього увійшли також словоформи, які за методом аналогії аналізувалися невірно. У результаті цей словник збільшився до 11 тисяч словоформ. P>
Таким чином, у процесі морфологічного аналізу словоформи шукаються в словнику "Службових і коротких слів", а потім у словнику-решт словоформ. Результати аналізу, отримані за перше словника, вважаються більш надійними, і словоформи, знайдені в цьому словнику, подальшій обробці не піддаються. P>
В даний час імовірність правильного аналізу слів при обробці текстів будь-якої тематики перевищує 99%. p>
У розробці даної системи разом з авторами цієї статті брали участь наукові співробітники відділу лінгвістичних досліджень
ВИНИТИ: А. П. Новосьолов, Є. Ю. Рижова, С. А. Самодєлкіна, Ал-др А. < br> Хорошилов, Ал-сей А. Хорошилов, Є. Г. Дружиніна. p>