Принцип аналогії в морфології h2>
В
роботі Белоногова Г. Г. і Зеленкова Ю. Г. описується принцип побудови
алгоритму морфологічного аналізу текстів на основі принципу аналогії. Даний
принцип використовується в системах орфографічного контролю російських текстів,
системах автоматичного індексування документів і системах машинного
перекладу текстів з російської мови на англійську та з англійської мови на
російська. Продуктивність програми на комп'ютері з процесором від 386 і вище
складає близько 400 слів/с. p>
При
автоматичної обробки тексту виникає проблема "нових" слів. Для
синтаксичного аналізу та синтезу необхідно знати граматичні
характеристики слів. Якщо слова у словнику немає, то морфологічний аналіз не
може бути виконаний, а отже не можуть бути визначені граматичні
характеристики слова. p>
Для
того, щоб визначити граматичні характеристики слів без словника,
Белоногов запропонував принцип аналогії. Він заснований на тому, що існує сильна
кореляційний зв'язок між граматичними характеристиками слів і буквеним
складом їх кінців. Наприклад: організація, приватизація, концентрація мають ж.
р., ім. п. і од. ч.; працюють, розуміють, привертають - це дієслова у 3-му обличчі
мн. ч. і т. д. p>
Принцип
аналогією перевірявся на ряді індоєвропейських мов: (російська, болгарська,
латиська, іспанська, англійська) і виявився ефективним. Спочатку він застосовувався
для визначення граматичних характеристик слів, які не включені в машинний
словник. Потім виникла ідея при проведенні морфологічного аналізу відмовитися
від машинного словника. p>
Якщо
за текстами великого обсягу скласти словник словоформ і призначити кожній
словоформи деякі морфологічні ознаки, а потім перетворити даний
словник в зворотний словник словоформ, то можна виявити, що багато ділянок
словника мають однакові набори ознак. p>
Зворотний
словник словоформ являє собою список словоформ з такими характеристиками
як ознака довжини граматичного закінчення, номер флективна класу (типу
словозміни) і числовий індекс, що характеризує такі ознаки як
"Дієслівної", "займенник", "порівняльна ступінь". Наприклад: p>
масштабу
01/001/01 p>
служба
01/056/01 p>
виникли
02/105/10 p>
батальйон
00/021/01 p>
розраховуючи
00/152/10 p>
Зворотний
словник використовується для автоматичного морфологічного аналізу текстів, якщо
складові їх словоформи ототожнювати з словоформа словника і приписувати
їм граматичну інформацію, зазначену в словнику. Словоформа тексту, які
не є в словнику, можна приписувати граматичну інформацію тих
словоформ словника, кінці яких максимально збігаються з кінцями
цих нових словоформ тексту. p>
Обсяг
зворотного словника можна скоротити, якщо на всіх його ділянках залишити по два
словоформи: початкову та кінцеву. Більш того з цих двох словоформ можна
залишити тільки одну, і якщо словоформа тексту не співпаде з жодною
словоформи зворотного словника, то їй приписується інформація безпосередньо
попередньої словоформи цього словника. p>
Даний
скорочений словник можна ще скоротити, якщо виключити з нього початкові літери
словоформ, що не роблять вплив на результати морфологічного аналізу. При
цьому у кожної пари поруч стоять словоформ залишаються справа збігаються
кінцеві літеросполученні і ще по одній букві, які не збігаються. Наприклад: p>
аба
01/001/01 p>
ЄБА
01/044/01 p>
неба
01/071/01 p>
авшіе
02/105/10 p>
Тальоні
00/021/01 p>
тивая
00/152/10 p>
Після
виконання всіх операцій обсяг словника скорочується в 8 разів. На точність
спочатку включених до словника словоформ це не вплине, а точність
аналізу інших словоформ російської мови буде досить високою. p>
Для
морфологічного аналізу текстів на основі методу аналогії досить
розташовувати зворотним словником решт слів. Але автори розробки зробили ще
"Словник службових і коротких слів". У цей словник були включені спочатку
прийменники, займенники, частки, спілки та короткі слова до 5 букв. Потім у нього
увійшли також словоформи, які за методом аналогії аналізувалися невірно. У
результаті цей словник збільшився до 11 тисяч словоформ. p>
Таким
чином, у процесі морфологічного аналізу словоформи шукаються в словнику
"Службових і коротких слів", а потім у словнику-решт словоформ. Результати
аналізу, отримані з першого словника, вважаються більш надійними, і
словоформи, знайдені в цьому словнику, подальшій обробці не піддаються. p>
В
цей час імовірність правильного аналізу слів при обробці текстів
будь-якої тематики перевищує 99%. p>
В
розробці даної системи разом з авторами цієї статті брали участь
наукові співробітники відділу лінгвістичних досліджень ВИНИТИ: А. П. Новосьолов,
Е. Ю. Рижова, С. А. Самодєлкіна, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Є. Г.
Дружиніна. P>
Список літератури h2>
Для
підготовки даної роботи були використані матеріали з сайту
http://www.coolsoch.ru/http://lib.sportedu.ru p>