ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Принцип аналогії в морфології
         

     

    Література і російська мова

    Принцип аналогії в морфології

    В роботі Белоногова Г. Г. і Зеленкова Ю. Г. описується принцип побудови алгоритму морфологічного аналізу текстів на основі принципу аналогії. Даний принцип використовується в системах орфографічного контролю російських текстів, системах автоматичного індексування документів і системах машинного перекладу текстів з російської мови на англійську та з англійської мови на російська. Продуктивність програми на комп'ютері з процесором від 386 і вище складає близько 400 слів/с.

    При автоматичної обробки тексту виникає проблема "нових" слів. Для синтаксичного аналізу та синтезу необхідно знати граматичні характеристики слів. Якщо слова у словнику немає, то морфологічний аналіз не може бути виконаний, а отже не можуть бути визначені граматичні характеристики слова.

    Для того, щоб визначити граматичні характеристики слів без словника, Белоногов запропонував принцип аналогії. Він заснований на тому, що існує сильна кореляційний зв'язок між граматичними характеристиками слів і буквеним складом їх кінців. Наприклад: організація, приватизація, концентрація мають ж. р., ім. п. і од. ч.; працюють, розуміють, привертають - це дієслова у 3-му обличчі мн. ч. і т. д.

    Принцип аналогією перевірявся на ряді індоєвропейських мов: (російська, болгарська, латиська, іспанська, англійська) і виявився ефективним. Спочатку він застосовувався для визначення граматичних характеристик слів, які не включені в машинний словник. Потім виникла ідея при проведенні морфологічного аналізу відмовитися від машинного словника.

    Якщо за текстами великого обсягу скласти словник словоформ і призначити кожній словоформи деякі морфологічні ознаки, а потім перетворити даний словник в зворотний словник словоформ, то можна виявити, що багато ділянок словника мають однакові набори ознак.

    Зворотний словник словоформ являє собою список словоформ з такими характеристиками як ознака довжини граматичного закінчення, номер флективна класу (типу словозміни) і числовий індекс, що характеризує такі ознаки як "Дієслівної", "займенник", "порівняльна ступінь". Наприклад:

    масштабу 01/001/01

    служба 01/056/01

    виникли 02/105/10

    батальйон 00/021/01

    розраховуючи 00/152/10

    Зворотний словник використовується для автоматичного морфологічного аналізу текстів, якщо складові їх словоформи ототожнювати з словоформа словника і приписувати їм граматичну інформацію, зазначену в словнику. Словоформа тексту, які не є в словнику, можна приписувати граматичну інформацію тих словоформ словника, кінці яких максимально збігаються з кінцями цих нових словоформ тексту.

    Обсяг зворотного словника можна скоротити, якщо на всіх його ділянках залишити по два словоформи: початкову та кінцеву. Більш того з цих двох словоформ можна залишити тільки одну, і якщо словоформа тексту не співпаде з жодною словоформи зворотного словника, то їй приписується інформація безпосередньо попередньої словоформи цього словника.

    Даний скорочений словник можна ще скоротити, якщо виключити з нього початкові літери словоформ, що не роблять вплив на результати морфологічного аналізу. При цьому у кожної пари поруч стоять словоформ залишаються справа збігаються кінцеві літеросполученні і ще по одній букві, які не збігаються. Наприклад:

    аба 01/001/01

    ЄБА 01/044/01

    неба 01/071/01

    авшіе 02/105/10

    Тальоні 00/021/01

    тивая 00/152/10

    Після виконання всіх операцій обсяг словника скорочується в 8 разів. На точність спочатку включених до словника словоформ це не вплине, а точність аналізу інших словоформ російської мови буде досить високою.

    Для морфологічного аналізу текстів на основі методу аналогії досить розташовувати зворотним словником решт слів. Але автори розробки зробили ще "Словник службових і коротких слів". У цей словник були включені спочатку прийменники, займенники, частки, спілки та короткі слова до 5 букв. Потім у нього увійшли також словоформи, які за методом аналогії аналізувалися невірно. У результаті цей словник збільшився до 11 тисяч словоформ.

    Таким чином, у процесі морфологічного аналізу словоформи шукаються в словнику "Службових і коротких слів", а потім у словнику-решт словоформ. Результати аналізу, отримані з першого словника, вважаються більш надійними, і словоформи, знайдені в цьому словнику, подальшій обробці не піддаються.

    В цей час імовірність правильного аналізу слів при обробці текстів будь-якої тематики перевищує 99%.

    В розробці даної системи разом з авторами цієї статті брали участь наукові співробітники відділу лінгвістичних досліджень ВИНИТИ: А. П. Новосьолов, Е. Ю. Рижова, С. А. Самодєлкіна, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Є. Г. Дружиніна.

    Список літератури

    Для підготовки даної роботи були використані матеріали з сайту http://www.coolsoch.ru/http://lib.sportedu.ru

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status