ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Зв'язність текстової інформації
         

     

    Логіка

    Зв'язність є одним з важливих властивостей текстової інформації. Будь-якаінформація являє собою набір тих чи інших фактів, причому частина зних неодмінно пов'язана між собою. Очевидно, що при передачі цієїінформації в текстовому вигляді необхідно знайти спосіб зберегти зв'язки. Якщоцього не зробити, то ми не отримаємо адекватного уявлення про зовнішнюсередовищі, а лише окремі її фрагменти, які не дають цілісної картини. Якимже чином реалізується зв'язність?

    Найбільш очевидним і логічним способом реалізації зв'язності текстовоїінформації представляється повтор. Суть його полягає в наступному: якщопропозиція А пов'язано з пропозицією Б, то ці дві пропозиції містятьдеяку однакову частину, повторювану інформацію, яка і показуєнаявність зв'язку між А і Б. Таким чином, доводиться жертвувати одним знайважливіших принципів організації мовного матеріалу - відсутністюнадмірностей, але ця жертва необхідна для коректної передачі інформації прозовнішньому середовищі.

    Далі будемо виходити з того, що зв'язність тексту зберігається вмежах одного абзацу.

    Щоб зробити можливим виявлення зв'язків, кожне речення абзацурозбивається на дві частини: координати і власне інформацію. Координати --та сама загальна частина, що служить для зв'язку з іншими пропозиціями. Рештачастина містить унікальну, нову інформацію, для передачі якій і служитьв тексті цю пропозицію. Існує три типи зв'язності, що розрізняютьсясхемами побудови координатних залежностей:

    Kn

    1. Опис «вглиб» (1). У цьому випадку зв'язність реалізується послідовної ланцюжком, то є пропозиція 1 пов'язано з 2, 2 з 3 і т. д.
    K1
    K2
    K3

    2. Опис «вшир» (2). У цьому випадку зв'язність реалізується за паралельним принципом, коли всі пропозиції 2, 3 і т. д. пов'язані з пропозицією 1.

    К1
    К2
    К3
    Кn


    К1
    Кn

    3. Комбінована схема (3). Являє собою змішаний варіант 1 і

    2.
    К2
    К3

    Лінгвістичний процесор може вирішувати два завдання, що мають відношення дозв'язності:

    Завдання аналізу. У цьому випадку метою є виявлення всіх зв'язків міжпропозиціями деякого тексту.

    Завдання синтезу. Мета цього завдання - побудова тексту, що описуєлише певну частину зовнішнього середовища із збереженням зв'язків між об'єктами.

    Далі буде розглянутий алгоритм вирішення задачі аналізу.

    Перед тим як описувати алгоритм програмної реалізації задачі аналізу,необхідно зробити одне зауваження. Для якісного вирішення завданняпотрібна наявність досить великої бази даних, у якій зберігалися бвідомості про різних морфологічних уявленнях слів, а також, для щебільш повної картини, відповідності між словами-синонімами. У данійроботі завдання реалізації такої бази даних не розглядається. Описуванийалгоритм визначає зв'язку в тексті тільки шляхом пошуку повторюваних слів.

    Робота алгоритму відбувається в наступній послідовності:

    1. Попередній аналіз тексту з метою розбиття його на окремі пропозиції. Пропозиція вважається закінченим, як тільки виявлена точка, причому за точкою слід або більша буква, або нічого, якщо кінець пропозиції одночасно є кінцем тексту.

    2. Аналіз пропозицій з метою виділення окремих слів. Передбачається, що слова розділяються пробілами або іншими знаками-розділювачами.

    3. Створення двовимірного масиву, в якому одна координата визначає порядковий номер пропозиції, а інша - порядковий номер слова в цій пропозиції.

    4. Пошук зв'язків для кожного слова тексту. Цей пошук відбувається в циклі і складається з таких етапів: a) читання наступного слова і його перевірка. Слова довжиною менше трьох символів не аналізуються, щоб виключити помилкові зв'язку з сполучники, прийменники тощо; b) пошук в тексті слів, у яких співпадає з даним словом не менше 3 перших символів і не менше 3/4 від його довжини. Таким чином враховується можливість наявності в повторюваних слів різних закінчень. Можна також обмежувати глибину пошуку, тобто кількість пропозицій після поточного, в яких необхідно шукати зв'язку. Якщо проводити пошук тільки в одному наступному реченні, то будуть знайдені тільки зв'язку за схемою (1); c) запам'ятовування координат знайдених зв'язків у масиві. При цьому створюється таблиця, в якій вводиться запис для кожного набору координат. Якщо працювати лише за схемою (1), то ці записи будуть являти собою пари.

    5. Після закінчення циклу може бути побудована схема, що демонструє всі зв'язки в тексті.

    6. Можливо також провести розбивку тексту на абзаци: початком нового абзацу вважається пропозиція, в якому немає жодного зв'язку з будь-яким з слів попередній частині тексту.

    Алгоритм не дає гарантії правильності отриманого результату. УЗокрема, можливі такі помилки:знаходження неіснуючих зв'язків по допоміжних частин мови;знаходження неіснуючих зв'язків з подібним у написанні, але не однокореневісловами;втрата зв'язків за короткими словами.

    Уникнути цих помилок можна, як уже говорилося, тільки за цей додатокпрограми базою даних.

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати !