Зв'язність є одним з важливих властивостей текстової інформації. Будь-якаінформація являє собою набір тих чи інших фактів, причому частина зних неодмінно пов'язана між собою. Очевидно, що при передачі цієїінформації в текстовому вигляді необхідно знайти спосіб зберегти зв'язки. Якщоцього не зробити, то ми не отримаємо адекватного уявлення про зовнішнюсередовищі, а лише окремі її фрагменти, які не дають цілісної картини. Якимже чином реалізується зв'язність? p>
Найбільш очевидним і логічним способом реалізації зв'язності текстовоїінформації представляється повтор. Суть його полягає в наступному: якщопропозиція А пов'язано з пропозицією Б, то ці дві пропозиції містятьдеяку однакову частину, повторювану інформацію, яка і показуєнаявність зв'язку між А і Б. Таким чином, доводиться жертвувати одним знайважливіших принципів організації мовного матеріалу - відсутністюнадмірностей, але ця жертва необхідна для коректної передачі інформації прозовнішньому середовищі. p>
Далі будемо виходити з того, що зв'язність тексту зберігається вмежах одного абзацу. p>
Щоб зробити можливим виявлення зв'язків, кожне речення абзацурозбивається на дві частини: координати і власне інформацію. Координати --та сама загальна частина, що служить для зв'язку з іншими пропозиціями. Рештачастина містить унікальну, нову інформацію, для передачі якій і служитьв тексті цю пропозицію. Існує три типи зв'язності, що розрізняютьсясхемами побудови координатних залежностей: p>
Kn p>
1. Опис «вглиб» (1). У цьому випадку зв'язність реалізується послідовної ланцюжком, то є пропозиція 1 пов'язано з 2, 2 з 3 і т. д.
K1
K2
K3 p>
2. Опис «вшир» (2). У цьому випадку зв'язність реалізується за паралельним принципом, коли всі пропозиції 2, 3 і т. д. пов'язані з пропозицією 1. P>
К1
К2
К3
Кn p>
К1
Кn p>
3. Комбінована схема (3). Являє собою змішаний варіант 1 і p>
2.
К2
К3 p>
Лінгвістичний процесор може вирішувати два завдання, що мають відношення дозв'язності: p>
Завдання аналізу. У цьому випадку метою є виявлення всіх зв'язків міжпропозиціями деякого тексту. p>
Завдання синтезу. Мета цього завдання - побудова тексту, що описуєлише певну частину зовнішнього середовища із збереженням зв'язків між об'єктами. p>
Далі буде розглянутий алгоритм вирішення задачі аналізу. p>
Перед тим як описувати алгоритм програмної реалізації задачі аналізу,необхідно зробити одне зауваження. Для якісного вирішення завданняпотрібна наявність досить великої бази даних, у якій зберігалися бвідомості про різних морфологічних уявленнях слів, а також, для щебільш повної картини, відповідності між словами-синонімами. У данійроботі завдання реалізації такої бази даних не розглядається. Описуванийалгоритм визначає зв'язку в тексті тільки шляхом пошуку повторюваних слів. p>
Робота алгоритму відбувається в наступній послідовності: p>
1. Попередній аналіз тексту з метою розбиття його на окремі пропозиції. Пропозиція вважається закінченим, як тільки виявлена точка, причому за точкою слід або більша буква, або нічого, якщо кінець пропозиції одночасно є кінцем тексту. P>
2. Аналіз пропозицій з метою виділення окремих слів. Передбачається, що слова розділяються пробілами або іншими знаками-розділювачами. P>
3. Створення двовимірного масиву, в якому одна координата визначає порядковий номер пропозиції, а інша - порядковий номер слова в цій пропозиції. P>
4. Пошук зв'язків для кожного слова тексту. Цей пошук відбувається в циклі і складається з таких етапів: a) читання наступного слова і його перевірка. Слова довжиною менше трьох символів не аналізуються, щоб виключити помилкові зв'язку з сполучники, прийменники тощо; b) пошук в тексті слів, у яких співпадає з даним словом не менше 3 перших символів і не менше 3/4 від його довжини. Таким чином враховується можливість наявності в повторюваних слів різних закінчень. Можна також обмежувати глибину пошуку, тобто кількість пропозицій після поточного, в яких необхідно шукати зв'язку. Якщо проводити пошук тільки в одному наступному реченні, то будуть знайдені тільки зв'язку за схемою (1); c) запам'ятовування координат знайдених зв'язків у масиві. При цьому створюється таблиця, в якій вводиться запис для кожного набору координат. Якщо працювати лише за схемою (1), то ці записи будуть являти собою пари. P>
5. Після закінчення циклу може бути побудована схема, що демонструє всі зв'язки в тексті. P>
6. Можливо також провести розбивку тексту на абзаци: початком нового абзацу вважається пропозиція, в якому немає жодного зв'язку з будь-яким з слів попередній частині тексту. P>
Алгоритм не дає гарантії правильності отриманого результату. УЗокрема, можливі такі помилки:знаходження неіснуючих зв'язків по допоміжних частин мови;знаходження неіснуючих зв'язків з подібним у написанні, але не однокореневісловами;втрата зв'язків за короткими словами. p>
Уникнути цих помилок можна, як уже говорилося, тільки за цей додатокпрограми базою даних. p>