Породження текстів природною мовою

Породження текстів природною мовою - процес навмисногопобудови тексту природною мовою з метою вирішувати певнікомунікативні завдання. Термін "текст" розглядається як загальний,рекурсивний термін, який може відноситься до письмового або усноговисловом, або до окремих частин висловлювання. При породження текстів,в усній або письмовій формі, людині важливо обміркувати і відредагувативироблене висловлювання. Навряд чи можна сказати, що більшість программоже "говорити" сьогодні, в основному всі вони лише слова виводять на екран.
Так як для програми породження текстів на сьогоднішній день не вартопитання конструювання фрази, ці деталі беруться до уваги тількитоді, коли вони задіяні у створенні програми.

Цілі виходять з іншої програми, можливо експертної розмірковуєсистеми або ICAI навчальної програми, яка спілкується з користувачем наприродною мовою. Зроблені тексти можуть бути різної довжини: відодиночної фрази, даної у відповідь на питання, до діалогів з великимкількістю пропозицій або тлумачень на цілу сторінку. Породженнятекстів природною мовою відрізняється від програм, просто використовуютьприродну мову. Програми, які друкують повідомлення природною мовою,існують з часів появи комп'ютерів, але зараз, наприклад, ніхто нехоче розбиратися, яким чином побудовані повідомлення про помилки прикомпіляції на ФОРТРАНе, як би правильно вони не були написані. Повідомлення пропомилки нічого не "означає" для програми, яка друкує їх: зв'язокміж ланцюжком слів і роботою програми створюється програмістом. Навітьвикористання тверджень з параметром, де зафіксована ланцюжок слівможе бути збільшена іменами або простими описами, замінюютьзмінні, не є власне породженням текстів природноюмовою. Успіх таких прийомів як "заповнити прогалини" або "шаблон" залежить відкількості та складності ситуацій, в яких програма повинна використовуватиїх. Те, що вони були адекватні до цих пір для роботи програми,пояснюється, здебільшого, відносною простотою сьогоднішніхпрограм, ніж можливостями породження з використанням методу "шаблону".

На відміну від таких "інженерних розробок", дослідження породженнятекстів природною мовою, подібно до інших областях обчислювальноїлінгвістики (qv), має своєю метою комп'ютерне моделювання людськоїздатності до породження висловлювань. Основна увага при цьомузосереджується на поясненні двох ключових питань: багатосторонність ітворчий потенціал. Що люди знають щодо їхньої мови, які процесивони при цьому використовують, що дає можливість їм бути універсальним,змінюючи тексти у формі і акцентування, щоб покрити величезний діапазонмовних ситуацій?

У цій статті опісиваетcя дослідження в галузі ШІ по породженняприродних мов, при цьому особлива увага приділяється конкретнимпроблем, які вимагають дозволу. Стаття починається зпротиставлення породження розумінню, щоб встановити базисні поняттярозкладання процесу на частини. Далі наводяться приклади, що показуютьроботу деяких породжують систем, їх можливості і труднощі, з якимивони стикаються.

У решти статті розглядаються загальні підходи до породженнямови, включаючи характерні опису породжує словника. Окремий розділпродовжує огляд альтернативних підходів до подання та використанняграматики.

Характер процесу породження. На відміну від організації процесурозуміння, який, на перший погляд, може слідувати традиційним стадіяхлінгвістичного аналізу: морфологія, синтаксис, семантика, прагматика
/ дискурс | процес породження має істотно відмінний характер. Цей фактвипливає безпосередньо з притаманних відмінностей в інформаційному потоці у двохпроцесах. Розуміння здійснюється від форми до змісту; породження єабсолютно протилежний процес. При розумінні, формулювання тексту (і,можливо, інтонація) - "відомі". З формулювання процес створює івиводить зразкове утримання, передане текстом і, ймовірно, зусиллямидиктора у створенні тексту. Насамперед слід переглянути слова текступослідовно, протягом чого форма тексту поступово розгортається.
Головні проблеми викликані неоднозначністю | одна форма може міститидіапазон альтернативних значень, і аудиторія отримує більшу кількістьінформації з ситуаційних висновків, чим це може бути фактичнопередано текстом. Крім того, невідповідності у диктора і аудиторії моделіситуації ведуть до непередбачуваних висновків.

Породження має протилежний інформаційний потік. Воно переходить відзмісту до форми, від цілей і перспектив до лінійно впорядкованим словами ісинтаксичним маркерами. Модель ситуації і дискурс забезпечують основу длястворення вибору серед альтернативних формулювань і конструкцій, яківиробляє мову: перший у побудові заздалегідь обдуманого тексту.
Більшість систем породження виробляє поверхневі текстипослідовно зліва направо, але тільки прийнявши рішення зверху-вниз позмістом і формою тексту в цілому. Проблема генератора полягає в тому, щобвибрати з поставлених джерел, як правильно повідомити про бажаніумовиводах аудиторії і яку інформацію опустити з явного згадування втексті.

Можна уявити, що процес породження також організовано, як іпроцес розуміння, тільки в протилежному порядку. До певної міри цевірно: ідентифікація наміру (цілі) в значній мірі передуєбудь-якої деталізації інформація, яка призначається для аудиторії:планування риторичної структури, наприклад, в значній мірі,передує будь-якій синтаксичній структурі, а синтаксичний контекстслова повинен бути зафіксований, перш ніж будуть відомі морфологічна ісуперсегментная форми, які прийме слово.

Синтаксис і словник мови стає як ресурсами, так іобмеженнями, визначаючи елементи, доступні для створення тексту, а такожзалежності між ними, які визначають можливі правильні комбінації.
Ці залежності, і той факт, що вони за замовчуванням управляють, колиінформація, від якої залежить кожне рішення, стає доступною, --основна причина, чому програми породження в значній міріслідують стандартним стадіями, визначеними лінгвістами. Ідентифікація ціліпередує вибору змісту і риторичного планування, якепередує синтаксичної конструкції, тільки тому що це --природний порядок прийняття рішення; простіше слідувати потоку залежностей, ніж перестрибувати і приймати випадкове рішення, яке може виявитисяпередчасним і неспроможним. Сьогоднішнє дослідження зосередженояк на розумінні, як краще представити рішення, які єможливими, і залежності серед них, так і на те, як представитиобмеження і можливості раніше рішень, які стануть на місцеостанніх під час процесу породження.

Стандартні Компоненти і Термінологія. Компоненти породженняприродної мови не існують самі по собі. Вони розташовані всерединілюдино-машинного інтерфейсу, який також використовують і компонентирозуміння природної мови, - ENTER, в систему. У хорошому людино -машинному інтерфейсі сьогодні також хотілося б бачити координовануграфічну підтримку вводу/виводу, доповнюючи систему Купівля-продажприродної мови. Інтерфейс може закінчитися тут, а може такожвключати в себе інші загальнодоступні компоненти, типу контролерадискурсу, який вказує генератору, які дії потрібно зробити,а також координує інтерпретації, зроблені компонентом розуміння. Заінтерфейсом слід нелінгвістіческое міркування (qv) або програма базиданих, яку користувачі використовують як мовного інтерфейсу. Цяпрограма буде згадуватися в цій статті як основна програма; нею можевиявитися будь-яка система ШІ: спільна база даних, експертнадіагностична система, ICAI навчальна програма, коментатор, програма -консультант, машинний перекладач. Тип основної програми тепер не маєніякого значення для самої породжує системи (генератора природногомови).

Сьогодні більшість дослідників в цій галузі працює, в основному,з експертними системами, де процес спілкування контролюється програмою, ане користувачем. Крім того, ЕС та інтелектуальні машинні навчальніпрограми, ймовірно, здатні розуміти досить складні тексти, що робитьїх привабливими для фахівців, готових працювати з уже розробленимисистемами.

Процес породження починається всередині основної програми, у випадку,коли, наприклад, необхідно відповісти на питання користувача; або під часбесіди може виникнути потреба перервати дії користувача, щобвказати що насувається проблему. Як тільки процес ініціалізований, тривиду дій повинні бути виконані:

1. Ідентифікація цілей висловлювання,

2. Планування, як ці цілі можуть бути досягнуті, включаючи оцінкуситуації і доступних комунікативних ресурсів,

3. Реалізація планів в текст.

Цілі мають зазвичай передавати деяку інформацію аудиторії абоспонукати їх до дій або міркувань. Соціальні та психологічні, атакож практичні мотиви, які спонукають людину до спілкування, природно,непридатні для сьогоднішніх комп'ютерних програм. Планування містить усебе відбір (умисне Викреслювання) інформаційних модулів, якіз'являються в тексті (наприклад, концепції, відносини, індивідуальність).

Реалізація залежить від знання граматики мови та правил зв'язностідискурсу, і дає синтаксичне опис тексту як проміжнеподання. При цьому виділяється не тільки лінгвістична форма, алетакож знання щодо критеріїв, які показують, як використовуютьсяці форми. У багатьох дослідженнях процес, який проводить граматичнуреалізацію, називається лінгвістичним компонентом (10), а інодіпланування і разом з процесом ідентифікації цілі називаєтьсястратегічним компонентом (13). Зазвичай це - тільки лінгвістичнийкомпонент, який має будь-яке пряме знання щодо граматикивиробленого мови. Яку форму ця граматика приймає - один із самихвеликих відмінностей серед проектів породження.

Традиційно для лінгвіста, граматика - кістяк у відрізку затвердження /висловлювання. Зміст тверджень - специфічні факти даногоприродної мови - не представляє такого інтересу для лінгвіста.

Аналогічна ситуація з породженням текстів, за винятком того, щозапис - процедурна і декларативна - розроблена, щоб забезпечуватидуже специфічну функцію, з якою традиційний лінгвісти нестикається, а саме: вести і стримувати процес породження тексту зіспецифічним змістом і цілями у присутності специфічної аудиторії.
Граматика тепер відповідальна за наявність вибору, який мовунадає для форми і словника. Дослідники породження повинні зробитивірний вибір, щоб, використовуючи функції різних конструкцій для досягненняконкретної мети. Інша функція граматики - стежити за грамматічностьютексту, тобто визначення залежностей та обмежуючи рішення.

Технічний рівень

Різнопланове розвиток і творчий потенціал у породження текстівє можливим за наступних умов:

1. Генератор включає в себе весь обсяг основної граматики;

2. Основна програма має складну, різнобічно, концептуальнеподання (вид);

3. Текстовий планувальник може використовувати моделі аудиторії і дискурсу.

На жаль, такі генератори - все ще тільки предмет дослідженнясьогодні, тому що технічна сторона залишається на рівні програми SHRDLU
Винограду в 1970 (17), яка породжувала пропозиції в процесі відповіді напитання, система "безпосередньої заміни", що породжує простіграматичні дієслівні коригування з метою досягнення зрозумілійтексту.

When did you pick up [the green pyramid]?

While I was stacking up yhe red cube, a large red block, and a largegreen cube.

До кінця 1970-их такі системи стали досить популярні в роботі ЕС:для перекладу численних правил у цих системах. Необхідність програмпородження текстів в системах з складовою структурою і комунікативнимконтекстом була очевидною.

Дослідники зацікавлені в складніших текстах, ніж уконтекстно-вільних уявленнях, що вимагаються правилами системи. УЯк приклад наводиться простий опис з програми Сігурда, чия метабула з'ясувати, як у допомогою інтонації виявляється угруповання:

The submarine is to the south of the port. It is approaching the port,but is not close to it. The destroyer is approaching the port too.

Використання слів-посилань "but" "too" є великим прогресом уструктуруванні системи. Пропозиція, що є джерелом в базіданих ЕС, розмірковує про субмаринах і есмінцях, не буде обрамленеконцептуальними еквівалентами таких функціональних слів, і може бутипрочитано простим шаблоном, тому що посилання специфічні і можуть бутивжиті тільки в окремому конкретному випадку.

Ще одна технічна, поки не дозволена, проблема - "подальшапосилання ". Якими мають бути слова-замінники, якщо предмет з'являєтьсябільше, ніж один раз в тексті? Постійне вживання займенників можепризвести до неоднозначності. Як приклад наводиться уривок здосліджень Гранвілл, який класифікує відносини між референтом іпредметом і розробляє правила, за якими б могли будуватисянаступні посилання.

Pogo cares for Hepzibah. Churchy likes her, too. Pogo gives a rose toher, which pleases her. She does not want Churchy's rose. He is jealous. Hepunches Pogo. He gives a rose to Hebzibah. The petals drop off. This upsetsher. She cries.

Не дивно, що у дослідників, які розробляють основну програму,генератори володіють найбільшою ефективністю, що дає впевненість уте, що є концептуальна основа для групування окремихпропозицій/тверджень в тексті. Важливим моментом на цьому етапі єPROTEUS програма, розроблена Дейві в 1974. Програма дає опис грихрестики-нолики і вважається однією з програм, найбільш вільно володієприродною мовою. PROTEUS має модель тлумачення конкретних кроків:напад, зустрічне напад, містить у собі риторичний принцип, що втекст потрібно розміщувати тільки найбільш істотну інформацію в ситуації.
Граматика та засоби реалізації вибирають описані і згрупованікроки, виправляють форми, так щоб вони були грамматічни в англійськихпропозиціях, і породжують власне текст.

Слід згадати і програму ERMA Кліппенгера (1974) - єдинапрограма на той момент, що працює зі спонтанної промовою. Як людирозмірковують про те, що вони говорять, як вони динамічно планують або змінюютьсвої наміри щодо того, що вони хочуть сказати в розмові? Уметою моделювання цього процесу, Кліппенгер аналізував стенограмумови пацієнта з психоаналізу з тим, щоб зрозуміти міркування пацієнта,дають пояснення одному з параграфів стенограми, який ERMA могладокладно відтворити. Кліппенгер розробив структуру з п'яти основнихвзаємопов'язаних компонентів, що беруть участь в спонтанного породження тексту.
Але для комп'ютерного програмування в 1974 реалізувати цей план було непід силу, внаслідок чого проект був залишений.

Історичний огляд проблеми. По суті справи, програми PROTEUS Дейві і
ERMA Кліппенгера є самими старшими в цій галузі. По-перше, томущо до початку 80-их порівняно мало людей працювало над проблемоюпородження, по-друге, сама проблема досить складна, на думку авторівстатті, набагато складніше проблеми розуміння мови. Насправді, проблемоюсерйозно займалися на початку 1970-их. Але справедливо зазначити, що наважливої конференції з даної проблеми в 1975р представлені звіти провиконану роботу не знайшли належного відгуку, після чого дослідження зпородження природної мови були майже припинені до початку 1980-их.

До 80-х фахівці в галузі ШІ схильні були вважати проблемупородження досить легкою. Справді, хіба важко взяти к-лтвердження з деякого мовного фрагменту, пов'язати його з визначеннями,зберігаються окремо, і провести, наприклад, таке "The big blackblock supports a green one ". Це було під силу SHRDLU Винограду вже в
1970р. Якщо б можна було обмежитися цими знаннями, То, насправді,не виникало б проблем. Але варіативність мови не давала такийможливості. Яким чином людина представляє граматичні знання,які дозволяють генератору використовувати синтаксичну структурупропозиції з метою Створення відповідного відносного пропозиції
( "The green block that's supported by the big red one", "a green one", а не
"A green block"), а також взагалі мати уявлення про можливості такихвідносних пропозицій і подібних замін.

Загальні підходи до проблеми. Важко ідентифікувати загальні елементи врізних проектах дослідження з породження природної мови.
Навпаки, у дослідженнях з розуміння мови можна виділити кількаосновних підходів до проблеми: використання розширених мереж переходів,семантичні граматики (qv), робочі системи, засновані на представленні концептуальної залежності, процедурна семантика і багато іншого.
Дослідження породження не може дати такої класифікації, оскількидуже мало фахівців ставили цю проблему на перше місце. Великідослідницькі групи, повністю сконцентрувалися на питанніпородження природної мови, почали створюватися в останні два роки.
Основна проблема полягає у відсутності загального відправного пункту, конкретноїоснови для порівняння, що ускладнює роботу, не дає можливості длявзаємодопомоги між дослідниками: практично неможливо перевірити своїексперименти на системі іншого розробника. Однак є загальні нитки,що зв'язують різні проекти: схожі підходи, схожі подання,схожі граматики.

Існує два питання, що становлять спільний інтерес. Перше питання: якзіставити різноманіття форм у природних мовах, щоб розробити їхфункціональне використання, відповісти на питання, чому людина використовуєодну форму, а не іншу, а далі формалізувати цей процес.

Друге питання - це контроль над процесом породження. Що визначаєвибір мовця в цiй мовної ситуації? Як людина організовує іпредставляє проміжні результати? Які знання про залежності міжваріантами вибору повинна мати система? Як представлені ці залежностіі як вони можуть впливати на алгоритми управління? Відповіді на поставленіпитання будуть розглянуті в цій статті.

Контроль над поступової обробкою повідомлення. Серед породжують систем,які були спеціально побудовані для роботи в основних системах,переважає підхід контролю полягає в обробці повідомлень якпевного виду програм. Ці "повідомлення" не просто вираження, чиїконтекст і форма ізоморфні по відношенню до кінцевого тексту. "Повідомлення"можуть бути закодовані на комп'ютерному мовою. Їх не можна просто перекласти.
Звичайно, при самій простій обробці породження, перекладу було бдосить (як майже у всіх існуючих ЕС), але в обробці, яказосереджена на породження текстів природною мовою, відносини ізміст в повідомленні найкраще проглядаються у вигляді команд длядосягнення певного ефекту лінгвістичними засобами. Оцінкавідбувається при поступової обробці від зовнішніх команд до внутрішніх. Цяметодика контролю природна для розроблювачів систем, тому що вонаімітує стиль мов програмування, які вони використають.

Найбільш загальні повідомлення сьогодні не створюються планувальником, а єпросто структурами даних, які витягуються з основної програми таяким генератор дає особливу інтерпретацію. Подібна практикапоширена в програмах, яким необхідно пояснювати свої міркування,укладені в доказі дедуктивним методом обчислення предиката. Нижченаводиться такого роду доказ.

На вході

Line 1: premis

Exists (x) [barber (x) and

Forall (y) .. shaves (x, y) iff not.shaves (y, y) l

Line 2: existential instantiation (1) barber (g) and Forall (y) .. shaves (g , y) iff not.shaves (y, y)

Line 3: conjunction reduction (2)

Forall (y) .. shaves (g, y) iff not.shaves (y, y)

Line 4: universal instantiation (3) shaves (g, g) iff not.shaves (g, g)

Line 5: tautology (4) shaves (g, g) and not.shaves (g, g)

Line 6: conditionalization (5,1)

(Exists (x) [barber (x) and

Forall (y) .. shaves (x, y) iff not.shaves (y, y)] implies (shave (g, g) and not.shaves (g, g)) < p> Line 7: reductio-ad-absurdum (6) not (Exists (x) barber (x) and

Forall (y) .. shaves (x, y) iff not.shaves (y, y))

На виході

Assume that there is some barber who shaves everyone who doesn't shavehimself (and no one else). Call him Giuseppe. Now, anyone who doesn't shavehimself would be shaved by Giuseppe. This would include Guiseppe himself.
That is, he would shave himself, if and only if he did not shave himself,which is a conradiction. Therefore it is false, there is no such barber.

Модель дає пояснення діям автора докази у виборі, якеправило застосовувати, наприклад, що мета правій частині умови в першому рядкунакласти обмеження на змінну Y ("... Хто не голить себе "). Це даєправо сприймати доказ особливим чином. Ці дії, однак,ніде в доказі (яке було єдиним входом у програму) нез'являється. Вони тільки передбачаються і, таким чином, мають силу тількидля декількох прикладів доказів, вироблених природнимдедуктивним методом.

Брак інформації в повідомленнях основної програми - постійнапроблема в роботі з породженням текстів. Фахівці з обчислювальноїлінгвістиці змушені вчитуватися в структури даних основних програм,тому що останні вже не включають ті види риторичних команд, якінеобхідні генератору, якщо слідувати синтаксичним конструкціям мови,які використовує людина. Без "додаткової" інформації зв'язністьвимовного - особливо для довгих текстів - буде залежати від того,наскільки несуперечливо і повно автори основних програм представилиінформацію: кожен раз, коли генератор зустрічає к-л символ, що йому нічогоне залишається як обробляти його як "посилку" або як умова одним і тимже способом, якщо він зустрічає їх в однаковому контексті. Якщопідтримується несуперечність, проектувальник може заповнюватинеточності, вдосконалюючи структури даних, як тільки вони виявляютьсяусередині лінгвістичного компонента.

Кошти, спрямовані на досягнення беглості і навмисноюдеталізації форми, пояснюють використання фразовою словників іпроміжного лінгвістичного подання. Простий приклад показує,чому це необхідно. Розглянемо логічну формулу, яку програмазазвичай використовувала б внутрішньо. У цьому прикладі обробка проводиться тимже методом, що описаний вище. Приклад являє собою найбільш загальний виглядповідомлення: вираз прямо з моделі основної програми (системадокази природним дедуктивним методом), якому тепер даєтьсяособлива інтерпретація, так як це вираз служить для аналізу тексту.

(exists x

(and barber (x)

(forall y < p> (if-and-only-if shaves (x, y)

(not shaves (y, y) )))))

У цій формулі генератор одночасно зіставляється з виборомреалізації. Чи повинно навішування кванторів виражатися буквально
( "Існує такий X, що ..."), або повинна бути згорнутим всередині основноїчастини як визначальна інформація щодо реалізації змінних
("... some barber ")? Чи умова if-and-only-if реалізовуватисябуквально як кон'юнкція підпорядкування або може бути інтерпретовано якобмеження діапазону змінної? Затвердження типу barber (x), мабуть,завжди має декодувати і перетворюватися в детальний описзмінної. Останнє реалізується незалежним чином, однак, післяретельного обдумування.

Об'єкти, які заповнюють "мозок" основної програми, в даному випадку --логічні зв'язки, предикати, і змінні, повністю пов'язані зі словами іграматичними конструкціями, які підлягають обробці "спеціальнимипроцедурами/процедурами знань "підтримуються всередині генератора. Ціпроцедури - еквівалент словника в розуміє системі. Фахівці будуютьфразу для розуміння, використовуючи лексичну інформацію, пов'язанубезпосередньо з індивідуальними логічними об'єктами. Кожен об'єктзазвичай асоціюється з к-л лексичними одиницями: константа може матиім'я; предикат може мати прикметник або дієслово. Спеціаліст поміщає їху фразовою контекст, який буде доповнений рекурсивної прикладноїпрограмою інших фахівців, наприклад, двомісний предикат "shaves (x, y)"стає шаблоном пропозиції "x shaves y."

Таким чином, лінгвістичні шаблони забезпечують упорядковануреалізацію параметрів, що підтримує ефективне функціонування знайменшою кількістю блокувань, прискорюючи процес породження в цілому,уникаючи необхідність "резервувати" передчасні рішення, якіможуть виявитися несумісними з граматичним контекстом, визначенимбільш високим шаблоном.

Лексичний Вибір. Деякі підходи до машинного розуміння грунтуютьсяна невеликому наборі базисних елементів (qv) і, формулюють знанняпрограми у вигляді набору виразів до базисних елементів, що спрощує роботупрограми: стає легше виводити висновки, тому що за допомогоюбазисних елементів вони розподіляються в природні групи. Однак,зведення діапазону людських дій до певного набору, наприклад,лише до 13 концептуальним базисним елементам, означає, що специфіказначень розподіляється у висловах і витягується звідти кожен раз, якщопід час породження необхідно використовувати дієслова зі специфічнимзначенням. Голдман перший провів дослідження з використання мережрозпізнавання. Він показав, як здійснюється вибір слова, у відриві відосновних базисних елементів. Наприклад, з базисного елемента дії
"ковтати" можна отримати дієслова "пити", "є", "вдихати", "дихати",
"курити", або "проковтнути", як би перевіряючи при цьому, чи був проковтнутихоб'єкт рідиною або димом.

Проект мережі розпізнавання змушує дослідника породження виходитиза рамки основних відмінностей типів об'єктів і включати контекстні фактори,напр., емоційні міркування мовця. Нижче - вибірка з роботи Хові,мета якої полягала в тому, щоб змістити текст, щоб підкреслитибажану точку зору (в даному випадку повідомити в лютневих первиннихвиборах так, щоб результати сподобалися Картеру, навіть якщо він програв.

Kennedy only got a small number of delegates in the elections on 20
February. Cater just lost by a small number of votes. He has severaldelegates more than Kennedy in total.

Фразова словники. Яке слово асоціюється з простими поняттями, типу
"перукар" або "голити", є очевидним, а проте, для об'єктів укомплексних основних програмах, лексичний вибір може виявитися більшпроблематичним. Допомога в цій ситуації може надати використанняфразової словника. Це поняття було введено в 1975 Бекером і з тих пірстало важливим інструментом систем породження. З лінгвістичної точкизору, "фразовою" словник - концептуальне розширення стандартногословника, що включає всі непроаналізірованние фрази, - на тій же самійсемантичній основі, що і словник окремих слів. Це забезпечуєфіксацію незаконсервірованних ідіом і різних мовних способів, якілюди використовують щодня. Так як люди використовують ці "фіксованіфрази "як нерасчленімое ціле, програми повинні навчитися робити те жсаме. Приклад нижче - з роботи Кукіча.

Wall Street securities markets meandered upward through most of themotning, before being pushed downhill late in the day yesterday. The stockmarket closed out the day with a small loss and turned in mixed showing inmoderate trading.

Це інформаційне оголошення було обчислено безпосередньо з аналізуданих по поведінці ринку протягом дня. Якісні моменти в повідомленнібули з'єднані безпосередньо зі стереотипними фразами подібного родуоголошень: "a small loss", "a mixed showing", "in moderate trading".
Об'єкти, дії і покажчики часу були відображені безпосередньо ввідповідних ланцюжках слів: "Wall Street securities markets", "meanderedupward "," be pushed downhill "," late in the day ". Композиційний шаблонскладається з пропозицій, сформованих на основі SV-Advp фрази: (ринок)
(дія) (вказівник часу).

Обробка Граматики

У вивченні породження вибір формалізації подання граматики мовизавжди зв'язувався з вибором протоколу контролю. Відомі три основніпідходу до розв'язання цього питання:

1. граматика як незалежний корпус пропозицій і фільтр до них
(наприклад, об'єднана функціональна граматика);

2. використання граматики з метою виявлення всіх можливихповерхневих структур, доступних для мови; потім проведення вибору іреалізації серед даних поверхневих структур (смислові підходи);

3. граматика як структура пересіченій графа, який контролюєвесь процес, як тільки створюється план тексту (план вираження) (граматикарозширених мереж переходів, а також систематична граматика).

У цій статті не виявляється перевагу жодному з трьох підходів.
Проте кожен з них буде розглянуто у відповідність з поставленимзавданням, яке мотивує використання цих підходів.

Об'єднана Функціональна Граматика (ОФГ) в породження.

Об'єднана Функціональна Граматика була розроблена Кейем, є
"Реверсивної" граматикою, тобто може використовуватися як при породження,так і при розумінні мови.

Термін "функціональний", на думку розробників, говорить про те, щослід відштовхнутися від опису структури лінгвістичних форм, щобзвернутися до причин, чому використовується мова. На відміну відсистематичних граматик, функціональні елементи в ОФГ представляють дотеперішнього часу лише мінімальне розширення стандартного категоріальноголінгвістичного словника, що використовується традиційно, щоб описатисинтаксичну форму (наприклад, "clause", "noun phrase", "adjective"), імають багато спільного з "лексико-функціональної граматикою", (що стоїть в тійж парадигмі граматик). Класичне функціональне значення, типувідмінність між "вже наявної" і "нової" інформацією в пропозиції, подібновідмінності між "темою" та "ремой", ще не включено в ОФГ. ОФГ використовує
"Telegram" граматику, розроблену Аппельт, що розуміє компонент,написаний Боссі.

Перший приклад (з Аппельт) описує одну зі складових ролей,які супроводжують фразовою категорію, іменну фразу.

ОФГ використовують, щоб викласти в деталях мінімальні, концептуальноотримані функціональні описи, наприклад, що головним словом к-ліменний фрази має бути слово "викрутка". Недавня робота Паттенавикористовує систематичну граматику в дуже схожим чином. Операціїтакого типу на семантичному рівні, що виконуються в інших підходах шляхомпланування рівня, фахівці визначають як набір особливостей виводуусередині систематичної граматики, еквівалент початкового функціональногоопису, що управляє ОФГ. Зворотне і пряме формування ланцюжкапереміщується через систематичну граматику, потім визначає, якідодаткові лінгвістичні особливості повинні бути додані дограматичної характеристики тексту.

ОФГ використовуються в процесі послідовних об'єднань, обмеженихправилами, які стежать за тим, як два описи можуть бути об'єднані.
Ключова ідея полягає в тому, що планувальник спочатку створюємінімальне фрази опис, що можна робити і стандартним способом. Щобвикладати в деталях опис до пунктів, де це було б граматично вірно,воно потім об'єднується з граматикою: опис фрази і специфікаціяграматики успішно об'єднані. Конкретизація понять раніше не визначенихособливостей опису константами, забезпеченими граматикою, викликає ефектбрижах у всій системі: рішення, які залежать від щойноконкретизованих особливостей, провокують подальший циклічнийоб'єднання, поки не буде сформульовано граматично повний описвисловлювання. Крім того, елементи в описі планувальника спонукають довідбору серед діз'юнктівних специфікацій у граматиці. Наприклад, визначеннядієслова призводить до вибору граматичної подклассіфікаціі.

Повний опис становить дерево подопісаній (складових) яквизначено "стандартом" (зразком), який наказує послідовнийпорядок на кожному рівні. Фактично текст створюється при перегляді цьогодерева та читанні слів з лексичними особливостями кожної складової.
Обмеження накладаються у процесі об'єднання: лише суміснічасткові описи присутні в кінцевому результаті. Це має великезначення, так як планувальником не потрібно розбиратися з граматичнимиобмеженнями і залежностями, що, з іншого боку обмежує йогопотенціал: він не може користуватися знаннями з граматичнимобмеженням, навіть коли йому це знадобиться.

З точки зору розробки граматики, ОФГ є цілкомзадовільною, тому що даний підхід дозволяє компактно формулюватимовні факти, тобто необов'язково розшифровувативзаємозв'язок міжпропозиціями, так як це відбувається автоматично під час об'єднання.

Прямий Контроль Граматики при розумінні: Систематична Граматика та
Граматика Розширених Мереж Переходів (РСП). Розширена мережа переходіввикористовується в породження майже з моменту свого визначення. РСПвикористовували спочатку Сіммонс і Слокум в 1970, чию систему потім використав
Голдман. РСП також застосовував Шапіро, чий генератор, у цій групі, єнайбільш продуманим. Всі системи мають схожу структуру. Вони дивлятьсяструктуру даних, яку підтримує основна програма. Мережіпідтримують формат зверху-вниз, як зазвичай у всіх РСП-парсерів
(синтаксичних аналізаторів). Для ранніх РСП подібна структура буласемантичної мережею, заснованою на теорії фреймів з дієсловом у центральнійчастини (ще одна "функціональна" лінгвістична система). Спеціальний вузолв мережі, "вектор модальності", визначає інформацію на кореневому рівні,наприклад, час і вид; є пропозиція активним або пасивним.
Первинна функція РСП в ранніх системах полягала в лінійному впорядкуваннямережевої структури, яка була головним чином вже закодована влінгвістичному словнику.

РСП, по суті, являє собою процедурне кодуванняпороджує граматики. Регістри, які дають мереж "розширене" вплив, використовуються як представлення граматичних відносин з глибинноїструктурою, і шляхи у мережах кодують всі складові поверхневіальтернативні послідовності. Обмеження поширюються по деревузверху-вниз (тобто до рекурсивним підмережах РСП) через значення впозначених регістрів, приводячи в дію підмережі при контекстномууправлінні. Проект РСП Шапіро особливо вражає, оскільки його структурауправління даних займає весь обчислювальний режим основної програми.

Подальший аспект проекту РСП - той факт, що засоби створення слівтексти є виконанням побічного ефекту по проходженню ребра графа,що приводить генератор до дії майже в той момент, коли ситуаціясприймається. Особливо вражає те, що оцінює, що РСП Шапіроніколи не користується резервуванням. Це - абсолютно незвичайна поведінкадля РСП, так як породження є по суті процесом планування.

Найбільш значною проблемою для проектів РСП - трудність виділеннярозуміння з дії. Генератори, засновані на систематичнійграматики, мають справу з цією проблемою, безпосередньо представляючисерединну репрезентацію у формі набору характерних ознак, що дозволяєспецифікації тексту поступово накопичуватися, надаючи обмеженьможливість поширюватися і впливати на більш пізні рішення.

Дві важливих системи породження були засновані на систематичнійграматики: PROTEUS Дейві (обговорювали раніше) і NIGEL Манна і Маттхіссена.
NIGEL - найбільша систематична граматика в світі і, дуже ймовірно,один з найбільших машинних граматик будь-якого сорту.