Машини, які говорять і слухають

УДК 621.391

Розглянуто современние тенденції розвитку систем автоматичного розпізнавання і синтезу мовних сигналів. Висвітлено проблеми побудови алгоритмів розпізнавання в неадаптівних системах мовного управління.

Описані експерименти зі створення систем автоматичного мовного запиту економічної інформації з елементами автоматичного навчання.

Книга розрахована на наукових працівників, інженерів та студентів, спеціалізуються з технічної кібернетики і теорії інформації.
Роботу рецензували і рекомендували до видання: академік АН СРСР А. А. Дородніцин кандидат фізико-математичних наук

М. Н. Марічук © Видавництво "Штиинца", 1985 р.
Про I5Q3000000 - 62 39-85 M755 (I2) - 85

ВСТУП

Проблема реалізації мовного діалогу людини і технічних засобів --актуальне завдання сучасної кібернетики. В даний час користувачамиобчислювальних машин і засобів, оснащених обчислювальними машинами,стають люди, які не є фахівцями в областіпрограмування. Особливо актуальною стала задача спілкування людини і
ЕОМ з появою мікропроцесорів і великих інтегральних схем. Новатехнологія зробила прогресивний вплив на психологію якрозробників сучасних багатопроцесорних ЕОМ. так і неспеціалістів -користувачів, які не підготовлені до того, щоб користуватися складноюфункціональної клавіатурою, мовою програмування, комплекснимизасобами керування технікою. Проблема мовного управління виникла,крім того, у зв'язку з тим, що в деяких областях застосування мовастада єдино можливим засобом оощенія з технікою (в умовахперевантажень, темряви або різкої зміни освітленості, при зайнятостірук, надзвичайної зосередженості уваги на об'єкті, який недозволяє відволіктися ні на секунду, і т.д.).

Масове впровадження різних побутових технічних засобів, що містятьмікропроцесори і інші великі інтегральні схеми, зокрема,складних мікрокалькуляторів, пег-зональних ЕОМ, також вимагає спрощення,
"демократизації" систем управління такими коштами. Ми повиннікористуватися новою складною технікою так само, як користуємося годинами,радіоприймачем, пральною машіной.Прібліжается час, коли будутьстворені "механічні слуги" людини - роботи, що допомагають у побуті,виконують роботу з прибирання приміщення, що надають допомогу всільськогосподарських і будівельних роботах і т.д. Безумовно, людинабуде зацікавлений у голосовому управлінні складною побутовою технікою і в кінцевому рахунку такими роботами.

Найближчі перспективи розвитку обчислювальної техніки, створеннявисокопродуктивних ЕОМ п'ятого покоління, надеденних здатністюаналізувати зорові та звукові образи, також
3вимагають того, щоб завдання автоматичного розпізнавання і синтезумовних сигналів не залишалися без уваги. Неможливо припустити,щоб обчислювальні системи мали продуктивністю в десятки ісотні мільйонів операцій у секунду і як ввідних пристроїввикористовували традиційну клавіатуру дисплея, перфострічки або перфокарти.

У першому розділі розглядається сучасний стан автоматичногорозпізнавання і синтезу мовних сигналів (за публікаціями до 1981 р.включно). Відзначається зростаючий потік публікацій з цимпроблем, причому багато робіт присвячені питанням практичногопобудови систем розпізнавання та синтезу мови на спеціалізованихмікроЕОМ. У цій монографії не знайшли відображення роботи,опубліковані після 1981 р., тому що матеріали до публікаціїготувалися в основному до бтого часу. (південно лише відзначити, що за 1982і 1983 рр.. практичний напрямок робіт в області автоматичногорозпізнавання і синтезу мови інтенсифікувався. У нашій країніз'явилися перші промислові системи автоматичного введення/виводумовної інформації - "ІКАР", розроблена в НІІСчетмаше (м. Москва), СРД-
1, виготовлена в ОКБ Інституту кібернетики АН УРСР ім. В.М.Глушко-ва, і
Марс, створена Мінським відділенням ЦНДІЗ. Ці системи, широкодемонструвалися на ВДНГ та інших промислових виставках, володіютьприблизно схожими технічними характеристиками-вони навчаються,настроюються на голос конкретного користувача і словник, що досягаєЙоо слів, і забезпечують точність розпізнавання близько 95 & і реальнечас розпізнавання. В якості методу, що забезпечує нелінійнепорівняння вхідних реалізації і еталонів, використовується динамічнепрограмування. Великі успіхи в області створення систем такого родудосягнуті також у QUA та Японії. У США з 1982 р. почав виходитиспеціальний журнал Speech Technology (Мовленнєва технологія), в якомуописуються області застосування промиіленних систем розпізнавання ісинтезу мови, їх тестування, технічні характеристики ітехнологічні особливості.

У монографії основна увага приділяється опису системрозпізнавання мови, що працюють без попередньої установки надиктора. Автори протягом ряду років спільно працювали над цієюпроблемою в Обчислювальному центрі Академії наук СССР.Ідеологіянеадаптівних систем розпізнавання склалася ще в 60-і рр.-у спільнихрозробках Обчислювального центру та Інституту проблем передачіінформації АН СРСР. Але основні результати, описані в книзі, отриманіавторами в кінці 70-х - початку 80-х рр..
Глава 1

СУЧАСНІ ТЕНДЕНЦІЇ РОЗВИТКУ проблеми мовної Взаємодія з

«Челсі ВЕК - ЕОМ»

§ II Деякі аспекти дослідження мовних сигналів на сучасному етапі

У 70-х рр.. підвищився інтерес до проблем дослідження мови. Це пов'язано із збільшеними успіхами дискретної обробки сигналів на сучасній мікроелектронної техніці і широким поширенням мiкроЕОМ та мультімікроцессорньк систем, поява яких означало революцію в інформатиці. Наукові досягнення в області автоматичного розпізнавання і синтезу мови поставили питання про практичне спілкуванні людини зі світом потужних за своєю продуктивністю і можливостям мікроЕОМ мовою, близькому до природного. Складна техніка наблизилася до користувача-неспеціалістові, і користувач "зажадав", щоб спілкування про ЕОМ (зокрема, з інформаційними і керуючими ЕОМ) проводилося на більш звичному йому природною мовою.

У зв'язку з цим привернули увагу роботи зі створення перших промислових пристроїв обмеженого мовного введення і виведення інформації, а також досить широко розрекламованих систем автоматичного розуміння природної, злитий мови, над якими працювали в ОДА протягом I972-I976 рр.. за проектом Айра.

Слід зазначити, що автоматичне розпізнавання і синтез мови - не єдине в мовних дослідженнях, що привертає увагу фахівців і можливих споживачів.

Поряд з автоматичним розпізнаванням змісту повідомлення і синтезом мови (проблемами, яких в основному і присвячена ця монографія), дослідники мовних сигналів успішно вирішують завдання: автоматичного розпізнавання особистості мовця (тобто вирішують задачу, хто це сказав), автоматичного верифікації мовця (підтвердження, чи той конкретна людина вимовив цю фразу ), оцінки по голосу емоційного стану оператора, розпізнавання мовлення, виголошуваної в іншій повітряному середовищі
(гелієва мова), визначення по мовного сигналу патології органів речеобразованія, розробки більш досконалих методів викладання іноземних мов (вироблення правильного акценту й інтонації по картині
"еталонних" параметрів мовного сигналу), допомоги особамз дефектами органів слуху та речеобразованія, очищення та аналізузатуплений мови, створення систем вузькополосної перешкодостійкою зв'язку, атакож ряд інших завдань. Розгляд всіх цих проблем не входило вплани авторів, які обмежуються тут простим їх перерахуванням.

У цьому розділі коротко розглядаються основні публікації зпроблем автоматичного розпізнавання і синтезу мови, що з'явилисяв I976-I98I рр.. Відомості про більш ранніх роботах у цій галузі можнаотримати з [58,79,8 б].

У СЮ9] наводяться основні лабораторії США, Великобританії, Франції та
Західній Німеччині, тематика яких пов'язана з автоматичним розпізнаванням і синтезом мови. В [127] повідомляється, що проблема побудови машин,здатних сприймати мову людини (бажано з використанням пра 'лприродної мови), залишається головним напрямком мовних досліджень,однією з ключових проблем кібернетики. В [144] відзначаєтьсязростаючий інтерес до цієї проблеми, пов'язаний зі збільшенням попитуна малі пристрої розпізнавання слів і появою нових компаній,активно беруть участь в створенні промислових систем автоматичногорозпізнавання мовлення на новій технологічній базі.

У нашій країні спостерігається широкий інтерес до проблеми дослідженнямовних сигналів. Регулярно проводяться всесоюзні школи-семінари зпроблеми автоматичного розпізнавання слухових образів (APGO). У кожнійсоюзній республіці існують лабораторії або групи, які вирішують цізавдання.

Стало традиційним класифікувати системи автоматичногорозпізнавання мовлення на адаптивні, що працюють з підстроюванням під диктораі словник, і неадаптівние, що забезпечують роботу з довільнимдиктором-носієм норми вимови даної мови. До практичнихсистем першого типу відносяться vip-ЮО, WRS і ІКАР, СРД-1, МАРС, донеадаптівним - експериментальні системи лабораторії Bell, ВЦ і ІППІ АН
СРСР, пристрій фірми Dialog Systems. Слід зазначити, щосистеми автоматичного розпізнавання мови поки не набули широкогопоширення, хоча і випускаються з 1973 р. серійно.

Більш доведеними до рівня комерційних зразків є системиавтоматичного мовного відповіді, тобто системи, засновані наавтоматичному синтезі мови. Промисловість США і Японії випускає великимипартіями синтезатори мови, оріентірованние на найрізноманітнішезастосування, - від дитячих іграшок, оснащених голосовим висновком, до потужнихінформаційних систем, що відповідають голосом по мовному запитукористувача. В основі сучаснихбкомерційних систем мовного відповіді лежать три основні способи синтезу --безпосереднє кодування мовної хвилі (дискретизація і стиснення),формантний синтез і синтез, заснований на лінійному прогнозі [5].
(Детальний опис досягнень науки і промисловості в областіавтоматичного синтезу мови данов § 1.4).

У п'ятому розділі докладно розглядаються особливості розробленоїавторами експериментальної запитної системи мовного введення, що працює з проблемно-орієнтованою мовою, словниковий запас якого становить 120слів. Система базується на апаратурно-програмному методірозпізнавання, що використовує інформативні ознаки мовних відрізків
^ 23,13,9 ?].

§ I. W l •/• л-номери відповідно ознаки, сегмента в слові і слова у фразі.

Процес розпізнавання слів починався з вибору еталонів-претендентів,ідентичних вхідний реалізації, та кодів макровре-ненной структури івідмінних від неї числом квазіфонетічвскіх сегментів на величину не більшезаданого порогу. Найбільш ймовірні пари гіпотез про слово приймалисяметодом динамічного програмування. При цьому враховувалися лексичніобмеження на місце слова у фразі. Далі блок семантико-синтаксичногоаналізу приймав рішення про справжню послідовності слів у фразі. При роботі з шістьма операторами і навчання системи на кожному з нихнадійність розпізнавання слів склала 8836, а надійність розпізнаванняфраз за рахунок блоку лінгвістичного аналізу - 95%. Точність верифікаціїдиктора по довільній фразі - 96%. Система стійка до зовнішніх шумівдо 65 дБ.

Інша система, розроблена в Інституті систем керування АН
ГрузССР, здатна працювати при більш високому призначене шумів (до 100 дБ івище) СЗб]. Основною особливістю цієї системи розпізнавання фраз,вимовних з паузами між словами, була наявність комплексуперешкодозахищеність датчиків, який забезпечив прийнятне ставленнясигнал/шум на вході системи розпізнавання. В якості приймача мовноїінформації застосовувався ларінгофон Лем-3, а також додатковіпомехозащітние ознаки усного мовлення, у якості яких використовувалисяартикуляцій характеристики ре-чеобразованія. Безконтактні датчикидозволяли виділяти:

- ознака, що відбиває зміну величини розчину ротової щілини учас виголошення неогубя ° нних звуків;

- ознака ступеня огубяенія;

- ознака швидкості повітряного потоку у потовій отвору [42].
Зак.480
17

Вивчення властивостей мовного сигналу в просторі обраних ознакдозволило розробити процедуру опису слів, що забезпечуєвідновлення як макровременной (мається на увазі пос-хедовательностьдзвінких і глухих ділянок, а також пауз), так і квазіфонемной структуримови. При випробуванні систем [зь,??] Виявилася висока точністьрозпізнавання фраз. На жаль, обидві системи реалізовані на ЕОМ И-200,володіє малим об'ємом оперативної пам'яті і слабким швидкодією,через що час розпізнавання фраз було в 30 - 50 разів більше реального.

У ранках традиційного апаратурно-програмного напрямкиавтоматичного розпізнавання мовлення ведуться роботи в ОЦ та Інститутіпроблем передачі інформації АН СРСР [13,67,6?]. В основі методу лежитьалгоритмічна обробка виділяються спеціальною апаратурою інформативнихпараметрів коротких відрізків мовного сигналу (сегментів тривалістю 10 -
20 мс). Послідовність цих відрізків і складає висловлювання,яке потрібно дешіфріровать. Параметри (ознаки) сегментівхарактеризують (більшою чи меншою мірою) параметри речеобразующеготракту людини, що визначають особливості породжуваних звуків.

У Cl3] розглянуті алгоритми розпізнавання назв чисел від нуля доста, причому система передбачає реальний час розпізнавання ідовільного диктора. Алгоритм розпізнавання двоступінчастий і складаєтьсяз блоків розпізнавання і підтвердження фонетичної структури
(верифікації). Якщо гіпотезіруемое слово не підтверджується (блокомверифікації), то вхідні реалізація порівнюється з іншими словами,близькими до неї в просторі ознак, або подається сигнал перепитати.
При розпізнаванні двухсловних сполучень друге слово аналізується з кінця в напрямку до його початку. Варіанти вимови, на підставіяких створювався алгоритм, досліджувалися на матеріалі близько 2200реалізації назв чисел, вимовних 20 дикторами. У результаті аналізуотримані варіанти вимови двозначних чисел. Багато хто з нихвимовляються порівняно одноманітно і розрізняються ступенем редукціїненаголошених голосних, ступенем аффріцірова-ня м'яких вибухових, наявністю або відсутністю смичек перед Co-art і т.д. В інших числах можеістотно порушуватися фонетична структура, пропуски окремихсогласних.В умовах, коли можливо безліч варіантів вимовляння,алгоритм повинен використовувати лише найбільш вживані варіанти, вяких зберігаються "оперні" звуки - ударні голосні, щілинні, вибухові, а також початкові та кінцеві звуки.
I &

У OS?] Розглянуто використання мовного Управління у підсистемі АСУПна базі міні-ЕОМ. Апаратурно програмна система, розроблена в
Львівському ордена Леніна державному університеті ім. І. Франка, вжеексплуатується. Система використовує міні-ЕОМ ЄС-1010 в режимі реальногочасу і паралельної роботи близько 90 виробничих завдань. Ценакладає жорсткі умови на об'єм оперативної пам'яті, яка використовується дляпрограм обробки мовного сигналу (усього 10 Кбайт). Словник системи
40 слів, які можуть бути організовані в командні фрази (5 слів уфразою). Використовується дев'ять типів запиту, прикладами яких можуть бути:
"оперативне зведення випуску", "ресурси зміни", "вихідні характеристикиділянки першого налаштування "і т.п. Через жест-'ких ресурсів пам'яті системаорієнтована на роботу з одним диктором, що сформували свої еталони іщо мають свій пароль. Робота системи в приміщенні машинного залу з рівнемшумів 68-75 дБ показала надійність розпізнавання фраз, що перевищує У0%, апісля перепитав - більш 9Ь%.

Недостатня надійність розпізнавання з першим ^ ^ виголошенняобумовлена в основному спрощеннями алгоритму розпізнавання, наякі довелося піти заради економіі'места і оперативної пам'яті.

Апаратурно програмне напрямок представлений також системою [33],яка на першому рівні розпізнавання виявляла в словах сегменти ікласифікувала їх за способом утворення звуків на голосні, щілинні,Co-art, тремтячі, а також гол?? хіе і дзвінкі. На другому етапідеякі звуки класифікувалися усередині даної групи за місцем їхосвіти. У результаті кожному сегменту привласнювалася Кодовапослідовність, що займає I байт. Чотири старших розряду кодувказували групову приналежність даного звуку, чотири молодшихрозряду визначали тип звуку усередині даної групи.

Для розпізнавання слів утворюється елементарна послідовністьпсевдослогов, порівнюється з еталонними послідовності. Приекспериментальної перевірки роботи система розпізнавання на матеріалі 50 і
200 слів за участю трьох дикторів вона показала 93 і 84% точностірозпізнавання соответственно.Аналіз помилок показав, що в більшійчастини вони викликали неправильними формуваннями сегментів контрольноїреалізації або еталонів, що виникають при спрацьовування системи до початкувиголошення від сторонніх шумів або шумів дихання.

Інтерес до побудові систем розпізнавання мови, що працюють збезліччю дикторів, стали проявяять і дослідники, тради-
19стане інституційно працювали з одним диктором. Т. К. Винцюк і співавтори [21] показали,що в рамках існуючої системи однодікторной фонемного розпізнаваннямови може бути створена многодікторная система розпізнавання, якуавтори назвали кооперативної, оскільки система попередньо навчається за вибіркою кооперативу дикторів. Основні результати експериментів: при індивідуальному навчанні системи розпізнавання мовлення середнянадійність розпізнавання по чужих дикторам не перевищує 80% (на словникуз 100 слів);

- при кооперативному навчанні середня надійність розпізнавання длячотирьох членів кооперативу складаємо 98 ^, що цілком прийнятно дляпрактичного використання;

- кооперативне навчання сприяє істотного перевищеннянадійності розпізнавання мовлення осіб, які не брали участь в отриманні навчальноївибірки (для двох нових дикторів середня надійність розпізнавання 97 і
92 %).

S 1.3. Розвиток систем розпізнавання/розуміння злитий мови

Завдання спілкування людини і ЕОМ за допомогою природної, злитий мовивиявилася набагато більш складною, ніж побудова систем розпізнаванняізольованих слів. Однією з перших практичних систем розпізнаванняпослідовності злитих словосполучень (п'ять слів вихідного словника)з'явилася система фірми KdC. описана раніше.

Надалі будемо розрізняти системи розпізнавання * і системирозуміння злитий мови. У перших, як правило, розглядаються фрази,складені з послідовності слів, між якими синтаксична ісемантична зв'язок або відсутня, або занадто жорстка (використовуєтьсяавтономна граматика). Системи розуміння, на відміну від системрозпізнавання, при декодуванні вхідного висловлювання використовують вищілінгвістичні рівні мов, близькі до природних, працюючи зфразами, в яких припустимі стилістичні помилки, безглуздізвукові поєднання, довільні паузи і вигуки.

При побудові систем розуміння мови необхідно в більшій мірі,ніж при створенні систем розпізнавання злитий мови, використовувати досвідфахівців з штучного інтелекту, а також залучатиспеціальні знання про синтаксис, семантику і прагматиці мови спілкування.
У той же час відзначимо, що поділ на системи автоматичного розпізнаванняі розуміння є 20досить умовним і фактично визначається коефіцієнтом розгалуження,який показує, скільки можливих слів допускається після кожного словависловлювання. У сучасних системах розпізнавання злитий мови середнійкоефіцієнт не перевищує, як правило, 30 (в системі Nac-ISQ), а всистемах розуміння цей коефіцієнт сягає 200-300 (безглуздізвукосполучення типу ЦММ ... , Еее ... і т.д., а також паузи івигуки можна розглядати в СПР як можливі варіанти слів).

Так як автоматичне розпізнавання 300 - 300 слів у безперервномумовному потоці - складне завдання, веди використовувати звичайні математичніметоди розпізнавання, то для її рішення і залучаються вищі рівнізнання про мову (синтаксис, сематіка і прагматика), а також іншіспособи, що забезпечують звуження числа альтернатив на кожному кроціприйняття рішення про слово, що використовуються зазвичай в задачах штучногоінтелекту (ШІ). У зв'язку з цим в системах розуміння говорять просемантичної точності розпізнавання сенсу фрази, коли не всіскладові (слова) можуть бути розпізнані правильно.

Перейдемо до розгляду систем розпізнавання злитий мови. Якправило, такі системи працюють за принципом фонемного розпізнавання, відточності якого залежить загальна надійність роботи системи. Однією знайбільш цікавих вітчизняних систем з навчанням на конкретногодиктора і словник є система, побудована в Інституті кібернетики
АН УРСР ім. В.М.Гяуі-кова [l9, 20], розвитком якої стала кооперативнасистема розпізнавання рвчі [213.

В основу цієї системи покладено математичну модель мовного сигналу, у якій кожній фонем відповідає отриманий алгоритмічно (наоснові аналізу поточної автокореляції сигналу, параметрів лінійногопередбачення і поточного енергетичного спектру) певний набірбінарних ознак (двійковий код). Модель враховує коартікуляціоннивефекти, зміна тривалості фонем і динаміку інтенсивності сигналу.
Модель автоматичного розпізнавання Інституту кібернетики АН СРСРвикористовує аналіз сигналу за допомогою синтезу.

Деякий процеср породжує з елементарних еталонних сигналів попевними правилами еталонну злиту мова (загальний для всіх слів алфавітеталонних елементів містить близько 80 елементів кодів). Розпізнаваннязлитий рччі зводиться до необхідності знаходження найбільш правдоподібногоеталонного сигналу злитий мови.
21

У цій моделі автоматично знаходяться межі окремих фонем, паузи,тип і загальна кількість фонем в розпізнається послідовності проурахуванням апріорної ймовірності частоти зустрічальності фонем. Еталонний сигналзлитий мови формується з еталонних сигналів окремих слів шляхомнелінійного перетворення початкових словесних еталонів. При цьомуеталонні сигнали слів складалися в еталонну злиту мова так, щопаузи між словами мали різну тривалість (у тому числі/ie інульову), а тривалість елементів фрази змінювалася плавно. Параметрамиграматики, що породжує еталонні фрази, були: алфавіт еталоннихелементів, акустиці-фонетичні транскрипції слів, правила стикування сліву фразі, правила нелінійної деформації сигналів вздовж осі часу ідеякі інші параметри.

Для експериментів з розпізнавання злитий мови (словник включав 200слів) були отримані 1000 реалізації цих слів, сказаних однимдиктором (навчальна вибірка). При випробуваннях система дала 0,5% помилок і 3%відмов при розпізнаванні слів в злите потоці. Розширення словника до 300слів збільшило кількість помилок до 1%, причому відмов було 3,5%. Приекспериментах зі словником з 100 слів вдалося отримати часрозпізнавання (на ЕОМ БЕСМ-6), рівне I с на I слово [193 • Відзначимо,що близький до цього метод використовується в системах розпізнавання злитиймови (СРСР), розроблених у Відділі обчислювальної наукидослідного центру фірми 1УИ. У зв'язку з тим, що дана фірну
(так само, як і фірма Sperry Univac) активно займаєтьсядослідженнями з розпізнавання злитий промові після завершення проектуarpa, розглянемо ці роботи більш детально.

У С39] описана СРСР, в основі якої лежить модель акустичногоканалу, що забезпечує автоматичне породження всіх можливихповерхневих форм передбачуваного висловлювання спільно зймовірностями їх породження. Це породження здійснюється за допомогоюакустико-фонологічним правил (АФП). доданих до базової ланцюжкувисловлювання. АФП враховують у злитий мови такі Фонологічні явища,як пропуски, вставки і заміни окремих фонем всередині слів, підвищений тонмови, діалектні особливості, зміни на стиках слів і т.д.

Зручною структурою для виявлення поверхневих форд висловлюванняз'явився спрямований граф, дуги якого позначені можливими звуками.
Кожному вузлу графа відповідає розподіл ймовірностей, зазначених навиходять дугах. Дуги на кінцях графа, що відповідає сукупності всіхповерхневих форм виголошено-
22ного слова, мають пов'язані з початковими і кінцевим станом-яни умовиз'єднання, що визначаються фонологічними явищами на стиках слів.

Мова системи визначається автоматною граматикою, представленої графом і включає 250 слів. Для розпізнавання використовувався лінгвістичнийдекодер-алгоритм послідовного декодування, що забезпечуєзнаходження пропозиції про максимальну апостеріорного ймовірністю попослідовності ланцюжки фонем, що надходять з виходу спеціальногоакустичного процесора. Точність декодування висловлювань наконтрольної вибірці склала (за даними на серпень 1977 р.) 95% при 6%помилкової інтерпретації, які були викликані 0,6% помилок неправильногорозпізнавання слів. Слід зазначити, що розглянута системабула сіяьно модифікована за останні три роки: спрощено акустичнийпроцесор, з якого биві зняті функції фонемний сегментації тамаркування. Позначилося можливим, використовуючи алфавіт з 33 фонем,маркувати ними десятіміллісвкундние відрізки мовного сигналубезпосередньо за акустичними данним.Преімущество такого поданняавтори роботи [Ю5Д вбачають у тому, що, по-перше, інформація прозвуці, розподілена по довжині фонем, виявляється більш корисною длярозпізнавання, тому що при цьому зростає кількість інформації,надходить від акустичного процесора до лінгвістіческоу декодеру. По -друге, сегментація та маркування (ухвалення рішення про звук) рознесенів часі, і лінгвістичний декодер може, грунтуючись на структуріокремих слів, під час порівняння вирішити, чи представляє короткамаркована ланцюжок десятіміллісекунцних сегментів істинний звук абож це - помилкова помилкова ставка.

Подальше вдосконалення сантісенундного акустичного процесора (asAJ) за рахунок використання 45 еталонних фонетичних позначок замість 33дозволило підвищити точність класифікації (мовою зі словником з 250слів) до 98,8% на контрольному матеріалі 100 пропозицій [l07]. Слідвідзначити, що ще більш досконалий процесор (wbap), на якомуотримані найкращі результати розпізнавання (0% помилок), використовує лишеп'ять параметрів, один з котррих - короткочасні зміни загальноїенергії сигналу, а чотири - відображають параметри голосних і описані раніше в [l4l]. Цей процесор здійснює акустичне порівняннябезпосередньо, іспользуч величини акустичних параметрів, а нефонетичні мітки, пов'язані з сантісекунднимі відрізками. Для кожногослова використовується модель з кінцевим числом станів, якапороджується алгоритмічно з відображеного
23вимови. Число станів моделі дорівнює довжині цього проголошення всантісекундах. У моделі забезпечуються переходи зі стану до цього жстану, до сусіднього і через одно.С кожним переходом пов'язане пятімерноегаусівських розподіл у просторі первинних параметрів. Середнізначення та дисперсії вихідних розподілів, а також перехідніймовірності формуються автоматично при навчанні на додатковихреалізаціях слів при формуванні узагальнених еталонів за допомогою алгоритму
Вктер-бі [39].

У процесорі wbap використовувана статистика заснована скоріше наособливості слів, ніж на особливості звуків.

Слід зазначити, що за I976-I978 рр.. робилися спробизбільшити обсяг використовуваного в СРСР фірми IBh словника до 1000 слів
(тезаурус лазерних патентів). Попередні результати випробувань цієїсистеми описані в [106). На тестовому безлічі фраз, куди входило
486 слів, помилка розпізнавання слів склала 33,1%, причому жодна зй0 контрольних фраз не була визначена правильно - програма розпізнаванняробила помилку хоча б в одному слові кожної фрази. Розвиток цієї системи
[107] дозволило за рахунок збільшення кількості фонетичних позначок до 52знизити помилки в розпізнаванні слів до 20%.

В [108,109] розглянуті подальші поліпшення цієї системи, що дозволилизменшити кількість помилок при розпізнаванні слів за рахунок використаннябільш досконалого сантісекундного акустичного процесора сзар-зоо,в якому число еталонних фонетичних позначок було розширено до двохсот.
При розпізнаванні 50 п "едл ° жений, що включають 980 слів, невірно розпізнано
87 слів, в числі яких 34 слова, що склали односкладові слова типу
"of", "а", "are", "as" та ін Перехід до роботи цієї системи збезліччю дикторів описаний в [l59]. Робота з новими дикторамиреалізована за рахунок використання автоматичної селекції акустичнихеталонів, виконується двома різними способамі.Одін з методів, воснові якого лежить процедура Вітербо З 39], реалізований за допомогоюсантісекундного акустичного процесора TPIVIAI [l07], а інший,заснований на алгоритмі кластеризації, використовує акустичнийпроцесор autociust. (В першому методі використовувалося 85 еталонів, у другому
- 20D.) Точність розпізнавання слів склала при використанні першого алгоритму 65%, а другий - 90%. У 1983 р. була публікація однієї фірмипро розпізнавання словника ділового листування загальним обсягом 5000 слів.

Над проблемами розпізнавання злитий мови продовжує працювати фірма
Sperry Univas, що брала участь у проекті Айра. Ця
24фірма розробила з "стеми автоматичного распозньванія слів, словосполучень і природних пропозицій (l74]. На основі спектрального аналізу талінійного передбачення в спектральної про-дасть звуки класифікувалисяза способом і місцем утворення. Система була випробувана на словнику з 31слова двома дикторами. Точність розпізнавання ізольованих слів привикористанні синтаксису завдання склала 95%. Попередні результатиз розпізнавання злитий послідовності слів, вимовлені трьомадикторами, склали від 54 до 74% для завдання з огранічечним порядкомпроходження слів. Передбачалося, що в подальшому будуть використаніакустико-фонетічзскіе і фонологічно правила, нормалізація дикторськийвимови, просодіческіе характеристики мови. Передбачалося також, щобудуть використані більш складні процедури для синтаксичного ісемантичного аналізу. У 1977 р. система працювала з двома словниками --з 36 (алфавіт-но-цифровий словник) і 64 слів (словник мовногоуправління) [123, 153]. Для обох словників точність розпізнаваннясклала 95 ^, а середньої точності розпізнавання слітялс словосполучень -
88%. Подальші розробки включали розширення словникового складу системи,числа типів речень, використання правил фонетичної і словеснійверифікації.

В [l54] повідомляється, що система Sperry Univac. була модернізованадля пошуку та верифікації ключових слів в потоці злитий мови. У ційсистемі використовувалися вимірювані на десять-тіміллісекундних інтервалахпараметри мовного сигналу, що провів через телефонний канал.
Дослідниками був обраний досить потужний набір параметрів-
Безпосередньо з мовної хвилі визначилася частота основного тону.
Спектральний аналіз за допомогою швидкого преобраеозанія Фур'є (БПД) дозволявотримати наступні ознаки мовних відрізків: загальну енергію в смузі
100 -8600 Гц, енергію сонорні (100 - 3000 Гц), високочастотну енергіюсонорні (650 - 3000 Гц), низькочастотну енергію (JOO - 600 Гц), різницяенергій низьких і високих частот 1кГц) діапазонах. Ці параметри виділяються в реальному масштабі часу зсигнал, що надходить з АЦП в міні-ЕОМ, яка має середнійшвидкодією 600 тис. операцій в I с. Параметри (число нульовихперетинів і амплітудне значення сигналу на інтервалі аналізу для кожногоз діапазонів) формуються програмно, і їх значення дають можливість грубокласифікувати сегменти на 10 різних типів - пауеи (глуха смичка),наявність дзвінкою смички, що характеризують дзвінкі вибухові б, д, г, сонорніприголосний, глухий фрікатівний (переднеязичний або заднеязичний), носової,свистячий, голосний високого йди низького підйому. Надаліпроводиться пере класифікація сегментів на 59 класів, деякі з нихперетинаються в просторі ознак.

На другій стадії до середнього ділянці сегментів застосовують порівняння зеталонами (цих еталонів для кожного класу сегментів може бути до 100).
При порівнянні середній ділянку сегмента по-ступ на вхід реалізаціїпорівнюється з безліччю еталонів, які підучити від спеціальнонавчених дикторів. Використання сегментації I рівня дозволяє, якнаголошується в [l79], прискорити прощую сегментацію в п'ять разів у порівнянніз уніфікованою, заснованої. виключно на коефіцієнтах лінійногопрогнози.

Як вже відзначалося, ключовою проблемою систем розуміння Речі єверифікація сдоврсіьк гіпотез.подожданних различ-іимі джерелами знань.
Блок словесної верифікації повинен оце-нвдь, наскільки акустичні данівхідний реалізації відповідають фонетичної транскрипціїгіпотезіруеного слова.
2S

Згідно з оцінкою, словесний Верифікатор відкидаєбільше числі гіпотезірованних слів, зберігаючи можливі пра ~ вільні, щобзгодом відібрати єдине за допомогою інфор ~ мації вищих рівнів.

У Hearsay-П слова породжуються або словесним гіпотезато-ром знизувгору (блоком POMOW), або МЕЖАХ називаються зверху вниз семантико -синтаксичним блоком sass. Блок словесної верифікації wizardобробляє гіпотези про слова знизу вгору, використовуючи акустичнуінформацію та результати автоматичної сегментації. Кожен сегментвисловлювання представлений вектором фонемний ймовірностей (тобто з кожнимвідрізком висловлювання пов'язуються певні звуки, якимприсвоюються якісь ваги), Кожне слово словника записується еталоннимграфом можливих фонетичних вимовляння, що враховує всіальтернативні варіанти проголошення. Однорідна модель, яка використовуєтьсяблоком словесної верифікації, дає можливість знайти оптимальне збігодного з еталонів (відповідне колії на одному з еталонних графів) і ділянки вхідний реалізації, відповідного слова.

У системі Hearsay-П при словесної верифікації стики між словами не розглядаються, робиться лише їх внутрішня обробка. wizard намагаєтьсяверифікувати слова, як ніби вони перебувають в ізоляції.

При верифікації слова обробляються знизу вгору таким чином:передбачені моменти початку і кінця слова зв'язуються звідповідними сегментами висловлювання bseg і eseg. Досліджуються всі шляхив еталонних графах можливих слів, які збігаються з відрізками івхідний реалізацією. Порівнюються з еталонами відрізки, які починаютьсяв (baeg-I: beeg + I) і закінчуються в jeseg-II eeeg + I (, тобтопаралельно розглядаються дев'ять можливих ділянок вислови,що призводить до дев'яти оптимальним шляхами на еталонних графах, зяких вибирається той. оцінки якого найбільші, або найбільшвідповідають розглянутого ділянки. Зрушення на один сегмент вправоабо вліво дозволяє уникати помилок при поданні вхідного,висловлювання (акустичних даних) різними джерелами знань. Урезультаті блок словесної верифікації може змінювати час словеснихгіпотез, а також їх оцінки. Слід зазначити, що якщо в проектах ВШ
(Speechlis і HWIM) йде безпосередній перехід від фонетичногоопису до словесного, то в Hearsay-П використовується ще проміжний,складовий рівень між словами і звуковими сегментами. Для підтримкисловесних гіпотез використовуються так звані типові склади, слоготіпи
(syltypes).
Ццея слоготіпов зводиться до того, що склади, які мають схожі сегменти
(наприм