ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Мовні технології
         

     

    Інформатика, програмування

    Перспективи мовного інтерфейсу

    Писати про мовленнєвий інтерфейсі складно. З одного боку, темаабсолютно не нова, з іншого-активний розвиток і застосування цієїтехнології тільки починається (вкотре). З одного боку, встиглисформуватися стійкі стереотипи і упередження, з іншого --незважаючи на майже півстоліття наполегливих зусиль не знайшли дозволупитання, що стояли ще перед родоначальниками мовного введення. Як би тамне було, продовжаться пошуки такого інтерфейсу, який влаштував бивсіх. Власне кажучи, це саме те, до чого людство завждипрагнуло в спілкуванні з комп'ютером.

    Дослідники недалеко просунулися за останні десятки років,що змушує деяких фахівців вкрай скептично ставитися досамої можливості реалізації мовного інтерфейсу в найближчому майбутньому.
    Інші вважають, що завдання вже практично вирішена. Втім, всезалежить від того, що слід вважати рішенням цього завдання.

    Побудова мовного інтерфейсу розпадається на три складові.

    I. Перше завдання полягає в тому, щоб комп'ютер міг «зрозуміти» те, що йому говорить людина, тобто він повідомлений вміти витягати з промови людини корисну інформацію. Поки що, на нинішньому етапі, ця задача зводиться до того, щоб витягти з промови смислове її частина, текст (розуміння таких складових, як скажімо, інтонація, поки взагалі не розглядається). Тобто ця задача зводиться до заміни клавіатури мікрофоном.
    II. Друге завдання полягає в тому, щоб комп'ютер сприйняв сенс сказаного. Поки мовне повідомлення складається з якогось стандартного набору зрозумілих комп'ютера команд (скажімо, які дублюють пункти меню), нічого складного в її реалізації немає.

    Однак навряд чи такий підхід буде зручніше, ніж введення цих же команд з клавіатури або при допомогою миші. Мабуть, навіть зручніше просто клацнути мишкою по іконі програми, що чітко вимовляти (до того ж заважаючи навколишнім), «Старт! Головне меню!

    Бери! »В ідеалі комп'ютер повинен чітко« осмислювати »природну мова людини і розуміти, що, наприклад, слова

    « Досить! »І« Кінчай роботу! » означають в одній ситуації різні поняття, а в іншій - одне й те саме.
    III. Третє завдання полягає в тому, щоб комп'ютер міг перетворити інформацію, з якою він оперує, мовне повідомлення, ясна людині.

    Так от, із цих трьох завдань досить ясне і остаточнерішення існує тільки для третьої. По суті, синтез мови - цесуто математична задача, яка в даний час вирішена надосить гарному рівні. І найближчим часом, швидше за все, будеудосконалюватися тільки її технічна реалізація.

    Перешкодою для остаточного вирішення першого завдання служитьте, що ніхто досі достеменно не знає, яким чином можнарозчленувати нашу мову, щоб витягти з неї ті складові, у якихміститься сенс. У тому звуковому потоці, який ми видаємо прирозмові, не можна розрізнити ні окремих букв, ні складів, про цебільш детально я Вам розповім пізніше .. В усякому разі, післяпопередньої тренування сучасні системи розпізнавання мовленняпрацюють досить непогано і роблять помилок не більше, ніж робилиоптичні системи розпізнавання друкованих символів років п'ять-сімтому.

    Що стосується другого завдання, то вона, на думку більшостіфахівців, не може бути вирішена без допомоги систем штучногоінтелекту. Останні, як відомо, поки що не створено, хоча великінадії покладаються на появу так званих квантових. Якщо жподібні пристрої з'являться, це буде означати якіснийпереворот в обчислювальних технологіях, і тоді, як знати, може бути
    , Багато теперішні підходи до мовного інтерфейсу взагалі виявлятьсянепотрібними.

    Тому поки доля мовного інтерфейсу - всього лише дублюванняголосом команд, які можуть бути введені з клавіатури або за допомогоюмиші. А тут його переваги дуже сумнівні. Втім, є однаобласть, яка для багатьох може виявитися дуже привабливою. Цемовної введення текстів в комп'ютер. Дійсно, ніж стукати поклавіатурі, набагато зручніше продиктувати всі комп'ютера, щоб вінзаписав почуте в текстовий файл. Тут зовсім не потрібно, щобкомп'ютер «осмислював» почуте, а завдання перекладу мови в текстбільш-менш вирішена. Недаремно більшість що випускаються нині програм
    «Мовного інтерфейсу» орієнтовані саме на введення мови.

    Хоча і тут є місце для скепсису. Якщо читати вголос, чітковимовляючи слова, з паузами, монотонно, як це потрібно для системирозпізнавання мови, то на машинописних сторінку в мене піде п'ятьхвилин. Друкую на клавіатурі я з тією ж швидкістю. Але складаю, принаявності натхнення, рази в два-три повільніше, а без нього - повільнішераз на п'ять, так що швидкість «введення» і при диктовку і під час роботи наклавіатурі в мене абсолютно однакова. Але ось складати і одночасновимовляти сочиняємо з чіткою артикуляцією, хоч убий, ті незможу.

    Перший - і, мабуть, основний - питання стосується областізастосування. Пошук додатків, де розпізнавання мови могло бпродемонструвати всі свої достоїнства, всупереч усталеній думці,є завданням далеко не тривіальний. Сформована практиказастосування комп'ютерів зовсім не сприяє широкому впровадженнюмовного інтерфейсу.

    Для подачі команд, пов'язаних з позиціюванням впросторі, людина завжди користувався і буде користуватися жестами,тобто системою «руки-очі». На цьому принципі побудований сучаснийграфічний інтерфейс. Перспектива заміни клавіатури і миші блокомрозпізнавання мови абсолютно відпадає. При цьому виграш від покладанняна нього частини функцій управління настільки малий, що не змігнадати достатніх підстав навіть для пробного впровадження вмасових комп'ютерах на протязі вже більше тридцяти років. Саметаким строком оцінюється існування комерційно застосовних системрозпізнавання мовлення.

    Для ілюстрації своїх аргументів можливо, декілька спірнихтверджень розгляну перспективу і основні проблеми застосуваннясистем мовного введення текстів, особливо активно просуваються востаннім часом.

    Для порівняння: спонтанна мова вимовляється з середньоюшвидкістю 2,5 слів у секунду, професійна машинопис - 2 слова всекунду, непрофесійна - 0,4. Таким чином, на перший погляд,мовної введення має значну перевагу по продуктивності.
    Однак оцінка середньої швидкості диктування в реальних умовах знижуєтьсядо 0,5-0,8 слова в секунду в зв'язку з необхідністю чіткогопроголошення слів при мовному введенні і досить високим відсоткомпомилок розпізнавання, що потребують корегування.

    Мовний інтерфейс природний для людини і забезпечуєдодаткову зручність при наборі текстів. Однак навітьпрофесійного диктора може не порадувати перспектива протягомдекількох годин диктувати малопонятлівому і німому (до цього я щеповернуся) комп'ютера. Крім того, наявний досвід експлуатації подібнихсистем свідчить про високу ймовірність захворювання голосовихзв'язок операторів, що пов'язане з неминучою при диктовку комп'ютерамонотонністю мови.

    Часто до переваг мовного введення тексту відносять відсутністьнеобхідності в попередньому навчанні. Однак один із самих слабкихмісць сучасних систем розпізнавання мовлення-чутливість дочіткості вимови-призводить до втрати цього, здавалося б,очевидної переваги. Друкувати на клавіатурі оператор навчається всередньому 1-2 місяці. Постановка правильної вимови може зайнятикілька років.

    Існує і ще одна неприємна обмеження застосовності,свідомо не згадується, на мій погляд, творцями систем мовноговведення. Оператор, що взаємодіє з комп'ютером через мовнийінтерфейс, змушений працювати в звуку ізольованому окремому приміщенніабо користуватися звукоізолюючим шоломом. Інакше він буде заважатироботі своїх сусідів по офісу, які, у свою чергу, створюючидодатковий шумовий фон, будуть значно ускладнювати роботумовного розпізнавача. Таким чином, мовний інтерфейс набуваєявне протиріччя із сучасною організаційною структуроюпідприємств, орієнтованих на колективну працю. Ситуація дещопом'якшується з розвитком віддалених форм трудової діяльності, протеще досить довго сама природна для людини продуктивнаі потенційно масова форма для користувача інтерфейсу приречена навузьке коло застосування.

    Обмеження застосування систем розпізнавання мовлення у рамкахнайбільш популярних традиційних додатків змушують зробити висновок пронеобхідності пошуку потенційно перспективних для впровадження мовногоінтерфейсу додатків за межами традиційної офісної сфери, щопідтверджується комерційними успіхами вузькоспеціалізованих мовнихсистем. Найуспішніший на сьогодні проект комерційного застосуваннярозпізнавання мовлення - телефонна мережа фірми АТ & Т. Клієнт можезапросити одну з п'яти категорій послуг, використовуючи будь-які слова. Вінговорить до тих пір, поки в його вислові не зустрінеться одне з п'ятиключових слів. Ця система в даний час обслуговує близькомільярда дзвінків на рік.

    Незважаючи на те, що одним з найбільш перспективних напрямківдля впроваджень систем розпізнавання мовлення може стати сфера комп'ютернихігор, вузькоспеціалізованих реабілітаційних програм для інвалідів,телефонних та інформаційних систем, провідні розробники мовногорозпізнавання нарощують зусилля з досягнення універсалізації ізбільшення обсягів словника навіть на шкоду скорочення процедурипопереднього налаштування на диктора.

    Навіть Білл Гейтс, що являє собою в певному сенсі ідеалпрагматизму, виявився не вільний від історично сформованихстереотипів. Розпочавши в 95-96 році з розробки власної універсальноїсистеми розпізнавання мови, він, окрилений першими і, мабуть,сумнівними успіхами, в 97-м проголосив чергову еруповсюдного впровадження мовного інтерфейсу. Засоби мовного введенняпланується включити в стандартну поставку нової версії Windows NT -чисто офісної операційної системи. При цьому керівник Microsoftвперто повторює фразу про те, що скоро можна буде забути проклавіатури та миші. Ймовірно, він планує продавати разом з коробкою
    Windows NT акустичні шоломи на кшталт тих, які використовують військовільотчики і пілоти «Формули 1». Крім того, невже в найближчому майбутньомуприпиниться випуск Word, Ехсеl і т. д.? Керувати графічнимиоб'єктами екрану голосом, не маючи можливості допомогти руками, більш ніжважко.

    Майбутнє мовного інтерфейсу не меншою мірою залежить відвміння сучасних дослідників і розробників не тільки створититехнологічну основу мовного введення, а й гармонійно злититехнологічні знахідки в єдину логічно завершену системувзаємодії «людина-комп'ютер». Основна робота ще попереду.

    Базова технологія

    Не слід плутати терміни «розуміння» і розпізнавання »мови. Утой час як другий безпосередньо відноситься до технологіїперетворення акустичних мовних сигналів в послідовністьсимволів машинної кодування, наприклад ASCII. першим на увазіаналіз більш високих рівнів (прагматичний, семантичний і т. д.) іформування на його основі подання про смисловому змістівисловлювання. Подальше розмежування задано зміцнилося завдякикомерційному успіху вузькоспеціалізованих систем, ні в найменшіймірою не потребують, наприклад, в модулі аналізу контекстувисловлювання.

    Традиційно процес розпізнавання мовлення поділяється накілька етапів. На першому - виробляється дискретизація безперервногомовного сигналу. перетвореного в електричну форму Зазвичайчастота дискретизації становить 10-11 кГц. розрядність-8 біт, щовважається оптимальним для роботи зі словниками невеликого обсягу (10 -
    1000 слів) і відповідає якості передачі мови телефонного каналу
    (ЗГц-3.4кГц). зрозуміло що збільшення обсягу активного словника маєсупроводжуватися підвищенням частоти оцифровки н в деяких випадках --підняттям розрядності.

    На другому етапі дискретний мовний сигнал піддається очищеннювід шумів і перетвориться в більш компактну форму. Стиснення здійснюєтьсяза допомогою обчислення через кожні 10 мс деякого набору числовихпараметрів (звичайно не більше 16) з мінімальними втратами інформації,описує даний мовний сигнал. Склад набору залежить відособливостей реалізації системи. Починаючи з 70-х років найбільшпопулярним методом (практично стандартом) побудови стисненогопараметричного опису стало лінійно-предиктивного кодування
    (ЛПК), в основі якого лежить досить досконала лінійна модельголосового тракту. На другому місці за популярністю знаходиться,ймовірно, спектральна опис, отримане за допомогою дискретногоперетворення Фур'є.

    Дуже хороші результати, проте, можуть бути досягнуті і привикористанні інших методів, часто менш вимогливих дообчислювальних ресурсів, наприклад кліпування. У цьому випадкуреєструється кількість змін знака амплітуди мовного сигналу ітимчасові інтервали між ними. Отримана в результатіпослідовність значень, що представляють собою оцінку тривалостейперіодів збереження знака амплітудою, не дивлячись напримітивність методу, досить повно представляє відмінності міжвимовними звуками. На такому методі передобробки заснована, вЗокрема, система розпізнавання мови, розроблена в кінці 80-х в
    НДІ рахункового машинобудування (Москва).

    Тимчасової (10 мс) інтервал обчислення був визначений і обгрунтованийекспериментально ще на зорі розвитку технології автоматичногорозпізнавання мовлення. На цьому інтервалі дискретний випадковий процес,представляє оцифрований мовний сигнал вважається стаціонарним, тоє на такому часовому інтервалі параметри голосового трактузначно не змінюються.

    Наступний етап-розпізнавання. Збережені в пам'яті комп'ютераеталони вимови по черзі порівнюються з поточним ділянкоюпослідовності десяти мілісекунд векторів, що описують вхідниймовний сигнал. Залежно від ступеня збігу вибирається найкращийваріант і формується гіпотеза про зміст висловлювання. Тут мистикаємося з дуже суттєвою проблемою - необхідністюнормалізації сигналу за часом. Темп мови, тривалість вимовиокремих слів і звуків навіть для одного диктора варіюється в дужешироких межах. Таким чином, можливі значні розбіжностіміж окремими ділянками зберігається еталона і теоретичнозбігається з ним вхідний сигнал за рахунок їх тимчасовогонеузгодженості. Досить ефективно вирішувати дану проблемудозволяє розроблений в 70-х роках алгоритм динамічногопрограмування і його різновиди (алгоритм Вітербо). Особливістютаких алгоритмів є можливість динамічного стиснення тарозтягування сигналу з тимчасової осі безпосередньо в процесіпорівняння з еталоном. З початку 80-х все більш широке застосуваннязнаходять марковські моделі, що дозволяють на основі багаторівневогоімовірнісного підходу до опису сигналу проводити тимчасовунормалізацію і прогнозування продовжень, що прискорює процесперебору еталонів і підвищує надійність розпізнавання.

    Що таке розпізнавання мови?

    На перший погляд, все дуже просто: ви вимовляєте фразу, наяку технічна система реагує адекватно. Насправді затак простою ідеєю криються величезні складності.

    Чому ж між постановкою завдання і її рішенням лежить дистанція величезного розміру? Розпізнавання мови - молода, що розвивається технологія. Її контури поки колиски і мінливі.
    Тому в статті поки що більше запитань, ніж відповідей. Я спробую трохи розповісти про технології розпізнавання мовлення, і, сподіваюся, вам буде цікаво.

    Трохи про терміни

    Почнемо з головного терміну. Що є мова?

    Говорячи про мови, ми повинні розрізняти такі поняття, як «мова»,
    «звукова мова», «звуковий сигнал», «повідомлення», «текст».

    У нашому випадку, у додатку до задачі розпізнавання такіпоняття, як «мова» та «звукова мова» означають одне й те саме - таке собігенерується людиною звукове повідомлення, яке може бутиоб'єктивно зареєстровано, виміряна, збережено, оброблено і, щоважливо, відтворений за допомогою приладів і алгоритмів. Тобто моваможе бути представлена у вигляді якогось мовного сигналу, який всвою чергу може використовуватися для зворотного відтворення мови.
    Тобто можна поставити знак ге?? вівалентності між звуковою мовою та їїподанням у вигляді мовного сигналу. При цьому під поняттям
    «Повідомлення» може ховатися будь-яка корисна для одержувача інформація,а не тільки текст. Наприклад, якщо цікавитися не словами аінтонаціями, то повідомленням будуть просодіческіе нюанси мови. Що жЩодо розпізнавання мовлення, то в нашому випадку задача зводиться довилученню з промови тексту.

    Але тут ми стикаємося з одним протиріччям. Текст, яквідомо, складається з літер, слів, пропозицій, - тобто він дискретний.
    Мова ж у нормальних умовах звучить злитно. Людська мова, ввідміну від тексту, зовсім не складається з літер. Якщо ми запишемо намагнітофонну стрічку або на диск комп'ютера звучання кожної окремоїлітери, а потім спробуємо скомпонувати з цих звуків мова, у наснічого не вийде.

    Люди вже досить давно здогадалися про те, що елементарнізвуки, з яких складається мова, не еквівалентні буквах. Томупридумали поняття фонеми для позначення елементарних звуків мови.
    Хоча до цих пір фахівці ніяк не можуть вирішити - скільки ж всьогорізних фонем існує. Є навіть такий розділ лінгвістики --фонетика. Більшість авторів навіть для одного й того ж мовногодіалекту приводять різну кількість фонем. У російській мові за однимданими 43 фонеми, за іншими - 64, на третьому - більше сотні ... Але такуже повелося, що є міф про непорушність поняття фонеми. І про те, щомовний сигнал складається безпосередньо зі шматочків сигналу, кожен зяких є фонем. На жаль, все далеко не так просто.

    Спочатку вчені розглядали мовний сигнал як набір якихосьуніверсалій, розташованих один за одним на тимчасової осі, і вважалицими універсалами фонеми. Однак подальші дослідження мовнихсигналів ніяких фонем не виявили.

    Тоді одні дослідники справедливо вирішили, що при генераціїмовних сигналів спостерігається коартікуляція, тобтовзаємопроникнення сусідніх звуків (м'язи обличчя, мова і щелепиволодіють різною інерцією). Отже, мовний сигнал повинен складатися нез фонем, а з алофонів - комбінацій «злиплих» фонем.

    Інші дослідники, подібно фізикам, атакували ідеюелементарності фонем і стали стверджувати, що фонеми треба поділити наще більш короткі шматочки або навіть взагалі відмовитися від цього поняттяі «розчленовувати» мовний сигнал якось інакше. Так народилися фоноіди і щемаса авторських назв елементарних звуків.

    А далі все багатозначно замовкли. Кожен почаврозглядати мовний сигнал зі своєї позиції, повідомляй про успіхивельми туманно. Останнє, дуже ймовірно, можна пояснити бажаннямзберегти ноу-хау. Ось така картина. Люди винайшли цілу купупретендентів на універсальність. Звичайно, в їх основу покладено першза все людське відчуття звуку. Можливо тому фонеми нічим некраще букв. А фоноіди, Алофон і інша - лише вдосконаленаверсія звукового поділу мови. Може бути, у них і є якийсьсенс. Адже ми почуємо. А технічно-то сигнал складається не з наших,людських компонентів сприйняття. Сигнал можна розкласти,відфільтрувати, як-то ще перетворити. Завдання не в цьому. Необхіднознайти якийсь еквівалент, побудувати модель механізму сприйняття звуківмови. Великий інтерес для вчених, що працюють у сфері розпізнаваннямови, представляють різні розділи лінгвістики, науки про мови.
    Можливо, вдалий синтез досягнень цих наук і теорії обробкимовних сигналів приведуть до успішного створення систем розпізнавання.

    Головні труднощі фонемного підходу

    Темп мови варіюється в широких межах, часто в кількаразів. При цьому різні звуки мови розтягуються або стискати непропо-рціонально. Наприклад, голосні змінюються значно сильніше,ніж півголосних і особливо смичние приголосні. Для так званихщілинних звуків є свої закономірності. (Півголосних - це звуки пристворення яких необхідна участь голосових зв'язок, як і дляголосних звуків, але самі вони в побуті вважаються приголосними. Наприклад,так зазвичай звучать «м», «н», «л» та «р». Смичние звуки утворюються прирізкому змиканні і розмиканні органів артикуляції. Наприклад «б», «л»,
    «Д», «т». Освіта щілинних звуків пов'язано з шипінням та іншимиефектами турбулентності в органах артикуляції. Можна назвати «в»,
    «Ж», «с», а також «ш» та інші шиплячі. Як приклади дляпростоти навмисно не приведені звуки, що не мають буквенихпозначень.) Ця властивість називається тимчасової нестаціонарністьзразків мовного сигналу. Промовляючи одне й те ж слово або фразу врізний час, під впливом різних факторів (настрій, стануздоров'я тощо), ми генеруємо помітно не збігаються спектрально -тимчасові розподілу енергії. Це справедливо навіть для двічіпідряд вимовлене слово. Набагато сильніше цей ефект проявляєтьсяпри порівнянні спектрограм однієї і тієї ж фрази, яку він виголосив різнимилюдьми. Зазвичай цей ефект називають спектральної нестаціонарної мережеюзразків мовного сигналу (див. приклади спектрограм). У Змінатемпу мови та чіткості вимови є причиною коартікуляціоннойнестаціонарності, що означає зміна взаємовпливу сусідніх звуківвід зразка до зразка. Проблема кластеризації злитий мови. Збезперервного мовного потоку досить непросто виділити які-небудьмовні одиниці. Багато звуки «злипаються» або мають нечіткі межі.

    Різноманіття видів

    Існуючі системи розпізнавання мовлення можна класифікуватиза різними ознаками.

    За призначенням:
    1) командні системи
    2) системи диктування тексту.

    За споживчими якостями:
    1) дікторооріентірованние (тренованих на конкретного диктора)
    2) дікторонезавісімие (ризикую запропонувати термін «омнівойс»)
    3) розпізнають окремі слова
    4) розпізнають злиту мова.

    За механізмів функціонування:
    1) найпростіші (кореляційні) детектори
    2) експертні системи з різним способом формування і обробки бази знань
    3) ймовірносно-мережеві моделі прийняття рішення, у тому числі нейронні мережі.

    Досить важко вибрати зручний показник якості роботисистеми розпізнавання мовлення. Найбільш просто такий показник якостівводиться для командних систем. Під час тестування у випадковому порядкувимовляються всі можливі команди досить велика кількість разів.
    Підраховується кількість правильно розпізнаних команд і ділиться назагальна кількість вимовлених команд. У результаті виходить оцінкаймовірності правильного розпізнавання команди в заданій приексперименті акустичної обстановці. Для систем диктування схожийпоказник якості може обчислюватися при диктовку деякоготестового тексту. Очевидно, що це не завжди зручний показникякості. Насправді ми стикаємося з найрізноманітнішимиакустичної обстановки. Але як бути із зміною дикторів ісупутньої їй тренуванням системи?

    Як приклад дозвольте взяти на розгляд варіантнайпростішої командної системи розпізнавання мовлення. Функціонуваннясистеми базується на гіпотезі про те, що спектрально-часовіхарактеристики команд-слів для окремо взятого диктора змінюютьсяслабо. Акустична модель такої системи єперетворювач з мовного сигналів спектрально-тимчасову матрицю іможе служити типовим прикладом винахідницького підходу. У самомупростому випадку команда локалізується в часі з пауз у мовномусигналі. Лінгвістичний блок здатний виявити обмежене числокоманд плюс ще одну, яка означає всі інші невідомісистемі слова. Як правило, лінгвістична модель будується якалгоритм пошуку максимуму функціонала від вхідного зразка і зразківза все «словникового запасу» системи. Часто це звичайний двовимірнийкорелятор. Хоча вибір розмірності простору опису та його метрикиможе широко варіюватися розробником.

    Вже виходячи з «конструкції» описаної системи зрозуміло, що вонапредставляє собою швидше за іграшку, ніж корисний інструмент. Уданий час на ринку представлено безліч комерційних системрозпізнавання мовлення з набагато більшими можливостями:

    V Voice Type Dictation, Voice Pilot, ViaVoice від IBM

    V Voice Assist Creative від Techonology

    V Listen for Windows від Verbex та багато інших.

    Деякі з них (наприклад, ViaVoice) здатні, як заявляютьрозробники, вводити злиту мова.

    Лінгвістичні блоки сучасних систем реалізують складнумодель природної мови. Іноді вона заснована на математичномуапараті прихованих ланцюгів Маркова, іноді використовує останні досягненнятехнології нейронних мереж або інших ноу-хау. Пристрій жакустичних блоків подібних систем тримається в строгому секреті. Задеякими ознаками можна здогадатися, що акустичний блок деякихсистем намагається моделювати природний слуховий апарат.

    Мовний висновок.

    Мовний виведення інформації з комп'ютера-проблема не меншважлива, ніж мовної введення. Це друга частина мовного інтерфейсу, безякої розмову з комп'ютером не може відбутися. Я маю на увазіпрочитання вголос текстової інформації, а не програвання заздалегідьзаписаних звукових файлів. Тобто видачу в мовній формі заздалегідь невідомої інформації.

    Фактично, завдяки синтезу мови за текстом відкривається щеодин канал передачі даних від комп'ютера до людини, аналогічнийтого, який ми маємо завдяки монітору. Звичайно, важкувато було бпередати малюнок голосом. Але ось почути електронну пошту аборезультат пошуку в базі даних у ряді випадків було б доситьзручно, особливо якщо в цей час погляд зайнятий чим-небудь іншим.
    Наприклад, прийшовши вранці на роботу в офіс, ви могли б поправлятикраватці дзеркала або повертати на місце зачіску (можливо, навітьпідфарбовувати нігті) в той час як комп'ютер читати вголосостанні вісті або пошту. Або. наприклад, в середині робочого днявін може привернути вашу увагу повідомленням, що наближається часзаздалегідь призначеної ділової зустрічі.

    З точки зору користувача, найбільш розумне рішення проблемисинтезу мови - це включення мовних функцій (у перспективі --багатомовних, з можливостями переказу) до складу операційної системи.
    Комп'ютери будуть озвучувати навігацію по меню, читати (дублюватиголосом) екранні повідомлення, каталоги файлів, і т. д. Важливезауваженням користувач повинен мати достатні можливості поналаштування голоси комп'ютера, зокрема, при бажанні, зумітивимкнути голос зовсім.

    Вищезазначені функції і зараз були б не зайвими для осіб,що мають проблеми із зором. Для всіх інших вони створять новувимір зручності користування комп'ютером і значно знизятьнавантаження на нервову систему і на зір. На мою думку, зараз нестоїть питання, потрібні синтезатори мови в персональних комп'ютерах абонемає. Питання в іншому - коли вони будуть встановлені на кожномукомп'ютері. Залишилося чекати, можливо, рік або два.

    Методи синтезу мови

    Тепер, після оптимістичного опису найближчого майбутньогодавайте звернемося власне до технології синтезу мови. Розглянемоякий-небудь хоча б мінімально осмислений текст, наприклад, цюстаттю. Текст складається із слів, розділених пробілами та знакамипунктуації. Проголошення слів залежить від їх розташування вреченні, а інтонація фрази - від знаків пунктуації. Більш того,досить часто і від типу застосовуваної граматичної конструкції: уряді випадків при проголошенні тексту чується явна пауза, хоча якісьабо знаки пунктуації відсутні. Нарешті, вимовляння залежить і відсенсу слова! Порівняйте, наприклад, вибір одного з варіантів за'мок »або «замо'к» для одного і того ж слова «замок».

    Узагальнена функціональна система синтезу

    Структура ідеалізованої системи автоматичного синтезумови може бути представлена блок-схемою, зображеної на рис.1.

    Введення тексту

    Блоки лінгвістичної Визначення

    Виправлення

    Обробки мови тексту помилок

    Підготовка тексту вхідного тексту до озвучення

    Нормалізація тексту

    Лінгвістичний аналіз

    Формування фонемнийтранскріптор

    Просодіческіх
    Приведення фонем характеристик доодиницям синтезу


    Озвучування Формування керуючої інформації

    Отримання звукового сигналу

    Звук

    Вона не описує ні одну з існуючих реально систем , алемістить компоненти, які можна виявити в багатьох системах.

    Модуль лінгвістичної обробки

    Перш за все, текст, що підлягає прочитання, надходить в модульлінгвістичної обробки. У ньому проводиться визначення мови, атакож фільтруються не підлягають виголошення символи. Удеяких випадках використовуються спелчекери (модулі виправленняорфографічних і пунктуаційних помилок). Потім відбуваєтьсянормалізація тексту, тобто здійснюється поділ введеноготексту на слова й інші послідовності сімволов.Все знакипунктуації дуже інформативні.

    Для озвучування цифр розробляються спеціальні подблокі.
    Перетворення цифр у послідовності слів є відноснолегким завданням, але цифри мають різне значення і функцію,вимовляються по-різному.

    Лінгвістичний аналіз

    Після процедури нормалізації кожного слова тексту необхідноприписати відомості про його вимові, тобто перетворити в ланцюжокфонем або, інакше кажучи, створити його фонематичну транскрипцію. У багатьохмовами, в тому числі і в російській, існують досить регулярніправила читання - правила відповідності між літерами і фонемами
    (звуками), які, однак можуть вимагати попередньої розстановкисловесних наголосів. В англійській мові правила читання дуженерегулярні, і завдання даного блоку для англійської синтезу тим самимускладнюється. У будь-якому випадку при визначенні вимови іменвласних, запозичень, нових слів скорочень і абревіатурвиникають серйозні проблеми. Просто зберігати транскрипцію для всіхслів мови не є можливим із-за великого обсягу словника іконтекстних зміну вимови одного й того ж слова у фразі.

    Крім того, слід коректно розглядати випадки графічної омонімії: одна й та ж послідовність літерних символів у різних контекстах часом представляє два різних слова/словоформи і читається по-різному (пор. вище наведений приклад слова «замок»). Часто вдається вирішити проблемунеоднозначності такого роду шляхом граматичного аналізу, однакіноді допомагає тільки використання більш широкої семантичноїінформації.

    Для мов з достатньо регулярними правилами читання одним зпродуктивних підходів до перекладу слів в фонеми є системаконтекстних правил, переводять кожну букву/буква - поєднання в тучи іншу фонему, тобто автоматичний фонемний транскріптор. Однакчим більше у мові винятків з правил читання, тим гірше працює цейметод. Стандартний спосіб поліпшення вимови системи полягає взанесенні декількох тисяч найбільш уживаних виключень условник. Альтернативне підходу «слово - буква-фонема» рішенняприпускає морфемного аналіз слова та перекладів в фонеми морф (тобтозначущих частин слова: приставок, коренів, суфіксів і закінчень).
    Однак у зв'язку з різними прикордонними явищами на стиках морфрозкладання на ці елементи являє собою значні труднощі.
    У той же час для мов з багатою морфологією, наприклад, дляросійської. словник морф був би компактніше. Морфемного аналіз зручнийще й тому, що з його допомогою можна визначати приналежність слів дочастинам мови, що дуже важливо для граматичного аналізу тексту ізавдання його просодіческіх характеристик. В англійських системах синтезуморфемного аналіз був реалізований в системі MiTalk, для якої відсотокпомилок транскріптора складає 5%.

    Особливу проблему для даного етапу обробки тексту утворюють власні імена.

    Формування просодіческіх характеристик

    До просодіческім характеристиках висловлювання відносяться йоготональні, акцентні та ритмічні характеристики. Їх фізичнимианалогами є частота основного тону, енергія і тривалість.
    Таким чином, від системи синтезу слід очікувати приблизно того ж, тоє, що вона зможе розуміти наявний у неї на вході текст,використовуючи методи штучного інтелекту. Однак цей рівеньрозвитку комп'ютерної технології ще не досягнутий, і більшістьсучасних систем автоматичного синтезу намагаються коректносинтезувати мова з емоційно нейтральною інтонацією. Між тим,навіть це завдання на сьогоднішній день представляется дуже складною.

    Методи озвучування

    Тепер скажу кілька слів про найбільш поширені методиозвучування, тобто про методи отримання інформації, що управляєпараметрами створюваного звукового сигналу, і способах формуваннясамого звукового сигналу.

    Найширша поділ стратегій, що застосовуються при озвучуваннімови, - це поділ на підходи, які спрямовані на побудовудіючої моделі рече-що виробляє системи людини, і підходи, деставиться завдання змоделювати акустичний сигнал як такої. Першийпідхід відомий під назвою артікуляторного синтезу. Другий підхідпредставляється на сьогоднішній день більш простим, тому він набагатокраще вивчений і практично більш успішний. Всередині нього виділяється дваосновні напрями - формантний синтез за правилами і компілятивнийсинтез.

    Формантние синтезатори використовують збудливий сигнал, якийпроходить через цифровий фільтр, побудований на кількох резонансу,схожих на резонанси голосового тракту. Поділ збудливогосигналу і передавальної функції голосового тракту становить основукласичної теорії акустичної речеобразованія.

    компілятивний синтез здійснюється шляхом склеювання потрібних одиниць компіляції з наявного інвентаря. На цьому принципі побудовано безліч систем, що використовують різні типи одиниць і різні методи складання інвентарю. У таких системах необхідно застосовувати обробку сигналу для приведення частоти основного тону, енергії і тривалості одиниць до тих, якими має характеризуватися синтезованих мова. Крім того, потрібно, щоб алгоритм обробки сигналу згладжував розриви у формант (і спектральної в цілому) структурі на кордонах сегментів. У системах компілятивного синтезу застосовуються два різних типи алгоритмів обробки сигналу: LP (скор. англ. Linear Prediction - лінійне передбачення) і PSQLA (скор. англ.
    Pitch Synchronous Overlap and Add). LP-синтез заснований у значній мірі на акустичній теорії речеобразованія, на відміну від PSOLA-синтезу, який діє шляхом простого розбиття звукової хвилі, яка становить одиницю компіляції, на тимчасові вікна та їх перетворення. Алгоритми PSOLA дозволяють домагатися гарного збереження природності звучання при модифікації вихідної звукової хвилі.

    Найбільш розповсюджені системи синтезу (іноземні мови)

    Найбільш поширеними системами синтезу мови на сьогодні,очевидно, є системи, що поставляються в комплекті зі звуковимиплатами. Якщо ваш комп'ютер оснащений будь-якої з них, існуєзначна ймовірність того, що на ньому встановлена система синтезумови - на жаль, не російської, а англійської мови, точніше, її американськоговаріанту. До більшості оригінальних звукових плат Sound Blasterдодається система Creative Text-Assist, а разом зі звуковимикартами інших виробників часто поставляється програма Monologueкомпанії FirsfByte.

    TexAssist являє собою реалізацію формантного синтезатораза правилами і базується на системі DECTalk, розробленої корпорацією
    Digital Equipm

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status