ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Синтез мови
         

     

    Інформатика, програмування

    Синтез мови.

    1 Обмеження на синтез мови.
    Існують різні методи синтезу мови. Вибір того чи іншого методувизначається різними обмеженнями. Розглянемо ті 4 види обмежень,які впливають на вибір методу синтезу.

    . Завдання.
    Можливості синтезованої мови залежать від того, в якій області вона будезастосуються. Коли необхідно вимовляти обмежене число фраз (і їхпроголошення лінійно не змінюється), необхідний мовний матеріал простозаписується на плівку. З іншого боку, якщо завдання полягає встимулювання пізнавального процесу при читанні вголос, використовуєтьсязовсім інший ряд методик.

    . Голосовий апарат людини.
    Всі системи синтезу мови повинні виробляти на виході якусь мовнухвилю, але це не довільний сигнал. Щоб отримати мовну хвилюпевної якості, сигнал повинен пройти шлях від джерела в мовномутракті, який збуджує дію артікуляторних органів, якідіють як змінюються в часі фільтри. Артікуляторние органи такожнакладають обмеження на швидкість зміни сигналу. Вони також маютьфункцію згладжування: гладкого зчеплення окремих базових фонетичниходиниць в складний мовний потік.

    . Структура мови.
    Ряд можливих звукових поєднань опредляется природою тієї чи іншої мовноїструктури. Було виявлено, що одиниці і структури, що використовуютьсялінгвістами для опису і пояснення мови, можуть також використовуватисядля характеристики та побудови мовної хвилі. Таким чином, припобудові вихідний мовної хвилі використовуються основні Фонологічнізакони, правила наголосу, морфологічні і синтаксичні структури,фонотактіческіе обмеження.

    . Технологія.
    Можливості успішно моделювати і створювати пристрої для синтезу мови всильному ступені залежать від стану техніко-технологічної сторони справи.
    Мовленнєва наука зробила великий крок вперед завдяки появі різнихтехнолоній, у тому числі: рентгенографія, кінематографія, теорія фільтрів іспектрів, а головним чином - цифрові комп'ютери. З приходом інтегральнихмережевих технологій з постійно зростаючими можливостями стало возсожнопобудова потужних, компактних, недорогих пристроїв, що діють в реальномучасу. Цей факт, разом з грунтовними знаннями алгоритмів синтезумови, стимулював подальший розвиток систем синтезу мовлення та перехід їх упрактичне життя, де вони знаходять широке застосування.

    2 Методи синтезу.
    Різні підходи можуть бути згруповані по областях їх застосування, заскладності їх втілення.
    Синтезатори поділяють на два типи: з обмеженим і необмеженим словником. Упристроях з обмеженим словником мова зберігається у вигляді слів іпропозицій, які виводяться в певній послідовності присинтезі мовного повідомлення. Мовні одиниці, що використовуються в синтезаторахподібного типу, вимовляються диктором заздалегідь, а потім перетворюються вцифрову форму, що досягається за допомогою різних методів кодування,дозволяють компресувати мовну інформацію і зберігати її в пам'ятісинтезує пристрою. Існує кілька методів запису і компонуваннямови.

    . Хвильовий метод кодування.
    Найлегший шлях - просто записати матеріал на плівку і за потребоюпрогравати. Цей спосіб забезпечує високу якість, що синтезується,тому що дозволяє відтворювати форму природного мовного сигналу. Однакцей шлях синтезу не дозволяє реалізувати побудову нової фрази, тому що НЕпередбачає звернення до різних комірок пам'яті і виклик з пам'ятіпотрібних слів. Залежно від технології, що використовується цей спосіб можепредставляти затримки в доступі і мати обмеження, пов'язані зможливостями запису. Ніяких знань про пристрій мовного тракту іструктурі мови не вимагається. Єдине серйозне обмеження в даномувипадку має об'єм пам'яті. Існують способи кодування мовного сигналув цифровій формі, що дозволяють у кілька разів ущільнювати інформацію: простамодуляція даних, імпульсно-кодова модуляція, адаптивна дельтовімодуляція, адаптивне предиктивного кодування. Дані способи можутьзменшити швидкість передачі даних від 50кбіт/сек (стандартний варіант) до
    10кбіт/сек, у той час як якість мови зберігається. Природно,складність операцій кодування та декодування збільшується зі зниженнямчисла біт в секунду. Такі системи гарні, коли словник повідомленьневеликий і фіксований. У випадку ж, коли потрібно з'єднати повідомленняв більш довге, сгенеріровть високоякісну мова важко, тому що значенняпараметрів мовної хвилі не можна змінити, а вони можуть не підійти в новомуконтексті. У всіх системах синтезу мови встановлюється деякийкомпроміс між якістю мови і гнучкістю системи. Збільшення гнучкостінеминуче веде до ускладнення обчислень.
    . Параметричний подання.
    З метою подальшого зменшення необхідної пам'яті для зберігання та забезпеченнянеобхідної гнучкості було розроблено кілька способів, якіабстрагуються від мовної хвилі як такий, а представляють її у виглядінабору параметрів. Ці параметри відображають найбільш характерну інформаціюабо в тимчасовій, або в частотної області. Наприклад, мовна хвиля можебути сформована додаванням окремих гармонік заданої висоти й заданіспектральними виступами на даній частоті. Альтернативний шлях полягає втому, щоб форму мовного тракту описати в термінах акустики іштучним шляхом створити набір резонансів. Цей метод синтезуекономічніше хвильового, тому що потребує значно меншого обсягу пам'яті, алепри цьому він вимагає більше обчислень, щоб відтворити початковий мовнийсигнал. Цей спосіб дає можливість маніпулювати тими параметрами,які відповідають за якість мови (значення формант, ширина смуг, частотаосновного тону, амплітуда сигналу). Це дає можливість склеювати сигнали,так що переходи на кордонах зовсім не помітні. Зміни такихпараметрів як частота основного тону протягом всього повідомлення даютьможливість суттєво змінювати інтонацію та часові характеристикиповідомлення. Найбільш популярним в наст.вр. методами кодування впристроях, що використовують параметричне представлення сигналів, єметод, заснований на формантних резонансу і метод лінійного передбачення
    (LPC - linear predictive coding). Для синтезу використовуються одиниці мовирізної довжини: параграфи, речення, фрази, слова, склади, полуслогі,діфони. Чим менше одиниця синтезу, тим менша їх кількість потрібна длясинтезу. При цьому, потрібно більше обчислень, і виникають труднощікоартікуляціі на стиках. Переваги цього методу: гнучкість, трохипам'яті для зберігання вихідного матеріалу, збереження індивідуальниххарактеристик диктора. Потрібна відповідна цифрова техніка і знаннямоделей речеобразованія, при цьому, лінгвістична структура мови невикористовується.
    . Синтез за правилами.
    Описані вище методи синтезу орієнтовані на такі мовні одиниці, якслова, попередньо введені в пристрій з голосу диктора. Данийпринцип лежить в основі функціонування синтезаторів з обмеженимсловником. У синтезаторах з необмеженою словником елементами мови єфонеми або склади, тому в них застосовується метод синтезу за правилами, ане проста компонування. Даний метод дуже перспективний, тому що забезпечуєроботу з будь-яким необхідним словником, однак якість мови значно нижче,ніж при використанні методу компонування.
    При синтезі мови за правилами також використовуються хвильової і параметричнийметоди кодування, але вже на рівні складів.
    Метод параметричного подання вимагає компромісу між якістюмовлення та можливістю змінювати параметри. Дослідники виявили, що длясинтезу мовлення високої якості необхідно мати кілька різнихвимов одиниці синтезу (наприклад, складу), що веде до збільшеннясловника вихідних одиниць без яких би то не було відомостей про контекстнуситуації, виправдовує той чи інший вибір. З цієї причини процессинтезу отримує ще більше абстрактний характер і переходить відпараметричного подання до розробки набору правил, за якимиобчислюються необхідні параметри на основі вступного фонетичногоопісанія.Ето ввідне подання містить саме по собі мало інформації.
    Це звичайно імена фонетичних сегментів (напр, голосні та приголосні) ззнаками наголосу, позначеннями тони і часових характеристик. Такимчином, метод синтезу за правилами використовує малоінформаціонное описна вході (менше 100 біт/сек). Цей метод дає повну свободу моделюванняпараметрів, але необхідно підкреслити, що правила моделюваннянесовеншенни. Синтезована мова гірше натуральної, тим не менш, воназадовольняє тестів з чіткість і зрозумілості. На рівні пропозиції іпараграфа правила надають необхідну ступінь свободи для створенняплавного мовного потоку.

    3 Конвертація тексту в мову.
    Синтез за правилами вимагає детального фонетичного транскрибування навході. Хоча для запам'ятовування цієї інформації потрібно небагато пам'яті, щобвитягти з неї необхідні параметри, необхідні знання експерта. Дляконвертації необмеженого англійського тексту в мову необхідно спочаткупроаналізувати його з метою отримання транскрипції, яка потімсинтезується в вихідну мовну хвилю. Аналіз тексту за своєю природоюзавдання лінгвістична і включає в себе визначення базових фонетичних,складових, морфемного і сінтакісіческміх форм, плюс - вичленовуваннясемантичної і прагматичної інформації. Системи конвертації тексту вмова є найбільш комплексними системами синтезу мови, що включають усебе знання про пристрій мовного апарату людини, лінгвістичноїструктурі мови, а також які повинні враховувати обмеження,накладаються областю застосування системи, техніко-технологічної базою.
    Необхідно відмітити, що і текст і мова є поверхневимиуявленнями базових лінгвістичних форм, тому завдання перетвореннятексту в мовлення полягає у виявленні цих базових форм, а потім у втіленніїх в мові.

    4 Система перетворення тексту в мову MITalk.
    На прикладі цієї системи проілюструємо сильні і слабкі стороникомерційних версій. Розробка системи почалася в кінці 60-х рр..
    Спочатку передбачалося розробити читає машину для сліпих, алесистема MITalk може застосовуватися в будь-яких ситуаціях, де необхідноперетворити текст в мовлення. Система має блок морфологічного аналізу,правила перетворення літера-звук, правила лексичного наголоси,просодіческій і фонематичний синтез.

    5 Аналіз тексту
    . Перетворення символів у стандартну форму.
    У самих різних текстах можна виявити символи і абревіатури, якіне належать до категорії "правильно утворених слів". Такі символияк "%" і "&", абревіатури типу "Mr" і "Nov" повинні бути перетворені внормальну форму. Були розроблені детальні інструкції длятранскрибування чисел, дат, сум грошей. Іноді виникають двозначніситуації, такі як, наприклад, використання знака тире в кінці рядка.
    Людина в таких випадках, щоб визначити відповідне вимова,звертається до контексту і до практичних знань, які не піддаютьсяалгоритмізації.
    . Морфологічний аналіз
    У вступному тексті кордону слів легко визначаються. Можна зберігативимова всіх англійських слів. Розмір словника буде великим, але в такомупідході є кілька привабливих сторін. По-перше, в будь-якому разінеобхідний словник слів, вимова яких є винятком із загальнихправил. Такими є, наприклад, запозичені слова (parfait,tortilla). Більше того, всі механізми перетворення ланцюжка літер вфонетичні значки допускають помилки. Цікавий клас винятківскладають часто вживані слова. Наприклад, звук/th/на початку словавимовляється як глухий фрікатівний в більшості слів (thin, thesis,thimble). Але в найбільш частотних, таких як короткі функціональні словаthe, this, there, these, those, etc. початковий звук вимовляється якдзвінкий. Також/f/завжди вимовляється глухо, за винятком слова "of".
    Інший приклад. У словах типу "shave", "behave" кінцевий/e/подовжуєпопередній голосний, але в такому частому слові як "have" це правило недіє. Нарешті, кінцевий/s/в "atlas", "canvas" глухий, але вфункціональних словах is, was, has він вимовляється дзвінко. Таким чином,приходимо до висновку, що всі системи повинні мати такий словник винятків.
    Що стосується нормальних слів, то тут є два варіанти. Перший крайнійвипадок полягає в тому, щоб скласти повний словник. Хоча кількість слівобмежена, скласти абсолютно повний словник неможливо, тому що постійноз'являються нові слова. Крім того, до словника необхідно буде внести всізмінюються форми слова. Інший крайній підхід полягає у встановленні рядуправил, які б перетворювали ланцюжка літер в фонетичні значки. Хочаці правила дуже продуктивні, не можна уникнути помилок, що веде до створеннясловника винятків. Щоб правильно визначити фонетичну транскрипціюслова, потрібно правильно розбити слово на структурні складові. Буловиявлено, що важливу роль у визначенні вимови грає морфема,мінімальна синтаксична одиниця мови. Система MITalk використовуєморфемного лексикон, що може розглядатися як деякий компроміснийпідхід між двома крайніми, згаданими вище. Багато англійські словаможна розчленувати на послідовність морф, таких як префікси, корені,суфікси. Так слово "snowplows" має два кореня і закінчення, "relearn"має приставку і корінь. Такі морфи є атомними складовими словаі вони відносно стабільні в мові, нові морфи формуються в мові дужерідко. Ефективний лексикон може мати не більше 10,000 морф. Морфемногословник діє разом з процедурами аналізу. Цей підхід ефективний іекономічний, тому що зберігання морфемного словника не займає багато місця, азберігати всі змінюються форми слова не потрібно. Так як морфи єосновними складовими слова, проілюструємо їх корисність привизначенні вимови. При з'єднанні морф вони часто змінюють своєвимову. Наприклад, при утворенні множиниіменників "dog" і "cat" кінцевий/s/буде дзвінким в першому випадку іглухим у другому. Це приклад морфофонемного правила, що стосується реалізаціїморфеми множини в різних середовищах. Стає очевидним,що для ефективного та легкого визначення вимови потрібно розпізнатискладові морфеми слова та позначити їх межі. Ще один плюсморфемного аналізу - забезпечення відповідної бази для використання правилперетворення літера-звук. Більшість таких правил розглядають слово якнеструктурованої послідовність букв, використовуючи вікно скануваннядля знаходження приголосних і голосних кластерів, які перетворюються вфонетичні значки. Букви "t" і "h" у більшості випадків виступають якєдиний приголосний кластер, але в слові "hothouse" кластер/th/розриваєтьсякордоном двох різних морфем. Гласний кластер/ea/представляє багатотруднощів для алгоритмів літера-звук, але в слові changeable він явнорозривається. У системі MITalk морфемного аналіз завжди проводиться передправилами перетворення букв в звуки. Що лежать в основі слова морфи НЕзавжди очевидні. Наприклад, деякі морфи множини не завждилегко визначити: mice, fish. Подібні форми заносяться в словник. Придопомоги морфемного лексикону і відповідного алгоритму аналізу 95-98%слів аналізується задовільно. У результаті їм приписуєтьсяфонетична транскрипція і частина мови.
    . Правила "Літера-звук" і лексичне наголос
    У системі MITalk нормалізоване вступний текст піддаєтьсяморфологічному аналізу. Може бути, що ціле слово є в словникуморф, як, наприклад, слово "snow". З іншого боку, слово може бутипроаналізовано як послідовність з'єднаних морф. В англійськіймовою середнє число морф у слові, приблизно два. У випадку, якщо ні цілеслово не може бути знайдено в словнику морф, ні проаналізовано якпослідовність морф, в цьому випадку застосовуються правила перетворення
    "Літера-звук". Важливо підкреслити, що цей метод ніколи не застосовується,якщо морфемного аналіз вдався. Конвертація послідовності букв упослідовність звуків за допомогою цих правил проходить в три етапи.
    Перший етап - відділення префіксів і суфіксів. Можливість відділенняафіксів не така с?? льная, як у морфемного аналізі, але дієзадовільно. Передбачається, що після відділення префіксів ісуфіксів залишається одна центральна частина слова, яка складається з одногоморфи, що піддається потім правилами перетворення.
    Другий етап полягає в перетворенні приголосних в фонетичні значки,починаючи з найбільш довгого згодного кластера до тих пір, поки всіокремі приголосні не будуть перетворені. Останній етап - що залишилисяголосні перетворюються за допомогою контекстів. Голосні перетворюютьсяостанніми, тому що це найбільш важке завдання, що залежить від контексту.
    Наприклад, гласний кластер/ea/має 14 різних проізносітельних контекстіві кілька вимови (reach, tear, steak, leather).
    У системі MITalk правила перетворення букв в звуки діють в парі зшироким набором правил розстановки лексичного наголосу. Ще 25 років томулінгвістам не вдавалося виявити ніякої системи розстановки наголосів уанглійських словах. У Теперішній час розроблено ряд правил, ефективносправляються з цим завданням. Наголоси залежать від синтаксичної роліслова, наприклад, прикметник "invalid" відрізняється від іменника.
    Таких слів небагато, але враховувати їх необхідно. Крім того, на деякісуфікси автоматично падають наголосу в словах, як, наприклад, в
    "engineer". Але бувають більш складні випадки, які вирішуються застосуваннямциклічних правил.
    У системі MITalk розроблені кілька наборів таких правил, деякі зяких включають в себе до 600 правил. Звичайно, більшість з нихвживаються досить рідко. Подразумеваются, що всі сильні інеправильні форми перетворюються на стадії морфологічного аналізу.
    Правила ж "Літера-звук" використовуються для перетворення нових і неправильнонаписаних слів. Наприклад, слово "recieved" отримує правильнутранскрипцію, завдяки цим правилам перетворення.
    . Наразі немає.
    Кожна схема необмеженого перетворення тексту в мову повинна включатисинтаксичний аналіз. Необхідно визначити синтаксичну роль слова,тому що вона часто впливає на вимову та наголос. Крім того синтаксичнийаналіз важливий для визначення правильного тонального контуру і тимчасовиххарактеристик. Просодіческіе характеристики важливі для синтезу мови, щобвона звучала жваво і природно. На жаль, повний синтаксичний аналізна рівні складного речення (clause-level parsing) здійснити не можна.
    Тим не менш, можливо провести синтаксичний аналіз на рівні фрази
    (phrase-level parsing), в результаті якого визначається більша частинанеобхідної для синтезу мови структури, хоча в деяких ситуаціяхнеминучі помилки з Через відсутність аналізу цілого пропозиції. Зустрічаєтьсябезліч синтаксично двозначних пропозицій, таких як "he saw theman in the park with a telescope ", для яких фразовою аналіз достатній.
    В англійській мові існує ряд синтагматичний маркерів, за якимиможна формально розмежувати фрази: це допоміжні дієслова,детермінатіви в номінативних фразах. Система MITalk широко використовує це іпроводить високоточний граматичний аналіз (augmented-transition-networkgrammas). Фразова аналіз показав задовільні результати, хочаефективний аналізатор пропозицій безсумнівно зміг би поліпшити роботу системи.
    Поки аналізатори пропозицій стикаються зі значними труднощами,коли зустрічають неповне або синтаксично омонімічное пропозицію. Зазавершення діяльності блоку синтаксичного аналізу система приписуєсловами маркери функціональних частин мови, відзначає синтаксичні паузияк основу для подальшого уточнення вимови, тимчасових харатеристик,частоти основного тону.
    . Модифікація наголосу і фонологічно уточнення.
    Остання фаза аналізу полягає в деяких незначних поправок донаявної вже фонетичної транскрипції на основі аналізу контекстногооточення. Простий приклад визначення вимови артикля "the", якезалежить від початкового звуку наступного слова. Крім того, на цьому етапівикористовуються деякі евристичні методи перевірки правильногоспіввідношення загального контуру пропозиції з контурами окремих слів. На цьомуетапі закінчується підготовка вихідного тексту власне до самогопроцесу синтезу.

    6 Синтез.
    Важливо усвідомити, що в системі MITalk не використовуються готові мовні хвилінавіть у параметричної поданні. Система не зберігає параметричніподання безлічі морф або слів. Замість цього були розробленіправила контролю параметрів, так що можна реалізувати будь-яку бажанумовну хвилю на виході.
    . Просодіческая рамка.
    Перший крок у створенні вихідний мовної хвилі - створення тимчасового контуруі частоти основного тону (основні кореляти інтонації), на основіяких будується детальна артикуляція окремих фонетичних елементів.
    Розподіл наголоси, яке було обчислено на стадії аналізу, багато в чомувідповідально за контур тимчасового розподілу і тональний контур. Частоінтенсивність приймають за корелят наголоси, тоді як головними ключамиє тривалість і зміни в тональному контурі. Приголосні малозмінюються по тривалості, у той час як гласні пластичніші і можутьлегко стискатися або розтягуватися. Існує також тенденція розтягуватислова на кордоні основних абзаців пропозиції, і навпаки, стискатиінтервали на відносно невиділений ділянках. Крім того, на основітимчасової рамки задається частота основного тону (чи тональний контур). Устверджувальних пропозиції звичайно висота тону різко піднімається на першеударному складі, потім плавно знижується до останнього ударного складу, де вонарізко падає. Питальні і наказові пропозиції мають різнітональні контури. Крім цілісного контуру пропозиції існують щелокальні наголосу. Більша наголос отримують слова, що виражають запереченняабо сумнів (наприклад, слово might), значення частоти основного тону наних зростає; нова інформація в пропозиції також більше виділяєтьсянаголосом. З іншого боку, висота тону використовується в семантичних іемоційних цілях, що не може бути виведено з письмового тексту.
    Необхідно ще раз підкреслити важливість складання правильногопросодіческого контуру, тому що неправильний просодіческій контур можепризвести до труднощів у сприйнятті.
    . Синтез фонетичних сегментів.
    Коли завершено створення просодіческой рамки, створюються параметри,відповідні моделі мовного тракту. Зазвичай таких параметрів 25, якізмінюються з інтервалом 5 - 10 мсек. В даний час використовуються близько
    100 контекстних правил опису траєкторії зміни параметрів. Колизначення параметрів обчислені, вони повинні бути перенесені навідповідну модель мовного тракту (зазвичай це формантная модель або
    LPC-модель). Вихідна дискретна модель створюється зазвичай на частоті 10 Кгц.

    7 Оцінка синтетичної мови.
    З точки зору зрозумілості, чіткість якість синтезованої мовидосить гарна. Було проведено тест, де одна група випробовуванихпрослуховувала синтезовану мова з письмовим варіантом перед очима, аінша - без. З'ясувалося, що результати прослуховування мало відрізняються одинвід одного. Тим не менше, синтезованої мови не вистачає жвавості іприродності, тому сприймати її протягом тривалого часуважко. Дослідження показали, що фрікатівние і назальні звуки вимагаютьподальшого поліпшення якості.

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status