ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Інформаційний критерій оцінки фонетичної невизначеності
         

     

    Інформатика, програмування

    2.2.2. Інформаційний критерій оцінки фонетичної невизначеності.
    При розпізнаванні усного мовлення необхідно прагнути до того, щоб усіфонеми класифікувалися правильно, тому нас цікавить розпізнаванняповної послідовності фонетичних одиниць, що становлять висловлювання.
    При цьому основним джерелом невизначеності при розпізнаванні мовиє сам акустический сигнал. Ще більшу невизначеність представляєпараметричне опис мовної хвилі. Розглянемо невизначеностіакустичного сигналу і наведемо міру оцінки фонетичноїневизначеності. Використовуючи ці мерь, можна оцінити лексичну іфразеологічні невизначеності. Злиті мова розчленовується напослідовність сегментів за ознаками способу утворення звуків. Доцими ознаками додаються ознаки місця утворення, які змінюютьсябезперервно як усередині сегментів, так і через їхні кордони [91,97]. Здеякими дискретними одиницями-звуками мови - фонемами або квазіфонемамісегменти пов'язані таким чином, що смислові одиниці мови (слова)представляються ланцюжком фонем.

    Більшість систем автоматичного розпізнавання мови [79] перетворитьмовний сигнал в таку фонематичну ланцюжок, яка потім порівнюється зочікуваними в слові звуками. Процес перетворення мовного сигналу впослідовність фонем включає знаходження ознак, сегментацію імаркування сегментів.

    Опишемо модель фонетичної невизначеності, що дозволяє оцінюватирезультати неправильного розпізнавання фонем. Далі будемо використовуватиматрицю помилок розпізнавання фонем і фонетичну структуру слів словникапри оцінці лексичної невизначеності.

    Лексична невизначеність буде мати місце тоді, коли слованевірно класифікуються через близькість їх фонетичної структури, тобтопослідовності параметрів, що визначають цю структуру, наконкуруючих словах. Наприклад, у словах "злазити" і "зрізати" первинніпараметри звуків, що входять в ці слова, подібні. Коли обидва ці словавходять в один і той самий словник, їх точна класифікація ускладнена, тому їх можна вважати лексично невизначеними. У реальних системах, якщодозволяє завдання, слід добирати слова, щоб такої ситуації невиникло. Наведемо критерії складності словника для того, щоб можна булооцінити ступінь помітне словників [63].

    Розглянемо розпізнавання мови як процес передачі мовної інформаціїчерез канал із шумом і оцінимо інформацію, що втрачаються в каналі.
    Втрачена інформація є мірою невизначеності або складностірозпізнавання фонем. В ідеальному каналі число вхідних ідеальних, отриманихпісля сегментації висловлювання експертами-фонетист, і вихіднихфонетичних одиниць має бути однаковим, а послідовність фонемна виході повинна відповідати вхідної послідовності. Якщо ж цеумова не дотримується, в каналі втрачається інформація, і залежно відвеличини втрат можна говорити про більшу чи меншу невизначеностікласифікації фонем. При практичної оцінки фонетичної невизначеностів даній роботі використовувалися система ознак [73] і алгоритмсегментації мови на сім типів сегментів:
    V - голосний, Т - перехідний, М - сонорні, L - низькочастотний, Н --високочастотний, R - галасливий, П - пауза. Потім алгоритм маркуванняставив у відповідність кожному сегменту деякий фонетичний символ,використовуючи апріорно отримані гістограми параметрів. Від надійностімаркування сегментів багато в чому залежить точність роботи CPP.

    Так як СРР розглядається тут як канал передачі інформації,припустимо, що є R можливих вхідних символів алфавіту А і s можливих виходів алфавіту В. Таким чином, СРР описується канальноїматрицею.

    Канал передачі інформації, яка використовується для опису системирозпізнавання мови, представленої ланцюжком фонем, перетворює НЕзашумлені послідовність звуків у вихідну послідовність
    "машинних" фонем, що містить помилки пропуску, вставки злиття і замінизвуків.

    Нехай елемента вхідного фонетичного алфавіту (Ai) з'являються на вході з деякої апріорної ймовірністю p (A1), р (A2),., p (Ar), а елементи алфавіту (Bj) на виході -- з ймовірністю P (B1,), p (B2 ),..., р (Bs). Як зазначено раніше, роботу каналу передачі вхідного алфавіту (Ai) характеризує канальна матриця, тому

    P (Bj) = Sri = 1P (Ai) * P (Bj/Ai)
    | Символ | А | О | І |
    | А | 0,89 | 0,1 | 0,01 |
    | O | 0,15 | 0,75 | 0,1 |
    | І | 0,01 | 0,1 | 0,89 |

    2.2 Приклад матриці умовних ймовірностей розпізнавання ізольованихзвуків (2.2)

    Інформація I (Ai, Bj), що отримується від каналу, коли на його вхід надійшлафонема Ai, а на виході розпізнаватися як Bj,, визначається [91]

    I (Ai, Bj) = LOG (P (Ai/Bj)/P (Ai)) (2.3)

    Середня інформація, що отримується на виході каналу з втратами при передачі
    (розпізнаванні) вхідного алфавіту фонем A (Ai), який розпізнається якалфавіт B = (Bj), буде

    I (A, B) = SA, BP (Ai, Bj) * I (Ai, Bj) = SA, BP (Ai, Bj) * LOG2 (P (Ai/Bj)/P (Ai) =

    =- SA, BP (Ai, Bj) * LOG2 P (Ai) + SA, BP (Ai, Bj) * LOG2 (P (Ai/Bj);

    I (A, B) = H (A) + SA, BP (Ai, Bj) * LOG2 (P (Ai/Bj); (2.4)

    Відзначимо, що Н (A) - ентропія, що характеризує ступінь невизначеностівхідного алфавіту А = (Ai). З (2.4) одержуємо, що

    H (A) - I (A, B) =- SA, BP (Ai, Bj) * LOG2 P (Ai/Bj) =

    =- SA, BP (Ai, Bj) * P (Bj) LOG2 P (Ai/Bj) =- S BP (Bj) SAP (Ai/Bj) LOG2
    P (Ai/Bj) = H (A/B)

    Н (А/B) - апостеріорне ентропія вхідного алфавіту фонем, якахарактеризує міру інформації, що втрачається в системі розпізнавання припередачі вхідного алфавіту (Ai). Апостеріорне ентропія і ємірою, що оцінює складність вхідного словника для автоматичногорозпізнавання при фіксованому параметричної описі.

    При наявності значень ентропії вхідного алфавіту фонем можна обчислити розмір (обсяг), рівний 2H (A), а значення 2 H | (A/B) характеризують середня кількість можливих альтернативних (конкурентних ) елементів алфавіту (Ai) на вході СРР після того, як на виході отримали безліч (Bj), тобто міру складності розпізнавання вхідного алфавіту фонем. Назвемо цей захід еквівалентним розміром алфавіту фонем. Значення 2 H | (A/B) можна назвати ентропійних критерієм оцінки фонетичної невизначеності, який є узагальненою характеристикою складності розпізнавання алфавіту фонем
    (Ai) даної системи розпізнавання. Якщо СРР працює без помилок, умовна ентропія Н (А/В) = О і еквівалентний розмір алфавіту фонем 2 H | (A/B) = 1.
    Природно, що якщо Н (А/В) = 0, то 2 H | (A/B) = 1, а у випадку, коли СРР не розпізнає Н (А/В) = Н (А), то еквівалентний розмір алфавіту фонем рівний 2 H | (A).

    Еквівалентний розмір алфавіту фонем дає можливість кількісно оцінити середнє число можливих конкурентних фонем (що мають близькі параметричні опису), і для його визначення необхідно знати апостеріорного ймовірності P (Ai/Bj) вхідного алфавіту.

    Для вирішення конкретних проблем автоматичного розпізнавання обмежених наборів слів все різноманіття фонем можна звести до двох-трьох робочим фонетичним одиницям (наприклад, до класів тривалих гучних, дзвінких і смичних звуків), які при використанні простої системи ознак і нескладних алгоритмів розпізнавання дають нульову апостеріорного ентропію. Проте під час розв'язання задачі розпізнавання щодо складних словників і/йди вимога надійної фонетичної верифікації вимовленого слова такої кількості робочих фонем позначається явно недостатньо. Працювати ж із повним набором фонем "помилково через помилки їх автоматичного розпізнавання. Тому і доводиться йти на компромісні рішення - шукати якийсь оптимум при фонетичному описі робочих словоформ. Ці проблеми будуть частково розглянуті в п. 2.2.3.

    Умовні ймовірності розпізнавання фонем P (Ai/Bj), що визначають еквівалентний розмір фонетичного алфавіту, можна визначити кількома методами.

    83

    Статистичний метод дозволяє отримувати ймовірності розпізнавання фонем,використовуючи реальну СРР. Це здійснюється шляхом порівняння результатурозпізнавання системи з точної ручної сегментацією і маркуванням мовногосигналу (йди його параметричного уявлення), що надходить на вхідсистеми розпізнавання. У результаті виходить класична матрицяправильною і помилковою класифікації вхідного алфавіту фонем.

    Акустико-параметричний метод, коли матриця помилок класифікації фонемвиходить шляхом прямого порівняння їх параметричного опису. При цьомуеталон фонеми вибирається з безлічі реалізації даної фонеми.
    Відстань між фонемами використовується для оцінки умовних ймовірностейпомилкової класифікації фонем. Точність цього методу залежить від вибраногоеталона і обсягу дослідницького матеріалу.

    Крім цих методів, оцінку ймовірності помилкової класифікації фонемможна зробити на основі моделювання речеобразующего тракту людини
    [7].

    2.2.3. Оцінка складності розпізнавання слів за їх фонетичної структурі.
    Розглянемо неадаптівную систему розпізнавання слів як канал передачіінформації. Слова вхідного словника V = (V1, V2, .., Vr, .., VR) можна представитипослідовністю фонетичних символів Vr = (Ai1, Ai2, .., Ain), а словавихідного словника каналу W = (W1, W2, .., Ws, .., WS)-ланцюжками квазіфонетіческіхеталонів Ws = (Bj1, Bj2, ..., Bjr), де Ai (A, Bj (B - відповідно вхідний івихідний алфавіт фонем каналу; r = 1, R; s = 1, S; n = n (r); l = l (s).
    Тоді оцінку складності розпізнавання слів, виробленого порівняннямвхідний реалізації з ланцюжками квааіфонетіческіх еталонів, можназдійснити на підставі аналізу матриці помилок, подученной приподанні еталонів слів Ws (W поверхневими формами Wsk (Ws, K = 1,
    Ks кожного вихідного слова. Фактично складність розпізнаваннявхідного словника V визначається наявністю подібних еталонних поверхневихформ Wsk вихідного словника W і частотою зустрічальності цих поверхневихформ P (Wsk). Основна проблема при побудові матриці помилок длякожного словника полягає у формуванні еталонів поверхневих форм
    Wsk (Ws, для реалізація кожного слова і отримання квазіфонетіческогографа f (Ws), що враховує всі поверхневі форми в ймовірностями їхпояви. Всі безліч квазіфонетіческіх поверхневих форм слова Ws,записати у вигляді еталонного графа важко, тому що при апаратурно -програмному методі розпізнавання з'являються не тільки поверхневі формислова, зумовлені особливостями вимови, а й форми, що включаютьвипадкові сегменти, марковані квазіфонетіческімі мітками, появаяких пов'язане з не ідеально автоматичної фонетичної сегментаціїта маркування нашим апаратурно-програмним методом, викликаної, наприклад,зміною інтенсивності мовного сигналу.

    Надалі будемо розглядати вплив двох обставин наформування еталонних поверхневих форм слів робочого словника,враховуючи, що поверхневі форми, пов'язані про особливостямивимови і матрицею помилок квазіфонемной класифікації, можнапобудувати вручну (або автоматично, використовуючи таблицю акустико -фонологічним правил, що зберігається в пам'яті, і в доданих до базовоїквазіфонетіческой ланцюжку), а поверхневі форми Wsk. , Обумовленіособливостями апаратури виділення інформативних ознак, можнаотримати, аналізуючи статистику реалізації квазіфонетіческіх ланцюжків слівробочого словника, отриманих за допомогою ЕОМ. Отримання цієї статистикине завжди обов'язково, особливо якщо розглядаються слова, контрастніза своїми акустичними властивостями. Попередню оцінку складностірозпізнавання слів можна зробити аналогічно оцінці складностіфонетичного алфавіту - по фонетичної структурі слів, обчислюючиапостеріорного словесну невизначеність і не досліджуючи статистикиреалізації.

    Всі еталони слів Wsk робочих словників повинні бути представленіпослідовністю маркованих фонетичними мітками відрізків, деквазіфонеми повинні ділитися на опорні, обов'язкові для даного слова
    (що визначають базову форму і, як правило, присутні у всіхповерхнях), і "допоміжні", важко класифікуються. Важкокласифікуються сегменти повинні бути розчленовані (хоча б грубо) накілька квазіфонетіческіх елементів, якщо кількість цих сегментів вищепорогової (це робить на першому етапі людина на підставі знаньфонетичної структури можливих форм кожного слова). Опорними сегментамислова слід вважати марковані відрізки які при їх маркуванніквазіфонетіческімі мітками допускають сумарну помилку нижче евристичнийпевного порогу.

    При автоматичному розпізнаванні вибір еталонів (зі словника еталонів)повинен бути в першу чергу обумовлений наявністю в надійшла навхід реалізації опорних, обов'язкових маркованих сегментів о. зурахуванням того, що за рахунок не ідеальності сегментації загальне числосегментів вхідний реалізації може не збігатися з можливим числомсегментів еталонного графа, за рахунок не опорних сегментів, що утворюються абовипадають випадково.

    Помилки класифікації дають поява "плутати" поверхневих форм
    (представлених послідовністю казіфонеми для різних слів словника.
    Будемо вважати, що матриця помилок при розпізнаванні слів апріоріформується таким чином, що (при подібності поверхневих форм різнихслів словника) більш часто зустрічаються поверхневі форми слів одногокласу вважаються відносяться до слів тільки цього класу, а рідкозустрічаються подібні поверхневі форми для інших слів словника даютьпомилки розпізнавання. Втім, використовуючи синоніми або семантико -синтаксичні обмеження при розпізнаванні послівний вимовних фраз.
    Завжди слід домагатися того, щоб подібні випадки не відбувалися
    (труднощі представляють слова, які входять до однієї семантико-синтаксичнугрупу, які не можна замінити синонімами, наприклад, назви цифр).

    Слід зазначити, що прийняті рішення про приналежність що надійшла на вхід реалізації до того чи іншого класу слід робити але еталонівз однаковою кількістю опорних сегментів і з урахуванням верифікації слова,всякий раз використовуючи евристичний вибрані пороги достовірності, взагальному випадку різні для різних мов. Так, для прийняття остаточногорішення про приналежність вхідний реалізації Vx до класу Ws необхідно вибрати два найбільш вірогідних кандидата Ws1 І Ws2, яким відповідаютьімовірності P (Vx/Ws1) і P (Vx/Ws2), і перевірити, задовольняються чи умови:

    P (Vx/Ws1) (? s 1;

    P (Vx/Ws1)-P (Vx/Ws1)) (? s1s2де? s1 - граничне значення ймовірності того, що вхідні реалізаціявідповідає слову Ws1,? s1s2 - порогові значення різниці умовнихймовірностей приналежності вхідний реалізації Vx класами Ws1 і Ws2, прияких приймається рішення про класифікацію Vx.

    Граничні значення? s1,? s1s2 вибираються експериментально позаданій системі використовуються фонетичних ознак, а також необхіднихточності розпізнавання і ймовірності відмов від розпізнавання. Увипадку, якщо підбором порогів задані вимоги до системи розпізнаванняне вдається виконати, слід провести більш детальний аналіз не опорнихсегментів, йди спробувати поліпшити систему ознак. У ряді випадків длязадоволення заданих в системі вимог слід використовуватисинонімів. Розглянемо ще більш конкретно, як оцінити лексичнуневизначеність словника V мови мовного спілкування неадаптівной системиавтоматичного розпізнавання. Аналогічно тому, як оцінюваласяневизначеність алфавіту фонем, можна визначити складність розпізнаваннявхідного словника V, що складається з R слів, і обчислити еквівалентний розмірвхідного словника. При цьому необхідно отримати ймовірності P (Vr/Ws)близькості областей прізнакового опису слів Vr (V, Ws (W, r = 1R, s = 1S
    , Які представляються у вигляді послідовності фонетичних одиниць
    (фонетичної транскрипції слів). Далі оцінимо ймовірності P (Vr/Ws).

    Як вже зазначалося, на основі лінгвістичних знань, еталони слів Ws (Wпредставляються в виду фонетичних (вірніше, квазіфонетіческіх) ланцюжків,сукупність яких описується графом з кінцевим числом стану, акожна фонема - ознаками способу і місця утворення. Слову Wsвідповідає одна або кілька траєкторій (ланцюжків поверхневих форм) награфі (кількість траєкторій залежить від методу вимови іхарактеристики диктора). Спрямований граф f (Ws) представляє всі фонемиеталона слова Ws (W, який має Wsk, поверхневих форм, K =
    1,2,3 .., Ks; кожна поверхнева форма Wsk (Ws містить L = L (s, k) опорнихквазіфонеми,

    Необхідно відзначити, що кількість опорних сегментів у поверхневихформах слів вихідного словника по-різному, тобто межа зміни індексу Lзалежить як від номера слова, так і від його поверхневої форми L = L (s, k).

    Для того, щоб здійснити оцінку невірної класифікації слів словникана стадії лексичного розпізнавання по фонетичної структурі ці?? слів,виконаємо операцію розбиття всіх поверхневих форм еталонів слів на Мфонетичних груп з однаковою кількістю опорних сегментів L = L (s). Прице слова, поверхневі форми яких належать різним групам, небудуть плутатися між собою, оскільки їх легко класифікувати за кількістю
    "опорних" фонем, що складають слова.

    Взагалі кажучи, можна уявити собі фонетичні групи еталоннихповерхневих форм, що відрізняються не тільки кількістю опорних фонем, але і їххарактером, а також порядком проходження. Якщо врахувати всі три фактори,дозволяють розбити еталони на суттєво більшу кількість фонетичнихгруп, то подальші міркування можна віднести до кожної з цих груп.
    Для простоти, проте, будемо вважати, що ми маємо М фонетичнихгруп, у кожній з яких однакова кількість опорних сегментів. Упрактичних завданнях при розбивання на групи варто враховувати всі ціфактори, проте необхідно суворо обмежувати кількість різних опорнихсегментів, вибираючи лише ті, які не плутаються між собою іхарактеризуються груповими ознаками місця утворення - ударні голосні,смичние, фрікатівние [81,80].

    Отже, припустимо, що существуетM фонетичних груп слів
    W1, W2, W3, ..., Wn, ..., Wm, у кожній з яких однакова кількість опорнихквазіфонеми. Загальне число еталонів W = Un = 1m Wm, а кількість фонем,складових: слова (довжина фонетичної ланцюжка) кожної групи, позначимочерез Lm; m = 1, M.

    Представляючи таким чином слова словника на вході СРР і використовуючиматриці помилкової класифікації фонем, що складають слова

    P (a/b) = [Pij], (2.5) можна оцінити ймовірності Pm (Vr/Ws) сплутування поверхневих форм сліввсередині кожної групи слів наступним чином:

    Pm (Vr/Ws) = П; (2.7)
    Де T = 1,2, .., Tm довжина ланцюжка фонетичної групи слів Wm, Art (Vr,

    Bst (Ws.. У загальному випадку одне й те ж слово Ws може мати Ks,поверхневих форм, що мають різне число фонетичних елементів іщо потрапляють в різні групи слів Wm. Тому загальну умовну ймовірність
    "сплутування" слів словника визначимо

    P (Vr/Ws) = (2.8)

    Для визначення втрати інформації в СРР, яка розглядається якканал передачі інформації, у разі розпізнавання слів використовуємо вираз

    I (V/W) =-, (2.9)

    То тоді 2I = (V/W) визначає еквівалентний розмір словника -- числоальтернативних слів на вході системи розпізнавання, а 2I = (V) --фактичний обсяг вхідного словника, де

    I (V) =-, (2.10)

    Ці вирази, аналогічні формулами (2.4), (2.5), що оцінюєфонетичну невизначеність, є критерієм оцінки лексичноїневизначеності. Вони визначають складність розпізнавання словника ідозволяють судити про якість СРР. При автоматичної маркування, разом зпомилками невірної класифікації фонем, існують, як уже зазначалося,помилки невірної сегментації, що приводять до злиття відрізків, відповіднихсуміжних фонема, в один сегмент або розчленування відрізка,відповідного однієї фонем, на кілька суміжних фонем різних класів.
    При виборі альтернативних слів словника треба стежити за тим, щобнеприємності такого роду не викликали подібності послідовностейфонетичних одиниць, що відповідають різним словами. Для цього необхідновикористовувати матриці, що відображають можливі варіанти сегментації слівсловника і частоти зустрічальності тих чи інших варіантів сегментації,відповідних розрізнить поверхневим формами слів. Так як інформація прословах, що містяться в фонема, надлишкова, то часто при оцінці помітнеслів словника цілком досить використовувати опорні фонеми, що допускаютьмінімум помилок розчленування і злиття. Тому у формулі (2.7) длянаближеної оцінки сплутування слів необхідно в першу чергувикористовувати ймовірності помилкового розпізнавання таких опорних фонем,які в цьому слові не дають помилок злиття і розчленування.

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status