Вокодер та їх застосування

Введення

Вокодер (англійські voice + coder-буквально кодіровщік голоси) цепристрій, що дозволяє синтезувати мова на основі мінімальної інформації,деякого коду. Так само під вокодером мається на увазіпристрій, що перетворює живу мову в такий код-стискає її. Вокодердозволяє істотно (приблизно в 10 разів) ущільнити лінію зв'язку принезначному погіршенні якості передачі.

Спроби створити "яка говорить машину" робилися і в минуломустолітті і в нинешнем.Основивалісь вони на тому обставину що людськамова складається з незначної кількості частотних складових-формант.Тогдаці складові отримували і підсумовували механічним шляхом (за допомогоюсистеми хутра). При певній вправності вдавалося "вимовляти" нескладнізвуки і навіть слова і фрази.

Природно ні про який машинному синтезі мовних потоків а тимбільше про передачі мінімальної інформації необхідної для синтезу по каналахзв'язку тоді не могло бути й мови.

З появою аналогових електронних пристроїв (підсилювачів, фільтрів) реалізація вокодера стала возможной.Но такий вокодербув досить громіздким (до появи інтегральних мікросхем) і крімтого ообого виігиша в скороченні надмірності при передачі по каналах зв'язкуне виходило, так як передавати номери формант або ще яку-небудьЩоб отримати інформацію в аналоговій формі важко.

Аналогові вокодер дозволяли ськремблірованний мова (поміняти їїформант місцями) через що раніше їх пременялі в системах передачіконфіденційної інформації.

Зараз аналогові вокодер застосовують в основному для спец-ефектівв концертній практиці: мова оброблена ними набуває характернероботизовані звучання.

З появою цифрових ВІС а так само універсальних ЕОМ сталоможливим побудову ЦИФРОВИХ апаратних і програмних вокодером. На входітакого вокодера мову за допомогою аналогово-цифрового перетворювачаперетворюється нацифрову форму.Далее виконується її спектральний чи інший аналіз за допомогоюпевних алгоритмів обработкі.Етот аналіз дозволяє істотно стиснутицифровий потік одержаний за АЦП.Кроме того можливе шифрування даних
(що має подібний вокодер не зможе почути вихідну мова не знаючипевного ключа) що досить буває важливо.Я приймальному кінці цифровийпотік перетвориться назад в мову за допомогою певний алгоритмівсинтезу.

1 Класифікація вокодером за способом аналізу та синтезу мови.

За способом аналізу та синтезу мови вокодер можнарозділити на речеелементние і параметричні.

У речеелементних вокодера при кодуванні розпізнаютьсявимовні елементи мови (наприклад, фонема) і на вихід кодера подаютьсятільки їх номери. У декодері ці елементи створюються за правиламиречеобразованія або беруться з пам'яті декодера. Фонемний вокодерпризначені для отримання граничної компресії мовних сигналів. Областьзастосування фонемний вокодером - командної лінії зв'язку, управління іговорять автомати інформаційно-довідкової служби. У таких вокодеравідбувається автоматичне розпізнавання слухових образів, а не визначенняпараметрів мови і, відповідно, втрачаються всі індивідуальні особливостідиктора.

Параметричний вокодер являє собою пристрій, якийздійснює так зване параметричне компандірованіе мовних сигналів.
Компресія мовних сигналів у кодери здійснюється в аналізаторі, якийвиділяє з мовного сигналу повільно мінливі параметри. У декодері придопомоги місцевих джерел сигналів, які управляються прийнятимипараметрами, синтезується мовний сигнал.

У параметричних вокодера з мовного сигналу виділяють два типи параметріві за цими параметрами в декодері синтезують мова:

- Параметри, які характеризують джерело мовних коливань (генераторнуфункцію) - частота основного тону, її зміну в часі, моментипояви і зникнення основного тону (огласованние або гортанні звуки),шумового сигналу (шиплячі і свистячі звуки);

- Параметри, які характеризують обвідна спектра мовного сигналу.

У декодері, відповідно, за заданими параметрами генеруються основнийтон, шум, а потім пропускаються через гребінку смугових фільтрів длявідновлення огинаючої спектраречевогосігнала.
За принципом визначення параметрів фільтрової функції разлічают_вокодери:

-смугові (канальні);

-формантние;

-ортогональні.

У смугових вокодера спектр мови ділиться на 7 - 20 смуг (каналів)аналоговими або цифровими смуговими фільтрами. Більша кількість каналів увокодер дає велику натуральність і розбірливість. З кожного смуговогофільтра сигнал надходить на детектор для визначення середнього рівня.

У формантних вокодера обвідна спектру мови описується комбінацієюформант (резонансних частот голосового тракту). Основні параметри формант
- Центральна частота, амплітуда і ширина спектру. У ортогональнихвокодера обвідна миттєвого спектру розкладається на складові частини вряд по обраній системі ортогональних базисних функцій. Розрахованікоефіцієнти цього розкладу передаються на прийомну сторону.
Поширення отримали гармонійні вокодер, які використовуютьрозкладання в ряд Фур'є.

Розглянуті вокодер забезпечують стиснення сигналу до 1200-4800
Біт/с, дозволяючи відновити в декодері частоту основного тону здискретністю у декілька герц і з невисокою точністю обвідна спектрусигналу з періодом зміни 16-40 мс.Із через складність визначенняпараметрів генераторної функції з'явилися полувокодери (Voice Excited
Vocoder, VEV), в яких замість сигналів основного тону використовується смугамовного сигналу до 800 - 1000 Гц, яка кодується, наприклад, АДІКМ, ізамість характеристик основного тону передається на вихід кодера. Такийалгоритм дозволяє стиснути мова до 4800-9600 біт/с, зберігаючи генераторнуфункцію гортані (частоту і закон зміни основного тону) диктора.

2 Принцип роботи та характеристики речеелементних вокодером.

При ІКМ з А-і мю-законами, ДІКМ, АДІКМ, АДМ, кліппірованіі стиснення мовита інших звукоданних досягається за рахунок компактного опису формизвукового сигналу. При цьому не учітиваетс природа речеобразованія. Якщо жпри аналізі та синтезі мови її врахувати, то мова можна стиснути значносильніше.

У російській мові 42 фонеми: 6 голосних звуків, решта - приголосні.
Щоб закодувати їх номери потрібно 6 біт. Людина вимовляє в секундублизько 10 звуків. Тобто від центральної нервової системи до мовного апаратусигнали управління передаються зі швидкістю
10 [log 2 42] = 60 біт/с.
Близьку до цієї швидкість здатні забезпечити речеелементние вокодер (прице при гарній чіткість втрачаються індивідуальні особливості мови алечасто це і не так важливо). В їх основі лежить запам'ятовування окремих фраз,мовних оборотів. Завдяки цьому запам'ятовування на відтворює елементпередається не сама мова, а її елементний номер. Це широко застосовувалося ізастосовується в системах управління голосом, а також читання тексту зперетворенням в звук. Як простий приклад можна привести звуковісхеми Windows, інтерактивно реагують на ту чи іншу подію. Якщо цізвукові сигнали замінити на людську мову, то ми отримаємо найлегшийприклад речеелементного вокодера. Системі повідомляється не сам звук, а ім'яфайлу, який треба відтворювати. На передавальному кінці У той же час уцифрової телефонії використовується швидкість 64 кбіт/c (8 біт на відлік,частота дискретизації 8 кГц). По суті справи будь-якої речеелементний вокодерзбирає наприклад що говорилось слово з складів (або фразу із слів) при цьомубагато чого не скажеш а вже висловити навряд чи висловити.

Параметричні вокодер

смугові вокодер

Смуговий вокодер синтезує мова використовуючи певні ічістие тони.

Розглянемо деякі реалізацію смугового вокодера. Ценаприклад метод синтезу мови за допомогою ряду Фур'є - у вигляді сумиелементарних спектральних складових, в музичній акустиці отрималиназву "чисті тони". Є Банк "чистих тонів" з 144 чистими тонами.
Як відбувався синтез звуку показано на рис. 2.

Рис. 2.

Функціонально-оптична схема синтезатора АНС.

Світло від джерела (1) пропускався через обертовий диск фотооптичнігенератора (2) і модулюватися за інтенсивністю звуковими доріжками (банкомчистих тонів). Між диском і читає фотоелементом (4) встановлюваласямаска (інформація про синтез) (3) з отворами для відбору променів тільки відпотрібних доріжок. Після фотоелемента слідував звичайний для кінопроектора трактзвукопідсилення (5).

Першої електричної і одночасно останньоюаналогової моделлю мовного тракту став прилад водер (на рис. 4 докладноописано його пристрій), розроблений Дадлі, Рішем і Уоткінс.

Рис. 4.

Структурна схема водера.

Водер управлявся від ручної клавіатури і синтезував сигнали з заданимспектром. Десять паралельно з'єднаних смугових фільтрів складали блокуправління резонансами. Переключення джерела збудження - шумового абоімпульсного генератора - здійснювалося браслетом на зап'ясті оператора, ауправління частотою імпульсів - ножний педаллю. На виході фільтрів стоялипотенціометри, управляли десятьма пальцями і змінювали напругасигналу кожного фільтра.

Формантние вокодер

Вокодер з лінійним передбаченням (ліпредери)

Вокодер з лінійним передбаченням - ліпредери (linearprediction) створюють відліки звукового сигналу на основі попереднього відлікусигналу і обчислених в передавальної частини коефіцієнтів лінійногопророкування (КЛП). Якщо ми правильно обчислимо КЛП то збережемо увідновленої мови її індивідуальні особливості, що дуже важливо наприкладв криміналістиці та не зайве і при телефонних переговорах.

Для прогнозу поточного відліку мовного сигналу можнавикористовувати лінійно зважену суму попередніх відліків, тобтопророкує відлік

де ak - коефіцієнти передбачення (k = 1, 2 ,..., P).

Помилка предсказания e (n) = s (n) - s (n).

Kоеффіціенти предсказания повинні бути такими, щоб для тимчасового вікнадовжиною N відліків сума

була мінімальна. Завдання мінімізації призводить до системи лінійних рівняньщодо ak. Коефіцієнти рівняння виявляються рівними значеннямавтокореляційних функції відрізка мови. У ліпредерах спочатку для кожногокадру довжиною 10 - 20 мс обчислюються коефіцієнти кореляції, а за нимзнаходять коефіцієнти передбачення (або коефіцієнти приватної кореляції, абокоефіцієнти відображення), які передаються на прийомну сторону разом зінформацією про функції збудження. Коефіцієнти лінійного передбачення
(КЛП) знаходять простий сенс. Передавальна функція фільтру, який маєтільки полюси

де p - порядок фільтра.
Алгоритми, які використовують коефіцієнти приватної кореляції (PARtial
CORrelation), називаються PARCOR.