Класифікація сейсмічних сигналів на основі нейромережевих технологій

МОСКОВСЬКИЙ ДЕРЖАВНИЙ ІНСТИТУТ ЕЛЕКТРОНІКИ І МАТЕМАТИКИ

Кафедра МОСОІіУ

ПОЯСНЮВАЛЬНА ЗАПИСКА

До Дипломні проекти

На тему: _Классіфікація сейсмічних сигналів на основі нейромережевихтехнологій.________________________________________________________
Студент
Керівник проекту:

Допущений до защіте____________________200___г.

КОНСУЛЬТАНТИ ПРОЕКТУ:
Спеціальна частина
Конструкторсько-технологічна частина
Економічна частина
Техніка безпеки

Зав. кафедрой________________________

МОСКВА

Анотація.

У даному дипломі розглядається задача класифікації сейсмічнихсигналів по типу джерела, тобто визначення за записаною сейсмограмоюземлетрусів або вибухів. Основна мета диплома полягає в дослідженніможливості застосування апарату нейронних мереж для вирішення поставленоїзавдання, і порівняння ефективності такого рішення зі стандартнимианалітичними методами.

Зміст.

Анотація 2
Введення 5
1. Основні положення теорії нейронних мереж 7
2. Постановка задачі класифікації сейсмічних сигналів 16
3. Статистична методика вирішення задачі класифікації 18

3.1 Виділення інформаційних ознак з сейсмограмою 18

3.2 Відбір найбільш інформативних ознак для ідентифікації 19

3.3 Процедури статистичної ідентифікації 21

3.4 Оцінка ймовірності помилкової класифікації методом ковзного іспиту 22
4. Огляд різних архітектур нейронних мереж, призначених для задач класифікації 23

4.1 Нейрон-класифікатор 23

4.2 Багатошаровий персептрон 25

4.3 Мережі Ворда 27 < p> 4.4 Мережі Кохонена 27

4.5 Висновки по розділу 37
5. Методи попередньої обробки даних 31

5.1 Максимізація ентропії як мета передобробки 31

5.2 нормування даних 32

5.3 Зниження розмірності вхідних даних 34

5.3.1 Відбір найбільш інформативних ознак 34

5.3.2 Стиснення інформації. Аналіз головних компонент 35

5.4 Висновки. По розділу 37
6. Реалізація нейромережевої моделі і дослідження її технічниххарактеристик 38

6.1 Структура нейросети 38

6.2 Вихідні дані 40

6.3 Визначення критерію якості системи і функціонала його оптимізації

6.4 Вибір початкових вагових коефіцієнтів 41

6.5 Алгоритм навчання і методи його оптимізації 42

6.6 Формування навчальної вибірки та оцінка ефективності навченої нейромережевої моделі 48

7. Програмна реалізація 49

7.1 Функціональні можливості програми 50

7.2 Загальні відомості 51

7.3 Опис вхідного файлу з вихідними даними 52

7.4 Опис файлу налаштувань 52

7.5 Алгоритм роботи програми 57

7.6 Експлуатація програмного продукту 58

7.7 Результат роботи програми 58
8. Висновок 61
Список літератури 63
Додаток 64

1. Приклад вибірки сейсмограмою 64

2. Приклад файлу з векторами ознак 65

3. Файл з налаштуваннями програми 66

4. Приклад файлу звіту 67

5. Файл опису функцій, типів змінних і використовуваних бібліотек

"nvclass.h" 68

6. Файл автоматичної компіляції програми під ОС Unix - "Makefile" 73

7. Основний модуль - "nvclass.с" 74

Введення.

Застосування апарату нейронних мереж для вирішення різних завдань науки ітехніки обумовлене величезними потенційними можливостями, цихтехнологій. Існують завдання, вирішення яких просто неможливоаналітичними методами, а нейросети успішно з ними справляються. Навіть у томувипадку, якщо можна знайти рішення за допомогою вже вивчених алгоритмів,нейронні мережі деколи дозволяють зробити те ж саме швидше і більшеефективно.

У даному дипломі розглядається задача, що виникає при сейсмічноїмоніторингу,-класифікація сейсмічних сигналів по типу джерела, тобтовизначення за записаною сейсмограмою землетрусів або вибухів. Незважаючина те, що для її рішення, в даний час успішно застосовуються методистатистичного аналізу, триває пошук більш ефективних алгоритмів,які б дозволили проводити класифікацію точніше і з меншими витратами.
У якості таких методів пропонується використовувати апарат нейронних мереж.

Основна мета дипломної роботи - дослідити можливість застосуваннянейронних мереж для ідентифікації типу сейсмічного сигналу, з'ясувати,наскільки дане рішення буде ефективним в порівнянні з вже використовуванимиметодами.

Перша глава присвячена опису основних положень теорії нейроннихмереж, а також галузей науки і техніки, в яких ці технології знайшлишироке застосування.

Наступні два розділи призначені формалізувати на математичномурівні завдання класифікації сейсмічних сигналів і способі її рішення наоснові статистичних методів.

Огляд різних архітектур нейронних мереж, призначених для вирішеннязадачі класифікації, їх основні положення, достоїнства і недоліки, атакож методи попередньої підготовки даних наведено в розділах 4 і 5.

У шостій розділі йдеться безпосередньо про нейромережевому вирішеннірозглянутої задачі, побудованому на основі відомої, і частовикористовуваної парадигми - багатошарового персептрона, детально обговорюютьсяосновні алгоритми навчання, вибору початкових вагових коефіцієнтів іметоди оцінки ефективності обраної моделі нейронної мережі.

У розділі "Програмна реалізація" описується спеціальнорозроблена програма, що реалізує основні ідеї нейромережевогопрограмування і адаптована для вирішення поставленого завдання. Також уцьому розділі представлені результати експериментів по обробцісейсмічних сигналів, проведених на базі створеної програми.

І у висновку викладені основні висновки та рекомендації по напрямуподальших досліджень у застосуванні нейронних мереж для вирішення завданнякласифікації сейсмічних сигналів.

1. Основні положення теорії нейронних мереж.

Для того, щоб обговорювати можливості нейромережевих технологійнеобхідно хоча б трохи мати уявлення про елементарні поняття, проте, що ж таке нейрон, нейронна мережа, з чого вона складається і якіпроцеси в ній відбуваються.

У нейроінформатіке для опису алгоритмів і пристроїв виробленаспеціальна «схемотехніка», в якій елементарні пристрої - суматори,синапси, нейрони і т.п. об'єднуються в мережі, призначені для вирішеннязавдань. Це свого роду особливий мову для представлення нейронних мереж іїх обговорення. При програмної та апаратної реалізації на цій мовіопису перекладаються на мови іншого рівня, більш придатні дляреалізації.

Елементи нейронних мереж.

Самими простими, базовими елементами нейромереж є:
. Адаптивний суматор. Елемент обчислює скалярний добуток вектора вхідного сигналу х на вектор параметрів w;
. Нелінійний перетворювач сигналу f перетворює скалярний сигнал x в f (x);
. Формальний нейрон. (рис.1.1). Він складається з елементів трьох типів.

Елементи нейрона - помножувачі (синапси), суматор і нелінійний перетворювач. Синапси здійснюють зв'язок між нейронами, множать вхідний сигнал на число, що характеризує щільність зв'язку, - вага синапсу.

Суматор виконує складання сигналів, що надходять по синоптичних зв'язків від інших нейронів, і зовнішніх вхідних сигналів. Нелінійний перетворювач реалізує нелінійну функцію одного аргументу - виходу суматора. Ця функція називається "функція активації" або "передавальна функція" нейрона. Нейрон в цілому реалізує скалярну функцію векторного аргументу.

Математична модель нейрона:

(1)

(2)

деwi - вага синапсу (weight), (i = 0,1,2 ... p);w0 - значення зміщення (bias);s - результат підсумовування (sum);xi - компонента вхідного вектора (вхідний сигнал), (i = 1,2, ... p);y - вихідний сигнал нейрона;p-число входів нейрона;f - нелінійне перетворення (функція активації).

У загальному випадку вхідний сигнал, вагові коефіцієнти та значення зміщенняможуть брати дійсні значення. Вихід (y) визначається видомфункції активації і може бути як дійсним, так і цілим. У багатьохпрактичних завданнях входи, ваги та зміщення можуть приймати лише деякіфіксовані значення.

Синаптична зв'язку з позитивними вагами називають збудливими, знегативними вагами - гальмують.

Таким чином, нейрон цілком описується своїми вагами wi іпередавальної функцією f (x). Одержавши набір чисел (вектор) xk яквходів, нейрон видає деяке число y на виході.

Ця модель була запропонована Маккалоком і Піттс ще в 1943 р. При цьомувикористовувалися порогові передавальні функції (рис. 2a), і правилаформування вихідного сигналу y виглядали особливо просто:

(3)

У 1960 р. на основі таких нейронів Розенблатта побудував перший у світіавтомат для розпізнавання зображень літер, який був названий "перcептрон"
(perception - сприйняття). Цей автомат мав дуже просту одношаровуструктуру і міг вирішувати тільки відносно прості (лінійні) завдання. З тихпір були вивчені і більш складні системи з нейронів, що використовують уяк передавальних складні безперервні функції. Одна з найбільш частовикористовуваних передавальних функцій називається сігмоідной (або логістичної)
(рис. 2б) і задається формулою

(4)

Нейронна мережу.

Нейронна мережа - це набір нейронів, певним чином пов'язанихміж собою. Як правило, передавальні функції всіх нейронів у мережіфіксовані, а ваги є параметрами мережі і можуть змінюватися.

Одними з найбільш поширених є багатошарові мережі, вяких нейрони об'єднані в шари. Шар - це сукупність нейронів cєдиним вхідним сигналом. Як основний прикладу розглянемо мережу,яка досить проста за структурою і в той же час широко використовуєтьсядля вирішення прикладних задач - двошаровий персептрон з p входами й однимвиходом (рис. 2.3).

Як випливає з назви, ця мережа складається з двох шарів. Власненейрони розташовуються в першому (прихованому) і в другому (вихідному) шарі.
Вхідний шар (його також називають нульовим або «виродженим») тільки передаєвхідні сигнали до всіх H нейронів першого шару (тут H = 4). Коженнейрон першого шару має p входів, яким приписані ваги wi0, wi1, wi2,
..., Wip (для нейрона з номером i). Ваги wi0 і v0 відповідають зміщення bв описі формального нейрона, яке наведено вище. Отримавши вхіднісигнали, нейрон підсумовує їх з відповідними вагами, потім застосовує доцієї суми передавальний функцію і пересилає результат на один з входівнейрона другого ( «вихідного») шару. У свою чергу, нейрон вихідного шарупідсумовує отримані від першого шару сигнали з деякими вагами vi.

Отже, подаючи на входи персептрона будь-які числа x1, x2, ..., xp, миотримаємо на виході значення деякої функції F (x1, x2, ..., xp), якеє відповіддю (реакцією) мережі. Очевидно, що відповідь мережі залежить як відвхідного сигналу, так і від значень її вагових коефіцієнтів.

випишемо точний вигляд цієї функції

(5)

Крім багатошарових нейронних мереж існують і інші різновиди,кожна з яких розроблені і застосовуються для вирішення конкретних завдань.
З них можна виділити
. повно-мережі, в яких кожен нейрон пов'язаний з усіма іншими (на входи кожного нейрона подаються вихідні сигнали інших нейронів);
. мережі із зворотними зв'язками (рекурентні). У них певним чином виходи з наступних шарів нейронів подаються на вхід попереднім.

Розібравшись з тим, з чого складаються нейронні мережі, і як вонифункціонують, перейдемо до питання "як створити мережу, адаптовану для вирішенняпоставленого завдання? ". Це питаннявирішується в два етапи: (рис. 1.4)
1. Вибір типу (архітектури) мережі
2. Підбір ваг (навчання) мережі.

На першому етапі слід вибрати наступне:
. які нейрони ми хочемо використовувати (число входів, передавальні функції);

. яким чином слід з'єднати їх між собою;
. що взяти в якості входів і виходів мережі.

Це завдання на перший погляд здається неозорої, але, на щастя,необов'язково придумувати нейросети "з нуля" - існує кількадесятків різних нейромережевих архітектур, причому ефективність багатьох зних доведена математично. Найбільш популярні і вивчені архітектури --це багатошаровий персептрон, нейросети із загальною регресією, мережі Кохонена іінші.

На другому етапі слід "навчити" вибрану мережу, тобто підібратитакі значення її ваг, щоб мережа працювала потрібним чином. Ненавченихмережа подібна до дитини - її можна навчити чого завгодно. У використовуються напрактиці нейромереж кількість ваг може становити кілька десятківтисяч, тому навчання - дійсно складний процес. Для багатьохархітектур розроблені спеціальні алгоритми навчання, які дозволяютьналаштувати ваги мережі певним чином.

Навчання нейросети.

Навчити нейросети - значить, повідомити їй, чого ми від неї домагаємося.
Цей процес дуже схожий на навчання дитини алфавітом. Показавши дитинізображення літери "А", ми запитуємо його: "Яка це буква?" Якщо відповідьневірний, ми повідомляємо дитині ту відповідь, яку ми хотіли б від ньогоотримати: "Це літера А". Дитина запам'ятовує цей приклад разом з вірнимвідповіддю, тобто в його пам'яті відбуваються деякі зміни в потрібномунапрямі. Ми будемо повторювати процес пред'явлення букв знову і знову дотих пір, коли всі 33 літери буде твердо запам'ятати. Такий процес називають
"навчання з учителем".

При навчанні мережі ми діємо абсолютно аналогічно. Нехай у насє деяка база даних, що містить приклади з різних класів,які необхідно навчитися розпізнавати (набір рукописних зображеньлітер). Пред'являючи зображення літери "А" на вхід мережі, ми отримуємо від неїдеякий відповідь, не обов'язково вірний. Нам відомий і вірний (бажаний)відповідь - в даному випадку нам хотілося б, щоб на виході з міткою "А"рівень сигналу був максимальний. Звичайно як бажаного виходу в задачікласифікації беруть набір (1,0,0 ,...), де 1 стоїть на виході з міткою "А",а 0 - на всіх інших виходах. Обчислюючи різниця між бажаним відповіддю іреальною відповіддю мережі, ми отримуємо 33 числа - вектор помилки. Далі застосовуючирізні алгоритми по вектору помилки обчислюємо необхідні поправки дляваг мережі. Одну й ту ж літеру (а також різні зображення однієї і тієїж букви) ми можемо висувати мережі багато разів. У цьому сенсі навчанняскоріше нагадує повторення вправ в спорті - тренування.

Виявляється, що після багаторазового пред'явлення прикладів ваги мережістабілізуються, причому мережа дає правильні відповіді на всі (або майже всі)приклади з бази даних. У такому випадку говорять, що "мережа вивчила всіприклади "," мережа навчена ", або" мережа натреновані ". У програмнихреалізаціях можна бачити, що в процесі навчання величина помилки (сумаквадратів помилок з усіх виходах) поступово зменшується. Коли величинапомилки досягає нуля або прийнятного малого рівня, тренуваннязупиняють, а отриману мережа вважають натренованої і готовою дозастосування на нових даних. Схематично процес навчання представлений на рис
1.5.

Важливо відзначити, що вся інформація, яку мережа має про завдання,міститься в наборі прикладів. Тому якість навчання мережі напрямузалежить від кількості прикладів в навчальній вибірці, а також від того,наскільки повно ці приклади описують це завдання. Так, наприклад,безглуздо використовувати мережу для розпізнавання букви "A", якщо внавчальної вибірці вона не була представлена. Вважається, що для повноцінноїтренування потрібно хоча б декілька десятків (а краще сотень) прикладів.
Повторимо ще раз, що навчання мережі - складний і наукомісткий процес.
Алгоритми навчання мають різні параметри і настройки, для управлінняякими потрібно розуміння їх впливу.
Застосування нейросети.

Після того, як мережа навчена, її можна застосовувати її для вирішенняпоставленого завдання (рис 1.4). Найважливіша особливість людського мозкуполягає в тому, що, один раз навчившись певного процесу, він можевірно діяти і в тих ситуаціях, в яких він не бував у процесінавчання. Наприклад, можна читати майже будь-який почерк, навіть якщо бачимо йогоперший раз в житті. Так само і нейромереж, грамотним чином навчена, можез великою ймовірністю правильно реагувати на нові, не пред'явлені їйраніше дані. Наприклад, ми можемо намалювати букву "А" іншим почерком, апотім запропонувати нашій мережі класифікувати нове зображення. Вагинавченої мережі зберігають досить багато інформації про подібність і розходженнябукв, тому можна розраховувати на правильну відповідь і для нового варіантузображення

Приклади практичного застосування нейронних мереж.

В якості прикладів розглянемо найбільш відомі класи задач, длявирішення яких в даний час шир?? до застосовуються нейромережевітехнології.

Прогнозування.

Прогноз майбутніх значень змінної, що залежить від часу, на основіпопередніх значень її та/або інших змінних. У фінансовій області, це
, наприклад, прогнозування курсу акцій на 1 день вперед,або прогнозування зміни курсу валют на визначенийний період часу, тощо. (рис 1.6)

Розпізнавання або класифікація.

Визначення, до якого з заздалегідь відомих класів належитьтестовий об'єкт. Слід зазначити, що завдання класифікації дуже поганоалгорітмізіруются. Якщо у випадку розпізнавання букв вірну відповідь очевиднадля нас заздалегідь, то в більш складних практичних завданнях навченанейросети виступає як експерт, що володіє великим досвідом і здатний дативідповідь на важке запитання.

Прикладом такого завдання служитьмедична діагностика, де мережа можевраховувати велику кількість числовихпараметрів (енцефалограма, тиск, вагу і т.д.).
Звичайно, "думка" мережі в цьому випадку не можнавважати остаточним.

Класифікація підприємств за ступенем їх перспективності (рис 1.8) --це вже звичний спосіб використання нейромереж в практиці великихкомпаній. При цьому мережа також використовує безліч економічних показників, складним чином пов'язанихміж собою.

Кластеризації та пошук закономірностей.

Крім задач класифікації, нейросети широко використовуються для пошукузалежностей в даних та кластеризації.

Наприклад, нейросети на основі методики МГУА (метод групового облікуаргументів) дозволяє на основі навчальної вибірки побудувати залежністьодного параметра від інших у вигляді полінома (рис. 1.9). Така мережа може нетільки миттєво вивчити таблицю множення, а й знайти складні прихованізалежності в даних (наприклад, фінансових), які не виявляютьсястандартними статистичними методами.

Кластеризація - це розбиття набору прикладів на кілька компактнихобластей (кластерів), причому число кластерів заздалегідь невідомо (мал.
1.10). Кластеризація дозволяє представити неоднорідні дані у більшнаочному вигляді і використовувати далі для дослідження кожного кластерурізні методи. Наприклад, таким чином можна швидко виявитифальсифіковані страхові випадки або недобросовісні підприємства.

Незважаючи на великі можливості, існує ряд недоліків, яківсе-таки обмежують застосування нейромережевих технологій. По-перше,нейронні мережі дозволяють знайти тільки Субоптимальне рішення, івідповідно вони непридатні для задач, у яких потрібно високаточність. Функціонуючи за принципом чорного ящика, вони також не застосовуються ввипадку, коли необхідно пояснити причину прийняття рішення. Навченанейросети видає відповідь за долі секунд, проте відносно високаобчислювальна вартість процесу навчання як за часом, так і за обсягомзайманої пам'яті також істотно обмежує можливості їхвикористання. Та все ж клас задач, для рішення яких ці обмеження некритичні, досить широкий.

2. Постановка задачі класифікації сейсмічних сигналів.

Міжнародна система моніторингу (МСМ), що сформувалася в світі заостанні десятиліття, призначена для спостереження за сейсмічноактивними регіонами. Основна частина інформації фіксується на одиночнихсейсмічних станціях. Подальша обробка цієї інформації дозволяєоцінити різні фізичні параметри, що характеризують записане подія.
Відповідно ніж інформативніше записаний сигнал, тим більше всілякихпараметрів можна визначити і точніше. Відносно недавно для спостереженнястали використовувати групи сейсмічних станцій. Найбільш широке застосуванняотримали малоапертурние групи з діаметром приблизно 3 км. за рахуноктого, що в цьому випадку можна знехтувати спотвореннями сигналу, що виникаютьчерез неоднорідність земної поверхні.
Причина використання сейсмічних груп також полягає в тому, що притакому методі спостереження можна застосовувати спеціальні алгоритми комплексноїобробки реєструється багатоканальної сейсмограмою, які забезпечуютькращу якість оцінки параметрів записаної інформації, у порівнянні зодиночними сейсмічними станціями.
Одна з численних завдань, що виникають при регіональному моніторингу,це завдання ідентифікації типу сейсмічного джерела або завданнякласифікації сейсмічних сигналів. Вона полягає в тому, щоб посейсмограмою визначити причину виникнення зафіксованого події,тобто розрізнити вибух і землетрус. Її рішення передбачає розробкупевного методу (вирішального правила), який з певноюймовірністю міг би віднести записане подія до одного з двох класів. НаРис.2.1 представлена схема постановки задачі.

Для вирішення цього завдання в даний час застосовуються різніаналітичні методи з теорії статистичного аналізу, що дозволяють звисокою ймовірністю правильно класифікувати дані. Як правило, дляконкретного регіону існує своя база даних записаних подій. Вонавключає в себе приклад сейсмограмою характеризують як землетруси, так івибухи відбулися в цьому регіоні з моменту початку спостереження. Всііснуючі методи ідентифікації використовують цю базу даних якнавчального безлічі, тим самим, вловлюючи тонкі відмінності характерні дляданого регіону, методи, налаштовують певним чином свої параметри ів результаті навчаються класифікувати всі навчальне безліч на приналежність доодному з двох класів.

Один з найбільш точних методів заснований на виділення дискримінантнийознак з сейсмограмою і наступної класифікації векторів ознак здопомогою статистичних вирішальних правил. Розмірність таких векторіввідповідає кількості ознак, які використовуються для ідентифікації і, якправило, не перевищує кількох десятків.

Математична постановка в цьому випадку формулюється як задачаподілу за навчальною вибіркою двох класів і ставиться так: є дванабору векторів (кожен вектор розмірності N): X1, ..., Xp1 і Y1, ... Yp2. Заранеевідомо, що Xi (i = 1, ..., p1) відноситься до першого класу, а Yj (j = 1, ..., p2) --до другого. Потрібно побудувати вирішальне правило, тобто визначити такуфункцію f, що при f (x)> 0 вектор x ставився б до першого класу, а приf (x) <0 - до другого, де x ((X1, ..., Xp1, Y1, ..., Yp2).

3. Статистична методика вирішення задачі класифікації.

В даному розділі розглядається методика визначення типівсейсмічних подій, заснована на виділення дискримінантний ознак зсейсмограмою і наступної класифікації векторів ознак за допомогоюстатистичних вирішальних правил. [8]
3.1 Виділення інформаційних ознак з сейсмограмою.

Вихідні дані представлені у вигляді сейсмограмою (мал. 3.1) - цетимчасове відображення коливань земної поверхні.

У такому вигляді аналізувати інформацію, оцінювати різні фізичніхарактеристики зафіксованого події досить важко. Існуютьрізні методи, спеціально призначені для обробки сигналів,які дозволяють виділяти певні ознаки, і, в подальшому, за нимпроводити аналіз записаного події.

Як правило, у більшості з цих методів на початковому етапівиконується наступний набір операцій:
1. З усієї сейсмограмою виділяється частина ( «тимчасове вікно»), який містить інформацію про якоїсь окремої складової сейсмічної події, наприклад, тільки про P-хвилі.
2. Для виділених даних послідовно застосовується такі процедури як: а) Бистре (дискретне) перетворення Фур'є (ШПФ); б) Потім накладаються характеристики певного фільтру, наприклад, фільтра Гауса. в) Зворотне перетворення Фур'є (ОБПФ), для того щоб отримати відфільтрований сигнал.

Далі, застосовуються різні алгоритми для формування певногоознаки. Зокрема, можна легко знайти максимальну амплітуду коливаннясигналу, характеристику визначається виразом max (peakMax - peakMin).
Визначивши цей параметр для частоти f1 допустимо для P хвилі, а також длячастоти f2 для S хвилі можна знайти їх ставлення P (f1)/S (f2), івикористовувати його в якості дискримінаційного ознаки.

Застосовуючи інші алгоритми, можна побудувати велику кількість такихознак. Проте, для задачі ідентифікації типу сейсмічного події,важливими є далеко не всі. З найбільш інформативних можна виділититакі ознаки, як відношення амплітуд S і P хвиль, або частка потужності S фазина високих (низьких) частотах по відношенню до потужності S фази у всій смузічастот.

Як правило, максимальна кількість ознак, що використовуєтьсядля цього завдання становить близько 25 - 30.

3.2 Відбір найбільш інформативних ознак для ідентифікації.

Як було показано вище, в сейсмограмою аналізованого події можнавиділити досить багато різних характеристик, однак, далеко не всі зних дійсно можуть нести інформацію, суттєву для надійногоідентифікації вибухів та землетрусів. Численні дослідження вдіскрімінінтном аналізу показали, що виділення малого числа найбільшінформативних ознак винятково важливо для ефективної класифікації.
Кілька ретельно відібраних ознак можуть забезпечити ймовірністьпомилкової класифікації істотно меншу, ніж при використанні повногонабору.

Нижче представлена процедура відбору найбільш інформативнихдискримінантний ознак, що здійснюється на підставі навчальних реалізаційземлетрусів та вибухів з даного регіону. [8]

На початку кожен вектор xsj = (x (i) sj, i (1, p); де s (1,2-номер класу
(s = 1 - землетруси s = 2 - вибухи), j (1, ns, ns-число навчальних векторівданого класу складається з p ознак, вибраних з евристичнихміркувань як імовірно корисні для даної проблемирозпізнавання. При цьому число p може бути досить велика і навітьперевищувати кількість наявних навчальних векторів в кожному з класів, але длястійкості обчислень повинно виконуватися умова p

D (k) = (m (k, 1) - m (k, 2)) T S-1n1 + n2 (k) (m (k, 1 ) - m (k, 2)), (6)

де: m (k, 1), m (k, 2) k - мірні вектори вибіркових середніх, обчислені за k -мірним векторах x1j (k) j (1, n1 і x2j (k) j (1, n2 першого і другого класів; S-
1n1 + n2 (k) є (k (k) - мірна зворотній вибіркова матриця коваріації,обчислена з використанням усього набору k - мірних векторів x1j (k) j (1, n1і x2j (k) j (1, n2

На першому кроці процедури відбору значення функціонала D (1) обчислюютьсядля кожного з p ознак. Максимум з цих p значень досягається набудь то з ознак, який таким чином відбирається як першийінформативний. На другому кроці значення функціонала D (2) обчислюються вже длявекторів, що складаються з пар ознак. Перший елемент в кожній парі - цеознака, відібраний на попередньому кроці, другий елемент пари - один їхзалишилися ознак. Таким чином виходять p-1 значення функціонала
D (2). Другий інформативна ознака відбирається з умови, що на ньомудосягається максимум функціоналу D (2). Далі процедура триваєаналогічно, і на k-му кроці процедури відбору обчислюються значення функціонала
D (k) з навчальних векторів, що складається з k ознак. Перші k-1 компонентцих векторів є інформативні ознаки, відібрані на попередніх k-1кроки, остання компонента - один з решти ознак. В якості k-гоінформативного ознаки відбирається той ознака, для якого функціонал
D (k)-максимальний.

Описана процедура ранжує порядок проходження ознак унавчальних векторах так, щоб забезпечити максимально можливу швидкістьзростання відстані Махаланобіса (6) з ростом номера ознаки. Дляселекції безлічі найбільш інформативних ознак на кожному кроціk = 1,2 ,..., p описаної вище ітераційної процедури ранжирування ознак заінформативності зберігаються номер j (k) у вихідній таблиці ознак і ім'явибраного ознаки, також обчислюється теоретичне значення повноїймовірності помилки класифікації P (k) за формулою Колмогорова-Дєєва [12].

P (k) = (1/2) [1 - Tk (D (k)/((k)) + Tk (-D (k)/((k))],де k - число використовуваних ознак
(2 (k) = [(t +1)/t] [r1 + r2 + D (k)]; t = [(r1 + r2)/r1r2] -1; r1 = k/n1; r2 = k/n2

(7)

Tk (z) = F (z) + (1/(k-1)) (a1 - a2H1 (z) + a3H2 (z) - a4H3 (z)) f (z),

F (z) - функція стандартного гаусівських розподілу ймовірностей;f (z) - щільність цього розподілу; Hi (z) - поліном Ерміта ступеня i,i = 1,2,3; aj, j = 1 ,..., 4 - деякі коефіцієнти, що залежать від k, n1, n2 і
D (k) [12]. Ця формула, як було показано в різних дослідженнях, маєвисоку точність при розмірах вибірок близько сотні і rs 0, то приймається, що векторx (k) належить першого класу - (землетрус); в протилежному випадкувін належить другий клас (вибух).

Квадратична дискримінаційна функція описується наступною формулою
(9)де, s = 1,2 - зворотні матриці коваріації навчальних вибірок 1-го і 2 --го класів, обчислені з навчальних векторах x1j (k) j (1, n1 і x2j (k)j (1, n2, відповідно.

3.4 Оцінка ймовірності помилкової класифікації методом ковзного іспиту.

Оцінювання ймовірності помилкової ідентифікації типу подій
(землетрус-вибух), у кожному конкретному регіоні представляє собою однуз основних практичних завдань моніторингу. Це завдання доводиться вирішувати напідставі накопичення регіональних сейсмограмою подій, про які достеменновідомо, що вони породжені землетрусами або вибухами. Ці жсейсмограмою являють собою "навчальні дані" для адаптації вирішальнихправил.

З теорії розпізнавання образів відомо, що найбільш точною іуніверсальною оцінкою ймовірності помилок класифікації є оцінка,що забезпечується процедурою "ковзного іспиту" ( "cross-validation") [11].

У методі ковзного іспиту на кожному кроці один з навчальних векторівxsj, j (1, ns, s (1,2, виключається з навчальної вибірки. залишилися векторивикористовуються для адаптації (навчання) LDF або QDF або будь-якого іншогодискримінатор. Виключений вектор потім класифікується за допомогоюдискримінатор, навченого без його участі. Якщо цей векторкласифікується неправильно, тобто відноситься до класу 2 замість класу 1 абонавпаки, що відповідають "лічильники" (12 або (21 збільшуються на 1.
інший вектор xs (j +1). Процедура повторюється для всіх nl + n2 навчальнихвекторів. Обчислюється в результаті величина p0 = ((12 + (21)/(nl + n2)є заможної оцінкою повної ймовірності помилкової класифікації.
Значення дискримінатор, отримані в результаті процедури ковзногоіспиту для обох класів, ранжуються за амплітудою: ранжируванняпослідовності зручніше порівнювати з порогом і робити висновки про
"Фізичних" причини помилкової класифікації.
4. Огляд різних архітектур нейронних мереж, призначених для задач класифікації.

Приступаючи до розробки нейромережевого рішення, як правило,стикаєшся з проблемою вибору оптимальної архітектури нейронної мережі.
Так як галузі застосування найбільш відомих парадигм перетинаються, то длявирішення конкретного завдання можна використовувати зовсім різні типинейронних мереж, і при цьому результати можуть виявитися однаковими. Будечи є та чи інша мережа краще і практичніше, залежить в більшості випадків відумов завдання. Так що для вибору кращої доводиться проводитичисленні детальні дослідження.

Розглянемо ряд основних парадигм нейронних мереж, успішно застосовуютьсядля вирішення задачі класифікації, одна з постановок якої представлено вданої дипломної роботи.

4.1 Нейрон - класифікатор.

Найпростішим пристроєм розпізнавання образів у нейроінформатікеє одиночний нейрон (рис. 4.1), що перетворює вхідний вектор ознакв скалярний відповідь, що залежить від лінійної комбінації вхідних змінних [1 -
5, 7,10]:

Скалярний вихід нейрона можна використовувати як т.зв.дискримінантної функції. Цим терміном називають індикатор приналежностівхідного вектора до одного з заданих класів, а нейрон відповідно --лінійним дискримінатор. Так, якщо вхідні вектора можуть належатиодному з двох класів, можна розрізнити тип входу, наприклад, наступнимчином: якщо f (x) (0, вхідний вектор належить першого класу,впротилежному випадку - другі. Розглянемо алгоритм навчання подібноїструктури, прийнявши f (x) (x.

Отже, в p-мірному просторі задана навчальна вибірка x1, ..., xn (першийклас) і y1, ..., ym (другий клас). Потрібно знайти такі p +1- мірний вектор w,що для всіх i = 1, ..., n і j = 1, ..., m w0 + (xi, w)> 0 і w0 + (yj, w) 0. Якщо для даного l (n + m воновиконано, переходимо до наступного l (або при l = n + m закінчуємо цикл),якщо ж не виконано, то модифікуємо w за правилом w = w + zl, або w = w + hTzl,де T - номер модифікації, а, наприклад.

Коли за весь цикл немає жодної помилки (тобто модифікації w), торішення w знайдено, у випадку ж помилок вважаємо l = 1 і знову проходимо цикл.

У деяких найпростіших випадках лінійний дискримінатор - найкращий зможливих, а саме коли обидва класу можна точно розділити однієїгіперплоскостью, малюнок 4.2 демонструє цю ситуацію для площини,коли p = 2.

4.2 Багатошаровий персептрон.

Можливості лінійного дискримінатор досить обмежені. Для вирішеннябільш складних класифікаційних задач необхідно ускладнити мережа вводячидодаткові (приховані) шари нейронів, що виробляють проміжнупередобробки вхідних даних, таким чином, щоб вихідний нейрон -класифікатор одержував на свої входи вже лінійно-разделімие безлічі. Такіструктури носять назву багатошарові персептрони [1-4,7,10] (рис. 1.3).

Легко показати, що, в принципі, завжди можна обійтися одним прихованимшаром, що містить, досить велике число нейронів. Дійсно,збільшення прихованого шару підвищує розмірність простору, в якомувихідний нейрон виробляє класифікацію, що, відповідно, полегшуєйого завдання.

Персептрони досить популярні в нейроінформатіке. І це зумовлено, впершу чергу, широким колом доступних їм задач, у тому числі і завданькласифікації, розпізнавання образів, фільтрації шумів, пророкуваннячасових рядів, і т.д., причому застосування саме цієї архітектури в рядівипадків цілком виправдано, з точки зору ефективності вирішення задачі.

Розглянемо які алгоритми навчання багатошарових мереж розроблені ізастосовуються в даний час. [7,10]. В основному всі алгоритми можнарозбити на дві категорії:
. Градієнтні алгоритми;
. Стохастичні алгоритми.

До першої групи належать ті, які засновані на обчисленніпохідної функції помилки і коригування ваг відповідно дозначенням знайденої похідної. Кожен подальший крок спрямований у бікантіградіента функції помилки. Основу всіх цих алгоритмів становить добревідомий алгоритм зворотного поширення помилки (back propagationerror). [1-5,7,10].

, де функція помилки

Численні модифікації, розроблені останнім часом, дозволяютьістотно підвищити ефективність цього алгоритму. З них найбільшвідомими є:

1. Навчання з моментом. [4,7]. Ідея методу полягає в додаванні до величини корекції ваги значення пропорційного величині попереднього зміни цього ж вагового коефіцієнта.

2. Автономний градієнтний алгоритм (Навчання з автоматичною зміною довжини кроку (). [10]

3. RPROP (від resilient-еластичний