Штучний інтелект на варті h2>
Олег Зайцев p>
Застосування
самоорганизующихся карт для аналізу інцидентів ІБ p>
самоорганізуються картки h2>
самоорганізуються
карти, або SOM (Self-Organizing Maps), є різновидом штучних
нейронних мереж, але володіють однією істотною відмінністю, пов'язаних з методикою
навчання. Звичайні нейронні мережі навчаються за методом «навчання з учителем», тобто
для їх навчання потрібно підготовка масиву виду «вектор вхідних параметрів» --
«Вектор вихідних параметрів». Для навчання самоорганизующихся карт застосовується
метод «навчання без учителя», тобто результат навчання цілком залежить тільки
від вхідних даних. p>
Найбільшу
популярність здобули самоорганізуються карти Кохонена, що працюють за
алгоритмами, запропонованим у 80-роках фінським вченим Тейво Кохоненом. У
самоорганизующихся карт є ряд областей застосування, найбільш важлива з
практичної точки зору - аналіз даних з метою пошуку закономірностей і
проведення кластеризації даних. Аналіз даних за допомогою самоорганизующихся
карт заснований на тому, що вони дозволяють представити безліч об'єктів, заданих
багатовимірним простором (тобто з кількістю ознак більше двох) у вигляді
двовимірних карт, причому близько розташованим в багатовимірному просторі об'єктів
відповідають близько розташовані точки на плоскій карті. Відповідно, якщо
є безліч із сотень чи тисяч об'єктів, кожен з яких описується як
мінімум декількома властивостями, то проаналізувати це безліч на наявність
закономірностей та аномалій досить складно. Тому можна провести навчання
самоорганізується карти і отримати на виході досить наочні двовимірні
карти, які нескладно проаналізувати візуально. Розглянемо показовий
практичний приклад, для чого повернемося до розглянутої в минулій статті завданню
аналізу трафіку користувачів. Візьмемо трафік користувачів за один день і
охарактеризуємо його наступними показниками: p>
1.
Кількість запитів за робочий день; p>
2.
Сумарний обсяг завантаженої інформації; p>
3.
Сумарний обсяг відеоданих; p>
4.
Сумарний обсяг аудіоданих; p>
5.
Сумарний об'єм завантажених файлів. P>
Отриману
вибірку оперативно проаналізувати нелегко, хоча, звичайно, можна знайти
максимальні, мінімальні та середні значення для кожного з них.
Спробуємо застосувати вже відому нам програму Deductor Lite
(www.basearoup.ru). Вона має здатність навчати і відображати
самоорганізуються карти Кохонена. p>
Для
побудови карт Кохонена в пакеті Deductor Lite необхідно імпортувати
дані, після чого викликати майстер обробки даних і вибрати в ньому позицію
«Карта Кохонена». Викликаний майстер буде крок за кроком керувати процесом створення
карти. Після закінчення процесу навчання слід відзначити в майстра параметри, для
яких необхідно побудувати і відобразити карти. Після цього майстер завершить
роботу і можна буде приступити до аналізу. При розгляді карти для параметра
QUERY_COUNT (кількість запитів) виявляється чітко видима закономірність-у
більшості користувачів (візуально близько 70-80%) кількість запитів
невелика-порядку 500-1500 за робочий день. Далі є порівняно невелика
група користувачів, що роблять 2-5 тис. запитів, і всього одна точка (верхній лівий
кут, червоний колір), відповідна аномально великого числа запитів -11 тис.
Отже, ми розглянули лише одну карту і вже отримали масу інформації, в
Зокрема виявили яскраво виражену аномалію (при цьому ми пам'ятаємо-кожна точка
на карті відповідає комп'ютера). p>
розслідуємо
цю аномалію, для чого звернемося до інших картах. На карті для QUERY_SIZE ми
бачимо, що особливої аномалії в обсязі завантаженої інформації для цього ПК немає,
тому переходимо до карт для IMAGE_SIZE, VIDECLSIZE і AUDIO. SIZE. P>
На
картах ми бачимо ще одну цікаву закономірність-для AUDIO_SIZE є явна
аномалія, і вона відповідає нашому ПК з аномально великою кількістю
запитів. На карті для VIDECLSIZE нічого особливо примітно з даного ПК немає,
а на карті IMAGE_SIZE бачимо ще одну зачіпку-трафік зображень явно вище
середнього. Отже, можна зробити проміжний висновок-в мережі з'явився користувач,
з комп'ютера якого йде аномально велику кількість запитів, причому він явний
лідер по завантаженню аудіоінформації і один з лідерів за картинками. Далі
залишається провести службове розслідування для встановлення причин
виникнення аномалії-так як в нашому випадку використовувалися реальні дані,
то розслідування показало, що користувач дійсно завантажував картинки і
МРЗ-файли для вирішення завдань, далеких від виробничої необхідності. Однак
повернімося до наших картками-тепер об'єктом розгляду у нас буде карта
QUERY_SIZE. Легко помітити, що на ній також видна явна аномалія в обсязі
завантаженої інформації - є група із семи комп'ютерів, трафік яких на
порядок перевищує трафік інших ПК. Причому одна з них (він показаний червоним)
виділяється на тлі цієї групи. Аналізуючи інші карти бачимо, що
кількість запитів для даного ПК не виділяється на загальному тлі, так само як немає
аномалій в області зображень, аудіо та відео. Детальний аналіз показав, що
це машина фахівця з обслуговування ПК, який завантажував драйвери для
ноутбука. p>
Проаналізувавши
аналогічним чином решта карт, нескладно виявити, що на кожній з них
наявні аномалії, що відповідають цілком певним ПК; при цьому найбільш
цікаво вивчення всіх карт одночасно-для зручності виконання даної
операції при виділенні точки на одній карті пакет Deductor Lite показує її і
на інших. Розглянемо ще один практичний приклад - аналіз трафіку
користувачів. Вхідний масив даних в цьому випадку буде формуватися
сніферів, які аналізують трафік користувачів ЛОМ. Для спрощення задачі будемо
вважати, що сніфер фіксує кількість пакетів з використанням різних протоколів в
одиницю часу, зокрема кількість: p>
1.
DNS запитів-параметр у вибірці має ім'я «DIMS»; p>
2.
Пакетів по порту 25/ТСР (SMTP-відправка пошти)-параметр «SMTP»; p>
3.
Пакетів по порту 21/ТСР (РТР-протокол)-параметр «FTP»; p>
4.
Пакетів по порту 80ДСР (http-прото-кол)-параметр «HTTP»; p>
5.
Пакетів по порту3128ДСР (HTTP Proxy) - параметр «HTTP_PROXY»; p>
6.
Пакетів по портах, використовуваним мережею Microsoft, - параметр «MS_NET». P>
В
прикладі використовуємо реальні дані, причому всі ПК локальної мережі працюють з
Інтернетом через проксі-сервер. Отже, будуємо карту Кохонена в Deductor Lite,
всі параметри-за замовчуванням, так як приклад простий і особлива налаштування для нього
не потрібно. Саме навчання займає лічені секунди, після чого можна
приступити до аналізу. На картах відразу видно цікаві закономірності.
По-перше, добре видно, що переважна більшість комп'ютерів практично не
виконує DIMS-запити - кількість запитів в середньому 30-50 за робочий день.
Це цілком зрозуміло, тому що при роботі в Інтернеті через проксі-сервер
DNS-запити з клієнтських ПК не потрібні. P>
Однак
на карті видно, що є невелика зона (лівий нижній кут на карті «DIMS»),
відповідна ПК з підвищеною активністю запитів - понад 15 тис! Це
насторожує. У «сусідів» цей параметр також викликає занепокоєння --
близько 6 тис. запитів у кожного. Для подальшого розслідування по черзі
вибираємо кожного з трьох «лідерів» по DIMS-за-проса і дивимося, що
відповідає їм на інших картах. І тут же з'ясовується ще одна цікава
закономірність - з цих комп'ютерів зафіксована аномально висока активність
http-запитів і відправлено дуже велика кількість SMTP-пакетів. Причому на
карті для SMTP добре видно, що всі користувачі активно працюють з
електронною поштою, але їх SMTP-трафік невеликий (близько 2-5 тис. пакетів у
день). Таким чином, можна зробити висновок - деякі комп'ютери в мережі
посилають аномально велику кількість DIMS-запитів, для них фіксується
спроба роботи по протоколу HTTP прямо, в обхід проксі-сервера, і головне-у
них дуже великий SMTP-трафік. Розслідування показало, що це були ПК
програмістів, що мають доступ в Інтернет в обхід проксі, заражені троянськими
програмами класу Backdoor і Spambot. Однак на цьому наше розслідування не
завершено - звернемо увагу на карту для РТР-протоколу. На ній видно, що
основна маса ПК в мережі не проявляє активності по протоколу РТР, однак
є група ПК, на яких цей протокол застосовується. Ніяких аномалій для
цих ПК на інших картах не видно. У даному випадку дослідження показало, що
це робочі місця Web-дизайнерів та адміністраторів серверів. Далі розглянемо
карту для РОРЗ - на ній видно, що користувачі активно працюють з поштою, але
явних аномалій і закономірностей не видно. Нарешті, остання карта-активність
в мережі Microsoft. Тут знову видно яскраво виражена група комп'ютерів, трафік
яких різко відрізняється від трафіку інших ПК. Проведене службове
розслідування показало, що причина такого високого трафіку проста-перекачування по
мережі колекції фільмів. Як легко помітити, всі «кіномани» опинилися на
карті MS_IMET поруч і виявити їх не склало ніяких труднощів. p>
В
висновок обговоримо третій приклад - в попередній статті ми розглядали
застосування нейромереж для класифікації «користувач»/«зловмисник» на
підставі аналізу різної інформації, яка описує роботу користувача з базою
даних. Зокрема, там фігурували два основних параметри-V (завантажений з
бази обсяг інформації за одиницю часу) і Т1 (ознака звернення до
поданням словника даних ALLJABLES). Карта Кохонена для даного прикладу
наведена на малюнку. p>
Це
два найбільш показові карти для параметрів V і Т1. Нескладно помітити на
карті аномалію в об'ємі (карта V) і відповідну їй аномалію на карті Т1.
Ця точка на карті свідчить про дії зловмисника, які перебували у
завантаженні з бази даних інформації за допомогою спеціалізованого ПЗ. Таким
чином, як показують розглянуті приклади, карти Кохонена є зручним
інструментом для аналізу даних з метою пошуку аномалій і закономірностей.
Карти можуть виступати хорошим аргументом на службовому розслідуванні, так як
записи в протоколі мало що говорять керівництву, у той час як кольорова карта
Кохонена дуже проста і наочна. P>
Висновки h2>
Отже,
у двох статтях ми розглянули основні технології ШІ-які грунтуються на правилах
системи, дерева рішень, штучні нейронні мережі і самоорганізуються
карти. Як показують приклади, кожна з цих технологій дозволяє вирішувати
досить широке коло завдань, але при цьому має свої достоїнства і
недоліками. Зокрема, системи, засновані на правилах, повністю
передбачувані, правила є і модифікує людина-експерт, однак їх
можна скласти тільки після ретельного вивчення предметної області у разі
наявності явних закономірностей, які можуть бути виявлені експертом. Дерева
рішень спрощують завдання розробки правил за рахунок того, що правила можуть
будуватися і оптимізуватися автоматично в процесі навчання. Ще одне
позитивна властивість-дерево рішень може бути проаналізовано і
модифіковане людиною. Штучні нейронні мережі навчаються за заданими
навчальним вибірках і можуть працювати з «зашумленими» даними і в умовах
неповноти інформації, що є їх безсумнівним плюсом. Однак нейросети --
«Чорний ящик», тобто практично неможливо отримати знання, отримані в ході
навчання нейро-мережі. І нарешті, самоорганізуються карти працюють за алгоритмом
«Навчання без учителя», що дозволяє застосовувати їх для вивчення практично
будь-якого набору даних. Крім того, отримане в ході навчання самоорганізується
карти знання є для вивчення, завдяки чому можна виявляти приховані
закономірності. Описані технології в основному застосовуються в економіці та
медицині (при прогнозуванні розвитку ринку, курсів валют, надійності
компаній, при постановці діагнозів). Однак практика показує, що дані
технології придатні і для вирішення деяких задач з області інформаційної
безпеки-для виявлення аномалій мережевої активності, пошуку слідів діяльності
інсайдерів, у боротьбі з вірусами і зі спамом. p>
Список літератури h2>
IT
спец № 07 ЛИПЕНЬ 2007 p>