ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Штучний інтелект на варті
         

     

    Інформатика, програмування

    Штучний інтелект на варті

    Олег Зайцев

    Застосування самоорганизующихся карт для аналізу інцидентів ІБ

    самоорганізуються картки

    самоорганізуються карти, або SOM (Self-Organizing Maps), є різновидом штучних нейронних мереж, але володіють однією істотною відмінністю, пов'язаних з методикою навчання. Звичайні нейронні мережі навчаються за методом «навчання з учителем», тобто для їх навчання потрібно підготовка масиву виду «вектор вхідних параметрів» -- «Вектор вихідних параметрів». Для навчання самоорганизующихся карт застосовується метод «навчання без учителя», тобто результат навчання цілком залежить тільки від вхідних даних.

    Найбільшу популярність здобули самоорганізуються карти Кохонена, що працюють за алгоритмами, запропонованим у 80-роках фінським вченим Тейво Кохоненом. У самоорганизующихся карт є ряд областей застосування, найбільш важлива з практичної точки зору - аналіз даних з метою пошуку закономірностей і проведення кластеризації даних. Аналіз даних за допомогою самоорганизующихся карт заснований на тому, що вони дозволяють представити безліч об'єктів, заданих багатовимірним простором (тобто з кількістю ознак більше двох) у вигляді двовимірних карт, причому близько розташованим в багатовимірному просторі об'єктів відповідають близько розташовані точки на плоскій карті. Відповідно, якщо є безліч із сотень чи тисяч об'єктів, кожен з яких описується як мінімум декількома властивостями, то проаналізувати це безліч на наявність закономірностей та аномалій досить складно. Тому можна провести навчання самоорганізується карти і отримати на виході досить наочні двовимірні карти, які нескладно проаналізувати візуально. Розглянемо показовий практичний приклад, для чого повернемося до розглянутої в минулій статті завданню аналізу трафіку користувачів. Візьмемо трафік користувачів за один день і охарактеризуємо його наступними показниками:

    1. Кількість запитів за робочий день;

    2. Сумарний обсяг завантаженої інформації;

    3. Сумарний обсяг відеоданих;

    4. Сумарний обсяг аудіоданих;

    5. Сумарний об'єм завантажених файлів.

    Отриману вибірку оперативно проаналізувати нелегко, хоча, звичайно, можна знайти максимальні, мінімальні та середні значення для кожного з них. Спробуємо застосувати вже відому нам програму Deductor Lite (www.basearoup.ru). Вона має здатність навчати і відображати самоорганізуються карти Кохонена.

    Для побудови карт Кохонена в пакеті Deductor Lite необхідно імпортувати дані, після чого викликати майстер обробки даних і вибрати в ньому позицію «Карта Кохонена». Викликаний майстер буде крок за кроком керувати процесом створення карти. Після закінчення процесу навчання слід відзначити в майстра параметри, для яких необхідно побудувати і відобразити карти. Після цього майстер завершить роботу і можна буде приступити до аналізу. При розгляді карти для параметра QUERY_COUNT (кількість запитів) виявляється чітко видима закономірність-у більшості користувачів (візуально близько 70-80%) кількість запитів невелика-порядку 500-1500 за робочий день. Далі є порівняно невелика група користувачів, що роблять 2-5 тис. запитів, і всього одна точка (верхній лівий кут, червоний колір), відповідна аномально великого числа запитів -11 тис. Отже, ми розглянули лише одну карту і вже отримали масу інформації, в Зокрема виявили яскраво виражену аномалію (при цьому ми пам'ятаємо-кожна точка на карті відповідає комп'ютера).

    розслідуємо цю аномалію, для чого звернемося до інших картах. На карті для QUERY_SIZE ми бачимо, що особливої аномалії в обсязі завантаженої інформації для цього ПК немає, тому переходимо до карт для IMAGE_SIZE, VIDECLSIZE і AUDIO. SIZE.

    На картах ми бачимо ще одну цікаву закономірність-для AUDIO_SIZE є явна аномалія, і вона відповідає нашому ПК з аномально великою кількістю запитів. На карті для VIDECLSIZE нічого особливо примітно з даного ПК немає, а на карті IMAGE_SIZE бачимо ще одну зачіпку-трафік зображень явно вище середнього. Отже, можна зробити проміжний висновок-в мережі з'явився користувач, з комп'ютера якого йде аномально велику кількість запитів, причому він явний лідер по завантаженню аудіоінформації і один з лідерів за картинками. Далі залишається провести службове розслідування для встановлення причин виникнення аномалії-так як в нашому випадку використовувалися реальні дані, то розслідування показало, що користувач дійсно завантажував картинки і МРЗ-файли для вирішення завдань, далеких від виробничої необхідності. Однак повернімося до наших картками-тепер об'єктом розгляду у нас буде карта QUERY_SIZE. Легко помітити, що на ній також видна явна аномалія в обсязі завантаженої інформації - є група із семи комп'ютерів, трафік яких на порядок перевищує трафік інших ПК. Причому одна з них (він показаний червоним) виділяється на тлі цієї групи. Аналізуючи інші карти бачимо, що кількість запитів для даного ПК не виділяється на загальному тлі, так само як немає аномалій в області зображень, аудіо та відео. Детальний аналіз показав, що це машина фахівця з обслуговування ПК, який завантажував драйвери для ноутбука.

    Проаналізувавши аналогічним чином решта карт, нескладно виявити, що на кожній з них наявні аномалії, що відповідають цілком певним ПК; при цьому найбільш цікаво вивчення всіх карт одночасно-для зручності виконання даної операції при виділенні точки на одній карті пакет Deductor Lite показує її і на інших. Розглянемо ще один практичний приклад - аналіз трафіку користувачів. Вхідний масив даних в цьому випадку буде формуватися сніферів, які аналізують трафік користувачів ЛОМ. Для спрощення задачі будемо вважати, що сніфер фіксує кількість пакетів з використанням різних протоколів в одиницю часу, зокрема кількість:

    1. DNS запитів-параметр у вибірці має ім'я «DIMS»;

    2. Пакетів по порту 25/ТСР (SMTP-відправка пошти)-параметр «SMTP»;

    3. Пакетів по порту 21/ТСР (РТР-протокол)-параметр «FTP»;

    4. Пакетів по порту 80ДСР (http-прото-кол)-параметр «HTTP»;

    5. Пакетів по порту3128ДСР (HTTP Proxy) - параметр «HTTP_PROXY»;

    6. Пакетів по портах, використовуваним мережею Microsoft, - параметр «MS_NET».

    В прикладі використовуємо реальні дані, причому всі ПК локальної мережі працюють з Інтернетом через проксі-сервер. Отже, будуємо карту Кохонена в Deductor Lite, всі параметри-за замовчуванням, так як приклад простий і особлива налаштування для нього не потрібно. Саме навчання займає лічені секунди, після чого можна приступити до аналізу. На картах відразу видно цікаві закономірності. По-перше, добре видно, що переважна більшість комп'ютерів практично не виконує DIMS-запити - кількість запитів в середньому 30-50 за робочий день. Це цілком зрозуміло, тому що при роботі в Інтернеті через проксі-сервер DNS-запити з клієнтських ПК не потрібні.

    Однак на карті видно, що є невелика зона (лівий нижній кут на карті «DIMS»), відповідна ПК з підвищеною активністю запитів - понад 15 тис! Це насторожує. У «сусідів» цей параметр також викликає занепокоєння -- близько 6 тис. запитів у кожного. Для подальшого розслідування по черзі вибираємо кожного з трьох «лідерів» по DIMS-за-проса і дивимося, що відповідає їм на інших картах. І тут же з'ясовується ще одна цікава закономірність - з цих комп'ютерів зафіксована аномально висока активність http-запитів і відправлено дуже велика кількість SMTP-пакетів. Причому на карті для SMTP добре видно, що всі користувачі активно працюють з електронною поштою, але їх SMTP-трафік невеликий (близько 2-5 тис. пакетів у день). Таким чином, можна зробити висновок - деякі комп'ютери в мережі посилають аномально велику кількість DIMS-запитів, для них фіксується спроба роботи по протоколу HTTP прямо, в обхід проксі-сервера, і головне-у них дуже великий SMTP-трафік. Розслідування показало, що це були ПК програмістів, що мають доступ в Інтернет в обхід проксі, заражені троянськими програмами класу Backdoor і Spambot. Однак на цьому наше розслідування не завершено - звернемо увагу на карту для РТР-протоколу. На ній видно, що основна маса ПК в мережі не проявляє активності по протоколу РТР, однак є група ПК, на яких цей протокол застосовується. Ніяких аномалій для цих ПК на інших картах не видно. У даному випадку дослідження показало, що це робочі місця Web-дизайнерів та адміністраторів серверів. Далі розглянемо карту для РОРЗ - на ній видно, що користувачі активно працюють з поштою, але явних аномалій і закономірностей не видно. Нарешті, остання карта-активність в мережі Microsoft. Тут знову видно яскраво виражена група комп'ютерів, трафік яких різко відрізняється від трафіку інших ПК. Проведене службове розслідування показало, що причина такого високого трафіку проста-перекачування по мережі колекції фільмів. Як легко помітити, всі «кіномани» опинилися на карті MS_IMET поруч і виявити їх не склало ніяких труднощів.

    В висновок обговоримо третій приклад - в попередній статті ми розглядали застосування нейромереж для класифікації «користувач»/«зловмисник» на підставі аналізу різної інформації, яка описує роботу користувача з базою даних. Зокрема, там фігурували два основних параметри-V (завантажений з бази обсяг інформації за одиницю часу) і Т1 (ознака звернення до поданням словника даних ALLJABLES). Карта Кохонена для даного прикладу наведена на малюнку.

    Це два найбільш показові карти для параметрів V і Т1. Нескладно помітити на карті аномалію в об'ємі (карта V) і відповідну їй аномалію на карті Т1. Ця точка на карті свідчить про дії зловмисника, які перебували у завантаженні з бази даних інформації за допомогою спеціалізованого ПЗ. Таким чином, як показують розглянуті приклади, карти Кохонена є зручним інструментом для аналізу даних з метою пошуку аномалій і закономірностей. Карти можуть виступати хорошим аргументом на службовому розслідуванні, так як записи в протоколі мало що говорять керівництву, у той час як кольорова карта Кохонена дуже проста і наочна.

    Висновки

    Отже, у двох статтях ми розглянули основні технології ШІ-які грунтуються на правилах системи, дерева рішень, штучні нейронні мережі і самоорганізуються карти. Як показують приклади, кожна з цих технологій дозволяє вирішувати досить широке коло завдань, але при цьому має свої достоїнства і недоліками. Зокрема, системи, засновані на правилах, повністю передбачувані, правила є і модифікує людина-експерт, однак їх можна скласти тільки після ретельного вивчення предметної області у разі наявності явних закономірностей, які можуть бути виявлені експертом. Дерева рішень спрощують завдання розробки правил за рахунок того, що правила можуть будуватися і оптимізуватися автоматично в процесі навчання. Ще одне позитивна властивість-дерево рішень може бути проаналізовано і модифіковане людиною. Штучні нейронні мережі навчаються за заданими навчальним вибірках і можуть працювати з «зашумленими» даними і в умовах неповноти інформації, що є їх безсумнівним плюсом. Однак нейросети -- «Чорний ящик», тобто практично неможливо отримати знання, отримані в ході навчання нейро-мережі. І нарешті, самоорганізуються карти працюють за алгоритмом «Навчання без учителя», що дозволяє застосовувати їх для вивчення практично будь-якого набору даних. Крім того, отримане в ході навчання самоорганізується карти знання є для вивчення, завдяки чому можна виявляти приховані закономірності. Описані технології в основному застосовуються в економіці та медицині (при прогнозуванні розвитку ринку, курсів валют, надійності компаній, при постановці діагнозів). Однак практика показує, що дані технології придатні і для вирішення деяких задач з області інформаційної безпеки-для виявлення аномалій мережевої активності, пошуку слідів діяльності інсайдерів, у боротьбі з вірусами і зі спамом.

    Список літератури

    IT спец № 07 ЛИПЕНЬ 2007

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status