ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Інтерактивне дослідження некількісними даних: методика та інструментарій
         

     

    Інформатика, програмування

    Інтерактивне дослідження некількісними даних: методика та інструментарій

    Є.Б. Бєлова

    В цій статті розглядається методика інтерактивного дослідження некількісними даних, що витягають із історичних джерел. Пропонований підхід припускає активну участь дослідника на кожному кроці комп'ютерного аналізу. Необхідність такого підходу може бути обгрунтована наступними двома твердженнями, що стосуються характеру історичних даних і процесу їх аналізу.

    По-перше, некількісними дані за своїм походженням - це, взагалі кажучи, дані, витягають із текстових документів, а отже, семантично погано певні; їх структура не обов'язково є регулярною. На формальному рівні одиницею аналізу є пойменована сутність (об'єкт даних), описувана довільним набором елементарних властивостей (якостей). Іншими кажучи, сутність визначається як підмножина в безлічі властивостей/якостей. Властивість, у свою чергу, визначає, за допомогою своєї зустрічальності, групу сутностей, і отже, може розглядатися як підмножина в безлічі сутностей. Таким чином, ми маємо симетрію, що дозволяє обробляти сутність і її властивості схожим чином: розглядаючи набір даних як дві множини, описуваних залежністю "багато-ко-многим". Однак, треба зазначити, що хоча така симетрія не завжди осмислена на рівні інтерпретації, вона завжди присутній з формальної точки зору. Тому запропонований спосіб аналізу істотно спирається на цей факт. На практиці набір даних існує як послідовність записів, кожна з яких описує один об'єкт (визначає його ім'я і набір якостей). Якості можуть належати до різним групам. Ці групи можуть служити аналогами змінних ( "полів" - в термінах баз даних), а якості, їм належать -- значень змінних. Але групи, з одного боку, можуть мати більше одного значення для кожного запису, а з іншого боку, їх існування в загальному випадку необязятельно. Більш того, групи якостей можуть існувати динамічно і купувати різний сенс у процесі аналізу.

    По-друге, на практиці дуже складно, а іноді навіть неможливо вибрати a priori вірний алгоритм аналізу складних даних. Тому запропонований у цій статті програмний інструмент QualiDatE [1] підтримує гнучкий механізм для створення призначених для користувача стратегій аналізу.

    Основний операцією QualiDatE є кластеризація (класифікація). Однак, тут сенс цієї процедури є ширшим, ніж у традиційному аналізі даних: контрольований користувачем процес кластеризації дозволяє вивчати характеристики набору даних з різних точок зору і в різних вимірах оскільки і об'єкти даних, і їх властивості можуть бути класифіковані. Кожен окремий акт класифікації визначається наступним чином:

    вказуються еталонні об'єкти, які визначають центри шуканих класів;

    шляхом введення порогу близькості (подібності) визначається наскільки інші об'єкти з досліджуваного набору повинні бути близькі до еталонів;

    вказується тип класифікації. QualiDatE підтримує два основних типи близькості: симетричну і асиметричну:

    На перший погляд, асиметрична близькість може виглядати дивно, оскільки ми звикли розглядати подібність як симетричне відношення. Сенс її використання полягає в тому, що у нас повинна бути можливість поставити такі задачі як, наприклад, "знайти кластер, в якому б властивості даного об'єкта домінували "або" визначити, до якого ступеня даний об'єкт схожий на інші об'єкти з набору даних "- іншими словами, оцінити ефект "особистості" і "натовпу" відповідно. У зазначених випадках використання асиметричної заходи близькості більш адекватно.

    Симетрична близькість (1) у разі об'єктів даних є ні що інше, як частка загальних властивостей серед загального списку властивостей двох об'єктів. Асиметрична близькість (2) є число загальних властивостей щодо числа всіх властивостей якого-небудь об'єкта. Обидва вираження вірні, коли ваги ваги всіх властивостей рівні. Однак, в QualiDatE закладені механізми маніпулювання вагами. Якщо будь-яка властивість з точки зору дослідника є більш важливим у порівнянні з іншими, то йому може бути присвоєний більш високий вагу. Внаслідок цього близькість стає умовної мірою, що відбиває неоднакову значущість властивостей об'єктів. Незважаючи на відсутність обмежень на значення ваги, обидва типи заходів близькості завжди беруть значення в діапазоні від нуля до одиниці.

    В то всім як близькість між об'єктами досить природно інтерпретується як кількісна схожість (наприклад, схожість соціальних характеристик двох персон), близькість властивостей може інтерпретуватися як кореляційна міра. Наприклад, асиметрична міра близькості властивості "грамотний" і "селянин" у деякому уявному наборі даних, що містить персональну інформацію (у разі рівних ваг) визначає частку грамотних людей серед селян. Або, в імовірнісних термінах - це емпірична умовна ймовірність властивості "грамоти" за умови наявності властивості "селянин", що дорівнює відношенню частоти зустрічальності властивостей "грамотний" і "селянин" до частоті властивості "селянин". Однак, у випадку нерівних ваг, коли, наприклад, деякі особи не можуть бути чітко названі грамотними, близькість втрачає свій очевидний сенс. Однак, вона зберігає функцію кореляційної заходи, тобто відображає ступінь погодженості прояви властивостей.

    Варто відзначити, що в нашому методі не має значення, чи мають порівнювані об'єкти даних однаковим числом властивостей, чи ні [2].

    Розглянемо тепер вже згадувані вище типи класифікації, підтримувані програмою QualiDatE.

    Рис. 1а Розбиття типу покриття.

    Покриття. У результаті цього типу класифікації всі об'єкти, розташовані всередині зазначених кордонів, включаються в один кластер. При цьому кластери можуть перетинатися, а об'єкти, що не потрапили в жоден з кластерів, утворюють так званого класу залишків (мал. 1а).

    Рис. 1б Розбиття з обмеженням.

    Розбиття з обмеженням відрізняється від покриття тим, що області перетину розбиваються у відповідності з максимальною мірою близькості (мал. 1б).

    Рис 1в Повний розбиття.

    Повний розбиття веде до того, що кожен елемент даних обов'язково потрапляє в будь-який клас [3] (рис. 1в), тобто від попереднього воно відрізняється неможливістю появи класу залишків.

    В випадку покриття та розбиття з обмеженням використовується пара чисел (верхній і нижній пороги), що змінюються в діапазоні від 0 до 1, і що визначають область кластеру. Об'єкт буде включений у клас, якщо його близькість до еталона потрапляє в задану порогами область. Якщо верхній поріг дорівнює одиниці, то буде генеруватися клас схожих об'єктів. У цьому випадку нижній поріг грає роль критичного рівня цієї схожості. Однак, у загальному випадку, дослідник може управляти парою порогових значень і отримувати кластери, що мають самий різноманітний сенс, аж до кластеру максимально несхожих на еталон об'єктів. І звичайно, завжди залишається можливість встановити пару порогів на граничні значення (нижній - на нуль, верхній - на одиницю), внаслідок чого всі об'єкти набору даних будуть включені в один клас. Вибір порогів до деякої міри еквівалентний вибору рівня значущості в статистиці, оскільки він так само базується на міркуваннях здорового глузду та інтуїції експерта.

    Отримані в результаті класифікації групи об'єктів можуть бути "вирізані" в окремі набори даних і оброблені незалежно.

    Рис. 2 Концептуальний дизайн програмного інтерфейсу

    Інтерфейс програми QualiDatE націлений насамперед на підтримку інтерактивного аналізу даних. Концептуальний дизайн програмного інтерфейсу показаний на малюнку 2.

    Набір даних, що може бути оброблений паралельно у двох вимірах (як набір сутностей, і як набір якостей/властивостей), постає перед користувачем в різних видах. Це можуть бути вихідні дані, близькості, ваги, статистика, заходи приналежності. Сенс перших трьох видів (подань) досить очевидний: статистика представляє числову інформацію про набір даних (як то: метрики об'єктів, частоти їх зустрічальності і т.д.); подання заходів приладдя відіграє роль свого роду тесту, який може проводитися до початку власне класифікації, виявляючи "найближчого сусіда" для кожної сутності.

    Конкретний вид кожного представлення залежить від поточного стану, тобто від того, який саме фільтр був обраний: набір зазначених еталонів, вибірка груп, які повинні бути відображені і активна схема класифікації. Остання має на увазі, що в будь-який момент можуть співіснувати чотири класифікаційних схеми - по дві на кожний тип сутностей; при цьому один для кожної пари стає неактивній (прихованою).

    Таким чином, досліджуваному наборі даних є певне число віртуальних рівнів інформації. Згадувані раніше стратегії аналізу реалізуються користувачем (дослідником) як послідовні кроки з одного рівня на інший або їх комбінації. При цьому можливі різні сценарії. Деякі з них, які здаються найбільш типовими будуть розібрані нижче з формальної точки зору.

    Три сценарії аналізу.

    Перший сценарій (див. рис. 3) передбачає, що дослідник має уявлення про те, які об'єкти в наборі даних є типовими - еталонними в термінах розв'язуваної задачі. Іншими словами, дослідник знає якого роду класифікацію треба застосувати до даних. Тоді формально завдання формулюється в такий чином: знайти групи об'єктів, що представляють шукані класи. Першим кроком у вирішенні такого завдання буде вказівка відомих специфічних об'єктів - призначення їх еталонами. У простому випадку може бути використано повне, жорстке розбиття. Другим і поледнім кроком буде збереження статистичної інформації для знайдених класів. Якщо ж завдання виглядає більш складною, наприклад, передбачається існування об'єктів, що випадають із загальної схеми, або накладаються жорсткі вимоги на однорідність шуканих класів, то на другу кроці пропонується використовувати перегляд значень належності до класів або близькості. Ці можливості націлені на те, щоб вибрати розумний для досліджуваного набору даних поріг схожості, потім застосувати розбиття з обмеженням або покриття. Статистичне представлення результатів у цьому випадку може бути фіналом, а може і слугувати базою для подальшого перегляду параметрів класифікації.

    Рис. 3. Схема дослідження відповідно з першим сценарієм аналізу.

    Другий сценарій описує випадок, коли існує якась зовнішня (апріорна) класифікація, що визначається щодо вузьким набором властивостей (див. мал 4).

    Тоді завдання можна сформулювати наступним чином: класифікувати об'єкти за всіма іншим властивостям в цілому і порівняти апріорну і апостеріорного схеми. Отже, ми повинні почати з вказівки властивостей, що визначають зовнішню класифікацію в якості еталонних і класифікувати весь набір властивостей. У результаті цього кроку виявляються групи властивостей, корелюють з еталонними. Тепер в нашому розпорядженні є групи основних властивостей, які можуть підказати нам, яким чином слід вибрати еталони серед об'єктів. На цьому кроці розумно встановити нульові ваги еталонним властивостях з тим, щоб вони ігнорувалися при класифікації об'єктів, і підвищити ваги основних властивостей, відмінних від еталонних. Тепер класифікація дасть нам набір еталонних об'єктів і робота може бути продовжена згідно з першим сценарієм.

    Дослідження властивостей отриманих груп і порівняльна групова статистика допомагає оцінити якість класифікації. У результаті може бути прийнято рішення змінити параметри класифікації. Або, якщо класифікація видається незадовільною, знайдені класи та/або об'єкти, які не потрапили ні в один клас, можуть бути виділені в нові набори даних, і для кожного з них всю процедуру можна повторити з самого початку.

    Рис. 4. Схема дослідження відповідно з другим сценарієм аналізу.

    Третій сценарій аналізу застосуємо в ситуації, коли нічого певного про досліджуваний наборі даних не відомо. У такому випадку завдання не може бути сформульована конкретніше, ніж "вивчити набір даних" (див. рис 5а).

    Рис. 5а. Схема дослідження відповідно до третім сценарієм аналізу.

    Сеанс роботи можна почати з перегляду частот властивостей. Грунтуючись на них, користувач може вибрати декілька найбільш часто зустрічаються властивостей і прийняти їх за еталонні. Подальша послідовність роботи приблизно співпадає з другим сценарієм. Альтернативне рішення полягає у виборі об'єктів, містять найбільш часто зустрічаються властивості, визначення їх як еталонних і перехід до роботи за першим сценарієм.

    Рис. 5б. Схема дослідження відповідно до третім сценарієм аналізу.

    В Як ще одного підходу (див. рис 5б) можна запропонувати розпочати сеанс роботи з вибору одного об'єкта як еталон випадковим чином. Потім переглянути близькості до нього з тим щоб знайти самі несхожі на нього об'єкти, які потенційно можуть служити додатковими (альтернативними) еталонами. Такого роду попередній аналіз можна продовжувати до тих пір, поки не сформується розумний набір еталонів. Після цього знову вступає в дію перший сценарій.

    Набір можливих стратегій дослідження не обмежується трьома вищеописаними сценаріями. Варто зазначити принаймні ще на три важливих застосування QualiDatE.

    Близькість до еталону можна розглядати як міру речі в сенсі теорії нечітких множин. Якщо дослідник досить добре знайомий з поняттями цієї теорії, то він може оперувати безпосередньо зі значеннями близькості і створювати нечіткі класифікації, не використовуючи класифікаційних функцій програми. До речі кажучи, класифікація типу покриття, як вона реалізована в програмі, має своїм результатом те, що в теорії нечітких множин називається альфа-перетином нечіткого безлічі.

    QualiDatE може використовуватися як інструмент для побудови крос-табуляцій. Її відміну від традиційних процедур крос-табуляції полягає в тому, що завдяки певній взаємозамінності понять групи і сутності, QualiDatE дозволяє робити крос-табуляцію для складових властивостей - інакше кажучи, для будь-яких комбінацій ознак.

    QualiDatE може використовуватися як свого роду нечітка база даних. Вибір об'єктів на основі близькості до еталона може розглядатися як нечіткий запит - щось на кшталт "знайти все, що схоже на це до такої-то ступеня". Сама ця ступінь задається встановленням ваг і порогів. В окремому випадку нечіткість запиту може бути зведена до нуля, так що його результатом буде вибірка, заснована на точному збігу деяких певних значень.

    * * *

    Перейдемо наприклад дослідження, що реалізує те, що вище було описано як друга сценарій.

    Пропонований до розгляду набір даних містить відомості про членів 1-ої Державної Думи 1906-ого року. Всі дані в ньому є якісними і були вилучені з текстових джерел, таких як біографії, довідники і т.п. Набір даних містить відомості про фракційної належності кожного депутата і деякі його соціальні характеристики [4].

    Розглянуті дані іспользуются для з'ясування того, чи існувало якесь відповідність між прінадлежност'ю до фракції і соціальним профілем депутата. У центрі дослідження стоять дві найбільші фракції 1-ої Державної Думи - трудовики і кадети.

    Відповідна формальна гіпотеза, яка повинна бути верифікована, формулюється наступним чином:

    Існують щодо однорідні (в термінах соціальних характеристик) групи осіб;

    Існує відповідність між цими групами і належністю до фракції. Тобто існують "типовий трудовик" та "типовий Кадет", які представляють ядра своїх фракцій.

    Формальна завдання розбивається на наступні чотири кроки:

    знайти типові характеристики для кожної фракції;

    знайти еталонних депутатів;

    побудувати кластери депутатів, ігноруючи їх фракційну приналежність;

    досліджувати перетин отриманих кластерів і підмножин, що задаються значеннями "трудовик" та "Кадет".

    При вирішенні цього завдання ми повинні очевидно слідувати другого сценарію, оскільки тут ми маємо справу з апріорної класифікацією, яка задається фракційної приналежністю, яку ми повинні зіставити з класами, що отримуються з сукупності інших властивостей об'єктів.

    Виконати перший крок - означає знайти два кластери властивостей, близьких (сильно корелюють) до властивостей "трудовик" та "Кадет" (що є в цьому випадку еталонними). Оскільки нашою метою є знаходження властивостей, характерних для кожної з фракцій і тільки для неї, то розумно використовувати симетричну близькість. У принципі, можна використовувати і пару асиметричних близькості. При виборі типу класифікації ми зупинимося на покритті, оскільки нам необхідно бачити, перетинаються чи два шуканих класера (ділять вони деякі властивості). Таблиця 1 представляє результати класифікації при нижньому порозі що дорівнює 0.2 і верхньому - 1. Всі показані властивості, крім "російський", характерні тільки для однієї фракції.

    Таблиця 1. Близькості основних властивостей до еталонних.        

    Еталони         

    Властивості         

    Трудовик         

    Кадет             

    трудовик         

    трудовик         

    1.000         

    0.000             

    російська         

    0.199         

    0.242             

    загальний образ.         

    0.242         

    0.072             

    початку образ.         

    0.247         

    0.053             

    крестьян.проісх.         

    0.305         

    0.096             

    селянин         

    0.296         

    0.071             

    "землероб"         

    0.223         

    0.070             

    кадет         

    зарплата         

    0.172         

    0.351             

    російська                  

    0.242             

    юридич. образ.         

    0.037         

    0.219             

    вища образ.         

    0.068         

    0.438             

    дворянин         

    0.005         

    0.307             

    дворянське происх.         

    0.015         

    0.226             

    кадет                  

    1.000     

    Дві колонки цифр дають нам попередню інформацію про те, що таке "типовий трудовик" та "типовий Кадет". Слід зазначити, що дві групи властивостей не так тривіальні, як це здається на перший погляд. Справа в тому, що розглянута база даних відтворює неоднозначну термінологію своїх джерел. Наприклад, слово "селянин" насправді може позначати різні властивості в залежності від того, чи використовується воно для вказівки стану, походження або заняття. Кореляція між останніми трьома властивостями може бути невисокою. Реальний селянин визначається лише цілим набором можливостей, і це саме той набір, який ми зустрічаємо в кластері властивості "трудовик".

    На другому кроці ми перемикаємося на представлення об'єктів даних і знаходимо двох осіб: одного, що володіє властивостями класу "типовий трудовик" (загальний профіль і початковий рівень освіти, селянин з селян, хлібороб), іншого - з властивостями "типового кадета" (вища юридична освіта, дворянин з дворян, платню як джерело доходу). Потім (третій крок) ми знаходимо осіб, що групуються навколо двох обраних еталонів. У цьому випадку повинна використовуватися асиметрична близькість до еталону, оскільки більшість осіб описано більш детально, ніж еталонні, а отже, має бути усунуто вплив "зайвих" характеристик. Класифікація повинна бути типу розбиття з обмеженнями, оскільки наше завдання - витягти з набору даних два чітко розмежовані групи депутатів.

    Таблиця 2а. Розподіл фракційної приналежності серед кластерів "Типовий Кадет "і" Типовий трудовик ".        

    Фракції         

    Типові кадети         

    Типові трудовики         

    Остальине             

    трудовики         

    0.023         

    0.323         

    0.172             

    безпартійні         

    0.045         

    0.423         

    0.144             

    праві         

    0.114         

    0.054         

    0.072             

    Дем. реформ         

    0.045         

    0.000         

    0.017             

    націоналісти         

    0.000         

    0.000         

    0.052             

    кадети         

    0.705         

    0.100         

    0.412             

    соц.-дем.         

    0.203         

    0.062         

    0.027             

    пол. фракцій.         

    0.045         

    0.015         

    0.093     

    Таблиця 2б. Розподіл кластерів "Типовий Кадет" і "Типовий трудовик "серед різних фракцій.        

    Фракції         

    Типовий кадети         

    Типові трудовики         

    Решта             

    трудовики         

    0.011         

    0.452         

    0.538             

    безпартійні         

    0.020         

    0.556         

    0.424             

    праві         

    0.152         

    0.212         

    0.636             

    Дем. реформ         

    0.286         

    0.000         

    0.714             

    націоналісти         

    0.000         

    0.000         

    1.000             

    кадети         

    0.189         

    0.079         

    0.732             

    соц.-дем.         

    0.059         

    0.471         

    0.471             

    пол. фракцій.         

    0.065         

    0.065         

    0.871     

    Для того, щоб оцінити результати класифікації (четвертий крок), ми повинні вивчити розподіл фракційної приналежності всередині кожного кластеру (табл. 2а) і комплементарні (додаткові до них) дані - частки "типових трудовиків "і" типових кадетів "серед членів різних фракцій (таблиця 2б). Дві таблиці показують, що близько трьох чвертей "типових кадетів "є насправді кадетами, але частка перших серед других невисока. Таким чином, "типові кадети" є невеликий, але дуже однорідною групою у своїй фракції. Частка "типових кадетів" досить висока і в двох інших фракціях - правих і партії демократичних реформ - політичних сусідів кадетів. Випадок "типових трудовиків" трохи більш складний. Вони складають близько 1/2 трудовиків, соціал-демократів і безпартійних членів Думи, з іншого боку, лише третина з них є членами фракції трудовиків, у той час, як їх відносна більшість є безпартійними. Останнє означає, що "типовий трудовик" (або по суті типовий селянин) володів низькій політичній самоідентифікацією. Тим не менш, частка трудовиків серед тих, хто вже приєднався до будь-якої фракції, досить висока - понад 2/3.

    Цифри в колонці "Інші" в таблиці 2б підказують нам, що необхідно виконати ще значну роботу - більшість членів обох з розглянутих фракцій не належать ні до одного класу. Отже, ми виділяємо "інших" в окремий набір даних і починаємо на ньому другий цикл дослідження. Класифікація властивостей в новому наборі даних дозволяє побачити (таблиця 3), що в групі осіб, що належали до фракції кадетів, є дві пари взаємовиключних властивостей.

    Таблиця 3. Кластери "Нетипові кадети" і "Нетипові трудовики".        

    Еталони         

    Властивості         

    Трудовик         

    Кадет         

    платню         

    Землевласник             

    трудовик         

    платню         

    0.238         

    0.339         

    1.000         

    0.000             

    трудовик         

    1.000         

    0.000         

    0.238         

    0.023                      

    крест.проісх.         

    0.302         

    0.101         

    0.230         

    0.043                      

    селянин         

    0.271         

    0.061         

    0.161         

    0.055                      

    кадет         

    платню         

    0.238         

    0.339         

    1.000         

    0.000             

    російська         

    0.176         

    0.226         

    0.258         

    0.209             

    происх. не указ.         

    0.060         

    0.252         

    0.271         

    0.114             

    вища образ.         

    0.092         

    0.420         

    0.420         

    0.334                      

    дворянин         

    0.000         

    0.248         

    0.124         

    0.455             

    землевласник         

    0.023         

    0.217         

    0.000         

    1.000                      

    TD> происх. не указ.         

    0.133         

    0.361         

    0.432         

    0.099                      

    кадет         

    0.000         

    1.000         

    0.339         

    0.217              

    Це - Значення джерела доходу "платню" і "землеволодіння" та такі значення станової приналежності, як "не вказано" і "дворянин". Цей факт дозволяє вважати, що в розглянутому підмножині кадетів існували дві різні групи осіб. Для того, щоб перевірити наше припущення додамо платню і землеволодіння до набору еталонних властивостей. І справді, ми бачимо, що землеволодіння тісно корелює з "дворянством" (0.455) та платню - з невказаним становою приналежністю (0.432). Другий шар трудовиків є одномодальним, що збігалося з першим за становим походженням і приналежності й відрізняючись за джерелом доходу (який тут переважно платню). Ймовірно, цю групу можна назвати сільським середнім класом. У термінах того часу цю групу можна назвати демократичною інтелігенція, що частково збігається з поняттям сільського середнього класу.

    Таким чином, ми повинні вибрати одну еталонне особа для трудовиків і два для кадетів і йти далі за описаним сценарієм. За оканчанію другого циклу аналізу даних ми маємо в своєму розпорядженні п'ятьма щодо однорідними класами осіб, які можуть бути пойменовані відповідно до змістовної інтерпретацією їх властивостей: Землевласники ( "кадети-землевласники"), інтелігенція (I) ( "типові кадети" першого циклу), інтелігенція (II) ( "кадети на платні "), інтелігенція (III) (" демократична інтелігенція ") і Селяни (" типові тредовікі "першим циклу).

    розмитий соціальний профіль інтелігенція (II) може представлятися незадовільним. Однак, невказаним станове походження та/або станова приналежність не є лише відсутність даних. Ми можемо звернутися до подання близькості і виявити від факт, що "вища освіта" близько дворянського походженням і речі, з одного боку, і до невказаним значень цих властивостей, з іншого. Це дозволяє нам припустити, що тенденція не вказувати станові характеристики була властива освіченій дворянству, тобто вищому шару інтелігенція. Це стане більш ясним, якщо ми візьмемо до уваги, що ліберали того часу розглядали саме поняття стану як анахронізм. Більш детальне дослідження показує також, що серед "кадетів на платні "у свою чергу можуть бути виділені дві однорідні підгрупи. Перша з них в цілому близька за профілем до Інтеллегенціі1, виділеної на першу циклі дослідження. Друга - менша і більш специфічна - група освічених євреїв.

    Результати цього дослідження можуть бути зведені в двох діаграмах (див. рис. 6-а і 6-б), відображають розподіл осіб з п'яти знайдених кластерів серед різних фракцій і зворотне розподіл - партійні речі в кожному з кластерів. Друга діаграма побудована у припущенні, що п'ять кластерів можуть бути наведені в традиційному порядку зліва-направо відповідно до їх соціальним статусом. Області на задньому плані показують частки безпартійних і членів польської фракції в кожному кластері. Таке відображення дозволяє нам співвіднести соціальні профілі цих двох груп членів Думи, що залишилися за межами нашого дослідження, з побудованої класифікаційної схемою.

    Повертаючись до тієї постановки задачі, яка була дана на початку розглянутого прикладу дослідження, ми можемо сказати, що існувало відповідність між належністю до фракції і соціальним профілем депутати, хоча воно не є однозначним і чітким. У формальних термінах нами було виявлено п'ять досить однорідних груп об'єктів, приналежність до яких добре узгоджується з їхніми приналежністю до апріорним класам.

    Отримані результати следут розглядати як попередні. Метою другої частини статті було не стільки представити вичерпне рішення конкретної історичної проблеми, скільки показати в дії підхід, реалізований у програмі QualiDatE. Тут була зроблена спроба продемонструвати, що незважаючи на простоту формального апарату, що лежить в основі описуваного підходу, використання гнучко керованих процедур класифікації, плюс можливість розглядати набір даних з різних точок зору, дозволяє досліднику побудувати свою власну стратегію аналізу, що веде до отримання легко інтепретіруемих результатів різного рівня деталізації.

    Малюнок 6 а Розподіл фракційної приналежності всередині кластерів.

    На графіку: A - селяни, B - інтелігенція III, C - інтелігенція II, D -- Інтелігенція I, E - землевласники

    Малюнок 6 б. Розподіл фракційної приналежності всередині кластерів.

    Список літератури

    1.Е.Белова, "Аналіз якісних даних історичних джерел: альтернативний підхід "//Комп'ютер і історичне знання, Барнаул, 1994

    2.Сімметрічная і асиметрична заходи близькості збігаються, коли обєкти мають рівне число властивостей (наприклад, у разі файлу простий табличної структури).

    3.Аналогом такої класифікації може служити добре відомий метод розбиття за критерієм "найближчого сусіда".

    4.У Насправді, це лише фрагмент великої бази даних, складеної та дослідженою Н. Б. Селунской, Л. І. Бородкін і Ю. Григор'євої. Більш докладно про матеріалах, на основі яких була розглянута створена база даних, можна дізнатися в дисертаційної роботі Ю. Г. Григор'євої "джерелознавчі проблеми вивчення матеріалів історію створення I Державної Думи і перший виборів ".

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status