ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Аналіз машиночитаних документів комп'ютерними засобами
         

     

    Інформатика, програмування

    Аналіз машиночитаних документів комп'ютерними засобами

    Е.В. Злобін, І.В. Попенко

    Розширення комп'ютерного інструментарію істориків - завдання не лише важлива, але й досить складна в силу своєї специфічності, труднощі напрацювання програмного забезпечення для "чистого" суспільствознавця. Система KLEIO, програми проф. Яна Олдерволла вважати швидше винятком, що підтверджує загальне правило. Пропонована робота претендує на спробу розробки власного програмного забезпечення, в чомусь доповнює наявні пакети математичної статистики, в той же час, зважаючи на специфіку своєї розробки, орієнтованого на введення і аналіз якісних ознак, виміряних в шкалі найменувань, яка в абсолютній більшості випадків використовується істориками.

    Іншим спонукальним мотивом для даного дослідження з'явився криза історичної інформатики, про який пише П. Доорн у своїх відомих тезах. Він в якійсь мірою має стимулювати інтерес до методичної осторонь процесу, а саме, до методів дослідження отриманих в ході грандіозних "набивок" баз даних. Нами описується одна з систем для аналізу великих масивів структурованих даних змішаною - числовий і нечислової - природи.

    Вельми часто при вивченні історичних явищ або процесів доводиться мати справу з завданнями класифікації об'єктів по одному кількісною ознакою - числовому - (Вимірювання в шкалі відносин), який є вихідним, і по декількох ознаками, вимірюються в шкалі найменувань (вхідним).

    Завдання класифікації - мінімізувати дисперсію вихідного ознаки по кожному вхідного. Вирішується вона в ряд етапів. На першому етапі початкова матриця даних розбивається на групи. При цьому за вихідною ознакою і одному з вхідних вибирається таке розбиття, при якому сума внутрішньо-групових дисперсій мінімальна. Об'єкти можуть потрапляти в різні групи з одним і тим же значенням вхідного ознаки. Потім іде аналіз розподілу всередині кожної з груп. Тим самим число вхідних ознак зменшується на одиницю. Процес цей триває до тих пір, поки зміна суми всередині групового ознаки стає мінімальним (менше заданого порогу). У результаті виходять однорідні по всій сукупності вхідних ознак і по їхньому відношенню до вихідного ознакою групи.

    Типово дослідницької завданням такого роду є вивчення впливу віку на формування тих чи інших групових якісних характеристик історичних особистостей. Подібного роду аналіз проводився одним з авторів при виявленні внутрішньої структури вищого виборного органу КПРС - її Центрального Комітету і Політбюро останнього, "передсмертного" складу. Вже тоді було ясно, що реальний математичний і програмний апарат для такого роду завдань не напрацьований.

    Особливо цінним є використання даного підходу при аналізі просопографіческіх баз даних, які найчастіше важко піддаються формалізації і кількісної оцінки, але в яких вікова графа в наявності обов'язково. Крім чисто вікової графи в просопографіческіх базах присутні різні поля типу дати (часу) отримання різних посад (освіти, нагород тощо), які дозволяють обчислити термін перебування в тій чи іншої категорії. Дані кількісні показники вже дозволяють застосувати описані вище підходи.

    Пропонований підхід до класифікації об'єктів, описаних якісними ознаками, може бути корисний і тому, що найбільш часто застосовуються методи кластерного аналізу, в загальному випадку, придатні тільки для шкал відносин. Для інших шкал можливо використання т.зв. інформаційного підходу, але це не завжди є зручним, і призводить, по видимому, до деякого огрублення полученнного результату [1].

    Авторами доопрацьована система [2], що дозволяє в масштабі реального часу вирішувати завдання класифікації для 5 і більше (випробувана модель на 15) тис. об'єктів. Програма реалізована на 32-бітному FORTRANe, відповідно до стандарту FORTRAN 90 [3]. При використанні її процесор переводиться в захищений режим роботи, тим самим дозволяючи використовувати реально всю фізичну пам'ять, встановлену на машині. Є можливість компіляції програми спеціально для використання під Windows в розширеному режимі, яка знімає всі обмеження на обсяги використовуваних масивів.

    Склад системи наведено у додатку 1. Вхідними для програми є файли типу ASCII, які реалізуються виходячи з наявних баз даних, і один розраховується файл прямого доступу, а також задається дослідником критерій зміни дисперсії в групі (від 0,01 до 0,5). Вихідним - звичайний текстовий файл із докладний роздруківкою результатів розрахунку.

    Структурна схема роботи програми представлена на Рис. 1. Вона тривіальна і підкреслює особливість системи - введення найменувань нечислових ознак (т.зв. словників значень).

    Рис. 1

    Підсистема ведення архіву також вирішує стандартні для будь-якої СУБД завдання. Особливістю її є наявність дружнього інтерфейсу і орієнтованість на підготовку даних для власне розрахункових завдань (див. Рис. 2).

    Рис. 2.

    Спеціально виділена підсистема роботи зі словниками також виконує тривіальні завдання СУБД з одним обмеженням - орієнтованістю на введення найменувань ознак, обмежених одним рядком не більше 40 символів. Дане обмеження викликано реальними розмірами екрану машини і великою витратою оперативної пам'яті на масив найменувань значень. Опції її розкриті на Рис. 3.

    Рис. 3

    Підсистема класифікації проводить класифікацію на основі інформації, що міститься в записах і словниках бази даних. Класифікація складається в розбитті заданого безлічі записів на непересічні за вхідними ознаками класи так, щоб сумарна по всіх класах дисперсія вихідного ознаки була мінімальна.

    Вихідний і вхідні ознаки, що характеризують об'єкти дослідження, беруться із записів бази (загальні для всієї сукупності), причому вихідний ознака обов'язково числовий (наприклад, вік, обсяг доходів, чисельність працюючих, населення і тощо), а вхідні ознаки можуть бути і якісними, але задаються символьними кодами (до 15 символів).

    Діалог користувача з системою будується з введенням такої інформації: - назва бази даних; - визначення сукупності записів з архіву для проведення класифікації; - вихідний (числовий) ознака, за якою проводиться класифікація; - набір вхідних ознак, за допомогою яких описуються групи; - Параметр розбиття, що визначає кількість груп.

    Експлуатація даного програмного продукту максимально проста. При роботі з програмою для вибору в системі меню використовуються клавіші додаткової клавіатури, а для підтвердження вибору клавіша. Для виходу і продовження дії в більшості пунктів використовується клавіша. Перелік використовуваних клавіш постійно наводиться в нижній строчці екрану.

    Описувана програма пред'являє жорсткі вимоги до "заліза" комп'ютера і призначена для використання на IBM-сумісних ПЕОМ, які мають процесор з розрядністю не нижче 32 (тобто, 386 і вище) і вимагає для роботи не менше 4 мБ загальної ОЗУ і не менше 600 кБ в нижній пам'яті (conventional). Дане обмеження на пам'ять введено з огляду на величезній розмірності прораховувані масивів (у даній версії число об'єктів 5000).

    Для одержання максимально можливого обсягу пам'яті рекомендується використовувати операційну систему версії 6.2 і вище. Для звільнення "нижньої" пам'яті необхідно драйвери пристроїв завантажувати в "верхню" пам'ять і в UMB блоки, туди ж поміщати і операційну систему. Точно також потрібно і максимально можливу кількість резидентних програм вантажити "вгору". Все це досягається використанням драйверів HIMEM.SYS і EMM386.EXE, команд DEVICEHIGH і LH, реалізованих стандартним чином.

    Драйвер EMM386 запускається з ключем NOEMS. У разі видачі повідомлення про нестачу пам'яті при запуску бази можливі наступні шляхи подолання цієї проблеми: - включення ключа NOVCPI в командний рядок драйвера EMM386; - включення рядка SET CLIPPER = E в файл AUTOEXEC.BAT.

    В додатку N 2 пропонуються варіанти конфігурації операційної системи, стосовно до висловлених рекомендацій на комп'ютера з ОЗУ 4 мБ, включеної звуковою картою, CD-диском і прозорим архіватором вінчестера STACKER. У разі потреби в іншій конфігурації ОС на ПЕОМ, має сенс реалізувати дані файли з меню вибору при завантаженні.

    Опишемо коротко розрахункові програми. Програма VVPR формує вектор-запис в файл прямого доступу OBPR. Змістовно цей запис являє собою значення чергового ознаки для всіх обраних об'єктів.

    Звернення до програми VVPR відбувається в циклі (по числу ознак) з базової програми при обробці обраних ознак

    Вхід:        

    назва файлу         

    розмір         

    вміст             

    PARAM.TXT         

    1 запис-4 поля         

    nob - число обраних об'єктів   

    i1 - номер поточного ознаки   

    nnopr - назва вихідного   ознаки   

    eps - точність             

    PROB.TXT         

    1 запис - nob полів         

    значення поточного ознаки для   всіх обраних об'єктів     

    Вихід:

    Файл прямого доступу OBPR (матриця об'єкт-ознака) рядок - ознака, стовпець -- об'єкт, розмірність - число обраних об'єктів, помножене на число обраних ознак, перший рядок - значення вихідного ознаки для всіх об'єктів, інші рядки - значення відповідних вхідних ознак для всіх вибраних об'єктів (в ході подальшої роботи стирається).

    Програма VVPR за один прохід формує один запис типу рядок - ознака і готує дані для роботи програми RASH - власне розрахункову програму. У цій програми:

    Вхід:

    Файли OBPR, PARAM.TXT, NAPR, NAZPR.

    Файли NAPR і NAZPR формуються в програмі бази на основі інформації, що міститься в словниках.

    Вихід:

    Файл FCSG.DAT Файл є один запис, що складається з наступних елементів:        

    1         

    Номер групи             

    2         

    Число об `єктів в цiй   групі = nobg             

    3-2 + nobg         

    Номери об'єктів у групі             

    2 + nobg 1         

    Номер рівня, на якому   відбулося розбиття за цією ознакою             

    2 + nobg 2         

    Номер ознаки             

    2 + nobg 3         

    Число значень даної ознаки             

    наступні jpr елементів         

    Номери значень ознаки     

    Потім номер наступної групи, далі все аналогічно. Номери рівнів йдуть за спаданням, як тільки номер рівня = 1, починається наступна група.

    На вході в RASH також:

    Файли:

    napr.txt - Імена ознак, які ми вибрали з словника словників

    nazpr.txt - Назва значень ознак з відповідного словника, код словника по кожною ознакою

    Беруться підряд всі ознаки, спочатку числовий код, потім назви ознаки поспіль всі перераховуються.

    Файл PARAM.TXT - 500_3_ "вихідний ознака" _0, 200. Включає: Число записів (500), кількість вхідних ознак (3), назва вихідного ознаки, необхідну точність обчислень (0.2).

    Файл BNAPR.DBF - наступні поля:

    NSLOV, LSLOV - кількість записів у словнику, NAPRIZ - назва словника, NSL - ім'я словника.

    STRA.DBF - Файл dbf, в який записуються вибрані параметри порядково.

    На виході системи формується текстовий файл підсумкових розрахунків. Приклад його наведено в Додатку 3. У даній версії цей файл затирається, але може бути легко відновлений стандартними засобами (типу UNDELETE та ін.) Надалі він може редагувати будь-яким текстовим редактором.

    Описана система буде використана при обрахунку великих масивів інформації, нарабативаемх у ході реалізації спільних проектів з Державним архівом РФ.

    Додаток 1. Склад системи.

    Система розміщується на 1 дискеті 5,25 '(1,2 мБ) або 3,5' (1,44 мБ) і включає наступні файли:        

    VVPR.EXE   

    DOS4GW.EXE   

    RASCH.EXE                  

    Розрахункові програми для класифікації.             

    ITOG.DBF   

    KAT_A.DBF   

    KAT_S.DBF   

    PROSM.DBF   

    SHAB_A.DB_   

    SHAB_S.DBF   

    ITG_D.DBF   

    SHAB_AD.DBF                  

    Файли баз даних необхідних для нормального функціонування системи.     

    DIAG_DEM.EXE - Демонстраційна програма

    RECLAMA.EXE - Рекламний ролик з музикою

    ITG_D.SYS - Текстовий файл - приклад результату отриманого в ході класифікації (необхідний для нормального функціонування демонстраційної програми)

    BRED.BAT - Специфічність файл, що не вимагає запуску користувачем. Необхідний для нормальної роботи системи.

    Додаток 2. Варіанти написання файлів config.sys і autoexec.bat:

    Вміст файлу config.sys

    DEVICE = C: DOSHIMEM.SYS

    DEVICEHIGH = C: DOSEMM386.EXE NOEMS NOVCPI/V

    DEVICE = C: STACKERDPMS.EXE

    DEVICEHIGH = C: STACKERSTACHIGH.SYS

    LASTDRIVE = H DOS = HIGH, UMB

    rem Завантаження DOS наверх

    FILES = 100

    DEVICEHIGH = C: DOSSETFNT.SYS

    COUNTRY = 07,, C: DOSCOUNTRY.SYS

    DEVICEHIGH = C: MOUSEMOUSE.SYS/1

    SHELL = C: COMMAND.COM/P/E: 4096 STACKS = 9,256

    Вміст файлу autoexec.bat (в машині використовується пакет STACKER)

    @ REM THE CHECK LINE BELOW PROVIDES ADDITIONAL SAFETY

    @ REM PLEASE DO NOT REMOVE IT.

    @ C: STACKERCHECK/WP

    SET COMSPEC = C: COMMAND.COM

    LH C: DOSSMARTDRV.EXE 512 256/V

    PATH С: SIDIAK; C:; C: DOS; .. C: STACKER; E: LEXICON

    SET BLASTER = A220 I10 D1 T4

    SET CLIPPER = F100

    REM БЕЗ NOVCPI - SET CLIPPER = E0

    SET TEMP = C: WINDOWSTEMP

    SET LEX = D: TEXTKAF

    LH C: UTILRUSUNISCR

    LH C: UTILRUSUNIKBD LH C: VCVC

    Додаток 3. Приклад файлу itog.txt з результатами розрахунків        

    Вихідна сукупність об'єктів розбита         

    на 1 групу.             

    Всього обрахувало         

    500 об'єктів             

    Вихідний ознака         

    ВІК ДЕПУТАТІВ ДЕРЖАВНОЇ ДУМИ             

    Параметр класифікації         

    0.50             

    Число вхідних ознак         

    3             

    Вхідний ознака         

    ОСНОВНА ПРОФЕСІЯ             

    Вхідний ознака         

    НАЦІОНАЛЬНІСТЬ             

    Вхідний ознака         

    ПАРТІЙНОГО             

    N груп         

    Число об `єктів         

    Середнє значення вихідн.   ознаки         

    Ст. откл. вих.прізн.             

    N 1         

    500         

    42.56         

    9.84     

    ГРУПА N 1

    В Ця група входить 500 об'єктів з наступними номерами:        

    102         

    254         

    154         

    157         

    166         

    177         

    321         

    150         

    158         

    160             

    161         

    162         

    167         

    169         

    174         

    175         

    195         

    201         

    239         

    240             

    241         

    242         

    245         

    250         

    256         

    260         

    263         

    264         

    265         

    267     

    і так далі ...

    Вихідний ознака - ВІК ДЕПУТАТІВ ДЕРЖАВНОЇ ДУМИ

    Середнє значення вихідної ознаки - 42.56

    Стандартне відхилення - 9.84

    Група визначається наступними значеннями вхідних ознак:

    Ознака N 1 - ОСНОВНА ПРОФЕСІЯ і так далі ....

    Список літератури

    1. Устинов В.А., Фелінгер А.Ф. Історико-соціальні дослідження, ЕОМ і математіка.-М., 1973.

    2. Первісна версія програми була реалізована на FORTRAN 77 А. Кардаш і А. Бігуном під керівництвом В. Саакяна.

    3. Самохін А.Б., Самохіна А.С. Фортран та обчислювальні методи для користувача IBM PC. М., Русина, 1994.

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status