Структурні методи розпізнавання сложноорганізованних
історичних табличних форм h2>
В.М. Кляцкін, Е.В. Щепін, К.М. Зінгерман, В.В. Лазарєв p>
Анотація h2>
Дана
робота присвячена проблематиці структурного розпізнавання складних табличних
форм, що зустрічаються в історичних джерелах. Запропоновано оригінальну модель
"пов'язаних ієрархій", в рамках якої може бути розпізнано і
описано велике сімейство табличних форм і бланків. Застосування моделі
"пов'язаних ієрархій" в табличному структурізаторе OCR-системи Cript
дозволило успішно розпізнавати складноструктороване табличні форми з
різних історичних джерел [1]. p>
Вступ h2>
Сфера
застосування систем оптичного розпізнавання безперервно розширюється не тільки
вшир (по різних областях людської діяльності), але і вглиб (за рівнем
складності вводяться документів). Рівень складності залежить від багатьох факторів і
може бути охарактеризований з точки зору змісту вводяться аркушів (структура
представленої на аркуші інформації, шрифти та інші друкарські параметри),
якості друку і умов сканування. Спектр доступних для оптичного
розпізнавання структур друкованих аркушів досить широкий, і тим не менше їм не
вичерпуються потреби практичного використання OCR для розпізнавання
різних історичних джерел. У даній роботі проведено огляд сучасних
методів структурного розпізнавання друкованої продукції і зроблено спробу
розширити діапазон автоматично оброблюваних OCR-системами структур
документів у бік сложнооорганізованних табличних форм, поширених у
історичних дослідженнях. Що підлягають обробці таблиці можуть мати
багаторівневої горизонтальній і вертикальній ієрархіями, рівні яких можуть
мати нерегулярну (не завжди лінійно впорядковану) структуру. Крім того,
структура елементів таблиці може бути досить складною, несвідомих до
традиційному опису текстів "параграф-рядок-слово-символ". У
комірках можуть зустрічатися об'єкти різної структури, наприклад математичні
виразу (індекси, дробу, спецсимволи), багатокрапки, нелінійно-пов'язані
рядка. Для аналізу подібних структур авторами запропонована досить
універсальна модель "пов'язаних ієрархій", що дозволяє розпізнавати,
описувати і представляти в текстовій формі широкий клас табличних форм і
бланків. Розроблена методологія структурного розпізнавання таблиць заснована
на моделі "пов'язаних ієрархій". Програмної реалізацією цієї
методології є табличний структурізатор Cript, що входить в однойменну
OCR-систему. P>
Застосування
табличній версії OCR-системи Cript до аналізу табличних форм з різних
історичних джерел засвідчило конструктивність запропонованої моделі та її
алгоритмічного наповнення. У статті наведені ілюстрації основних етапів
структурного розпізнавання таблиць історичного характеру. p>
Огляд методів аналізу складних ієрархічних форм h2>
В
останні роки системи оптичного розпізнавання символів (OCR-системи)
застосовуються до розпізнавання джерел різної природи: рукописних текстів,
технічних публікацій [2], бізнес-карт [3], записів шахових партій [4] та
музичних творів [5], історичних джерел [6]. У багатьох випадках
листи документів, призначених для автоматичного введення, визначеним
чином структуровані. Наприклад, сторінка книги або наукового журналу може
бути розбита на колонки, може містити заголовки, примітки, креслення та
малюнки, сторінка газет може бути розбита на блоки, містити контурних
рамки та інші розділяють графічні елементи. p>
Одним
з найбільш типових прикладів структурованого способу представлення
інформації є таблиці. Для правильної інтерпретації структурованих
документів необхідно спочатку виділити елементи структури (колонки і блоки в
технічних публікаціях, графи, рядки та клітинки в таблицях) і тільки після
цього розпізнавати окремі символи цих елементів [7]. p>
Проблеми
виділення структурних блоків на зображенні листа документа розглянуті в ряді
робіт. Так, створена система виділення блоків тексту, заснована на
синтаксичному аналізі "знизу-вверх" і що використовує деяку
інформацію про структуру документа, попередньо задану користувачем [8].
Ця система дозволяє виділяти на аркуші ізотетічние прямокутні блоки. При
поділі тексту на блоки автори цих робіт використовують той факт, що текстові
блоки зазвичай відокремлені один від одного білими проміжками, ширина яких більше
межсловного інтервалу і інтервалу між рядками. Цей же факт використовується для
виділення текстових блоків в інших роботах [9], але тут можуть бути більш
складну форму. Особливість запропонованого в цих роботах підходу в тому, що він
не потребує будь-яких попередніх знань про структуру листа і здійснює
розмітку листа, використовуючи тільки інформацію про розміри білих проміжків між
габаритними рамками компонент. Метод заснований на загальних для більшості форматів
текстових документів припущенні про те, що текстові блоки відокремлюються один
від одного білими (тобто незаповненими текстом) проміжками. Можна ввести
поняття максимальних білих прямокутників (під якими розуміються
прямокутники фону, всі сторони яких стосуються кордонів рамок компонент
тексту) і розглядається алгоритм знаходження всіх максимальних білих
прямокутників на растру [10]. p>
Методи,
що використовуються при виділенні текстових блоків, можуть бути використані і для
аналізу структури таблиць. Відзначимо, що в багатьох випадках (хоча й не завжди)
колонки і рядки таблиць можуть бути розділені лініями разграфкі. Використовуючи
інформацію про розташування цих ліній, можна більш надійно розділити елементи
таблиці, ніж використовуючи тільки інформацію про межколонных і міжрядкових
проміжках в таблиці. Однак для цього система аналізу структури листа повинна
у своєму розпорядженні засоби виявлення ліній. Необхідні також кошти об'єднання
відрізків ліній в прямокутні рамки, що обмежують елементи таблиць. Один з
алгоритмів швидкого виявлення горизонталей та вертикалей на зображенні і
виділення обмежених ними елементів таблиці представляеьтся досить ефективним
[11]. Наведемо короткий опис алгоритму пошуку суцільних горизонтальних ліній.
Растрове бінарне зображення проглядається в напрямку зверху вниз і на
ньому фіксуються послідовності чорних пікселів, довжина яких перевищує
наперед заданий поріг. Потім пов'язані (що межують один з одним у сенсі
8-зв'язності) послідовності об'єднуються, утворюючи елементи ліній і для
кожного такого елемента обчислюється його середня товщина. Занадто товсті
елементи відкидаються. В якості кандидатів у елементи пунктирних ліній
розглядаються всі компоненти зв'язності, які не дуже великі і є
достатньо "щільними" ( "щільність" компоненти визначається
як відношення числа чорних пікселів до площі її рамки). Потім для об'єднання
залишилися компонент в горизонтальні пунктирні лінії виконується наступна
процедура: для кожної пари елементів лінії перевіряється виконання двох умов:
1) горизонтальний проміжок між двома елементами ліній менше заздалегідь
заданого порогу; 2) ці елементи ліній перекриваються по вертикалі. Якщо
деяка пара елементів лінії відповідає обом цим умовам, то ці
елементи вважаються близькими. В результаті виконання цієї процедури виділяються
кластери лінійних фрагментів. p>
Особливість
іншого алгоритму виділення прямокутних блоків, обмежених горизонтальними
і вертикальними лініями полягає в тому, що спочатку за допомогою скелетізаціі
зображення знаходяться точки перетину ліній, а потім перевіряється наявність
самих ліній [12]. Засобами виділення текстових блоків та обробки таблиць
має у своєму розпорядженні також система ExpertVision [1]. p>
* * * p>
Істориками-дослідниками
за останні роки накопичено певний досвід з автоматизованого вводу
документів складної сруктурури в комп'ютер з використанням різних
OCR-пакетів. Так, у ряді робіт наведені приклади розпізнавання відсканованих
історичних документів, що являють собою таблиці різної структури. У
статті Г. Торвальдсена розглянуті чотири приклади розпізнавання документів,
мають табличну структуру за допомогою OCR-системи Omnipage Professional [14]. На
рис. 1a цієї статті наведена копія листа архівної інформації, що містить
запису про народження (відзначимо, що в таблиці відсутній разграфка), а на рис. 1b
- Результат розпізнавання. У роботі зазначено, що при обробці документів
зазначеного типу результат може бути інтерпретовано в відсутність інформації
приналежності даних до певної колонці таблиці, тому автором не
робилися які-небудь заходи для збереження цієї інформації при
розпізнавання. В результаті у вихідному документі таблична структура даних
порушена. На рис. 2a цієї статті наведено зображення списку емігрантів.
Розділові лінії між колонками і рядками в цьому вихідному документі також
відсутні. Автор відзначає, що в цьому прикладі формат документа важливіший
для його розуміння, оскільки в одному з стовпців таблиці міститься інформація
про пункт призначення і вартості проїзду, розташована у двох суміжних рядках і
відноситься не до окремих емігрантам, а до сімей. Відзначається, що система
Omnipage в цілому здатна правильно розподілити інформацію по колонках,
вставляючи у потрібні місця рядка знаки табуляції, які можуть бути оброблені
текстовим процесором. Як видно з рис. 2b, у вихідному документі таблична
структура вхідного документа збережена. p>
На
рис. 3a статті наведено зображення іншого списку емігрантів, а на рис. 3b --
результати розпізнавання. На оригінальному документі колонки розділені
вертикальними лініями, що, на думку автора, створює додаткові проблеми
для OCR, а саме, сприяє перепутиванію символів між колонками. Однак
автор вважає, що в даному випадку ця проблема не є основним
перешкодою до використання системи Omnipage. На його думку, більш серйозною
проблемою є в даному випадку неправильне розпізнавання окремих
символів. На рис. 4а цієї статті наведено зображення сторінки списку
оподаткування фермерських господарств, а на рис. 4b - результати обробки цієї
сторінки OCR-системою Omnipage. Можна бачити, що таблиця в даному випадку має
складну ієрархічну структуру як по вертикалі, так і по горизонталі, причому
колонки розділені вертикальними лініями різної товщини і типу (одинарними і
подвійними). Відзначено, що в цьому випадку використання системи Omnipage НЕ
дозволило забезпечити відповідність структури вихідного документа структурі
вихідної таблиці. Інформація часто потрапляє в невідповідну колонку, ліва
колонка опущена. У деяких випадках (але не завжди) вертикальні лінії
переносяться у вихідний текстовий файл. В результаті, на думку автора, для
даного документа ефективніше вводити дані вручну, ніж використовувати
стандартну OCR-систему. Також, на його думку, можна для автоматизованого
читання цих документів використати кращу OCR-систему. У роботі Г.
Торвальдсена [15] описана подальша обробка документа, який був приведений
ним раніше [16] в якості прикладу. Зазначено, що перетворення текстового файлу,
сформованого OCR-системою, у файл, придатний для вводу в реляційну базу
даних, здійснювалося програмою, розробленою для цієї мети автором.
Відзначено помилка неправильної класифікації даних по полях бази. P>
В
роботі А. Маквейг розглянуті питання, пов'язані з автоматизованим читанням
таблиць, що містять статистичну інформацію про сімейний стан людей у
різних районах Ірландії в XIX-XX ст [17]. Обробка зображень виконувалася
OCR-системою ProLector. Отриманий в результаті роботи OCR текстовий файл
піддавався додаткової програмної обробки з метою виявлення помилок
(така обробка виявилася можливою, оскільки таблиці містили контрольні
суми), потім ці помилки виправлялися вручну і здійснювався введення виправленою
інформації до бази даних. Вихідні таблиці мають складну ієрархічну
структуру, стовпці цих таблиць мають різну ширину і розділені вертикальними
лініями. Рядки, що містять контрольні суми, виділені горизонтальними
лініями. Автор наголошує, що розділові лінії мали неоднакову товщину,
що призводило до додаткових ускладнень при їх видаленні засобами системи
ProLector: після видалення ліній залишалися перешкоди. Автор вказує також на
проблеми, пов'язані зі збереженням структури таблиці в текстовому файлі,
сформованому OCR-системою. p>
В
роботі М. Олсена розглянуто застосування OCR до обробки списку оподаткування
початку XX століття в одному з міст провінції Нью-Брунсвік (Канада) [18]. На рис.
2 цієї статті наведено зображення сторінки вихідного документа, а в табл. 3 --
результати обробки зображення системою Kurzweil (після додаткової
коригування). Як видно з рис. 2, вихідна таблиця має просту структуру,
колонки її розділені вертикальними лініями, які мають численні розриви.
Автор наголошує, що OCR-система Kurzweil зазнає деякі труднощі при
обробці вертикальних ліній, внаслідок чого виникають помилки, пов'язані з
неправильним розміщенням даних у колонках. p>
Автори
всіх вищезазначених робіт із застосування OCR при виконанні історичних
проектів відзначають, що використання OCR-систем для автоматизованого введення в
ЕОМ документів, що містять таблиці, дозволило значно заощадити час за
порівнянні з ручним введенням даних в ЕОМ (перенабівкой). Разом з тим,
значні зусилля потрібні були для пошуку та виправлення помилок. Однією з
причин появи помилок стало відсутність досить потужних засобів опису та
розпізнавання структури таблиць у використаних OCR-системах. p>
Моделі опису структури текстових і табличних
документів h2>
Модель
опису структури текстових документів - дерево регулярного ортогонального
чергування розбиття. p>
Традиційною
для текстових документів є наступна деревоподібна структура листа: лист
розбитий на текстові блоки, звані колонками, колонки розбиті на параграфи,
параграфи складаються зі слів, слова - з символів, символи - з однієї або
декількох компонент зв'язності. p>
яка використовується
в системі CRIPT структура опису листа являє собою узагальнення
традиційної деревоподібній схеми. Істотними є такі особливості
реального графа опису формату листа: p>
p>
Рис.
2. Дерево колонок, що відповідає структурі листа, схематично зображеного
на рис. 1a. P>
Для
кожного нетермінального об'єкта (тобто об'єкта, що має "дочок"),
зберігається інформація про відносне взаємному розташуванні його дочок на
аркуші, що дозволяє в разі необхідності зберегти у вихідному документі те
ж взаємне розташування структурних елементів тексту в межах ієрархічного
блоку більш високого рівня, що і у вихідному документі. Передбачені,
Зокрема, наступні варіанти взаємного розташування об'єктів: упорядкування за
горизонталі, впорядкування по вертикалі, матричний порядок, індексний порядок
(одна з дочок є індексом інший), неврегульоване розташування. p>
p>
Рис.1
Послідовні кроки розщеплення листа на колонки за методом "зверху
вниз " p>
Колонки
утворюють ієрархічну структуру, тобто кожна колонка може бути розбита на
подколонкі, причому на сусідніх рівнях орієнтація розділяють колонки ліній
змінюється на ортогональну (так, наприклад, якщо на певному рівні колонки
можуть бути розділені горизонталями, то на наступному рівні вони поділяються вертикалями).
Саме тому така модель опису структури документів була названа деревом
регулярного ортогонального чергування розбиття. На рис. 1 наведена схема,
пояснює дану модель. На рис. 1, a схематично показано розташування
колонок на аркуші, на рис. 1, bd - послідовні кроки розщеплення, на рис. 2
- Побудоване "дерево регулярного ортогонального чергування
розбиття " p>
p>
Рис.
3. Приклади таблиць ієрархічної структури: a) Таблиця з горизонтальною
ієрархією; b) Таблиця з вертикальною ієрархією; c)?? Абліцов з горизонтальною і
вертикальною ієрархією; d) Таблиця з двома рівнями горизонтальної ієрархії. p>
Строки
можуть бути розбиті на підрядка, що розрізняються якимись властивостями (наприклад,
шрифтом). p>
Об'єкти
ієрархічної структури можуть мати дочок як на наступному по порядку
ієрархічному рівні (наприклад, доньками параграфа можуть бути рядки), так і на
нижчому ієрархічному рівні (наприклад, доньками колонки можуть бути
символи). p>
Модель
опису структури табличних форм - узагальнена модель пов'язаних ортогональних
ієрархій; p>
Розглянемо
особливості табличних структур, що визначають необхідність використання
спеціальної моделі для їх опису: p>
Правильне
розуміння таблиці читачем неможливо без обліку інформації про взаємне
розташування рядків, стовпчиків та комірок таблиці. Тому при автоматизованому
розпізнаванні табличних форм необхідно у вихідному документі зберегти те ж
взаємне розташування цих структурних табличних елементів, що і у вихідній
таблиці. p>
Строки
і колонки таблиць можуть мати ієрархічну структуру (рис. 3), причому ієрархія
може бути багаторівневою (рис. 3, d). p>
Колонки
і горизонтальні блоки різних ієрархічних рівнів в таблицях можуть мати
заголовки. Орієнтація тексту в заголовках може бути як горизонтальною, так і
вертикальної. p>
Колонки
і рядки в таблицях можуть бути розділені лініями. Товщина лінії, її тип
(наприклад, одинарна або подвійна, суцільна або пунктирна), а також сам факт
наявності або відсутності лінії розділу між двома колонками або рядками
таблиці можуть бути пов'язані певним чином із структурою і семантикою
таблиці і, отже, при автоматизованому розпізнаванні таблиць повинні
бути відображені у разі потреби у вихідному документі. p>
З
урахуванням перерахованих особливостей ясно, що ні дерево регулярного
ортогонального чергування, ні матрична структура в більшості випадків не
підходять для моделювання структури табличних форм. Хоча дерево регулярного
ортогонального чергування і зберігає деяку інформацію про взаємний
розташування елементів таблиці, цієї інформації недостатньо, щоб
відтворити вихідну структуру таблиці у вихідному документі. Приклад наведено на
рис. 4. Хоча структура таблиць на рис. 4, a) і b), різна, дерева регулярного
ортогонального чергування, що описують структуру цих таблиць, збігаються (див.
рис. 4c). Не застосовується в загальному випадку до таблиць і матрична структура, тому що
вона не дозволяє описувати таблиці з ієрархічною організацією. p>
Щоб
з'ясувати, яка модель даних може бути використана для представлення таблиць,
розглянемо спочатку загальноприйняту в технічній документації структуру таблиць.
Звичайно таблиця складається з шапки, може бути, боковика і так званого
"тіла" таблиці (мал. 5), причому як шапка, так і боковик можуть мати
ієрархічну структуру (рис. 6). Модель такої таблиці може складатися з дерева
горизонтальної ієрархії, що описує структуру боковика, дерева вертикальної ієрархії,
описує структуру шапки та зв'язків між деревами горизонтальної і
вертикальної ієрархії. p>
розглянуту
модель будемо називати узагальненою моделлю пов'язаних ортогональних ієрархій.
Приклад опису структури таблиці з використанням цієї моделі наведено на рис.
7 (b, c). P>
Загальний алгоритм розпізнавання таблиць h2>
Система
розпізнавання табличних форм складається з наступних основних компонентів: 1)
підсистеми передобробки; 2) табличного структурізатора; 3) підсистеми
розпізнавання символів (OCR-систе-ми); 4) табличного форматізатора; 5)
підсистеми постобробки. p>
OCR-система
здійснює розпізнавання текстової інформації на зображенні (основа методу
розпізнавання розглянута в роботі [19]. p>
Табличний
форматізатор виводить таблицю, структура якої визначена структурізатором, в
вигляді текстового файлу, маючи в своєму розпорядженні розпізнані OCR-системою символи в
належному порядку у відповідних елементах таблиці. Підсистема постобробки
здійснює контекстно-залежну корекцію символів (наприклад, замінює при
необхідності малі літери на прописні в залежності від розташування їх у
слові). p>
Розглянемо
більш докладно роботу табличного структурізатора. Ця підсистема
послідовно виконує наступні дії: 1) виявлення і видалення ліній на
растру; 2) автономну обробку ліній; 3) автономну обробку тексту;
4) розпізнавання структури таблиць; 5) аналіз елементів таблиці. P>
Процедура
виявлення ліній обробляє растрове зображення аркуша документа і
виявляє на ньому відрізки прямих ліній. Потім ці лінії видаляються з растрового
зображення, щоб відділити їх від зображень символів і забезпечити можливість
автономної обробки ліній і тексту. p>
Процедура
автономної обробки ліній виконує наступні дії: а) зрощування розривів
ліній; б) оцінювання та ліквідація перекосу; в) виділення кластерів співвісні ліній;
г) визначення типів ліній. Процедура автономної обробки тексту полягає в
основному в контекстно-незалежної фільтрації обривків ліній й фільтрації шумів
на текстовому шарі растру. Вхідними даними для процедури розпізнавання
табличної структури є: апріорне опис структури таблиці; набір
відрізків горизонтальних і вертикальних ліній, класифікованих за типами;
інформація про положення і розмірах рамок текстових компонент зв'язності. p>
Ця
процедура перевіряє, чи відповідає структура оброблюваного зображення
апріорно опису, і у разі відповідності формує ієрархічну модель
структури таблиці. Для того, щоб забезпечити стійке розпізнавання, ця
процедура враховує специфічні особливості таблиць певного типу.
Основні дії, що виконуються цією процедурою: p>
ідентифікація
горизонтальних ліній, що обмежують шапку; p>
глобальна
контекстно-залежна фільтрація ліній; p>
ідентифікація
вертикальних ліній відповідно до апріорним описом та перевірка відповідності
структури таблиці цього опису; p>
контекстно-залежна
фільтрація компонент (обривків ліній і шуму); p>
побудова
вертикальної ієрархії (структури колонок); p>
оцінювання
горизонтальної ієрархії. p>
Призначення
процедури аналізу осередків - структуризація тексту всередині елементів таблиці. Процедура
виконує наступні дії: виділення рядків і слів, виявлення знаків
пунктуації, індексних виразів, дробів і крапок всередині елементів таблиці. p>
Висновок h2>
Таким
чином, в даній роботі проведено огляд сучасних технологій
автоматизованого введення в комп'ютер складноструктороване друкованих
документів та зроблено висновок про наявність певної обмеженості коштів
структурного розпізнавання таблиць складної форми. p>
Авторами
запропонована досить універсальна структурну модель пов'язаних ієрархій,
придатна для опису широкого класу текстових документів, табличних форм і
бланків. У роботі описується заснована на моделі пов'язаних ієрархій
методологія розпізнавання табличних структур. Дана методологія була покладена
в основу розробленого в рамках OCR-системи Cript універсального
текстово-табличного структурізатора. p>
Наведені
в роботі базові алгоритми структурізатора Cript можуть знайти застосування у
багатьох завданнях автоматизованої обробки текстів і таблиць різної природи,
що демонструється прикладами структурного розпізнавання таблиць з різних
історичних джерел. Тому занурення OCR системи Cript в різні
автоматизовані системи введення та обробки історичних джерел дозволить підвищити
ефективність і ступінь автоматизації подібних систем. Гнучкість і простота
розробленого в рамках проекту Cript мови опису табличних форм істотно
спростять процедуру налаштування кінцевим користувачем OCR-системи на
специфічні особливості вводяться табличних структур. p>
Автори
висловлюють вдячність А.В. Тюленева і Л.І. Бородкін, завдяки яким у
чому і відбулася ця стаття. p>
Список літератури h2>
1.OCR
(Optical Character Recognition) - оптичне розпізнавання образів, Cript --
один з ефективних вітчизняних OCR-систем (Прим. ред.) p>
2.L. O'Gorman, "The document
spectrum for page layout analysis ", IEEE Journal on Pattern Analysis and
Machine Intelligence, vol. 15, no. 11, p. 1162-1173, 1993; M. Krishnamoorthy,
G. Nagy, S. Seth, M. Viswanathan, "Syntactic segmentation and labelling of
digitized pages from technical journals ", IEEE Journal on Pattern Analysis
and Machine Intelligence, vol.15, no.7, p.737-747, 1993; G. Nagy, S. Seth, M.
Viswanathan, A prototype document image analysis system for technical journals,
Computer, no.7, p.10-21, 1992. P>
3.L. O'Gorman, The document spectrum
for page layout analysis, IEEE Journal on Pattern Analysis and Machine
Intelligence, vol. 15, no. 11, p. 1162-1173, 1993 p>
4.H.S. Baird, K. Thompson, Reading
Chess, Proc. of Workshop on ComputerVision, Washington, 1987. p>
5.V. Poulian d'Andecy, J.
Camillerapp, I. Lemplumey, Kalman Filtering for Segment Detection: Application
to Music Scores Analysis, Proc. IAPR 12-th Intern. Conf. on Pattern
Recognition, Los Alamos, 1994. - V.1. P>
6.M. Thaller. The Processing of
Manuscripts, Images and Manuscripts in Historical Computing, Goettingen, 1992;
T. Kruyt, J. van der Voort van der Kleij. Converting the Historical Dictionary
of Dutch to Electronic Form, Optical Character Recognitionin The Historical
Discipline., Goettingen, 1993; 22. L. Borodkin, V. Lazarev, E. Zlobin,
Applications of OCR in Russian Historical Sources: a Comparison of various
programs, Optical Character Recognition in The Historical Discipline,
Goettingen, 1993. P>
7.V. Klyahzkin, E. Shchepin, K.
Zingerman. Application of hierarchical methods of cluster analysis to the
printedtext structure recognition, Shape, Structure, and Pattern Recognition,
Dov Dori and Alfred Bruckstein, Eds. World Scientific, 1995; V. Klyahzkin, E.
Shchepin, K. Zingerman. Hierarchical analysis of multi-column texts, Pattern
Recognition and Image Analysis, Vol.5, No.1, 1995, Interperiodica, pp. 1-12; В.М. Кляцкін. Ієрархічний кластер-аналіз
многоколонном текстів, Одеса, 1994, Праці V Міжнародної конференції
(Статистичний і дискретний аналіз даних і експертні оцінки), Изд-во
Одеського політехнічного університету, стор 132-134. P>
8.M. Krishnamoorthy, G. Nagy, S.
Seth, M. Viswanathan, Syntactic segmentation and labelling of digitized pages
from technical journals, IEEE Journal on Pattern Analysis and Machine
Intelligence, vol.15, no.7, p.737-747, 1993 p>
9.H.S. Baird, S.E. Jones, S.J.
Fortune, Image Segmentation by Shape-Directed Covers, Proc. IAPR 10-th Intern.
Conf. on Pattern Recognition, Atlantic City, 1990; HSBaird, Background
Structure in Document Images, Proc. IAPR Workshop on Structural and Syntactic
Pattern Recognition, Bern, 1992. P>
10.H.S. Baird, Background Structure
in Document Images, Proc. IAPR Workshop on Structural and Syntactic Pattern
Recognition, Bern, 1992. P>
11.H. Saiga, Y. Kitumura, S. Ida,
"High-Speed Recognition of Tabulated Data", Proc. IAPR 12-th Intern.
Conf. on Pattern Recognition, Los Alamos, 1994. - V.2. P>
12.J. F. Arias, A. Prasad, R.
Kasturi, A. Chhabra, Interpretation of Telephone Company Central Office
Equipment Drawings, Proc. IAPR 12-th Intern. Conf. on Pattern Recognition, Los
Alamos, 1994. - V.2. P>
13.P. Wayner, Optimal Character
Recognition, Byte, 1993, no. 12, p.203-210. P>
14.G. Thorvaldsen. Making Printed
Historical Sources Machine Readable: Some Experiences with OCR, History and
Computing, Vol.5 No 2, Edinburgh University Press, 1993. P>
15.G. Thorvaldsen. Historical OCR
Projects in Norway, Optical Character Recognition in The Historical
Discipline., Goettingen, 1993 p>
16.G. Thorvaldsen. Making Printed
Historical Sources Machine Readable: Some Experiences with OCR, History and
Computing, Vol.5 No 2, Edinburgh University Press, 1993. P>
17.A. McVeigh. The Irish Database
Project: A Case for OCR?, Optical Character Recognition in The Historical
Discipline., Goettingen, 1993 p>
18.M. Olsen. Scanning, Keyboarding
and Data Verification: Factors in Selecting Data Collection Technologies,
Optical Character Recognition in The Historical Discipline., Goettingen, 1993 p>
19.E. Shchepin, G. Nepomnyashchii,
Character recognition via critical points, International Journal of Imaging
Systems and Technology, vol.3, pp.213-221, 1991 p>
20.Матеріали
для географiя і статистики Россiі, зібрані офіцерами Генеральнаго штабу.
Казанська губернiя. (укладач М. Лаптєв) - Санкт-Петербург, Військова
друкарня. - 1861. P>