Автоматизація
роботи в офісі h2>
Дипломна робота p>
Житомирське
Вище професійне училище № 17 p>
Спеціальність:
оператор ЕОМ p>
м.Житомир, 2001
р. p>
Анотація
дипломної роботи оператора ЕОМ??? ??? на тему "Автоматизація роботи в офісі» h2>
Сучасне суспільство не може існувати
без документообігу. Документи супроводжують нас на кожному кроці. Навіть дрібна
покупка товару в магазині супроводжується видачею документа - касового чека. Ми
можемо викинути непотрібний чек в урну відразу після покупки, але це не міняє справи.
Все одно в магазині залишається копія чека, яка ще довго буде зберігатися і
враховуватися. p>
Одне із завдань, що стоять перед інформатикою,
як наукою, полягає в перекладі документообігу з паперової форми і
електронну. Цю задачу вирішують шляхом розробки і впровадження апаратних і
програмних засобів і методів електронного документообігу. p>
У даній дипломній роботі будуть
розглянуті питання, що стосуються використання двох найбільш значних
програмних засобів автоматизації документообігу, якими є FineReader, програма, призначена для
розпізнавання текстів українською, англійською, німецькою, українською та багатьох
іншими мовами, і Promt98,
комплект програм, який використовується для автоматичного перекладу текстів з
англійської, німецької та французької мов на російську і з російської на
англійська, німецька та французька. p>
Введення b>
p>
Щодня в світі створюються мільярди копій
великих і малих документів. На виробництво і відтворення документів
витрачається немислиму кількість паперу й лісу, а на облік, перевірку і зберігання
документів витрачається величезна кількість часу. p>
Одна з основних задач інформатики полягає
у розробці та впровадженні засобів і методів використання обчислювальної техніки
для переведення документообігу з паперової форми в електронну. Сучасні
мережні технології дозволяють вирішити цю задачу, але поки що лише частково. Всі
банки світу уже зв'язані електронними мережами і фінансові документи циркулюють в
основному в електронному вигляді. Поступово виходять із вжитку паперові акції
підприємств та інші цінні папери. Їх замінюють електронні депозитарії - бази
даних, у яких відомості про акціонерів зберігаються у вигляді записів. p>
Порівняно недавно з'явилися електронні
гроші. Це теж записи в базах даних. Рух електронних грошей відбувається
по безпаперовій технології, шляхом переносу даних із одних записів в інші. Для
персонального використання електронних грошей служать пластикові картки,
містять відомості про власника електронного рахунку на магнітній смузі, або
смарт-картки, в яких ті ж дані записані на невеликій плоскій мікросхемі,
вбудованої в карту. p>
За безпаперовій технології сьогодні працюють
більшість засобів масової інформації. Всі етапи підготовки газети, журналу,
книги або рекламної листівки проводяться на комп'ютері. Багатозадачні
операційні системи типу Windows9Х дозволяють одночасно готувати і
редагувати тексти, створювати і обробляти ілюстрації, а комп'ютерні мережі
об'єднують всіх учасників, що працюють над одним проектом, в автономні робочі
групи. p>
Робоча група може обходитися без
паперових документів до повного завершення роботи над проектом. Лише коли
робота завершується, створюється підсумковий паперовий документ. Це може бути як
макет газеті, так і повний комплект креслень, необхідний для будівлі
ракетного крейсера. p>
У тих випадках, коли вихідні дані відразу
мають електронний вигляд, переклад документообігу на безпаперову технологію
відбувається порівняно просто. Всі етапи редагування і коректури виконують
в електронному вигляді за допомогою спеціальних програмних засобів. Робота передається
з одного робочого місця на інше з комп'ютерної мережі, і всі учасники роботи
допомагають один одному і виправляють помилки колег без створення паперових
документів. p>
Можливо, у далекому майбутньому, коли всі
документи будуть зразу готуватись тільки в електронному виді, людство зможе
перейти повністю до безпаперовій технології, і залишки лісів будуть врятовані від
повного знищення, а целюлозно-паперові комбінати перестануть скидати
отруєні води в річки та озера. Однак сьогодні персональний комп'ютер коштує
ще не на кожному робочому місці і не всі учасники документообігу об'єднані
комп'ютерними мережами в робочі групи. Тому основною перешкодою на шляху
створення безпаперовій технології стоїть проблема вводу вихідних даних саме в
електронному вигляді. p>
В інформатиці ця проблема вирішується
створенням та впровадженням спеціальних апаратних і програмних засобів для перекладу
графічної і текстової інформації в електронну форму. p>
1.
Засоби створення електронного документообігу b>
p>
1.1.
Автоматизація вводу інформації в комп'ютер b>
p>
Основним методом перекладу паперових
документів в електронну форму є сканування. Сканування - це
технологічний процес, в результаті якого створюється графічний образ
паперового документа. Існує кілька різних видів сканерів, але в їх основі
лежить один і той же принцип. Документ освітлюється світлом від спеціального
джерела, а відображене світло сприймається світлочутливим елементом.
Мінімальний елемент зображення інтерпретується сканером як кольорова (або
сіра) крапка. Таким чином, в результаті сканування документа створюється
графічний файл, у якому зберігається растрове зображення вихідного документа.
Растрове зображення складається, як відомо, з точок. Кількість точок
визначається як розміром зображення, так і роздільною здатністю сканера. p>
1.1.1.
Сканери для введення текстів та ілюстрацій b>
p>
В даний час для введення текстової та
графічної інформації використовують такі види сканерів. p>
Ручні сканери. Це найпростіший вид сканерів,
що дає найменш якісне зображення. Такий сканер не має рухомих
частин, і сканування проводиться шляхом переміщення сканера по документу. p>
Недоліком ручних сканерів є дуже
вузька смуга сканування (стандартний аркуш паперу доводиться сканувати в
кілька проходів), а також високі вимоги до самого процесу сканування.
Так, якщо рука, що тримає сканер, злегка тремтить або рухається ривками,
говорити про хорошу якість сканування не доводиться. Ручні сканери придатні
для сканування текстів, але використовувати їх для сканування зображень
(фотографій) важко. p>
Листові сканери. Сканери цього типу
дозволяють за одну операцію сканувати аркуш паперу стандартного формату. Блок
сканування у таких сканерів нерухомий, а папір простягається повз нього при
допомогою спеціальних валиків (як в принтері). Листові сканери гарантують
гарна якість сканування. але вони здатні сканувати лише окремі
листи. Перекласти з їх допомогою в електронну форму сторінку книги або розворот
журналу неможливо. p>
Планшетні сканери забезпечують найкраще
якість та максимальну зручність при роботі з паперовими документами. Під
кришкою планшетного сканера розташовується прозоре підстава, на яке
укладають документ. Блок сканування переміщується вздовж документа всередині
корпусу сканера. Тривалість сканування стандартного машинописного
листа складає від однієї до кількох секунд. p>
1.1.2.
Спеціальні типи сканерів b>
p>
Барабанні сканери забезпечують найвищу
дозвіл сканування, але вони призначені для сканування не паперові
документів, а прозорих матеріалів, наприклад слайдів, негативів і т. п. У
сканерах цього типу голівки, що зчитує встановлена нерухомо, а зображення,
закріплене на циліндричній барабані, обертається з високою швидкістю і
сканується порядково. p>
Сканери форм - спеціальні сканери для
введення інформації з заповнених бланків. Це різновид листових сканерів. З
допомогою подібних пристроїв вводять дані з анкет, листів опитування,
виборчих бюлетенів. Від сканерів цього типу потрібна не висока
роздільна здатність, а дуже високу швидкодію. Зокрема, для
сканерів цього типу автоматизують подачу паперових аркушів в пристрій. p>
Штрих-сканери - різновид ручних
сканерів. Призначені вони для зчитування штрих-кодів з маркування товарів у
магазинах. Штрих-сканери дозволяють автоматизувати процес підрахунку вартості
покупок. Вони особливо зручні в торгових приміщеннях, обладнаних електронної
зв'язком і виробляють розрахунки з покупцями за допомогою електронних платіжних
коштів (кредитних карток, смарт-карт і т. п.). p>
1.2.
Зв'язок сканера з операційною системою b>
p>
Для підключення сканера до комп'ютера
використовують різні методи. Існують сканери зі спеціальною платою розширення,
так званим контролером. Плату встановлюють в одне з гнізд розширень
материнської плати комп'ютера, а сканер підключають до гнізда плати. p>
Деякі сканери підключають до вільного
паралельному порту (порту принтера). У такому випадку передача даних відбувається
повільніше, зате ніяких додаткових пристроїв для підключення сканера не
потрібно. p>
Найбільш продуктивні сканери
використовують інтерфейс SCSI, розроблений спеціально для підключення до
комп'ютера зовнішніх пристроїв. Комп'ютер в цьому випадку повинен мати спеціальний
контролер, який забезпечує роботу з цим апаратним інтерфейсом. Такий
контролер найчастіше виконується на платі розширення. p>
Оскільки апаратні інтерфейси сканерів
відрізняються різноманіттям, були зроблені спеціальні заходи для стандартизації
програмного інтерфейсу, що забезпечує зв'язок між сканерами і операційної
системою. Цей інтерфейс заснований на спеціальному протоколі TWAIN. Якщо сканер підтримує
такий протокол, то операційна система Windows9Х здатна забезпечити
взаємодія між сканером і програмним додатком, призначеним для
роботи з ним. Всі сучасні сканери підтримують стандарт TWAIN. P>
1.2.1.
Особливості Windows95 b>
p>
Операційна система Windows95 з'явилася,
коли сканери ще не вважалися необхідними компонентами настільної
комп'ютерної системи, і з цієї причини штатних засобів підтримки стандарту
TWAIN в Windows95 немає. Під час встановлення сканера в системі Windows95 необхідно
використовувати драйвери, що поставляються разом з ним. p>
1.2.2.
Особливості Windows98 b>
p>
Операційна система Windows98 вже
інформована про наявність такого пристрою як сканер. Стандарт TWAIN
підтримується в ній за замовчуванням, а в разі приєднання до комп'ютерної
системі сканера, у вікні папки «Панель управління» з'являється відповідний
значок, що дозволяє робити настроювання. p>
Таким чином, у більшості програм
робота зі сканером здійснюється за допомогою спеціального діалогового вікна,
що забезпечує безпосередню взаємодію зі сканером. Після того як
користувач дає команду на сканування документа, дані передаються в
програму, що звернулися до сканера, з використанням протоколу TWAIN. p>
1.3.
Автоматичне розпізнавання текстів b>
p>
Після обробки документа сканером
виходить графічне зображення документа (графічний образ). Але графічний
образ ще не є текстовим документом. Людині достатньо поглянути на
аркуш паперу з текстом, щоб зрозуміти, що на ньому написано. З точки зору
комп'ютера, документ після сканування перетворюється в набір різнокольорових
точок, а зовсім не в текстовий документ. p>
Проблема розпізнавання тексту в складі
точкового графічного зображення є досить складною. Подібні завдання
вирішують за допомогою спеціальних програмних засобів, які називаються засобами
розпізнавання образів. Реальний технічний прорив в цій області стався
лише в останні роки. До цього розпізнавання тексту було можливо лише шляхом
порівняння знайдених конфігурацій точок із стандартним зразком (еталоном,
що зберігається в пам'яті комп'ютера). Автори програм ставили критерій «схожості»,
використовуваний при ідентифікації символів. p>
Подібні системи називалися OCR (Optical
Character Recognition - оптичне розпізнавання символів) і спиралися на
спеціально розроблені шрифти, що полегшували такий підхід. Якщо доводилося
стикатися з довільним і, тим більше, складним шрифтом, програми такого
роду починали давати серйозні збої. p>
Сучасні наукові досягнення в галузі
розпізнавання образів буквально перевернули уявлення про оптичний
розпізнавання символів. Сучасні програми цілком можуть справлятися з
різними (і досить химерними) шрифтами без перенастроювання. Багато розпізнають
навіть рукописний текст. p>
1.3.1.
Програми розпізнавання текстів b>
p>
Оскільки потреба в розпізнаванні тексту
відсканованих документів достатньо велика, не дивно, що мається
значне число програм, призначених для цієї мети. Так як різні
наукові методи розпізнавання тексту розвивалися незалежно один від одного,
багато хто з цих програм використовують абсолютно різні алгоритми. p>
Ці алгоритми можуть давати різні
результати на різних документах. Наприклад, згадувані вище системи OCR,
здатні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають
на цьому шрифті найкращі результати, які не може перевершити жодна з
більш універсальних програм. p>
Сучасні алгоритми розпізнавання тексту
не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість
програм здатне розпізнавати текст на кількох мовах. Одні і ті ж
алгоритми можна використовувати для розпізнання російського, латинського, арабського
та інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна
знати, про який алфавіті йде мова. p>
Нас, перш за все, цікавлять програми,
здатні розпізнавати текст, надрукований на російській і українській мовах.
Такі програми випускаються в основному російськими виробниками. Найбільш
широко відомі і поширені програми FineReader та CuneiForm. Ми докладно
зупинимося на програмі FineReader, що забезпечує високу якість
розпізнавання і зручність застосування. p>
1.3.2.
Програма FineReader b>
p>
Програма FineReader випускається
російською компанією ABBYY Software (www.bitsoft.ru). Ця програма призначена для
розпізнавання текстів українською, англійською, німецькою, українською, французькою
і багатьох інших мовах, а також для розпізнавання змішаних двомовних текстів. p>
Програма має ряд зручних можливостей.
Вона дозволяє об'єднати сканування і розпізнавання в одну операцію, працювати
з пакетами документів (або з багатосторінковими документами) і з бланками.
Програму можна навчати для підвищення якості розпізнавання невдало
надрукованих текстів та складних шрифтів. Вона дозволяє редагувати розпізнаний
текст і перевіряти його орфографію. p>
FineReader працює з різними моделями
сканерів. Зокрема, програма підтримує стандарт TWAIN. Ми розглянемо
програму на прикладі версії 4.0, однією з останніх версій на даний момент. p>
2.
Розпізнання документів в програмі finereader b>
p>
2.1.
Вікно програми b>
p>
Після установки програми FineReader в
меню «Програми» Головного меню з'являються пункти, що забезпечують роботу з нею.
Вікно програми має типовий для додатків Windows9Х вигляд і містить рядок
меню, ряд панелей інструментів і робочу область. p>
У лівій частині робочої області
розташовується панель «Пакет», що містить список графічних документів, які
повинні бути перетворені в текст. Ці графічні файли розглядаються як
частини одного документа. Результати їх обробки в подальшому об'єднуються в
єдиний текстовий файл. Форма значка, що відзначає вихідні тексти, вказує,
чи було вироблено розпізнавання. p>
Панель в нижній частині робочої області
містить фрагмент графічного документа у збільшеному вигляді. З її допомогою можна
оцінити якість розпізнавання. Цю панель також використовують при «навчанні»
програми в ході розпізнання тексту. p>
Іншу частину робочої області займають
вікна документів. Тут розташовується вікно графічного документа, що підлягає
розпізнавання, а також вікно текстового документа, отриманого після
розпізнавання. p>
У верхній частині вікна програми під
рядком меню розташовані панелі інструментів. На наведеному малюнку включено
відображення всіх панелей, які можуть використовуватися в програмі FineReader. p>
Панель інструментів «Стандартна» містить
кнопки для відкриття документів та для операцій з буфером обміну. Інші кнопки
цієї панелі злужат для зміни представлення документа. p>
Панель «Scan & Read» містить кнопки,
відповідають всім етапам перетворення паперового документа в електронний
текст. Перша кнопка дозволяє виконати таке перетворення в рамках єдиної
операції. Інші кнопки відповідають окремим етапам роботи і містять
спадним меню, службовці для управління відповідною операцією. p>
Панель «Розпізнавання» дозволяє вказати
мову документа і вид шрифту. Остання потрібно робити тільки в тих випадках,
коли документ має недостатню якість друку. p>
Панель «Інструменти» використовують при роботі
з вихідним зображенням. Зокрема, вона дозволяє управляти сегментацією
документа. За допомогою елементів управління цієї панелі задають послідовність
фрагментів тексту в підсумковому документі. p>
Елементи керування панелі
«Форматування» використовують для зміни представлення готового тексту або при
його редагуванні. p>
2.2.
Порядок розпізнання текстових документів b>
p>
Перетворення паперового документа в
електронний відбувається у три етапи. Кожен з цих етапів програма FineReader
може виконувати як автоматично, так і під контролем користувача. Якщо все
етапи проводяться автоматично, то перетворення документа відбувається за один
прийом. p>
Перший етап роботи - сканування. На цьому
етапі зазвичай використовують сканер. Однак зображення з листка паперу може бути
перетворено у цифрову форму і за допомогою інших засобів, таких, наприклад, як
цифрові фотоапарати і цифрові відеокамери. p>
Другий етап роботи - сегментація тексту.
Справа в тому, що в паперовому документі, наприклад на сторінці книги чи журналу,
текст не завжди розташовується у фіксованому порядку. Він може розміщуватись в
кількох колонках, містити ілюстрації (і підписи до них). Додаткові
врізання і дані, представлені в таблицях, також можуть заплутати природний
порядок тексту. Тому, перш ніж включати текст у документ, його розбивають на
блоки, що містять цільні фрагменти. Блоки розпізнають послідовно.
Отриманий текст включається в документ у порядку нумерації блоків. P>
Останній етап роботи програми --
безпосередньо розпізнавання. Цей етап звичайно не вимагає втручання
користувача, за винятком тих випадків, коли розпізнавання супроводжується
«Навчанням». P>
Розпізнаний текст відображається в
окремому вікні у вигляді форматованого текстового документа. Він "втрачає зв'язок»
з вихідним зображенням і може редагуватися і форматуватися незалежно від
нього. Програма виділяє кольором ті символи, які вона сама розглядає як
неоднозначно пізнані. Це спрощує пошук помилок. Засобами програми в
отриманому тексті можна також провести перевірку граматики. p>
Отриманий текст можна зберегти у вигляді
форматованого або неформатованого документа. Передбачена також
можливість прямої передачі отриманого тексту в програми Word або Excel, а
також в буфер обміну Windows. p>
2.3.
Сканування документа b>
p>
Сканування - це технічна операція,
яку виконує скануючий пристрій. Завдання програми FineReader на цьому
етапі полягає в тому, щоб прийняти отриману інформацію та відобразити значки
відсканованих сторінок на панелі «Пакет». Так сторінки готуються до
розпізнавання. p>
Для того щоб провести сканування при
допомогою програми FineReader, необхідно запустити цю програму і включити
сканер. Сканування сторінки проводиться за клацання на кнопці «Сканувати» на
панелі інструментів «Scan & Read» або при натисканні комбінації клавіш CTRL + K. p>
Програма здатна працювати зі сканером
як безпосередньо, так і через протокол TWAIN. При безпосередньому
взаємодії із сканером можливість сканування кольорових зображень не
використовується, оскільки передбачається, що текст у будь-якому випадку є
однокольоровим. p>
Програма використовує для сканування
пристрій, який задано за замовчуванням. Для того щоб вибрати таке
пристрій або змінити його настройку, потрібно клацнути на кнопці розкриває
поруч із кнопкою «Сканувати» і вибрати в меню, що пункт «Опції» --
відкриється діалогове вікно «Параметри». p>
Якщо до комп'ютера підключено кілька
сканерів або сканер був підключений після установки програми FineReader, слід
клацнути на кнопці «Вибрати сканер». У цьому випадку програма проведе пошук
підключених до комп'ютера сканерів і дозволить вибрати потрібний. p>
Щоб змінити установки сканера використовують
кнопку «Параметри сканування». p>
Коли сканер вибраний, активізуються два
прапорця в нижній частині діалогового вікна. Якщо встановити прапорець "Показувати
діалог TWAIN-драйвера сканера », то сканування проводиться через протокол
TWAIN з відображенням спеціального діалогового вікна. В іншому випадку
програма працює зі сканером напряму. Використовувати протокол TWAIN має
сенс тільки в тому випадку, коли робота напряму неможлива або дає
неякісні результати. p>
Прапорець "Показувати параметри перед початком
сканування »застосовують тільки в тому випадку, коли паперові сторінки документа
істотно відрізняються один від одного. Це може бути викликано, наприклад,
властивостями паперу або тим, що різні сторінки друкувались в різний час і
різними засобами. У цьому випадку перед скануванням кожної сторінки
відкривається діалогове вікно настройки сканера, щоб користувач міг
відрегулювати якість процесу. p>
Сам процес сканування відбувається в автоматичному
режимі. Якщо потрібно обробити багато сторінок, то краще всього спочатку всі їх
відсканувати, а вже потім приступати до розпізнавання. Це пов'язано з тим, що
сканування потребує присутності користувача через необхідність управління
сканером (наприклад, для зміни сторінок), а розпізнавання може відбуватися в
автоматичному режимі. p>
2.4.
Сегментація документа b>
p>
Під природним порядком розпізнавання
тексту розуміється послідовне розпізнавання рядків зліва направо. Однак,
якщо текст розбитий на кілька колонок (стовпців) або містить врізання,
підписи, примітки, таблиці та інші елементи форматування,
його розпізнавання в природному порядку неможливо. У таких випадках програма
розбиває текст на блоки, кожен з яких представляє собою цілісний фрагмент
тексту, розпізнавання в природному порядку. Таке розбиття документа
називається сегментацією. p>
Автоматична сегментація - не проста
задача для програми. Програма розшукує проміжки між рядками, а також
зони початку і кінця рядків. Якщо послідовність рядків, що йдуть підряд, має
однакові зони початку і кінця, то програма розглядає таку область як
текстовий блок. p>
Якщо проміжки між рядками взагалі відсутні,
то, очевидно, мова йде про ілюстрації. Якщо виявляється велика
число вертикальних і горизонтальних фрагментів, які утворюють правильну
структуру, то, ймовірно, в текст включена таблиця. p>
Якщо клацнути на кнопці «Сегментувати
виділені сторінки », то сегментація сторінки проводиться автоматично.
Правда, якщо зображення документа має невисоку якість, то сегментація
може бути проведена невдало, що виявиться в надмірній кількості занадто
дрібних блоків. p>
У таких випадках можна вручну вказати
границі блоків або змінити автоматичне розбиття. Нові прямокутні блоки
створюють методом протягування миші. При протягуванні створюваний блок виділяється
пунктирною рамкою, яка в момент створення блоку перетворюється на суцільну зелену
лінію. p>
Якщо сторінка має простий стандартний
вид, то простіше вручну створити одиничний блок, який охоплює всю сторінку, ніж
надати це програмі, ризикуючи можливістю появи помилок. p>
Один із створених блоків завжди є
поточним. Він обведений більш жирною лінією, а його вершини помічені маркерами.
Перетягуванням цих маркерів можна регулювати рамки блоку. P>
Для створення блоку непрямокутної форми
або зміни послідовності блоків використовують кнопки панелі інструментів
«Інструменти». Всі кнопки цієї панелі використовуються саме на етапі сегментації. P>
Програма FineReader розрізняє кілька
типів блоків, які обробляються по-різному. Такі блоки виділяються різними
квітами. Текстові блоки обводяться зеленою лінією. Щоб змінити тип блоку,
слід натиснути в межах блоку правою кнопкою миші і вибрати потрібний тип в
меню «Тип блока контекстного меню». p>
2.5.
Розпізнавання документа b>
p>
Після сегментації і встановлення порядку
проходження текстових блоків виконують останній етап роботи - власне
розпізнавання. Звичайно цей етап проходить автоматично. P>
Якщо документ надрукований достатньо
стандартним шрифтом, який, до того ж, був добре відтворений при
скануванні, то клацання на кнопці «Розпізнати відкриту сторінку» достатньо,
щоб документ був розпізнано. p>
Якщо паперовий документ має недостатню
контрастність або незвичний шрифт, процедура дещо ускладнюється. У цьому
випадку програма може не справлятися з розпізнаванням певних символів і
допускати однотипні помилки. p>
У таких випадках для великих документів
доцільно спочатку провести навчання програми відповідно до
особливостями даного документа. Це досить трудомісткий процес, але він все
ж простіше, ніж ручне введення багатосторінкового документа. p>
Настройку розпізнавання починають з
створення еталона, в якому зберігаються особливості даного документа. Для
цього треба дати команду «Сервіс ® Еталони», клацнути у відкритому
діалоговому вікні «Еталони» на кнопці «Новий еталон» і ввести ім'я створюваного
еталона. p>
Для підключення еталона при розпізнаванні,
треба клацнути на розкриває кнопці поруч з кнопкою «Розпізнати відкриту
сторінку »і вибрати пункт« Опції ». У діалоговому вікні, що в групі
«Навчання» слід вибрати тільки що створений еталон. Якщо передбачається
розпізнавання документа, що відповідає еталону, який був створений і
настроєний раніше, то вибирається не новий, а старий еталон. p>
Для «навчання» еталона слід встановити
прапорець "Розпізнавання з навчанням». p>
Режим розпізнавання в цьому випадку
дещо змінюється. Кожного разу, коли програма не може впевнено розпізнати
символ, вона видає діалогове вікно «Поповнення еталона». У верхній частині
цього діалогового вікна наводиться збільшене зображення поточної
розпізнається рядка. Поточний символ укладений у рамку. P>
У полі зі списком «Символ» наведений
символ, який, як вважає програма, знаходиться в рамці. p>
Необхідно переконатися, що символ в полі
вказаний правильно і замінити його у випадку необхідності. Після цього треба клацнути
на кнопці «Навчити». p>
Якщо неправильно вказані границі символу, то
кнопки «Зсунути вліво» і «Перемістити праворуч» дозволяють поправити становище
рамки. p>
Якщо правильно розмістити рамку не вдається
або в тексті зустрівся рідкісний символ, який правильно інтерпретувати
не можна, слід клацнути на кнопці «Пропустити». p>
2.6.
Особливості настройки програми FineReader b>
p>
Як і більшість інших програм
Windows, програму FineReader можна налаштувати відповідно до вимог
конкретного користувача. Всі налаштування здійснюються за допомогою діалогового
вікна «Опції», що відкривають за допомогою будь-який розкриває стрілки на панелі
інструментів «Scan & Read» або через меню «Сервіс». Якщо використана панель
інструментів, то діалогове вікно відкривається на вкладці, відповідної
використаної кнопці панелі інструментів. p>
Вкладка «Сканування» служить для вибору і
настройки сканера, а також для визначення способу доступу до нього. p>
Вкладка «Сегментація» дозволяє
настроювати деякі параметри для автоматичної сегментації. Тут задають
параметри автоматичного розбиття таблиці і настроюють режим автоматичної
сегментації багатоколоночних тексту. p>
Засоби вкладки «Форматування»
дозволяє задати спосіб форматування розпізнаної сторінки і вибрати
використовувані шрифти. p>
Вкладка «Розпізнавання» визначає
параметри розпізнавання документа. Вона дозволяє задати мову документа і
особливості початкового шрифту, а також настроїти режим розпізнавання з
навчанням. Тут же задається метод кольорового виділення ненадійно розпізнаних
символів. p>
Елементами управління вкладки «Перевірка»
задають метод перевірки орфографії і спосіб позначки виявлених помилок або сумнівних
місць. p>
Вкладка «Установки» визначає загальні
налаштування програми. Тут задають мову інтерфейсу і настроюють використовувані
одиниці виміру. p>
Прапорці панелі «Показувати» визначають
спосіб представлення вікна програми і відкритих документів. p>
Панель «Кольори» дозволяє визначити кольору
різних елементів документа. У нижній частині вікна можна задати додаткові
параметри. p>
2.7.
Розпізнавання бланків b>
p>
Важливою особливістю програми FineReader
є можливість розпізнавання бланків. Бланк являє собою
відформатований документ, в спеціальні поля якого вносяться дані.
Типовими прикладами бланків є анкети. Формат бланка може бути
досить химерним і не нагадувати ні книжкову, ні журнальну сторінку. p>
Особливість роботи з бланками полягає
в тому, що доводиться мати справу з об'ємним пакетом документів одинаковою
формату, заповнених різними людьми. У таких документах розрізняється зміст
заповнених полів, а стандартні заголовки не представляють інтересу. Дані,
отримані з набору бланків, звичайно підлягають подальшій обробці, наприклад
статистичної. Для обробки бланків призначений спеціальний додаток
FineReader Forms. P>
Для розпізнавання вмісту бланка
необхідно попередньо створити шаблон форми. Для цього служить команда
«Сервіс ® Шаблони». У діалоговому вікні «Шаблони» можна
створити новий шаблон або відкрити для редагування вже наявний. p>
У цьому випадку програма відкриває вікно
«Редактор шаблонів» і додаткове діалогове вікно «Параметри». У цьому вікні
розміщують блоки, що відповідають полям бланка і для кожного блоку вказують тип
що міститься в ньому значення. Блоки, що містять дані, що задаються
користувачем, позначаються як експортуються. Дані можуть записуватися в
текстовий файл або заноситися в базу даних у якості записів. p>
створений шаблон використовується на етапі
сегментації. Сегментація в даному випадку полягає не в реальному розбитті
сторінки на блоки, а в накладенні шаблону. Положення шаблону коригується
відповідно до того, наскільки рівно був розміщений бланк при скануванні. p>
Заключний етап полягає в
розпізнаванні вмісту бланка. Результат представляється у вигляді форми,
що містить назви полів і їх зміст. Послідовність розпізнаних
бланків може бути збережена в рамках єдиної бази даних для подальшого
обробки. p>
3.
Автоматичний переклад документів b>
p>
Ідея автоматичного перекладу текстів з
однієї мови на іншу витає в повітрі з часу появи найперших
комп'ютерів. Якби повноцінний переклад був можливий, значно спростилося
б спілкування між народами і обмін документами, але це дуже складне завдання, про
повному вирішенні якої поки що не доводиться говорити. p>
Усе впирається в обсяг тексту, що перекладається.
Комп'ютеризований словник цілком може впоратися з перекладом окремих слів,
особливо якщо він може запропонувати декілька значень на вибір. Однак
ситуація помітно ускладнюється, коли ми переходимо до переводу цілих фраз і, тим
більше, абзаців зв'язного тексту. p>
Для таких випадків надійного алгоритму
перекладу з однієї мови на іншу не існує. Це пов'язано з тим, що кожна
фраза мови має два рівні: синтаксичний та смисловий. Синтаксичний
рівень визначає побудову речення, а смисловий - його зміст. Для
правильного смислового перекладу, необхідно брати до уваги не тільки
конкретну фразу, але і абзац або навіть цілий розділ тексту. Таким чином,
розраховувати на те, що при автоматичному перекладі вийде повноцінний
документ, не можна. p>
Програми автоматичного перекладу
розраховані, в першу чергу, на тих, хто зовсім не знає відповідного
іноземної мови, але повинен ознайомитися із змістом документа хоча б
приблизно. Крім того, подібні програми дозволяють готувати короткі
повідомлення електронної пошти на иностр?? нном мовою. Такі повідомлення важко
вважати грамотними, але, швидше за все, кореспондент зуміє зрозуміти, що йому
хотіли повідомити. p>
Якщо немає ніяких вимог до якості
перекладу тексту з іноземної мови на російську, то програми автоматичного
перекладу можна розглядати як зручні засоби отримання найпростішого
чернетки. Якщо подібні вимоги є, то використовувати подібні програми не
рекомендується. Кваліфіковане редагування тексту, отриманого
автоматичним шляхом, обходиться в кілька разів дорожче, ніж послуги
фахівців-перекладачів. p>
3.1.
Засоби автоматичного перекладу b>
p>
Програмні засоби автоматичного
перекладу можна умовно розбити на дві основні категорії. Першу категорію
представляють комп'ютерні словники. Призначення комп'ютерних словників те ж, що
і у звичайних словників: надати значення невідомого слова. p>
Перевага комп'ютерних словників складається
у швидкості доступу та зручність автоматичного пошуку значення виділеного
слова. Автоматичний словник звичайно надає можливість перекладу слова
після натискання виділеної комбінації клавіш. p>
До другої категорії відносяться програми,
дозволяють виконати автоматичний переклад зв'язного тексту. Вони беруть
текст на одній мові (імовірно грамотний і не містить помилок) і
видають текст на іншій мові. В ході роботи програма використовує великі
словники, набори граматичних правил і інші засоби, що забезпечують
найкраще (з точки зору програми) якість перекладу. Словник може містити
не тільки окремі слова, а й типові словосполучення. p>
Використовуючи ці кошти, програма
аналізує граматичну структуру пропозицій вихідного тексту, виявляє
зв'язки між словами і намагається побудувати правильний переклад фрази на іншій мові.
Чим коротше пропозицію, тим більше шансів на те, що таке перетворення буде
правильним. В довгих реченнях і складних граматичних конструкціях будь-яка
система перекладу може давати збої. p>
В Україні найбільш широке поширення
отримали програми автоматичного перекладу з англійської мови на російську, а
також з російської на англійську. Це пояснюється провідною роллю англійської мови
у сфері міжнародного спілкування. Англійська мова досить проста для вивчення,
проте його простота несподівано створює додаткові труднощі для систем
автоматичного перекладу. Справа в тому, що однаково написані слова в
англійській мові часто відносяться до різних частин мови. Це ускладнює
граматичний аналіз речення і нерідко призводить до виникнення грубих
помилок в автоматичному перекладі. p>
3.1.1.
Програма Promt98 b>
p>
З систем автоматичного перекладу з
російської мови на англійську і навпаки найбільш поширені такі
програми, як Socrat і Stylus. Stylus, поза всякими сумнівами, забезпечує
високу якість і більш високу гнучкість при перекладі. Остання версія
програми Stylus змінила назву і тепер називається Promt98. p>
Програма Promt98 призначена для
автом