Видання
класичних літературних текстів в інтернеті h2>
(Вступні
зауваження до теми) h2>
Володимир
Литвинов p>
Вступ h2>
Справжні
нотатки присвячені темі, яка мене давно цікавить: що таке текст (по
переважно мова йтиме про текст поетичному) і яким чином ми можемо
поміщати в Інтернеті тексти так, щоб не просто отримати ще одну копію
відомого тексту (з цим може впоратися і ксерокс, продукт діяльності якого
може бути відправлений експрес-поштою), але усвідомити ті аспекти його пристрою,
які зазвичай залишаються як би УЯВНОЮ (ким, коли і в якому обсязі?)
і тому вислизають від уваги або ж віддаються на відкуп фахівцям,
володіє доступом до всієї необхідної інформації. Мова піде про тексти по
переважно т.зв. "класичних", тобто що існують порівняно великий
проміжок часу і неодноразово розглядалися. Твір має характер
прагматики-ессеістіческій і на науковість не претендує. p>
1. Текст як
об'єкт h2>
Текст в першу
його розгляді є об'єктом, відокремленим від інших об'єктів: коли ми
бачимо вірш, ми бачимо його в першу чергу як щось окреме від
інших речей, які складаються з слів. Кожен текст має свою унікальну
структурою, що заслуговує окремого вивчення. Мовою робочого підходу до
поданням літературного тексту в Павутині це відіб'ється в тому, що кожен
текст, обсяг якого технічно дозволяє передавати його по Мережі, повинен
існувати і як окремий файл. Тексти обсягу більшого, ніж
підходящий для передачі по Мережі, повинні перетворюватися на гіпертекст, тобто
складатися з фрагментів необхідного розміру і механізмів навігації,
забезпечують гіпертекстове єдність фрагментів. Внутрішня будова цього
об'єкта можна охарактеризувати як має різнорівневу сегментацію, яка
зорово представляється наступним чином: слово/рядок/віршована
рядок (задається примусової розбивкою; для прозового тексту це не
доречна)/абзац/більші єдності. Це означає, що ми повинні мати
якісь інструменти для віддзеркалення цієї сегментації, тобто текст повинен мати
можливість проявлятися (бути показаним) відповідно до цієї сегментацією.
Відповідно, кожен з таких сегментів повинен мати якийсь адреса в межах
меж тексту, то є, оскільки ми говоримо про текст в Мережі, якийсь
(відносний?) адреса в межах даного файлу. Пропонований варіант:
установка за допомогою відповідного інструментарію індивідуальних закладок на
кожному слові, рядку і більше великих сегментах. Крім того, текст повинен мати
опис не тільки комп'ютерне (URL), але і "людське", тобто
експліцитно повинен містити вказівку на своє походження (на книгу, своє
місце в складі книги і того, хто перевів його з книги у Мережу). Фрагменти
гіпертексту, спочатку були єдиними книгами (великими текстами), повинні
також лежати у вигляді архівів (самораскривающіхся) на FTP-сервер, щоб
користувачі могли організовувати свої подорожі усередині цього тексту (див. нижче).
p>
2. Текст як
ставлення h2>
По-перше,
ідеальні в текстологічної аспекті тексти вкрай рідкісні. Існує рукопис,
в принципі представимо як графічний файл (файли), існують різні
редакції, чернетки і відкинуті фрагменти. Існують помилки (помилки при
введенні тексту у великих кількостях практично неминучі), друкарські помилки,
різночитання та ін Тому крім механізмів різноманітного представлення одного
тексту потрібні механізми представлення тексту як варіативної структури і
можливості одночасного перегляду різних варіантів цієї структури. З іншого
боку, тексти існують і як взаємодія різних інтерпретацій, у
найпростішому вигляді як текст і набір коментарів до нього. Публікувати тексти без
коментарів видається недостатнім, а гіпертекст у даному випадку
стає нагальною необхідністю. Фреймової структури представляються досить
доречними для показу коментарів та іншої довідкової інформації (індексів,
конкордансов тощо - див. нижче). Втім, системний адміністратор або ж веб-майстер,
монопольно володіє істиною з приводу бажаної для коментарю і
написання тексту - картина досить гротескна. Тому публікація тексту
переростає в процес діалогу і поступового з'ясування переваг, що робить
публікацію тексту не одноразовим актом, а інтерактивним процесом,
що включає багато дійових осіб. Мережа в цьому випадку дійсно стане не
іграшкою або високим ремеслом для обраних, але механізмом, задіяним по
принципам, притаманним і внесетевой культурі, але, хочеться вірити, що спрощує
механізми обміну релевантною інформацією. p>
3.
Математична обробка. Індекси по тексту як засіб навігації h2>
Коли ми
стикаємося з новим текстом, ми volens nolens ставимо його в ставлення до інших
текстів інших авторів. Цим займатися тим зручніше, ніж більше авторів
вводиться в наш розгляд і чим вони краще описані. Найбільш повний і самий
реальний варіант опису тексту - побудова конкорданса до тексту з відсилання
в місця вживань (згадані вище закладки) на всіх введених авторів. При
це традиційні засоби пошуку можуть виявитися неадекватними у зв'язку з
індивідуальним (іноді різко індивідуальним) слововживання, і краще
мати повний опис лексики тексту або можливість за запитом (причому запит
може включати як лексеми, так і окремі формант) отримувати відсилання на
конкретні тексти, а також можливість отримати кількісне відношення до
інших аналогічних елементів тексту. Тобто елементи лінгвістичного аналізу
тексту можна поєднати з механізмами навігації і надати всім бажаючим.
Першим кроком у цьому напрямку є програма Word Tabulator,
розроблена Сергієм Логічевим (м. Снежинськ) (кр. опис). Одна технічна
застереження: для того щоб вихідні індекси були впорядковані з точки зору
послідовності посилань, тексти в аналізованих гіпертексту краще мати з
цифровими іменами, при цьому порядок має бути правильним з точки зору і
комп'ютера, і людину. Текст, який маємо в книзі перше, з точки зору людини
повинен мати ім'я "1" (далі "2" і т.д.). З точки зору
операційної системи за "1" йде не "2", а "10",
тому якщо текстів багато, то перший текст повинен мати ім'я "001",
другий - "002", десятий - "010", а соті - "100",
і в цьому випадку при математичній обробці тексти будуть оброблятися в
заданої послідовності. Інший важливий аспект розглянутого аспекту
функціонування тексту в Мережі - потенційна можливість порівняння
конкретного слововживання в даному тексті з загальномовного слововживання
того тимчасового зрізу, до якого належить даний текст. Чому
потенційні: існують словникові бази даних (див. Бюлетень машинного фонду
ІРЯ ([email protected], [email protected], [email protected]),
які можуть бути зроблені доступними через Інтернет і забезпечені пошуковим
механізмом (якщо це буде зроблено - великий прогрес, але це справа пов'язана з
чималими витратами). p>
4. Стара
орфографія і іншомовні цитати h2>
При публікації
текстів в Інтернеті та розробці технології для публікації великої кількості
текстів встає інтригуюче питання: що робити з текстами, які не
перевидавалися після 1918 року, тобто після реформи орфографії, яка
відбулася в цьому році. Як відомо, до реформи російський алфавіт включала знаки
"i", іжицю, фіту і ять, причому останній був у старій орфографії
досить частотним і значущим, але в даний час не входить в кодову сторінку
для кирилиці і займає найрізноманітніші місця в таблицях шрифтів. Что-то потрібно
вигадувати: або писати утиліту, що автоматично перетворює стару
орфографію в нову, або заводити ять в кодову таблицю, або приписувати цьому
знаку позначення, як це зроблено для європейської графіки з діакритики і
грецьких символів (у тому числі для іжиці і фіти) в ISO 8859-1, або ще
что-то. p>
5.
Орієнтація на користувача h2>
Пропонований
варіант здійснення публікації літературних текстів повинен задовольняти
вимогам двох категорій користувачів: спеціалістів і неспеціалістів.
Фахівці отримують текст, яким можна користуватися в своїх роботах, і нові
інструменти аналізу тексту, а неспеціалісти отримують текст, який зручно
читати: клац миші дає можливість побачити коментар (якщо це цікаво), а
немає бажання - і пропустити цей коментар і по другому щілину повернутися в
вихідний текст, не витрачаючи часу на знаходження коментаря в примітках і
знаходження того місця, яке було останнім прочитаним. p>
6. Вартість
паперового і мережевого видавництва h2>
За нинішньої
чудовою анархії у видавничій справі дуже важко розраховувати на появу
в необхідній кількості видань російської літератури, що задовольняють як
фахівців, так і неспеціалістів. Мережеве видавництво, що представляються
менш дорогим, досить доступним і легко здійсненним, змогло б
відкрити новий етап освоєння російської літератури. Можливості математичної
обробки текстів он-лайн також представляються здійсненними і вельми
привабливими. При мережевому виданні літературних текстів можна домовитися про
єдиних стандартах і розподілити області вводиться літератури з кінцевою метою
створення єдиного гіпертексту, що включає все, що повинно бути включено. p>
Список
літератури h2>
Для підготовки
даної роботи були використані матеріали з сайту http://rusjaz.da.ru/
p>