Комп'ютер і текст h2>
В
інформатики текстом вважають послідовність будь-яких символів. Зараз
комп'ютери в основному користуються алфавіту, що містять 256 знаков1. Кожному
із символів відповідає свій восьмизарядний двійковий код. Таким чином
будь-який символ тексту, включаючи пробіли, займає 8 біт (1 байт) у пам'яті
комп'ютера. Знаючи це, можна легко оцінити обсяг пам'яті, необхідний для
зберігання того чи іншого текстового документа. p>
Згадаймо,
як пов'язано кількість біт в коді з тим, скільки потрібно різних кодів. p>
Один
біт (двійкова цифра) може приймати два значення, додавання кожного розряду в
код подвоює кількість одержуваних комбінацій: двухбітовий код - чотири
варіанту, трехбітовий - вісім, четирехбітовий - шістнадцять і т. д. p>
Розглянемо
приклад. Машинописних сторінок стандартного формату (А4) містить близько 55
рядків. На кожному рядку міститься в середньому 60 сімволов2. Підрахуємо
кількість текстової інформації на такій сторінці. Кожен символ - 1 байт інформації,
а всього символів - 60 * 55 = 3300. Значить, на сторінці 3300 байт (близько 3 Кбайт).
Як пов'язані двійкові коди і відповідні їм символи? Це визначається
таблицею кодування. Все що використовуються на персональних комп'ютерах табліци3
засновані на американському стандарті ASCII4. Він визначає перших 128 кодів: для
латинських літер, цифр, основних знаків пунктуації та математичних операцій.
Решта 128 кодів використовуються для спеціальних символів і букв національних
алфавітів (у тому числі, російської). І, оскільки загальноприйнятого стандарту для
цього не було, виникло багато різних кодувань, у тому числі, кілька --
для кірілліци5. Саме тому, отримавши від кого-небудь текст і спробувавши
прочитати його на своєму комп'ютері, ми часто бачимо на екрані набір незрозумілих
"закорючек". p>
код p>
CP866 p>
CP1251 p>
KOI-8R p>
Mac p>
01011010 p>
Z p>
Z p>
Z p>
Z p>
10001111 p>
П p>
p>
p>
П p>
11111101 p>
$ p>
е. p>
Щ p>
е. p>
В
такій ситуації на допомогу приходять програми-конвертори6. Вони замінюють двійковий
код кожного символу на код, яким такий символ представляється в іншій
кодуванні. Це відповідність визначається таблицею перекодування. Зазвичай
користувач повинен вказати, з якої кодування в яку йде перетворення,
однак з'явилися і програми, які вміють автоматично визначати кодування
вихідного тексту. p>
Прагнення
спростити роботу з різними текстами (спершу текстами програм, потім
службовими документами, газетами, журналами, книгами і т.д.) призвело до створення
багатьох програм, спеціально орієнтованих на це - текстових редакторів
(або текстових процесорів). p>
Якими
ж даними оперують ці програми? Очевидно, що найменшим об'єктом буде
символ. Однак можна працювати не тільки з окремими символами, а й з
словами, рядками, абзацами, довільними фрагментами і текстом в цілому.
Деякі дії можна виконати за будь-який з цих структур, інші - тільки з
какй-то певної. Оброблюваний текст представляється як би у вигляді рулону
"папери", який можна прокручувати на екрані вперед і назад.
Більшість сучасних програм дозволяє одночасно працювати з декількома
текстами, кожен з яких виводиться в окреме вікно. Крім основних
"листів" текстовий процесор, як і інші програми використовує
"конверт" (або "кишеня"), в якому можна тимчасово зберігати
фрагмент тексту при його копіювання або переміщення. p>
Текстовий
процесор - не просто замінник друкарської машинки, а універсальний засіб для
роботи з текстами. Він надає дуже широкі можливості маніпулювання
текстовими документами. Крім таких очевидних операцій як набір тексту,
видалення, копіювання і переміщення його фрагментів, а також збереження на диск
і друк, є можливість змінювати шрифт, його накреслення, колір і розмір.
Текстовий процесор може автоматично форматувати текст (включаючи установку
абзацного відступу та вирівнювання). Можна відразу в усьому тексті замінити одне
задане слово на інше. Наприклад, поміняти "ЕОМ" на
"комп'ютер". Багато редактори вміють перевіряти орфографію: комп'ютер
шукає кожне слово у своєму словнику і, якщо не знаходить, повідомляє про це
користувачеві, пропонуючи можливі варіанти виправлення. p>
Примітки h2>
Новий
стандарт Unicode, на який здійснюється поступовий перехід, дозволяє
використовувати 216 = 65536 (а в останній версії - 232) символів. Текст в такій
кодуванні буде займати істотно (в середньому - удвічі) більше пам'яті.
[Примітка до приміткою: реальні системи використовують не безпосередньо
Unicode (UTF-32), а подання UTF-8 і UTF-16. У першому з них символ може
займати від 1 до 6 байт, у другому - 2 або 4 байти] p>
Це
- Приблизні значення для російської друкарської машинки. В англомовних країнах
зазвичай використовують більш дрібний шрифт. p>
Мова
йде про "стандартних" шрифти. Крім них існують також шрифти,
містять (замість букв і цифр) спеціальні, наприклад декоративні, символи. p>
American Standard Code for
Information Interchange - Американський стандартний код обміну інформацією. p>
В
Росії широко використовуються в даний час чотири кодування: p>
CP866
( "DOS-альтернативна". Для PC-сумісних комп'ютерів під MS-DOS і
OS/2, а також в аматорській комп'ютерної мережі Fido); p>
CP1251
(Для PC-сумісних комп'ютерів під Windows, а також на більшості сайтів
WWW); p>
KOI-8R
(Комп'ютери під UNIX, електронна пошта та конференції Internet); p>
Mac-Cyrillic
(Макінтош-сумісні комп'ютери). p>
Converter
(англ.) - перетворювач. p>
Список літератури h2>
Для
підготовки даної роботи були використані матеріали з сайту
http://macedu.narod.ru p>