Методи
інформаційного пошуку h2>
Типологія
методів пошуку h2>
Більш-менш
серйозний підхід до будь-якої задачі починається з аналізу можливих методів її
рішення. Пошук інформації в Інтернеті може бути здійснений по декількох
методів, значно розрізняються як по ефективності і якості пошуку, так
і по типу витягуваної інформації. У ряді випадків доводиться використовувати вельми
трудомісткі методи - результат того вартий. p>
Можна виділити
наступні основні методи пошуку інформації в Інтернеті, які, в залежності
від цілей і завдань шукає, використовуються окремо або в комбінації один з
іншому: p>
Безпосередній
пошук з використанням гіпертекстових посилань h2>
Оскільки всі
сайти в просторі WWW фактично виявляються пов'язаними між собою, пошук
інформації може бути здійснений шляхом послідовного перегляду пов'язаних
сторінок за допомогою браузера. p>
Хоча цей
повністю ручний метод пошуку виглядає повним анахронізмом в Мережі, яка містить
більше 60 млн вузлів, "ручний" перегляд Web-сторінок часто виявляється
єдино можливим на заключних етапах інформаційного пошуку, коли
механічне "копання" поступається місцем більш глибокого аналізу.
Використання каталогів, класифікованих і тематичних списків і
всіляких невеликих довідників також відноситься до цього виду пошуку. p>
Використання
пошукових машин h2>
Сьогодні цей
метод є одним з основних і фактично єдиним при проведенні
попереднього пошуку. Результатом останнього може бути ресурси, потрібні
Мережі, що підлягають детального розгляду. P>
Як правило,
застосування пошукових машин засноване на використанні ключових слів, які
передаються пошукових серверів в якості аргументів пошуку: що шукати. Якщо
робити все правильно, то формування списку ключових слів вимагає
попередньої роботи зі складання тезауруса. p>
Пошук з
застосуванням спеціальних засобів h2>
Цей повністю
автоматизований метод може виявитися досить ефективним для проведення
первинного пошуку. p>
Одна з технологій
цього методу заснована на застосуванні спеціалізованих програм - Спайдер,
які в автоматичному режимі дивляться Web-сторінки, шукаючи на них
шукану інформацію. Фактично це автоматизований варіант перегляду з
допомогою гіпертекстових посилань, описаний вище (пошукові машини для побудови
своїх індексних таблиць використовують схожі методи). Немає потреби говорити, що
результати автоматичного пошуку обов'язково вимагають подальшої обробки. p>
Застосування
даного методу доцільно, якщо використання пошукових машин не може дати
необхідних результатів (наприклад, через нестандартність запиту, який не
може бути адекватно задано існуючими засобами пошукових машин). У ряді
випадків цей метод може бути дуже ефективним. p>
Вибір між
використанням Спайдера або пошукових серверів являє собою варіант
класичного вибору між застосуванням універсальних або спеціалізованих
коштів. p>
Аналіз нових
ресурсів h2>
Пошук по
новоствореним ресурсів може бути необхідним при проведенні повторних
циклів пошуку, пошуку найбільш свіжої інформації або для аналізу тенденцій
розвитку об'єкта дослідження в динаміці. p>
Інший
можливою причиною може з'явитися те, що більшість пошукових машин оновлює
свої індекси зі значною затримкою, викликаною гігантськими розмірами
оброблюваних даних, і ця затримка зазвичай тим більше, ніж менш популярна
що цікавить вас тема. Це міркування може виявитися досить істотним при
проведення пошуку в вузькоспеціальної предметної області. p>
Технологія
пошуку з використанням пошукових машин h2>
Визначення
географічних регіонів пошуку b> p>
Оскільки
проведення інформаційного пошуку переслідує практичні цілі - маркетингові,
виробничі, суто утилітарні і тому подібні, - практична цінність
інформаційного ресурсу може залежати і від географічного розташування
відповідного джерела. p>
Складання
тезаурус b> p>
Для
ефективного використання пошукових серверів необхідний список ключових слів,
організований з урахуванням семантичних відносин між ними, тобто тезаурус. При
складанні тезауруса необхідно передбачити обробку синонімів, омонімів і
морфологічних варіацій ключових слів. p>
Використання
законів Зіпфа b> p>
Число,
що показує скільки разів зустрічається слово в тексті, називається частотою входження
слова. Якщо розташувати частоти в міру убування і пронумерувати, то порядковий
номер частоти називається ранг частоти. Ймовірність виявлення слова в тексті =
частота входження слова/кількість слів у тексті. Зіпф знайшов, що якщо помножити
ймовірність виявлення слова в тексті на ранг частоти, то вийшла,
величина приблизно постійна для всіх текстів на одній мові: p>
С = (частота
входження слів X ранг частоти)/кількість слів p>
Це означає, що
графік залежності рангу від частоти - рівнобічна гіпербола. p>
Зіпф також
встановив, що залежність кількості слів з даною частотою від частоти - також
гіпербола і постійна для всіх текстів в межах однієї мови. p>
Що можна
витягти з цих законів? Дослідження вищевказаних залежностей для різних
текстів показали, що найбільш значущі слова тексту лежать в середній частині
діаграми, так як слова з максимальною частотою як правило є
приводами, частками, займенниками, в англійській мові - артикля (так
звані "стоп-слова"), а рідко зустрічаються слова в більшості
випадків не мають вирішального значення. Грунтуючись на цій закономірності, можна
запропонувати наступну методику. p>
Складання
списку ключових слів b> p>
Правильний
набір ключових слів має визначальне значення для оптимального пошуку інформації.
Наприклад, задавши пошуковій машині в якості ключового слова "Марпа",
ми отримаємо список документів, в яких зустрічається ця абревіатура
(Московське Агентство з Розвитку Підприємництва). Але якщо нас цікавлять
документи за більш широкій темі, наприклад: розвиток підприємництва, і ми
сформуємо простий запит з цих двох слів, то пошукова машина видасть нам
список із сотень тисяч найменувань, орієнтуватися в якому буде вельми
непросто. p>
Тому для
складання оптимального набору ключових слів використовують процедуру, засновану
на застосуванні законів Зіпфа, яка полягає в наступному: беруть будь-який
текст-джерело, близьке до шуканої теми, тобто "зразок", і аналізують
його, виділяючи значущі слова. В якості тексту-джерела може слугувати книга,
стаття, Web-сторінка, будь-який інший документ. Аналіз тексту проводиться таким
так: p>
- Видалення з тексту стоп-слів. p>
- Обчислення частоти входження кожного слова і складання
списку, в якому слова розташовані в порядку зменшення їх частоти. p>
- Вибір діапазону частот, що лежить в середині списку, і
відбір з цього діапазону слів, найбільш повно відповідних змістом тексту. p>
- Складання запиту до пошукової машини у формі
перерахування відібраних таким чином ключових слів, пов'язаних логічним
оператором АБО (OR). Запит у такому вигляді дозволяє виявити тексти, в яких
зустрічається хоча б одне з перерахованих слів. p>
Число
документів, отриманих в результаті пошуку за цим запитом, може бути
величезне. Однак, завдяки ранжирування документів (розташування їх у порядку
убування частоти входження слів запиту в документ), що застосовується в більшості
пошукових машин, на перших сторінках списку практично всі документи виявляться
доречними, причому документ-джерело може знаходитися далеко від початку. p>
Більше
адекватної представляється структура тезауруса у вигляді так званих
семантичних зрізів, де для кожного основного терміну окремо будується
таблиця супутніх слів і слів шумових (які не повинні зустрічатися в
джерелі), - деякі пошукові машини (AltaVista) дозволяють це
використовувати. Таким чином, замість єдиної ієрархічної структури термінів ми
отримуємо пакет таблиць, які можуть розширюватися і модифікуватися окремо. p>
Відбір
пошукових машин h2>
Встановлюється
послідовність використання пошукових машин відповідно до спадання
очікуваної ефективності пошуку із застосуванням кожної машини. p>
Всього відомо
близько 180 пошукових серверів, що розрізняються по регіонах охоплення, принципам
проведення пошуку (а отже, з вхідного мови та характеру
сприймаються запитів), обсягу індексної бази, швидкості оновлення
інформації, здатності шукати "нестандартну" інформацію і тому
подібне. Основними критеріями вибору пошукових серверів є обсяг
індексної бази сервера і на якісному рівні самої пошукової машини, тобто
рівень складності сприймаються нею запитів. p>
Більш докладно
пошукові машини описані в розділі курсу "Мережеві
засоби пошуку інформації "
. p>
Складання
і виконання запитів до пошукових машин h2>
Це найбільш
складний і трудомісткий етап, пов'язаний з обробкою великої кількості
інформації (в основному шумовий). На основі тезаурус формуються запити до
вибраним пошукових серверів, після чого можливе уточнення запиту з метою
відсікання очевидно нерелевантною інформації. Потім проводиться відбір ресурсів,
починаючи з найбільш цікавих, з точки зору цілей пошуку. Дані з ресурсів,
визнаних доречними, збираються для подальшого аналізу. p>
Формування
запитів h2>
Як формат, так
і семантика запитів варіюються залежно від застосовуваної пошукової машини
і конкретної предметної області. Запити складаються так, щоб область пошуку
була максимально конкретизована і звужена. p>
Перевага
віддається використанню декількох вузьких запитів в порівнянні з одним
розширеним. У загальному випадку для кожного основного поняття з тезаурус
готується окремий пакет запитів. Так само проводиться пробна реалізація
запитів - як для уточнення та поповнення тезауруса, так і з метою відсікання
шумовий інформації. p>
Мови запиту
різних машин пошуку в основному є поєднанням наступних функцій: p>
Оператори булевої алгебри AND, OR, NOT: p>
- AND (І) - здійснюється пошук
документів, що містять всі терміни, з'єднані даним оператором; p>
- OR (АБО) - шуканий текст повинен
містити хоча б один з термінів, з'єднаних даним оператором; p>
- NOT (НЕ) - пошук документів, в тексті
яких відсутні терміни, які йдуть за даним оператором. p>
- Оператори відстані - обмежують порядок проходження і
відстані між словами, наприклад: p>
- NEAR - другий термін повинен знаходитися
на відстані від першого, що не перевищує певної кількості слів; p>
- FOLLOWED BY - терміни слідують в заданому
порядку; p>
- ADJ - терміни, з'єднані оператором,
є суміжними. p>
- Можливість усікання термінів - використання
символу "*" замість закінчення терміну дозволяє включити до шуканий
список всі слова, похідні від його початкової частини (шаблону). p>
- Облік морфології мови - машина автоматично
враховує всі форми даного терміну, можливі у мові, на якому ведеться
пошук. p>
- Можливість пошуку по фразі, фраза. p>
- Обмеження пошуку елементом документа (слова
запиту повинні знаходитися саме у заголовку, першому абзаці, посиланнях і т.д.). p>
- Обмеження за датою опублікування документа. p>
- Обмеження на кількість збігів термінів. p>
- Можливість пошуку графічних зображень. p>
- Чутливість до рядкові і прописні букви. p>
Результат
запиту (список посилань) обробляється в два етапи. На першому етапі
проводиться відсікання очевидно недоречні джерел, що потрапили у вибірку в
через недосконалість пошукової машини або недостатньої
"інтелектуальності" запиту. Паралельно проводиться семантичний
аналіз, що має метою уточнення тезауруса для модифікації подальших запитів.
Подальша обробка проводиться шляхом послідовного звернення на кожен
зі знайдених ресурсів та аналізу розташованої в ній інформації. p>
Аналіз
ресурсів і збір інформації h2>
Первинний
аналіз ресурсів грунтується на анотаціях - у разі їх наявності, і в
необхідних випадках - на ознайомлення з інформаційним наповненням ресурсу.
Інформація з відібраних джерел витягується з використанням відповідних
конкретного джерела методів, що може вимагати значних
комунікаційних, обчислювальних і дискових ресурсів. p>
Резюме можна
виділити наступні типи інформаційних Web-ресурсів: p>
- комерційні сайти компаній; p>
- вторинні інформаційні сайти; p>
- джерела аналітичної інформації; p>
- регіональні інформаційні ресурси. p>
У російськомовній частині Інтернету в даний час доступний ряд
ресурсів, що надають вторинну інформацію, як правило, в табульованого
формі. Надання інформації для публікації в подібних джерелах є
дешевшим варіантом для компаній, що не мають власного представництва
в Інтернеті. p>
Проблеми,
що виникають у процесі пошуку h2>
Одна з проблем
є суто методологічною. Для проведення ефективного пошуку ми
зацікавлені в одночасному вирішенні двох протилежних завдань: p>
- збільшення охоплення з метою отримання максимального
кількості значимої інформації; p>
- зменшення охоплення з метою мінімізації шумовий інформації. p>
Неважко
бачити, що одночасно здійснити це досить складно, хоча найчастіше
все-таки можливо. Один з методів, якщо Пошукова машина дозволяє, - це
введення явних обмежень (заборонених слів). Інший полягає в правильному
формуванні запитів, зокрема, у перевазі декількох
конкретизованих запитів одним загальним. На жаль, досить обмежений
вхідний мова більшості машин не залишає особливого простору для творчості
в цьому напрямку. p>
Інша проблема
- Багатоваріантність людської мови. Якщо в англійській мові деякі
слова мають багато різних значень, то російська відрізняється багатством
морфологічних варіацій слів, а для повноти пошуку необхідно враховувати ще й
синоніми. p>
Часто в області
російського Інтернету виникають чисто технічні труднощі через різні
кодувань інформації. Російські пошукові машини розпізнають кодування
користувача і шуканого сайту, але поєднати їх вдається не завжди. p>
Ще один
особливість російськомовної частини мережі - її нестабільність. Постійно змінюються
адреси та структура сайтів, вони з'являються і зникають, і пошукові машини не
встигають оновлювати свої бази індексованих даних, тому значна частина
переліку документів, виданого вам машиною, може виявитися недоступною.
Поява у вересні 1997 р. системи Яndex-Web, відновлює свої дані раз на
тиждень, позначило якісний стрибок вперед у вирішенні цієї проблеми. p>
Список
літератури h2>
Для підготовки
даної роботи були використані матеріали з сайту http://www.dist-cons.ru/
p>