ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Стратегія пошуку в автоматизованих інформаційних системах
         

     

    Інформатика, програмування

    Казанського державного університету КУЛЬТУРИ І МИСТЕЦТВ

    Кафедра інформатики

    Вступний реферат по темі:

    Стратегія пошуку в Автоматизованих інформаційно-пошукових системах < p> Виконав:

    Султанов Ільнур Ільдусовіч

    Казань, 2004

    Зміст

    Вступ 3
    Проблеми пошуку інформації 5
    Пошукові алгоритми 7
    Оцінка якості 16
    Додаткові можливості надаються пошуковими машинами 18
    Лінгвістика 20
    Висновок 22
    Список літератури 23
    Глосарій: 24

    Введення

    Проблема пошуку і збору інформації - одна з найважливіших проблемінформаційно пошукових систем. Звичайно, не можна порівнювати в цьомувідношенні, скажімо, середні віки, коли пошук інформації був проблемоютому, що цієї інформації було мало, і були потрібні зусилля тільки длятого, щоб знайти хоч щось за більш-менш значногоцікавить питання. Проблема пошуку інформації набула нового характеруу 20-му столітті, з початком розвитку століття інформаційних технологій. Тепервона полягає не в тому, що інформації мало і тому її важко знайти, ав тому, що її тепер навпаки стає все більше і більше, і від цьогознайти відповідь на це питання може виявитися теж досить складноюзавданням [2].

    Так, спочатку з'явилася можливість піти в бібліотеку і, витративши тамчас на вибір потрібної книги по каталогу, знайти необхідну інформацію. Алекаталоги не вирішують повністю проблем пошуку інформації навіть в рамках однієїбібліотеки, тому що в каталожну запис входить відносно малоінформації: заголовок, автор, місце видання тощо Проблема пошукуінформації значно ускладнюється при використання віртуальнихджерел. Тут використовується технологія онлайнових каталогів, урезультаті застосування якої користувач має можливість виконуватипошук у каталогах одразу кількох бібліотек, що, насправді, щебільше ускладнює собі завдання, але, з іншого боку, збільшує шансивирішити її [1].

    На сучасному етапі весь інформаційний простір, в якому миживемо, все більше занурюється в Інтернет. Інтернет стає основноюформою існування інформації, не скасувавши традиційних, такі якжурнали, радіо, телебачення, телефон, всілякі довідкові служби.

    У даній роботі об'єктом дослідження є Автоматизованаінформаційно пошукова система. Це система де зберігається інформаційниймасив, з якого користувачеві видається потрібна інформація,що здійснюється або автоматично, або вручну.

    Предмет дослідження містить у собі ті властивості, сторони та відносиниоб'єкта дослідження, які необхідно вивчити. Предмет позначаєкордону, в межах яких об'єкт вивчається в даному конкретномудослідженні. Предметом дослідження є стратегія інформаційногопошуку.

    Мета дослідження: Мета дослідження ставиться, огляд та виявленняпошукових сервісів (можливостей що надаються на сьогоднішній день),написання рекомендації до проведення пошуку, аналіз розвитку пошуковихсистем.

    Для виконання поставленої мети в рамках дослідження необхіднорішення наступних завдань:
    1. аналітичний огляд пошукових систем;
    2. визначення механізму пошуку в пошукових системах;
    3. створення інформаційної системи, за АІПС;
    4. оцінка ефективності створеної системи;
    5. розробка рекомендацій до проведення пошуку використовуючи інформаційну систему.

    Проблеми пошуку інформації

    Ключ проблеми полягає в тому, що зросла кількість користувачівщо не володіють професійними навичками при пошуку інформації мовоюзапитів. Природно з такою проблемою зіткнувся не тільки інтернет, а йелектронні бібліотеки (ЕБ) і електронні каталоги (ЕК). До таких системвідносяться бібліотеки НЕБ-НСН, Інтегрум - Техно в Росії, Лексис-Нексіс,
    Рейтер на Заході.

    Більш сувора організація каталогів у бібліотеках, повна єдністьформатів (або майже повне) усередині однієї бібліотеки не є рішеннямпроблеми сучасних пошукових систем. Пошук це мистецтво. Ясно, що вгалузі мистецтва не можна добитися гарантованого, або масовогорезультату.

    Існує переконання, що кожне нове покоління програм пошукудосконаліший за попередній. І інша точка зору, що «все нове - це добрезабуте старе ». Думаю, що стосовно до пошукових систем істина лежитьдесь посередині.

    Але що ж змінилося у дійсності за останні роки? Чи не алгоритмиі не структури даних, не математичні моделі. Помінялася парадигмавикористання систем. Системою пошуку стали користуватися користувачі немають професійні навички.

    Особливо пошукові системи стали затребувані з виникненнямінтернету. У процесі еволюції пошукових систем, стали очевидні наступнізміни. По-перше, люди не тільки «думають словами», а й «шукають словами».
    У відповіді системи вони очікують побачити слово, набрана в рядку запиту.
    Друге: «людини шукає» важко «перевчити шукати», так само як важкоперевчити говорити чи писати. Наукова думка 60-х - 80-х про ітеративномууточнення запитів, про розуміння природної мови, про пошук за змістом, прогенерації зв'язкового відповіді на питання, поки не вдається створити і невитримує критики.


    Пошукові алгоритми

    Як і будь-яка програма, пошукова система оперує зі структурамиданих і виконує алгоритм. Є чотири класи пошукових алгоритмів. Триалгоритму з чотирьох вимагають «індексування», попередньої обробкидокументів, при якому створюються допоміжний файл, сиріч «індекс»,покликаний спростити і прискорити сам пошук. Це алгоритми інвертованийфайлів, суффіксних дерев, сигнатур. У виродженим випадку попереднійетап індексування відсутня, а пошук відбувається за допомогоюпослідовного перегляду документів. Такий пошук називається прямим.


    Прямий пошук

    Нижче представлена найпростіша його версія знайома багатьом.

    | char * strstr (char * big, | ПРЯМОЇ ПОШУК ТЕКСТУ. |
    | char * little) (| У цій функції мови C текст |
    | char * x, * y, * z; | рядка big дивляться |
    | for (x = big; * x; x + +) (| зліва направо і для кожної |
    | for (y = little, z = x; | позиції x запускають |
    | * y; + + y, + + z) | послідовне порівняння з |
    | (| Шуканої підрядком little. |
    | if (* y! = * z) | Для цього, рухаючи |
    | break; | одночасно два покажчика y |
    |) | І z, попарно порівнюють усі |
    | if (! * y) | символи. Якщо ми успішно |
    | return x; | дійшли до кінця шуканої |
    |) | Підрядка, значить вона |
    | return 0; | знайдена! |
    |) | |
    | | |

    Незважаючи на простоту, останні 30 років прямий пошукінтенсивно розвивається. Було висунуто чимале число ідей, що скорочуютьчас пошуку в рази. При цьому треба врахувати, що нові алгоритми та їхполіпшені варіанти з'являються постійно.

    В любовних перегляд всіх текстів - досить повільне заняття, неслід думати, що алгоритми прямого пошуку не застосовуються в інтернеті.
    Норвезька Пошукова система Fast (www.fastsearch.com) використовувала чіп,реалізує логіку прямого пошуку спрощених регулярних виразів, ірозмістила 256 таких чіпів на одній платі. Це дозволяло Fast-у обслуговуватидосить велика кількість запитів за одиницю часу.

    Крім того, є маса програм, що комбінує індексний пошук длязнаходження блоку тексту з подальшим прямим пошуком всередині блоку. Наприклад,дуже популярний, у тому числі і в Рунеті, glimpse.

    У прямих алгоритмів є позитивні риси. Наприклад, необмеженіможливості по наближеному і нечіткому пошуку. Адже будь-яке індексуваннязавжди пов'язане зі спрощенням і нормалізацією термінів, а, отже, звтратою інформації. Прямий ж пошук працює безпосередньо зоригінальним документам без жодних викривлень.

    Інвертований файл

    Ця найпростіша структура даних. Перша категорія людей знає, що цетаке, по «конкордансам» - алфавітно впорядкованим вичерпним спискамислів з одного тексту або що належать одному автору (наприклад «Конкордансдо віршів О. С. Пушкіна »,« Словник-конкорданс публіцистики Ф. М.
    Достоєвського »). Другі мають справу з тією або іншою формою інвертованогосписку кожного разу, коли будують або використовують «індекс БД по ключовомуполю ».

    Проілюструємо цю структуру за допомогою чудового російськогоконкорданса - «Симфонії», випущеної московської патріархією по текстусинодального перекладу Біблії [симфонія].

    Рис. 1

    Перед нами алфавітний список слів. Для кожного словаперераховані всі «позиції», в яких це слово зустрілося. Пошуковийалгоритм полягає в відшуканні потрібного слова і завантаженні в пам'ять вжерозгорнутого списку позицій.

    Щоб зекономити на дискового простору та прискорити пошук, звичайновдаються до двох прийомів. По-перше, подробиця самої позиції. Чимдокладніше задана така позиції, наприклад, у випадку з «Сімофоніей» це
    «Книга + голова + вірш», тим більше місця буде потрібно для зберіганняінвертованого файлу.

    У наіподробнейшем варіанті в інвертованим фото можна зберігати іномер слова, і зсув в байтах від початку тексту, і колір і розмір шрифту,та багато чого ще. Частіше ж просто вказують тільки номер документа, скажімо,книгу Біблії, і число вживань цього слова в ньому. Саме такаспрощена структура вважається основною в класичній теоріїінформаційного пошуку - Information Retrieval (IR).

    Другий (ніяк не пов'язаний з першим) спосіб стиснення: порядок позиціїдля кожного слова за зростанням адрес і для кожної позиції зберігати неповний її адресу, а різницю від попереднього. Ось як буде виглядати такоюсписок для нашої сторінки в припущенні, що ми запам'ятовуємо позиціюаж до номера голови:

    ЖІНКА: [Бут.1], [11], [0], [2], [4], [2], [4],. .

    Додатково на різницевий спосіб зберігання адрес накладають якийсьнебудь спосіб упаковки: навіщо відводити невеликому цілого числафіксоване «величезну» кількість байт, адже можна відвести йому майжестільки байт, скільки воно заслуговує. Тут доречно згадати коди Голомбаабо вбудовану функцію популярної мови Perl: pack ( "w ").

    У літературі зустрічається і більш важка система пакувальних алгоритмівнайширшого спектру: арифметичний, Хафман, LZW, і т.д. Прогрес уцій галузі йде безперервно. На практиці в пошукових системах вонивикористовуються рідко: виграш невеликий, а потужності процесора витрачаютьсянеефективно.

    В результаті всіх описаних хитрощів розмір інвертованого файлу,як правило, становить від 7 до 30 відсотків від розміру початкового тексту, взалежно від подробиці адресації. занесені до «Червоної книги»

    Неодноразово пропонувалися інші, відмінні від інвертованого іпрямого пошуку алгоритми та структури даних. Це, перш за все, суффіксниедерева, а також сигнатури.

    Перший з них функціонувала і в інтернеті, будучи запатентованималгоритмом пошукової ситеми OpenText.

    Мені доводилося зустрічати суффіксние індекси у вітчизняних пошуковихсистемах.

    Другий - метод сигнатур - являє собою перетворення документа допоблочно таблиць хеш-значень його слів - "сигнатурі" і послідовномуперегляду "сигнатур" під час пошуку.

    Широкого поширення ці два методи не отримали.

    МАТЕМАТИЧНІ МОДЕЛІ

    Приблизно 3 з 5 пошукових систем і модулів функціонують безвсяких математичних моделей. Їх розробники не ставлять перед собою завданняреалізовувати абстрактну модель. Принцип тут: аби програма хоч що -небудь знаходила.

    Як тільки мова заходить про підвищення якості пошуку, про великий обсягінформації, про потік призначених для користувача запитів, крім емпіричнопроставлених коефіцієнтів корисним виявляється оперувати яким-небудьнехай і нескладними теоретичним апаратом. Модель пошуку - це деякийспрощення реальності, на підставі якого виходить формула (сама пособі нікому не потрібна), що дозволяє програмі прийняти рішення: якийдокумент вважати знайденим і як його ранжувати. Після прийняття моделікоефіцієнти набувають фізичний зміст і стають більш зрозумілим.

    Усе різноманіття моделей традиційного інформаційного пошуку (IR)прийнято ділити на три види: теоретико-множинні (Булевського, нечіткихмножин, розширена Булевського), алгебраїчні [1] [1] (векторна,узагальнена векторна, латентно-семантична, нейромережеві) іімовірнісні.

    Булевського сімейство моделей найвідоміше, що реалізують повнотекстовийпошук. Є слово - документ вважається знайденим, ні - не знайденим.
    Власне, класична Булевського модель - це місток, що зв'язує теоріюінформаційного пошуку з теорією пошуку і маніпулювання даними.

    Критика Булевського моделі, цілком справедлива, полягає в її надзвичайноїжорсткості та непридатність для ранжирування. Тому ще в 1957 році Joyce і
    Needham (Джойс і Нідхем) запропонували враховувати частотні характеристикислів, щоб «... операція порівняння була б ставленням відстані міжвекторами ...».

    Векторна модель і була з успіхом реалізована в 1968 році батьком -засновником науки про інформаційний пошук Джерардом Солтона (Gerard
    Salton) [2] [2] в пошуковій системі SMART (Salton's Magical Automatic
    Retriever of Text). Ранжування в цій моделі базується на природномустатистичному спостереженні, що чим більше локальна частота терміна вдокументі (TF) і більше "рідкість" (тобто зворотна зустрічальність вдокументах) терміну в коллекции (IDF), тим вище вага даного документа повідношенню до терміну. Позначення IDF ввела Karen Sparck-Jones (Карен Спарк-
    Джоунз) в 1972 в статті про розрізняльну силу (term specificity). З цьогомоменту позначення TF * IDF широко використовується як синонім векторноїмоделі.

    Нарешті, в 1977 році Robertson і Sparck-Jones (Робертсон і Спарк-
    Джоунз) обгрунтували і реалізували імовірнісну модель (запропоновану ще в
    1960), також поклала початок цілому сімейству. Релевантність в ціймоделі розглядається як ймовірність того, що даний документ можевиявитися цікавим користувачеві. При цьому мається на увазі наявність вжеіснуючого первинного набору релевантних документів, вибранихкористувачем або отриманих автоматично при якому-небудь спрощенийприпущенні. Імовірність виявитися релевантним для кожного наступногодокумента розраховується на підставі співвідношення зустрічальності термінів увідповідним вмістом наборі і в решті, «нерелевантною» частини колекції. Хочаімовірнісні моделі мають деяким теоретичним перевагою, аджевони мають у своєму розпорядженні документи в порядку убування "ймовірність опинитисярелевантним ", на практиці вони так і не набули великого поширення.

    Важливо зауважити, що в кожному з родин найпростіша модель виходить зприпущення про взаімонезавісімості слів і має умовою фільтрації:документи, що не містять слова запиту, ніколи не бувають знайденими.
    Просунуті ( «альтернативні») моделі кожного з родин не вважають словазапиту взаімонезавісімимі, а, крім того, дозволяють знаходити документи, немістять жодного слова із запиту.

    Пошук «за змістом»

    Здатність знаходити і ранжувати документи, що не містять слів ззапиту, часто вважають ознакою штучного інтелекту або пошуку поглузду і відносять апріорі до переваг моделі.

    Для прикладу опишу лише одну, саму популярну модель, що працює поглузду. У теорії інформаційного пошуку дану модель прийнято називатилатентно-семантично індексуванням (іншими словами, виявленням прихованихсмислів). Ця алгебраїчна модель заснована на сингулярно розкладанніпрямокутної матриці, асоціюється слово з документами. Елементом матриціє частотна характеристика, що відображає ступінь зв'язку слова ідокумента, наприклад, TF * IDF. Замість початкової мільйон-розмірної матриціавтори методу, запропонували використовувати 50-150 «прихованих смислів» [3] [3],відповідних перший головних компонентів її сингулярного розкладання.

    Доведено, що якщо залишити в розгляді першим k сингулярних чисел
    (решта прирівняти нулю), ми отримаємо найближчу з усіх можливихапроксимацію вихідної матриці рангу k (в певному сенсі її «найближчусемантичну інтерпретацію рангу k »). Зменшуючи ранг, ми відфільтровуєнерелевантні деталі, збільшуючи, намагаємося відобразити всі нюанси структуриреальних даних.

    Операції пошуку або знаходження схожих документів різко спрощуються, такяк кожного слова і кожного документа зіставляється відносно короткийвектор з k смислів (рядки і стовпці відповідних матриць). Однак запричини малої чи осмисленості «смислів», або з якоїсь іншої [4] [4], алевикористання LSI в лоб для пошуку так і не отримало розповсюдження. Хочау допоміжних цілях (автоматична фільтрація, класифікація,поділ колекцій, пр?? дварітельное пониження розмірності для іншихмоделей) цей метод, очевидно, знаходить застосування.

    Оцінка якості


    Яка б не була модель, пошукова система нуждаетсяв «тюнінг» - оцінціякості пошуку і настройки параметрів. Оцінка якості - ідея,фундаментальна для теорії пошуку. Бо саме завдяки оцінці якостіможна говорити про застосування або не застосування тієї чи іншої моделі інавіть обговорювати їх теоретічеcкіе аспекти.

    Зокрема, одним з природних обмежень якості пошуку служитьспостереження, винесене в епіграф: думки двох «асесором» (спеціалістів,виносять вердикт про релевантністю) в середньому не збігаються один з одним удуже великій мірі! Звідси випливає і природна верхня межаякості пошуку, адже якість вимірюється за підсумками зіставлення з думкоюасесора.

    Зазвичай [5] [5] для оцінки якості пошуку міряють два параметри:

    . точність (precision) - частка релевантного матеріалу у відповіді пошукової системи

    . повнота (recall) - частка знайдених релевантних документів у загальній кількості релевантних документів колекції

    Саме ці параметри використовувалися і використовуються на регулярній основідля вибору моделей і їх параметрів в рамках створеної Американським
    Інтстітутом Стандартів (NIST) конференції з оцінки систем текстовогопошуку (TREC - text retrival evaluation conference) [6] [6]. Розпочатий у
    1992 консорціумом з 25 груп, до 12-му році свого існуванняконференція накопичила значний матеріал, на якому до цих пірвідточуються пошукові системи. До кожної чергової конференції готуєтьсяновий матеріал (т.зв. «доріжка») по кожному з напрямів, що цікавлять.
    «Доріжка» включає колекцію документів і запитів. Наведу приклади:

    . Доріжка довільних запитів (ad hoc) - присутній на всіх конференціях

    . Багатомовний пошук

    . Маршрутизація та фільтрації

    . Високоточний пошук (з єдиною відповіддю, що виконується на час)

    . Взаємодія з користувачем

    . Естестственно-мовна «доріжка»

    . Відповіді на питання »

    . Пошук в «брудних» (тільки що відсканованих) текстах

    . Голосовий пошук

    . Пошук в дуже великому корпусі (20GB, 100GB і т.д.)

    . WEB корпус (на останніх конференціях він представлений вибіркою по домену. Gov)

    . Розподілене пошук і злиття результатів пошуку з різних систем

    Додаткові можливості надаються пошуковими машинами

    Як видно з «доріжок» TREC, до самого пошуку тісно примикає ряд завдань,або розділяють з ним спільну ідеологію (класифікація, маршрутизація,фільтрація, анотування), або які є невід'ємною частиною пошуковогопроцесу (кластеризація результатів, розширення і звуження запитів,зворотній зв'язок, «запит-залежне» анотування, пошуковий інтерфейс імови запитів). Немає жодної пошукової системи, якою б не доводилосявирішувати на практиці хоча б одну з цих завдань.

    Часто наявність того чи іншого додаткового властивості євирішальним аргументом у конкурентній боротьбі пошукових систем. Наприклад, короткіанотації що складаються з інформативних цитат документа, якими деякіпошукові системи супроводжують результати соєю роботи, допомагають їмзалишатися на полступенькі попереду конкурентів.

    Про всі завдання та способи їх вирішення розповісти неможливо. Дляприкладу розглянемо «розширення запиту», яке зазвичай проводиться череззалучення до пошуку асоційованих термінів. Вирішення цієї задачі можливев двох видах - локальному (динамічному) та глобальному (статичному).
    Локальні техніки спираються на текст запиту і аналізують тількидокументи, знайдені по ньому. Глобальні ж «розширення» можуть оперуватитезаурус, як апріорними (лінгвістичними), так і побудованимиавтоматично по всій колекції документів. По загальноприйнятій думці,глобальні модифікації запитів через тезауруси працюють неефективно,знижуючи точність пошуку. Більш успішний глобальний підхід заснований напобудованих вручну статичних класифікаціях, наприклад, веб-директоріях.
    Цей підхід широко Використовуйте в інтернет-пошуковиках в операціях звуженняабо розширення запиту.

    Нерідко реалізація додаткових можливостей заснована на тих же самихабо дуже схожих принципах і моделях, що і сам пошук. Порівняйте, наприклад,нейромережевих пошукову модель, в якій використовується ідея передачізагасаючих коливань від слів до документів і назад до слів (амплітудапершого коливання - все той же TF * IDF), з технікою локального розширеннязапиту. Остання заснована на зворотнього зв'язку (relevance feedback), вякої беруться найбільш смислоразлічітельние (контрастні) слова здокументів, що належать верхівці списку знайденого.
    На жаль, локальні методи розширення запиту, не дивлячись на ефектнітехнічні ідеї типу «Term Vector Database» і очевидну користь, все щезалишаються вкрай дорогими.


    Лінгвістика

    Трохи осторонь від статистичних моделей та структур даних вартоклас алгоритмів, які традиційно відносяться до лінгвістичним. Точно кордонуміж статистичними та лінгвістичними методами провести важко. Умовноможна вважати лінгвістичними методи, що спираються на словники
    (морфологічні, синтаксичні, семантичні), створені людиною. Хочавважається доведеним, що для деяких мов, лінгвістичні алгоритм невносять істотного приросту точності та повноти (наприклад, англійська),все ж основна маса мов вимагає хоча б мінімального рівнялінгвістичної обробки. Наведу тільки список завдань, вирішуєтьсялінгвістичними або окололінгвістіческімі прийомами:

    . автоматичне визначення мови документа

    . токенізація (графематіческій аналіз): виділення слів, меж пропозицій

    . виняток неінформативних слів (стоп-слів)

    . лемматізація (нормалізація, стеммінг): приведення словозмінної форм до «словникової». У тому числі і для слів, що не входять до словника системи

    . поділ складних слів (компаундів) для деяких мов (наприклад, німецької)

    . дізамбігуація: повне або часткове зняття омонімії

    . виділення іменних груп

    Ще рідше в дослідженнях і на практиці можна зустріти алгоритмисловотвірного, синтаксичного і навіть семантичного аналізу. Прицьому під семантичним аналізом частіше мають на увазі який-небудьстатистичний алгоритм (LSI, нейронні мережі), а якщо толково-комбінаторніабо семантичні словники і використовуються, то в дуже вузьких предметнихобластях.

    Висновок

    Перш за все, очевидно, що пошук у великому інформаційному масиві, неможе бути більш-менш коректно виконаний, будучи заснований на аналізіодного лише тексту документа. Адже внетекстовие (off-page) фактори відіграютьчасом і більшу роль, ніж текст самої сторінки. Положення на сайті,відвідуваність, авторитетність джерела, частота оновлення, цитованістьсторінки та її авторів - всі ці фактори відіграють важливу роль.

    Cтав основним джерелом отримання довідкової інформації для людини,пошукові системи стали основним джерелом трафіку для інтернет-сайтів.
    Як наслідок, вони негайно піддалися «атак» недобросовіснихавторів, що бажають опинитися в перших сторінках результатів пошуку.
    Штучна генерація вхідних сторінок, насичених популярними словами,техніка клоакінг, «сліпого тексту» і багато інші прийоми, призначенідля обману пошукових систем.

    Крім проблеми коректного ранжирування, творцям пошукових системдовелося вирішувати завдання відновлення і синхронізації колосальної за розміромколекції з гетерогенними форматами, способами доставки, мовами,кодуваннями, масою беззмістовних і звітів текстів. Необхіднопідтримувати базу в стані максимальної свіжості, може бути враховуватиіндивідуальні та колективні переваги користувачів. Багато хто з цихзавдань ніколи раніше не розглядалися в традиційним науці інформаційногопошуку.

    Список літератури

    1. Ашманов І. С. Національні особливості пошукових систем// Журнал

    "Комп'ютер у школі", № 01, 2000 рік// Видавництво "Відкриті системи"

    (www.osp.ru )

    2. Антонов А.В., Мєшков В.С. Аналітичні проблеми пошукових систем і

    «лінгвістичні аналізатори»// НТІ.Сер.1 .- 2000 .- № 6.-С.1-5

    3. Войскунскій В.Г. Оцінка функціональної ефективності документального пошуку: і розмиті шкали оцінка пертінентності// НТІ. Сер. 2 .- 1992 .-

    № 5.-С.19-27

    4. Кнопа К. Пошук в Інтернеті як хронічне захворювання// Мир Internet.

    - 2002. - N 10. - С. 33-35

    5. Конжаев А. Стратегія інформаційного пошуку// http://www.msiu.ru.

    6. Попов С. Пошук інформації і прийняття рішення// НТІ. Сер.2.-2001 .- № 1 .-

    С.1-4

    7. Степанов В.К Російськомовні пошукові механізми в Інтернет//

    ComputerWorld Росія.-1997.-N11.-C.37-40.

    8. Сегаловіч І. Як працюють пошукові системи// Мир Internet. - 2002. -

    N 10. - С. 24-32

    Глосарій:

    + + асесор (assesor, експерт) - фахівець у предметній області,виносить висновок про релевантністю документа, знайденого пошуковоїсистемою

    + + Булевського модель (boolean, булева, булева, двійкова) - модельпошуку, що спирається на операції перетину, об'єднання і відніманнямножин

    + + векторна модель - модель інформаційного пошуку, яка розглядаєдокументи та запити як вектори в просторі слів, а релевантність яквідстань між ними

    + + ймовірна модель - модель інформаційного пошуку,розглядає релевантність як ймовірність відповідності даногодокумента запиту на підставі ймовірностей відповідності слів до даногодокумента ідеальному відповіді

    + + внетекстовие критерії (off-page, поза-сторінкові) - критеріїранжирування документів в пошукових системах, враховувати фактори, нещо містяться в тексті самого документа і не витягають звідти ніякимчином

    + + вхідні сторінки (doorways, hallways) - сторінки, створені дляштучного підвищення рангу в пошукових системах (пошукового спаму). Припопаданні на них користувача перенаправляють на цільову сторінку

    + + дізамбігуація (tagging, part of speech disambiguation, таггінг) --вибір одного з декількох омонімів c допомогою контексту; в англійській мовічасто зводиться до автоматичного призначенням граматичної категорії «частинамови »

    + + дублікати (duplicates) - різні документи з ідентичною, з точкизору користувача, змістом; приблизні дублікати (nearduplicates, майже-дублікати), на відміну від точних дублікатів, містятьнезначні відмінності

    + + ілюзія свіжості - ефект що здається свіжості, що досягається пошуковимисистемами в інтернеті за рахунок більш регулярного обходу тих документів,які найчастіше знаходяться користувачами

    + + інвертований файл (inverted file, інверсний файл, інвертованийіндекс, інвертований список) - індекс пошукової системи, в якомуперераховані слова колекції документів, а для кожного слова перераховані всімісця, в яких воно зустрілося

    + + індекс (index, покажчик) - див індексування

    + + індекс цитування (citation index) - кількість згадувань (цитувань)наукової статті, у традиційній бібліографічної науці розраховується запроміжок часу, наприклад, за рік

    + + індексування (indexing, індексація) - процес складання абоприписування покажчика (індексу) - службової структури даних, необхідноїдля подальшого пошуку

    + + інформаційний пошук (Information Retrieval, IR) - пошукнеструктурованої інформації, одиницею подання якої єдокумент довільних форматів. Предметом пошуку виступає інформаційнапотреба користувача, неформально виражена в пошуковому запиті. Ікритерій пошуку і його результати недетерміровани. Цими ознакамиінформаційний пошук відрізняється від «пошуку даних», який оперуєнабором формально заданих предикатів, має справу з структурованоюінформацією і чий результат завжди детермінований. Теорія інформаційногопошуку вивчає всі складові процесу пошуку, а саме, попереднюобробку тексту (індексування), обробку і виконання запиту,ранжування, користувальницький інтерфейс і зворотний зв'язок.

    + + клоакінг (cloaking) - техніка пошукового спаму, що складається врозпізнанні авторами документів робота (індексує агента) пошуковоїсистеми та створення для нього спеціального змісту, принциповощо відрізняється від змісту, що видається користувачеві

    + + контрастність терміна - див розпізнавальна сила

    + + латентно-семантичне індексування - запатентований алгоритмпошуку за змістом, ідентичний факторний аналіз. Заснований на сингулярнорозкладанні матриці зв'язку слів з документами

    + + лемматізація (lemmatization, нормалізація) - приведення форми словадо словникового увазі, тобто Лемма

    + + накрутка пошукових систем - див різних спамерських пошукових систем

    + + непотизм - вид спаму пошукових систем, установка авторами документіввзаємних посилань з єдиною метою підняти свій ранг в результатах пошуку

    + + зворотній зустрічальність в документах (inverted document frequency,
    IDF, зворотній частота в документах, зворотній документний частота) --показник пошукової цінності слова (його розрізняльної сили); зворотнійкажуть, тому що при обчисленні цього показника в знаменнику дробузазвичай коштує число документів, що містять дане слово

    + + зворотній зв'язок - відгук користувачів на результат пошуку, їхсудження про релевантності знайдених документів, зафіксовані пошуковоїсистемою і що використовується, наприклад, для ітеративний модифікації запиту.
    Слід відрізняти від псевдо-зворотнього зв'язку - техніки модифікації запиту, вякій кілька перших знайдених документів автоматично вважаютьсядоречними

    + + омонімія - див полісемія

    + + основа - частина слова, загальна для набору його словотворчих ісловозмінної (частіше) форм

    + + пошук за змістом - алгоритм інформаційного пошуку, здатнийзнаходити документи, що не містять слів запиту

    + + пошук схожих документів (similar document search) - завданняінформаційного пошуку, в якій в якості запиту виступає сам документі необхідно знайти документи, максимально нагадують даний

    + + Пошукова система (search engine, SE, інформаційно-пошуковасистема, ІПС, пошукова машина, машина пошуку, «поисковик», «іскалка») --програма, призначена для пошуку інформації, зазвичай текстовихдокументів

    + + пошукове припис (query, запит) - зазвичай рядок тексту

    + + полісемія (polysemy, homography, багатозначність, омографи,омонімія) - наявність кількох значень в одного і того ж слова

    + + повнота (recall, охоплення) - частка релевантного матеріалу, укладеногоу відповіді пошукової системи, по відношенню до усіх доречних матеріалу вколекції

    + + майже-дублікати (near-duplicates, приблизні дублікати) - дивдублікати

    + + прюнінг (pruning) - відсікання явно недоречні документів припошуку з метою прискорення виконання запиту

    + + прямий пошук - пошук безпосередньо з тексту документів, безпопередньої обробки (без індексування)

    + + псевдо-зворотний зв'язок - див зворотній зв'язок

    + + розпізнавальна сила слова (term specificity, term discriminatingpower, контрастність, розпізнавальна сила) - ступінь ширини або вузькостіслова. Занадто широкі терміни в пошуку приносять дуже багато інформації,при це суттєва частина її марна. Занадто вузькі терміни допомагаютьзнайти дуже мало документів, хоча й більш точних.

    + + регулярний вираз (regualr expression, pattern, «шаблон», рідше
    «Трафарет», «маска») - спосіб запису пошукового розпорядження, що дозволяєвизначати побажання до шуканого слова, його можливі написання, помилки іт.д. У широкому розумінні - мова, яка дозволяє задавати запити необмеженоїскладності

    + + релевантність (relevance, relevancy) - відповідність документазапиту

    + + сигнатура (signature, підпис) - безліч хеш-значень слівдеякого блоку тексту. При пошуку за методом сигнатур все сигнатури всіхблоків колекції проглядаються послідовно у пошуках збігів з хеш -значеннями слів запиту

    + + словозміна (inflection) - освіта форми певногограматичного значення, звичайно обов'язкового в даному граматичномуконтексті, що належить до фіксованого набору форм (парадигми),характерного для слів даного типу. На відміну від словотворення ніколине призводить до зміни типу і породжує передбачуване значення. Словозмінаімен називають відміною (declension), а дієслів - відмінюванням
    (conjugation)

    + + словотвір (derivation) - освіта слова або основи зіншого слова або основи. Найчастіше призводить до зміни типу і до утворення слів,мають ідеосінкразіческое значення

    + + смислоразлічітельний - див розпізнавальна сила

    + + різних спамерських пошукових систем (spam, спамдексинг, накрутка пошукових систем)
    - Спроба впливати на р?? зультат інформаційного пошуку з бокуавторів документів

    + + статична популярність - див PageRank

    + + стеммінг - поцесс виділення основи слова

    + + стоп-слова (stop-words) -- ті спілки, прийменники та інші частотніслова, що дана пошукова система виключила з процесуіндексування та пошуку для підвищення своєї продуктивності і/аботочності пошуку

    + + суффіксние дерева, суффіксние масиви (suffix trees, suffix arrays,
    PAT-arrays) - індекс, заснований на представленні всіх значимих суфіксівтексту в структурі даних, відомої як бор (trie). Суфіксом в цьомуіндексі називаю будь-яку «підрядок», що починається з певної позиції тексту
    (текст розглядається як одна безперервна рядок) і триває до йогокінця. У реальних додатках довжина суфіксів обмежена, а індексуютьсятільки значущі позиції - наприклад, початку слів. Цей індекс дозволяєвиконувати складніші запити, ніж індекс, побудований на інвертованийфайлах

    + + токенізація (tokenization, lexical analysis, графематіческій аналіз,лексичний аналіз) - виділення в тексті слів, чисел, та інших токенів, у томучислі, наприклад, знаходження меж пропозицій

    + + точність (precision) - частка релевантного матеріалу у відповідіпошукової системи

    + + хеш-значення (hash-value) - значення хеш-функції (hash-function),перетворюючої дані довільної довжини (звичайно, рядок) до числафіксованого порядку

    + + частота (слова) в документах (document frequency, зустрічальність вдокументах, документний частота) - кількість документів у колекції, що містятьдане слово

    + + частота терміна (term frequency, TF) - частота вживань слова вдокументі

    + + шинглі - (shingle) - хеш-значення безперервної послідовності слівтексту фіксованої довжини

    + + PageRank - алгоритм розрахунку статичної (глобальної) популярностісторінки в інтернеті, названий на честь одного з авторів - Лоуренса Пейджа.
    Відповідає ймовірності потрапляння користувача на сторінку в моделівипадкового блукання

    + + TF * IDF - чисельна міра відповідності Слово і діло в векторноїмоделі, тим більше, ніж щодо частіше слово зустрілося в документі іщодо рідше в колекції

    -----------------------< br>[1] У вітчизняній літературі алгебраїчні моделі часто називаютьлінійними
    [2] Gerard Salton (Sahlman) 1927-1995. Він же Selton, він же Залтон і навіть
    Залман, він же Жерар, Герард, Жерард або навіть Джеральд залежно відсмаку перекладача і допущених помилокhttp://www.cs.cornell.edu/Info/Department/Annual95/Faculty/Salton.html

    http://www.cs.virginia.edu/ ~ clv2m/salton.txt

    [3] для великих колекцій число «смислів» збільшують до 300
    [4] Після наших експериментів з LSI вийшло, що «сенс номер 1» в
    Рунеті - всі англомовні документи, «сенс номер 3» - всі форуми і т.п.
    [5] але не обов'язково - є і «альтернативні» метрики!
    [6] матеріали конференції публічно доступні за адресоюtrec.nist.gov/pubs.html

    -----------------------

    | Consistency checking has shown that the |
    | overlap of relevant documents between any |
    | two assesors is on the order of 40% on |
    | average ... cross-assesor recall and |
    | precision of about 65% ... This implies a |
    | practical upper bound on retrieval system |
    | performance of 65% ... [7] [1] |
    | Donna Harman |
    | What we have learned, and not learned, |
    | from TREC [harman] |
    | |

    | Сингулярні

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status