Інформаційно-пошукові системи на прикладі Рамблера

Інформатика, програмування

Міністерство освіти і науки Російської Федерації

Бєлгородський державний університет

Старооскольський філія

реферат

Пошукові системи інтернету на прикладі системи « Rambler »

Виконав: Деменко Олексій. студент 150 групи спеціальності «Педагогіка і методика початкового навчання»

Проверила: Карнаухова М. В.

Старий Оскол - 2004

Зміст

ВСТУП ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... ... ... ... ... ... ... ... ... 3
Мова пошукових запитів ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... ... 3
Регістр ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .3
Оператори ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .3
Лапки ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 4
Дужки ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 4
Метасимволи ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .4
Застосування мови запитів ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... .4
Морфологія ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .5
Стоп-слова ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 5
Обмеження відстані ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .5
Незнайдені слова ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 5
Спеціальні оператори ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 5

Комфортний пошук ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 5

Як включити панель посилань ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 6

Як зробити, щоб Rambler знаходив мої документи? ... ... ... ... .. 6

Як керувати індексацією сайту, Використання файлів robots.txt,
Роботи і файл robots.txt ... ... ... ... ... ... ... ... ... ... 7

Розміщення файлу robots.txt ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 8
Формат файлу robots.txt ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 8
Групи інструкцій для окремих роботів: User-agent ... ... .. ... 8
Порожні рядки і коментарі ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 9
Використання META-тегів "Robots" ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .9

Визначення позиції сайту в результатах пошуку по заданомузапиту ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... ... 9

Принципи роботи пошукової машини Рамблер ... ... ... ... ... ... .... ... 9

Висновок ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... ... .16

Введення

Тут описані:

. Мова пошукових запитів: що і як можна написати в пошуковому рядку;

. Застосування мови запитів: як пошукова машина Рамблера обробляє запит;

. Розширений пошук: як шукати в Рамблере більш ефективно, користуючись сторінкою Розширеного пошуку;

. Комфортний пошук: як встановити спеціальну кнопку для пошуку в

Рамблере прямо на панель браузера.

А також рекомендації для власників сайтів:

. Як зробити, щоб Rambler знаходив мої документи;

. Як керувати індексацією сайту;

. Відповіді на типові питання.

Мова пошукових запитів

Пошуковий запит може складатися з одного або декількох слів, в ньомуможуть бути присутніми розділові знаки. Складати прості запити можна іне вдаючись у тонкощі мови запитів. Так, якщо ввести в пошуковий рядоккілька слів без розділових знаків і логічних операторів, будуть знайденідокументи, що містять всі ці слова (причому на обмеженій відстані одинвід одного). Знання і правильне застосування мови запитів пошукової машинидопоможе зробити пошук на Рамблере швидким і ефективним.

Регістр

У загальному випадку, регістр написання пошукових слів і операторів значенняне має, то є будинок і ДІМ, Not і nOt сприймаються однаково. І лишеіноді, з метою підвищення якості пошуку, реєстр слів пошукового запитубереться до уваги.

Наприклад, якщо запит складається з двох, трьох або чотирьох слів, кожнез яких написано з великої літери, то передбачається пошук за назвоювласним, і автоматично виробляється зміна обмеження відстаніміж словами запиту з значення за замовчуванням на величину (n-1) * 2, де n --кількість слів запиту. Це дозволяє знаходити групу слів запиту, всерединіякої є не більш ніж один "зайвого" слова чи розділові знаки, наприклад
"Баден-Баден", "О. Пушкін", "Федір Михайлович Достоєвський".

Оператори

Запит, що складається з декількох слів, може містити оператори. Пошукоператорів в документі не проводиться, вони служать лише інструкцієюпошукової машини. Всі оператори пошукової машини бінарні, тобто маютьліву і праву частину, кожна з яких також є запитом (заумовчанням складається з одного слова). Для зміни сфери діїоператорів (угрупування декількох слів запиту в аргумент оператора)застосовуються дужки і лапки.
Два запиту, з'єднані оператором AND (логічне І) утворюють складнийзапит, якому задовольняють тільки ті документи, які одночаснозадовольняють обом цим запитам. Іншими словами, за запитом 'собака ANDкішка 'знайдуться тільки ті документи, які містять і слово "собака", іслово 'кішка'.

Складні запити, що складається з двох запитів, сполучених оператором
OR (логічне АБО) задовольняють усі документи, що задовольняють хоча бодному з цих двох запитів. За запитом 'собака OR кішка' знайдутьсядокументи, в яких є хоча б одне з слів 'собака' або 'кішка' (абообидва ці слова разом).

Оператор NOT (логічне І-НЕ) утворює запит, якому відповідаютьдокументи, що задовольняють лівій частині запиту і не задовольняють правою.
Так, результатом пошуку за запитом 'собака NOT кішка' будуть всі документи,в яких є слово "собака" і немає слова 'кішка'.
Якщо оператор явно не вказано, використовується оператор за замовчуванням AND:знаходяться тільки документи, що містять всі слова запиту. Так, запит
'інформація технології кредит' буде тлумачити як 'інформація ANDтехнології AND кредит '. На сторінці Розширеного пошуку оператор позамовчуванням можна замінити на OR (Шукати слова запиту: хоча б одне).
Кожен з операторів має скорочене позначення:
| Оператор | Скорочене позначення |
| AND | & |
| OR | | |
| NOT |! |

Запит з декількох слів, переміжних операторами, будевитлумачений відповідно до їх пріоритетом. Оператори AND NOT, традиційномають більш високий пріоритет, тому запит з декількох слів приобробці спочатку групується по операторам AND і NOT, і лише потім пооператорам OR. Змінити порядок угруповання можна використанням дужок.

Лапки

Для пошуку цитат можна використовувати подвійні лапки. Слова запиту,укладеного в подвійні лапки, шукаються в документах саме в тому порядку ів тих формах, у яких вони зустрілися у запиті.

Таким чином, подвійні лапки можна використовувати і просто для пошукуслова в заданій формі (за замовчуванням слова знаходяться у всіх формах).
Наприклад, запиту 'літак "заправився" посадка' задовольняє документ,що містить текст '... літак здійснив посадку і заправився ...', і незадовольняє документ, який містить '.. літак здійснив посадку, щобзаправитися ...'.

Дужки

При побудові запитів іноді виникає необхідність об'єднанняслів запиту в групи, які будуть аргументами деякого оператора.
Такі групи полягають в дужки.

Частина запиту, укладена в дужки, сама є запитом, і на неїпоширюються правила мови побудови запитів. Використання дужокдозволяє будувати вкладені запити і передавати їх операторам в якостіаргументів, а також перекривати пріоритети операторів, отримані череззамовчуванням.

Якщо запит без дужок 'машина літак | аеродром' еквівалентнийзапитом 'машина AND літак OR аеродром' і, відповідно до пріоритетівоператорів, означає "знайти документи, що містять або слова 'машина' і
'літак', або слово аеродром, то запит з дужками 'машина (літак |аеродром) 'рівносильний запитом' машина AND (літак OR аеродром) ', щоозначає "знайти документи, що містять слово 'машина' і одне зі слів
'літак' або 'аеродром'".

Метасимволи

Рамблер поки не підтримує пошук строк з використанням метасимволів
('*','?'), Які зазвичай використовуються в значенні "будь-яка підрядок" і
"довільний одиночний символ" відповідно. Тим не менше, ці операторизарезервовані для подібного використання в майбутньому.

Застосування мови запитів

Кожен запит, адресований пошуковій машині Рамблера, обробляєтьсявідповідно до правил мови запитів. Деякі слова і символитрактуються як оператори мови запитів і обробляються спеціальнимчином. Фактично, мовою запитів описується якась формула, якавикористовується при пошуку - кожен з документів "зіставляється" з нею, ірезультатом пошуку є тільки ті документи, які їй задовольняють.

Наприклад, запиту 'літак' задовольняють усі документи, в яких хоча браз зустрілося слово 'літак' в будь-якій формі. Запиту, що складається здекількох слів, задовольняють документи, що містять кожне з цих слів убудь-якій формі (за деяких умов). Питання відповідності документа більшескладного запиту визначається логікою операторів і конструкцій мовизапитів.

Морфологія

За кожного слова запиту пошук ведеться з урахуванням правил словозмінивідповідної мови. Рамблер розуміє і розрізняє слова російського іанглійської мов - за умовчанням, пошук ведеться за всіма формами слова.

Наприклад, при пошуку по слову 'чоловік' будуть також знайдені документи,що містять слова 'людині', 'людиною', 'людини' і навіть 'люди'. Щобпровести пошук тільки по одній певній формі слова, треба взяти його уподвійні лапки або скористатися пошуком точної фрази в розширеномупошуку.

Стоп-слова

Деякі слова і символи за замовчуванням виключаються із запиту в зв'язкуз їх малою інформативністю. Це так звані стоп-слова - самічастотні слова української та англійської мов, наприклад, прийменники, часткиі артиклі. Присутність цих слів може сповільнити пошук і негативно вплинутина повноту результатів. Є можливість визначити необхідність цих сліву запиті, взявши запит в подвійні лапки або скориставшись пошукомточної фрази в розширеному пошуку.

Обмеження відстані

Якщо запит складено з одного або декількох слів без застосуванняоператорів і конструкцій мови запитів, то будуть знайдені документи, вяких зустрічаються всі слова запиту. При цьому для кожного запиту завждиіснує так зване обмеження контексту - позитивне число, заумовчанням рівне відстані в 40 слів. Документ, у якому зустрілися всіслова запиту, буде виданий тільки в тому випадку, якщо відстань в словахміж входження слів запиту буде менше цього числа. Наприклад, зазапитом 'червона армія "будуть знайдені ті документи, в яких слова
'червоний' і 'армія' хоча б один раз зустрінуться менш ніж у 40 словах одинвід одного.

Значення обмеження контексту можна змінювати конструкцією '(число,запит) ', де число - будь-яке позитивне число, запит - будь-який коректнийз точки зору пошукової машини запит, що складається більш ніж з одного слова
(очевидно, обмеження відстані між словами в разі однослівнізапиту не має сенсу). Таким чином, за запитом '(2, червона армія)'знайдуться тільки ті документи, в яких між словами 'червоний' і 'армія'хоча б раз не варто ні одного слова (оскільки лише у разі їхбезпосереднього сусідства різниця в порядкових номерах слів менше 2,тобто дорівнює 1)

Незнайдений слова

Якщо запит складається з кількох слів, і при цьому деякі з нихвзагалі не вдалося знайти в Інтернеті, то видаються результати пошуку почасткового запитом, з якого відсутні в Інтернеті слова виключені.
При цьому на сторінці результатів пошуку видається відповіднадіагностика.

Спеціальні оператори

Рамблер дозволяє шукати сторінки, на яких розташовані лічильники
Top100, TopShop, TopList, SpyLog, а також HotLog. Для того, щоб знайти вінтернеті всі сторінки, на яких розміщений лічильник з заданимідентіфтікатором, використовуйте оператор $ (counter = ID), де counter --назва лічильника (top100, topshop, toplist, spylog або hotlog), а ID --номер лічильника (ідентифікатор ресурсу).
Приклад: для того, щоб знайти в Інтернеті всі сторінки розділу Рамблер-
Листівки (ідентифікатор Top100 - 193680), подайте Рамблеру запит
$ (top100 = 193680).

Комфортний пошук

Для полегшення пошуку в Internet можна встановити на панель броузера
(Netscape або Internet Explorer версії не нижче 4) спеціальну кнопку пошукув Rambler. Як це зробити?
Перетягнути мишкою одну з посилань на спеціальній сторінці в поле панеліпосилань.
Після цього на панелі з'явиться кнопка "Шукати в Rambler". У броузері повиннобути дозволено виконання JavaScript. Якщо під час перегляду документавиділити текст, який треба задати як пошукового запиту, і натиснутина цю кнопку, запит буде переданий Rambler. Результати пошуку будутьвиведені в іншому вікні. Довжина запиту обмежена 96 символами

Як включити панель посилань

Якщо панель посилань відключена, то включити її можна таким чином:
Netscape
У меню 'View' відзначте 'Show Personal Toolbar'
Internet Explorer
У меню 'View' (або 'Вид') визначте 'ToolBars' ( 'Панелі').
Потім позначте 'Links' ( 'ресурсів')

Як зробити, щоб Rambler знаходив мої документи?

1. Перш за все треба заповнити реєстраційну анкету в пошуковій системі

Rambler. Це буде гарантією того, що роботи Рамблера дізнаються про сайт і швидше почнуть його індексацію. Анкета знаходиться за адресою http://www.rambler.ru/doc/add_site_form.shtml.

2. Автоматично роботи Rambler сканують сайти, що знаходяться в цих доменах першого рівня:
Росія:. Ru,. Su

Україна:. Ua

Білорусія:. By

Казахстан:. Kz

Киргизія: . kg

Узбекистан:. uz

Грузія:. geта ігнорують сайти з інших доменів.

Якщо даний сайт знаходиться поза названих доменів (наприклад, в зонах
. com,. org,. net), але суттєва частина сайту містить російськомовніматеріали або він може становити інтерес для російськомовної аудиторії
Рамблера, можна надіслати листа на адресу search.support @ rambler-co.ru зпроханням включити сайт до числа скануються, або заповнити форму зворотньогозв'язку. Співробітники Рамблера розглянуть це прохання і ухвалять рішення продоцільності такого включення.

3. Рекомендується зареєструвати сайт в рейтингу Top100 і розставити лічильник на всіх сторінках сайту. Анкета, що заповнюється при реєстрації в цьому рейтингу, індексується щоденно, а спеціальний робот Рамблера двічі на день поповнює базу пошукової машини новими сторінками, на яких розміщений лічильник. Таким чином, включення сайту в Тор100 - це найшвидший спосіб потрапити в результати пошуку!

4. При заповненні полів анкети "Назва сайту" і "Опис" не слід вводити в них довгі переліки ключових слів. Ці поля все одно поки що не використовуються для пошуку. Назва та опис повинні бути призначені для прочитання людиною, тому що ці поля використовуються в наших внутрішніх базах даних і проглядаються редакторами.

5. Рамблер вміє витягувати гіперпосилання з об'єктів Macromedia Flash. Якщо сайт має заставку або навігаційні панелі, виконані c використанням цієї технології, Рамблер обробить їх, знайде адреси всіх сторінок сайту і проіндексує весь сайт. Однак, самі тексти flash-об'єктів не індексуються. Це рішення прийнято тому, що більша частина таких об'єктів містить елементи навігації, заставки, меню і інші фрагменти, дуже важливі як джерело гіперпосилань, але малоінформативні як текст. Для сайтів, які цілком складаються з flash-об'єктів, рекомендується створити HTML-копію і зареєструвати її в пошуковій машині.

6. Роботи Рамблера при скануванні ігнорують поля і всі інші поля, крім. Це пов'язано з тим, що ця система прагне індексувати документ таким, яким він є (тобто таким, яким його бачить користувач). Не секрет, що часто творці інтернет-сторінок зловживають цими полями, намагаючись змусити пошукові машини знаходити документ по запитах, що не мають до нього прямого відношення. Не слід також використовувати невидимий текст (у якому колір тексту співпадає з кольором фону). Коментарі в документі роботи

Рамблера теж не сканують, тому використовувати їх краще за прямим призначенням. Пам'ятайте, що кожен коментар збільшує розмір документа, а значить, знижує ймовірність того, що документ буде переглянутий користувачем до кінця.

7. Зверніть увагу на заголовки і виділення в документі. Базові поняття і ключові для даного сайту слова доцільно включати в наступні HTML-теги (у порядку значимості):

...

Чим частіше слово зустрічається в цих полях, тим більш імовірно, щоПошукова система Rambler видасть посилання на Ваш документ ближче до початкусписку результатів пошуку. Звичайно, використання цих тегів повинноорганічно поєднуватися з дизайном Вашого сайту.

8. З точки зору пошуку, використання фреймів в документі не вітається. Це не означає, що роботи неуміють сканувати фрейми. Роботи Rambler прекрасно справляються з конструкціями фреймів, проте наявність зайвого поверху посилань (від головного навігаційного фрейму до "змістовним") уповільнює індексацію.
Оптимальним є включати в документи з фреймами HTML-тег зтекстом документа і посиланнями. Зрозуміло, це збільшить розмір документа, алебуде актом доброї волі по відношенню до користувачів текстовихбраузерів (наприклад, Lynx) і пошукових машин.

9. Максимальний розмір документа для роботів Рамблера складає 200 кілобайт. Документи більшого розміру усікаємо до вказаної величини.

Втім, розміщувати в Мережі документи такого розміру без особливої на те необхідності - все одно поганий тон; в будь-якому випадку треба обмежувати обсяг документа розумними рамками.
10. Роботи Рамблера обробляють посилання типу, однак поряд з посиланням такого виду добре б помістити в текст документа конструкцію. Це прискорить індексацію документів, зазначених у imagemap, і полегшить доступ до документів для звичайних браузерів.
11. При написанні документів треба уважно стежити за дотриманням російської/латинського регістрів. Часто, наприклад замість російської букви

'р' використовують латинську 'p', замість російської 'з' - латинське 'c'.

Деякі подібні помилки індексатор виправляє, але не всі. Слова з подібними помилками втрачають інформативність.
Намагайтеся не використовувати дефіси '-' як символи переносу. Прице слова розбиваються і втрачають інформативність; крім того, такі переносимають всі шанси опинитися у користувача в середині рядка. Пам'ятайте, щобраузер сам здійснює представлення документа згідно поточнимустановкам кожного конкретного користувача.
12. Часто змінюються (динамічні) документи рекомендується виключити із списку індексованих, оскільки актуальність цих документів швидко втрачається. Здійснити це можна за допомогою стандартного для HTTP механізму - за допомогою файлу robots.txt у головній директорії Вашого сайту або HTML-тега.
Частини документа, що не потребують, на Вашу думку, індексації, можна відокремлюватив документі за допомогою тегів ... . З частин документа,розмічених цими тегами, також не будуть виділені посилання для подальшогообходу.
13. При завданні перехресних посилань в документі будьте гранично уважні, перевірте працездатність кожного посилання, інакше роботи

(і користувачі!) Не зможуть дістатися до деяких документів.
Слід також мати на увазі, що з точки зору HTML записи типу: і

( "слеш" наприкінці href)є різними посиланнями. Зазвичай при запиті по першому посиланню робототримає редирект на другу, а значить буде мати сам документ при зверненні досерверу тільки на наступному проході. Тим самим сповільниться індексація сайту.

14. Необхідно відноситься до планування і розміщення сайту серйозно, щоб згодом не довелося закидати адміністраторів пошукових систем листами з проханням переіндексувати сайт у зв'язку з його перенесенням або повною зміною структури. Пошукові машини - річ досить інерційна, і переіндексація не буде миттєвою.

Як керувати індексацією сайту

Використання файлів robots.txt
Роботи і файл robots.txt

Рамблер, як і інші засоби пошуку, для пошуку та індексаціїінтернет-ресурсів використовує програму-робот. Робот викачує документи,виставлені в Інтернет, знаходить в них посилання на інші документи,викачує знову знайдені документи і знаходять в них посилання, і так далі,поки не обійде весь цікавить його ділянку Мережі. Називається цей робот
StackRambler.
Коли робот-індексатор пошукової машини приходить на web-сайт (наприклад, наhttp://www.rambler.ru/), він перш за все перевіряє, чи немає в кореневомукаталозі сайту службового файлу robots.txt (у нашому прикладі --http://www.rambler.ru/robots.txt).

Якщо робот виявляє цей документ, всі подальші дії зіндексації сайту здійснюються відповідно до вказівок robots.txt.
Можна заборонити доступ до певних каталогах і/або файлами свого сайтубудь-яким роботам-індексатори або ж роботам конкретної пошукової системи.

Щоправда, інструкцій файлу robots.txt (як і meta-тегів Robots, см.нижче) дотримуються тільки так звані "ввічливі" роботи - до числа якихробот-індексатор Рамблера, зрозуміло, відноситься.

Розміщення файлу robots.txt
Робот шукає robots.txt тільки в кореневому каталозі сервера. Під ім'ямсервера тут розуміються доменне ім'я і, якщо він є, порт. Розміщувати насайті декілька файлів robots.txt, розміщувати robots.txt у підкаталогах (втому числі підкаталогах користувачів типу www.hostsite.ru/ ~ user1 /)безглуздо: "зайві" файли просто не будуть враховані роботом. Таким чином,вся інформація про заборони на індексування підкаталогів сайту повинна бутизібрана в єдиному файлі robots.txt в "корені" сайту. Назва robots.txt повиннобути набрано малими (маленькими) буквами, оскільки імена інтернет -ресурсів (URI) чутливі до реєстру. Нижче наведені приклади правильнихі неправильних розміщень robots.txt.

Правильні:

http://www.w3.org/robots.txt

http://w3.org/robots.txt

http://www.w3.org:80/robots.txt

(В даному випадку всі ці три посилання ведуть на один і той же файл.)

Неправильні:

http://www.yoursite.ru/publick/robots.txt

http://www.yoursite.ru/ ~ you/robots.txt

http://www.yoursite.ru/Robots.txt

http://www.yoursite.ru/ROBOTS.TXT

Формат файлу robots.txt < br>Приклад
Наступний простий файл robots.txt забороняє індексацію всіх сторінок сайтувсім роботам, крім робота Рамблера, якому, навпаки, дозволенаіндексація всіх сторінок сайту.
# Інструкції для всіх роботів

User-agent: *

Disallow:/

# Інструкції для робота Рамблера

User-agent: StackRambler

Disallow:

Групи інструкцій для окремих роботів: User-agent

Будь-який файл robots.txt складається з груп інструкцій. Кожна з нихпочинається з рядка User-agent, що вказує, до яких відносяться роботамнаступні за нею інструкції Disallow.
Для кожного робота пишеться своя група інструкцій. Це означає, що роботможе бути згаданий тільки в одному рядку User-agent, і в кожному рядку
User-agent може бути згаданий тільки один робот.

Виняток становить рядок User-agent: *. Вона означає, щонаступні за нею Disallow ставляться до всіх роботам, крім тих, для якихє свої рядка User-agent.

Інструкції: Disallow

У кожній групі, що вводиться рядком User-agent, повинна бути хоча б одинінструкція Disallow. Кількість інструкцій Disallow не обмежена.

Рядок "Disallow:/dir" забороняє відвідування всіх сторінок сервера,повне ім'я яких (від кореня сервера) починається з "/ dir". Наприклад:
"/ dir.html", "/ dir/index.html", "/ directory.html".

Щоб забороняти відвідування саме каталозі "/ dir", інструкція маємати вигляд: "Disallow:/dir /". Для того, щоб інструкція що-небудьзабороняла, зазначений у ній шлях повинен починатися з "/". Відповідно,інструкція "Disallow:" не забороняє нічого, тобто все вирішує.
Увага: точно так само і інструкції "Disallow: *", "Disallow: *. doc",
"Disallow:/dir/*. doc" не забороняють нічого, оскільки файлів, ім'я якихпочинається з зірочки або містить її, не існує! Використаннярегулярних виразів у рядках Disallow, так само як і у файлі robots.txtвзагалі, не передбачено.

На жаль, інструкцій Allow у файлах robots.txt не буває. Томунавіть якщо закритих для індексування документів дуже багато, все однодоведеться перераховувати саме їх, а не нечисленні "відкриті" документи.
Треба продумати структуру сайту, щоб закриті для індексування документибули зібрані по можливості в одному місці.

Порожні рядки і коментарі

Порожні рядки допускаються між групами інструкцій, вводяться User -agent.
Інструкція Disallow враховується, тільки якщо вона підпорядкована будь-якоїрядку User-agent - тобто якщо вище неї є рядок User-agent.
Будь-який текст від знака решітки "#" до кінця рядка вважається коментарем іігнорується.

Використання META-тегів "Robots"

На відміну від файлів robots.txt, що описують індексацію сайту в цілому,тег керує індексацією конкретної web -сторінки. При цьому роботам можна заборонити не лише індексацію самогодокумента, але і прохід по наявних у ньому посиланнях.
Інструкції по індексації записуються в поле content. Можливі наступніінструкції:

. NOINDEX - забороняє індексування документа;

. NOFOLLOW - забороняє прохід по посиланнях, розміщених в документі;

. INDEX - дозволяє індексування документа;

. FOLLOW - дозволяє прохід по посиланнях.

. ALL - рівносильно INDEX, FOLLOW

. NONE - рівносильно NOINDEX, NOFOLLOW
Значення за замовчуванням:.
У наступному прикладі робот може індексувати документ, але не повиненвиділяти з нього посилання для пошуку подальших документів:

Назва тега, назви і значення полів нечутливі до регістру.
У полі content дублювання інструкцій, наявність суперечливих інструкцій іт.п. не допускається; зокрема, значення поле content не може мати вигляд
"none, nofollow".

Визначення позиції сайту в результатах пошуку по заданому запиту

У ході перевірки Рамблер переглядає приблизно 650 перше результатівпошуку по заданому запиту і шукає в них, що цікавить користувача сайт.
Якщо цей сайт знайдений, результат пошуку містить його позицію в загальній видачу
(на сторінці результатів пошуку Rambler'a) і посилання на найбільш релевантнусторінку сайту. Якщо ж сайт знайти не вдалося, видаються перші 15 сайтів.

Принципи роботи пошукової машини Рамблер,

або як вижити в умовах постійно зростаючого Інтернету

Інтернет постійно зростає, так само як зростає і кількість користувачів,які звертаються із запитами до пошукових систем. Збільшення обсягуінформації та кількості запитів, у свою чергу, призводить до підвищеннявимог до швидкості роботи пошукових машин, якості пошуку і наочностіпредставлення результатів. Так, для того, щоб користувач залишився задоволенийрезультатом, на сьогоднішній день пошуковій системі потрібно зібрати,обробити, оновити, знайти і відсортувати в два рази більше документів,ніж рік тому. А основне завдання пошуку як раз і полягає в тому, щобкористувач був задоволений його результатами.

Коли користувач звертається із запитом до пошукової машини, він хочезнайти те, що йому потрібно, максимально швидко і просто. Отримуючи результат, віноцінює роботу системи, керуючись кількома основними параметрами.
Чи знайшов він те, що шукав? Якщо не знайшов, то скільки разів йому довелосяпереформулювати запит, щоб знайти шукане? Наскільки актуальнуінформацію він зміг знайти? Наскільки швидко обробляла запит Пошуковамашина? Наскільки зручно були представлені результати пошуку? Чи бувпотрібний результат перше або сотий? Як багато непотрібного сміття було знайденонарівні з корисною інформацією? Чи зможе він, повернувшись завтра і дав тойж запит, отримати ті ж результати?

Для того, щоб відповіді на ці питання залишалися задовільними,розробники пошукових машин постійно вдосконалюють алгоритми та принципипошуку, додають нові функції, прискорюють роботу системи. У цьому рефератіми звернемося до механізму роботи пошукової машини Рамблер, і на прикладі їїпристрої продемонструємо, як досягається підвищення якості та швидкостіпошуку в умовах постійного зростання обсягів інформації в мережі Інтернет.

Повнота

Повнота - це одна з основних характеристик пошукової системи,яка представляє собою відношення кількості знайдених за запитомдокументів до загального числа документів в Інтернеті, що задовольняють данимзапитом. Наприклад, якщо в мережі Інтернет є 100 сторінок, що містятьсловосполучення "Червона площа", а за відповідним запитом булознайдено всього 70 з них, то повнота пошуку буде 0,7. Чим повніше пошук, тимменша ймовірність, що користувач не зможе знайти потрібний йому документ,за умови, що він взагалі існує в Інтернеті.
Повнота пошуку великою мірою залежить від роботи системи збору та обробкиінформації. У зв'язку з постійним зростанням кількості документів в мережі, цясистема в першу чергу повинна бути масштабованої. У Рамблеремасштабованість досягається за рахунок паралельного виконання завданнядовільною кількістю машин.

Збором інформації займається робот-павук, який обходить сторінки ззаданими URL та завантажує їх у базу даних, а потім архівує іперекладає в сховище добовими порціями. Робот розміщується накілька машин, і кожна з них виконує своє завдання. Так, робот наодній машині може качати нові сторінки, які ще не були відоміпошуковій системі, а на іншій - сторінки, які раніше вже були завантаженіне менше місяця, але й не більше року тому. Сховище у всіх машин Одно.
При необхідності роботу можна розподілити іншим способом, наприклад,розбивши список URL на 10 частин і роздаючи їх 10 машин. Паралельна роботапрограми дозволяє легко витримувати додаткове навантаження: призбільшення кількості сторінок, які потрібно обійти роботу, достатньопросто розподілити завдання на більше число машин.

У сховищі інформація в стислому вигляді збирається і розбивається на шматкипо 50 Мб. Ці частини поступово розподіляються між 70 машинами, на якихзапущена програма-індексатор. Як тільки індексатор на одній з машинзакінчує обробку чергової частини сторінок, він звертається за наступноюпорцією. У результаті на першому етапі формується багато маленьких індекснихбаз, кожна з яких містить інформацію про деякої частини Інтернету.
Таким чином, вся інтелектуальна обробка даних здійснюєтьсяпаралельно, тому прискорення процесу індексації досягається простимдодаванням машин в систему.

Після того, як всі частини інформації оброблені, починаєтьсяоб'єднання (злиття) результатів. Завдяки тому, що часткові індекснібази і основна база, до якої звертається пошукова машина, маютьоднаковий формат, процедура злиття є простою і швидкою операцією,що не вимагає ніяких додаткових модифікацій часткових індексів.
Основна база бере участь в аналізі як одна з частин нового індексу. Так,якщо об'єднуються 70 нових частин, то в аналізі бере участь 71 фрагмент (70нових + основна база попередньої редакції). Крім того, єдиний форматдозволяє проводити тестування часткових баз ще до об'єднання їх зосновним, і виявляти помилки на більш ранньому етапі.

Спеціальна програма ( "сліватор") складає таблиці перенумераціюдокументів бази. Вміст всіх частин об'єднується. Серед сторінок зоднаковими адресами вибирається найбільш свіжа версія; якщо при завантаженні
URL останньою інформацією була помилка 404 (запитувана сторінка неіснує), вона тимчасово видаляється з індексного бази. Паралельноздійснюється склеювання дублів: сторінки, які мають однаковупляшку, але різні URL, об'єднуються в один документ.

Збірка єдиної бази з часткових індексних баз являє собоюпростий і швидкий процес. Зіставлення сторінок не вимагає ніякогоінтелектуальної обробки і відбувається зі швидкістю читання даних з диска.
Якщо інформації, яка генерується на машинах-індексатори, виходитьзанадто багато, то процедура "зливання" частин проходить у декілька етапів.
На початку часткові індекси об'єднуються в кілька проміжних баз, апотім проміжні бази і основна база попередньої редакції перетинаються.
Таких етапів може бути скільки завгодно. Проміжні бази можуть зливатисяв інші проміжні бази, а вже потім об'єднуватися остаточно.
Поетапна робота незначно уповільнює формування єдиного індексу і невідбивається на якості результатів.

Точність

Точність - ще одна основна характеристика пошукової машини, якавизначається як ступінь відповідності знайдених документів запитукористувача. Наприклад, якщо за запитом "Червона площа" знаходиться 150документів, у 70 з них міститься словосполучення "Червона площа", а вінших просто присутні ці слова ( "червона баба кричала на всюплоща "), то точність пошуку вважається рівною 70/150 (~ 0,5). Чим точнішепошук, тим швидше користувач знаходить потрібні йому документи, тим менше
"сміття" серед них зустрічається, тим рідше знайдені документи невідповідають запиту.

Підвищення точності в пошуковій машині Рамблер досягається за рахуноквикористання різних технологій на всіх етапах обробки та пошукуінформації. Одним з найбільш цікавих процесів є розпізнаванняграматичних омонімів. Омоніми - це слова, які мають однаковунаписання, але різний зміст. Розрізняють лексичні та граматичніомоніми. Лексичні омоніми відносяться до однієї частини мови, як, наприклад,іменник "бор": хвойний ліс, сталеве свердло і хімічний елемент.
Граматичні омоніми відносяться до різних частин мови, тому з написанняу них зазвичай збігаються тільки окремі форми. Прикладами граматичнихомонімів можуть служити слова "піч" - іменник російська "піч"ідієслово "піч" пиріжки; "рядовий" - прикметник "рядовий" співробітник таіменник "рядовий" Іванов.

Омоніми не тільки збільшують розмір індексної бази (тому що длякожного такого слова доводиться зберігати всі його можливі значення), але йнегативно позначаються на точності пошуку. Якщо користувач шукає слово
"дані", йому нецікаво отримати в знайденому всі документи, якімістять слово "дати". Для того, щоб результати пошуку були точніше,модуль синтаксичного аналізу проводить розбір оточення слів-омонімів зметою встановлення їх найбільш ймовірних значень. Наприклад, якщо поряд зсловом "піч" коштує іменник ( "пиріжки", "картопля"), то з високоюймовірністю "піч" в даному контексті є дієсловом. На сьогоднішнійдень аналізатор здатний розпізнавати значення тільки граматичнихомонімів.

Синтаксичний аналіз дозволяє також з певною ймовірністюрозпізнавати деякі імена власні. Наприклад, якщо в тексті кількаслів підряд написано з великої літери, вони найчастіше є ім'явласне (Петро Петрович, Московський Державний Університет). Даніпро таких конструкціях враховуються при індексації та обробці запиту.

Ще один спосіб підвищення точності пошуку - це виділення стійкихпозначень і пошук їх як окремих лексичних одиниць. На сьогоднішнійдень в Рамблере реалізована система розпізнавання таких конструкцій,наприклад C + +, б/у, п/п-к. Якщо за запитом С + + піднімати всі тексти, вяких присутні латинська буква С, а також знак +, то вийдевеличезна кількість документів, далеко не всі з яких відповідаютьзапитом; крім того, це велика робота, значно збільшує часпошуку.

Величезну роль у підвищенні точності пошуку грає ранжування.
Користувач дуже рідко переглядає більше трьох сторінок з результатамипошуку. Тому суб'єктивно він оцінює точність з "верхнім" документів.
Навіть якщо потрібний документ знайдений пошуковою машиною, але розташований надвохсотий позиції, швидше за все, він ніколи не буде знайдений користувачем.

За умовчанням в Рамблере результати ранжуються за ступенем відповідності
(релевантності) запиту і групуються по сайтах. При ранжуванніоцінюються різні характеристики текстів, такі як:

. Кількість входжень слів (словосполучень) в документ - чим більше разів словосполучення "Червона площа" присутній у тексті, тим вище ймовірність, що в ньому справді йдеться про Червоної площі;

. Розташування слів запиту в документі - якщо словосполучення "Червона площа" присутній у заголовках або назві документа, то документ з більшою ймовірністю присвячений Червоної площі;

. Форми слів запиту - перевага віддається входження, в яких слова мають той же відмінок, число, відмінювання і т.д., що і в запиті користувача ( "Червона площа", а не "Червоної площею"). Крім точного збігу, виділяються дві групи форм слів - близькі й далекі. Близькими вважаються зміни за відмінками, відміни, дієвідміни, числа