Ефективна
технологія роботи зі зростаючими потоками несистематизованих текстової
інформації h2>
Хто з
аналітиків не стикався в своїй роботі з завданням пошуку потрібної інформації в
великих інформаційних масивах і, зокрема, з роботою пошукових систем в
Інтернеті. Рівень сервісних послуг, що надаються пошуковою машиною, звичайно
оцінюється за двома критеріями: це розмір бази даних пошукової машини (чим
більше база даних, тим більшу кількість сайтів відомо даному пошуковику,
а отже, тим точніше пошук) та інформативність видаваних результатів.
Звичайно, зарубіжні пошукові машини, такі, як Alta-Vista, Lycos і HotBot,
перевершують будь-який з існуючих російських пошукових сервісів за розміром бази
даних, оскільки намагаються охопити весь світовий Інтернет. Як свідчить
опубліковане в науковому журналу Nature дослідження, максимальне охоплення
адрес в Інтернеті - 16% - сьогодні забезпечує Пошукова система Nothern
Light, за нею - 15,5% - слід Alta Vista, а на третьому місці - 11,3% --
Hotbot. p>
Пошукові
системи змагаються у збільшенні розміру бази даних. p>
Пошукова
система під амбітною назвою Alltheweb (що відповідає російській
"всясеть") офіційно стартувала 3.08.99 в Інтернеті. Про це
повідомила інформаційна служба корпорації BBC. p>
Норвезька
компанія Fast Search and Transfer ASA - розробник нової системи повідомила, що
система незабаром охопить тим, хто шукає віртуальним оком всі 100% web-адрес Всесвітньої
павутини. Поки їй вдається "бачити" тільки чверть, що теж дуже
непогано порівняно з досягненнями існуючих пошукових систем. p>
Охоплення системою
Alltheweb всього простору Всесвітньої павутини має статися до кінця 2000
року - а до того часу за нинішніх темпів розвитку мережі кількість сайтів
сягне 1 мільярда. Fast стверджує, що нова система сьогодні переглядає
200 мільйонів сайтів за 1 секунду, у той час як конкуруючі системи здатні
провести пошук за тим же кількості сторінок за кілька годин, а то й днів.
"Невеликі пошукові системи просто пропускають якась кількість
веб-сайтів, а іноді просто безліч сайтів не включені в їх пошукові
каталоги ", - говорить Еспен Бродин, президент і виконавчий директор
Fast. p>
Вирішивши хоча б
поверхнево поекспериментувати з новою пошуковою системою, кореспондент
газети "Час" виявила, що на слово gazprom система відреагувала
16651 документом, підкресливши, що витратила на пошук 0,106 секунди. Alta Vista
провела аналогічний пошук за не зване нею час (але теж досить швидко) і
знайшла 5653 документа. А на запит Gorbachev Alltheweb видала 43142 документа
(витративши 0,1 секунди), у той час як Alta Vista відшукала 1563 документа. p>
Я продовжив
експеримент з російськомовними пошуковими машинами. На слово "газпром" Rambler
знайшов 30212 документів, Яndex - 133787 документів на 1813 сайтах, а Апорт
виявив 1500 матеріалів на 339 сайтах. Ймовірно, точну кількість знайдених
документів Апортом не вказується, якщо їхня кількість перевалила за 1500. Відповідь на
запит "Горбачов" був таким: Rambler - 11079 документів, Яndex - 27762
(1035 сайтів), Апорт - знову 1500 (650 сайтів). p>
Російський
Інтернет сьогодні складає менше 1% від світового і охоплює близько 2 млн.
користувачів. Але і ця чималенька цифра неухильно зростає. Мережа збільшується
як за широтою охоплення, так і за обсягом зберігається в ній, яка
розподіляється за мільйонами комп'ютерів. p>
Інтернет-простір
розширюється (за деякими оцінками обсяг інформаційних масивів світового
Інтернету збільшується приблизно на мільйон сторінок на день) Пошукові системи
намагаються адекватно реагувати, нарощуючи і швидкість виконання пошуку, і
величину охоплення Інтернет простору. Логічним результатом стало збільшення
числа посилань на Інтернет ресурси в результаті пошуку. p>
Всім зрозуміло,
що пошук може вважатися добрим, якщо вдається знайти потрібну інформацію на
однією з перших сторінок з результатами пошуку. У цьому сенсі дуже важлива
грамотна сортування за релевантністю. p>
Наведемо
перелік основних критеріїв, які враховує, наприклад, система Апорт-2000
під час сортування документів (сайтів): p>
1) кількість
шуканих слів в тексті документа (у відсотках) відстань між пошуковими
словами в тексті документа p>
2) місце в
тексті, де зустрічаються пошукові слова (заголовок, опис, мета-тег і т.п.) p>
3) зовнішній вигляд
шрифту, яким набрані в тексті слова з (розмір, жирність, колір) p>
4) кількість
посилань з Інтернету на даний документ p>
5)
використання шуканого слова в тексті посилань з Інтернету на даний документ p>
Остаточний
відсоток відповідності документа запиту будується як певна функція від усіх цих
показників. Частина з них прості й зрозумілі (хоча враховуються далеко не всіма
пошуковими машинами), частина потребує пояснення, оскільки це нові, практично
унікальні рішення. p>
Не секрет, що
деякі сайти створюються саме з урахуванням подальшої ефективної індексації
пошуковими машинами. Вдала індексація - це цілий комплекс дій. Її потрібно
враховувати ще при створенні сайту. Багато що залежить від правильності написання коду
з урахуванням спеціальних тегів. Але й це не все. Професіонали, наприклад,
пропонують цілий комплекс заходів (законних!), який дозволяє опинитися в першій
сторінках результатів пошуку (!) практично незалежно від істинного
інформаційного змісту Web-сторінок. Штучне завищення цінності
інформаційного ресурсу, поза сумнівом, позначається на результатах пошуку, і
ускладнює роботу аналітика. p>
Дослідження
показали, що користувач може переглянути не більше 40 знайдених в результаті
пошуку матеріалів, а пошукові машини видають деколи сотні, тисячі, десятки і
сотні тисяч посилань, переглянути які в розумні терміни не представляється
можливим. p>
Серйозність
проблем очевидна. p>
Зазвичай дана
проблема вирішується жорсткістю умов пошуку. Поширена думка: "Краще
витратити значний час на формулювання запиту. Зате отримати вибірку
потрібних документів ". p>
Абсолютно
вірна позиція, коли шукаєш документ, в існуванні якого в даному масиві
повністю впевнений. Якщо ж відповідь на поставлене питання міститься в
розподіленому вигляді в багатьох документах, дуже чіткий запит дозволить
отримати, швидше за все, заздалегідь підготовлену кимось інформацію на задану
тему: аналітичні статті, огляди. Аналітикові, не маючи можливості отримати
первинну інформацію, складно оцінити достовірність зроблених висновків і
незаангажованість авторів матеріалів. Цінність отриманої в результаті запиту
інформації дуже спірна. І це при тому, коли відомі ключові слова для
пошуку, що теж не завжди можливо. p>
Хто з
співробітників аналітичних служб не стикався з ситуацією, коли начальство не
може чітко сформулювати завдання. Ситуація як у казці: піди туди не знаю
куди, принеси те не знаю що. На закономірну прохання аналітика про уточнення
запиту та виділення ключових понять слід відповідь: "Це ти мені повинен сказати,
які там ключові поняття і фігури, а мені треба знати, що зараз відбувається в
даної галузі або регіоні, підприємство і т.п. ". p>
Хочеш, не
хочеш, доводиться починати з самих загальних запитів, поступово звужуючи область
пошуку. Підхід правильний, але аж надто трудомісткий - доводиться переглянути
сотні матеріалів, а деякі з них уважно прочитати. Дана робота може
розтягнутися на дні. А питання часом вимагає оперативного відповіді. Одне з двох:
або страждає оперативність, або достовірність. p>
Пропонується
зовсім інший метод роботи з неструктурованої текстовою інформацією. p>
Істотне
відміну пропонованої системи від звичайних інформаційно-пошукових систем
полягає в тому, що для швидкого аналізу змісту документа кожне посилання
на даний ресурс супроводжується т.зв. електронної анотацією (насправді
інформаційний образ документа, що формується лінгвостатістіческімі методами). При
це електронна анотація являє собою самостійний інформаційний
об'єкт з новими, унікальними властивостями, що формується попередньо,
причому повністю автоматично без втручання оператора. p>
Призначення
анотації: з одного боку, швидко, не читаючи весь текст, оцінити його зміст
і визначити відповідність тексту заданих параметрах пошуку. З іншого боку,
з її допомогою виділити ключові події, факти, власні імена, розкрити
найбільш значущі фактори та системні взаємозв'язки аналізованої проблеми. p>
За наявності
тижневого досвіду експлуатації у користувача активно включається в роботу
підсвідомість, з'являються навики інтегрального, якісного сприйняття
інформації. При цьому текстові фрагменти обсягом у сотні рядків аналізуються в
протягом 2-3 секунд. Подібна швидкість "сканування інформаційного
простору "обумовлює появу зовсім нового погляду на проблему
інформаційного пошуку, вибірки і фільтрації текстових повідомлень. p>
Аналітик,
спеціалізується у вузькій предметній області просто зобов'язаний знати всі до єдиного
значимі для його спеціалізації джерела інформації і здатний самостійно
відстежувати всі їх оновлення та зміни. На жаль, існуючий стан
справ не дозволяє ні аналітикам відділів маркетингу, ні тим більше управлінцям
обмежуватися спеціалізацією тільки у своїй виробничій сфері. Сьогодні
бізнес дуже політизується і криміналізований. Для успішного ведення бізнесу
та адекватної відповіді на зовнішні дії доводиться відстежувати зміни
безлічі параметрів. Особливо це стосується організацій, що мають розгалужену
(холдингову) структуру, містоутворюючих підприємств і підприємств федерального
рівня. p>
На будь-якому більше
- Менш великому підприємстві є кілька структур (відділів), які в
своїй роботі регулярно зіштовхуються з необхідністю отримання оперативних
відповідей на питання з самих різних професійних областей (часом, абсолютно
непередбачувані). p>
1. Для служби
безпеки особливо актуальні аналіз надійності нових партнерів та їх
оточення, моніторинг стану постійних партнерів і поточних проектів, оцінка
і прогноз ризиків і т.д. Як відомо, близько тридцяти відсотків секретної і до
десяти відсотків цілком таємної інформації міститься у відкритій
інформації. Можливість ефективно "просівати" величезні масиви загальнодоступною
інформації (наприклад, архіви матеріалів центральних засобів масової інформації
за кілька років) дозволяє оперативно отримати комплексний портрет підприємства
або фізичної особи (політика, бізнесмена) і всього його оточення, зібрати
воєдино всі фрагменти, не випускаючи специфічних нюансів. p>
2. Для відділу
стратегічного планування та управління важливий аналіз діяльності
підприємства, макроекономічний аналіз і прогнозування стану країни і власного
сегменту ринку, розширення і диверсифікація сфер бізнесу, розробка
оптимальних маркетингових та бізнес-стратегій розвитку і т.д. Неможливо тримати
в штаті настільки велика кількість фахівців у відповідних областях. На першій
план виходять саме фахівці з роботи з інформацією і сучасні
ефективні інформаційні технології. p>
3. Більше
докладно розглянемо роботу аналітика для відділу інвестицій. p>
Інформаційно-аналітичне
забезпечення процедури інвестиційного проектування, в якому проводиться
аналіз характеристик ринків розглядається в проекті продукції (відповідь на
першу групу запитань: чому цей товар, за даною ціною і в даному обсязі
буде придбано у даного підприємства): p>
- аналіз
достовірності пропонованої ідеї, і оцінка ризику інвестиційної пропозиції;
дослідження параметрів інвестиційного проектами перевірка даних його
маркетингової частини на відповідність реальним характеристикам галузі та
підприємства; p>
- оцінка
товарних потоків для заданого сегмента ринку; p>
- оцінка соціально-політичної
і загальної економічної обстановки та перспектив її розвитку; p>
- оцінка
стану та перспектив розвитку законодавчої та податкової бази; p>
- дослідження
ринків продукції, сировини і матеріалів та прогнозування їх динаміки; p>
- статистичний
аналіз попиту і збутових можливостей основних учасників ринку; p>
- синтез
регіональної ринкової стратегії. p>
Оцінка
здатності підприємства реалізувати інвестиційний проект (відповідь на другий
групу запитань: чи здатні фахівці даного підприємства організувати
реалізацію даного проекту на даному підприємстві, виробляти товар необхідного
якості і організувати систему збуту в необхідному обсязі): p>
- оцінка
системи управління кадровим складом та аналіз систем мотивації; p>
- аналіз
системи збуту підприємства, існуючої дилерської мережі та мережі і торговельних
представників; p>
- розробка
конкурентоспроможної цінової політики; p>
- вироблення
пропозицій з організації ефективних каналів збуту продукції і систем
підтримки продажів p>
- аналіз
виробничого та сприйманого якості продукції; p>
- виявлення і
"Розшивання" вузьких ланок технологічного ланцюга, аналіз та модернізація системи
правління якістю сировини, комплектуючих виробів і вироблюваної продукції. p>
Передінвестиційна
підготовка підприємства (відповідь на третю групу запитань: яка реструктуризація
організаційної та технологічної структури виробництва необхідна для
успішної реалізації проекту): p>
- оцінка
відношення до реалізації проекту федеральних і регіональних влад, впливових
регіональних і федеральних суспільно-політичних об'єднань; p>
- оцінка
необхідності проведення і склад заходів з підготовки громадського
думки до реалізації інвестиційного проекту; p>
- забезпечення
організаційно-правового статусу підприємства для залучення прямих інвестиційних
ресурсів; p>
- концентрація
великих пакетів акцій підприємства для продажу; p>
- створення
інфраструктури супроводу інвестицій та їх страховки від "політичних"
ризиків; p>
- робота з
кредиторами, оптимізація структури боргових зобов'язань і очищення підприємства
від боргів бюджетного характеру; p>
- оцінка
надійності партнерів підприємства та побудова системи протидії впливу
кримінальних структур; p>
- побудова
системи гарантійних зобов'язань, що надаються інвестору, і гарантій
повернення інвестиційних ресурсів; p>
- побудова
системи фізичної безпеки учасників проекту і підприємств, на яких
реалізуються інвестиційні програми; p>
- побудова
ефективних систем управління, прийняття рішень і мотивації. p>
Управління
реалізацією інвестиційного проекту (відповідь на четверту групу запитань: який
стан проекту в будь-який момент часу і які заходи щодо компенсації зміни
зовнішніх умов або порушень проектної динаміки реалізації проекту). p>
- моніторинг
поточної економічної та суспільно-політичної ситуації та прогнозування її
розвитку; p>
- контроль і
управління реалізацією проекту на всіх етапах для оперативного реагування на
позаштатні ситуації в разі порушень планового розвитку проекту; p>
- розробка
пропозицій щодо адекватного реагування на зміну зовнішнього для
інвестиційного проекту економічної та суспільно-політичної обстановки і
своєчасного внесення змін до проекту, аж до його повної реорганізації.
p>
Більша частина
перерахованих вище робіт вимагає збору і аналізу інформації з різних областей
знання, підключення фахівців різних профілів або ж використання передових
інформаційних технологій. p>
Один аналітик,
експлуатує систему, що дозволяє формувати інтегральні образи текстових
матеріалів, здатний: p>
- протягом
5-10 хвилин оцінити чи є шукана інформація в базі даних, ступінь
деталізації окремих аспектів проблеми, якість можливого відповіді на
поставлене запитання; p>
- протягом 1-2
годин підготувати якісний огляд досліджуваної проблеми, не будучи спеціалістом
в досліджуваної предметної області, довідку про подію або явище з урахуванням
основних існуючих точок зору; p>
- протягом
робочого дня сформувати заготівлю повновагового серйозного аналітичного
звіту з "сіткою" можливих висновків і рекомендацій, а також повноцінне досьє
на політичного, громадського діяча, керівника великого підприємства. p>
Список
літератури h2>
Шаталов А.В.
Ефективна технологія роботи зі зростаючими потоками несистематизованих
текстової информації p>
Для підготовки
даної роботи були використані матеріали з сайту http://www.finansy.ru/
p>