ПЕРЕЛІК ДИСЦИПЛІН:
  • Адміністративне право
  • Арбітражний процес
  • Архітектура
  • Астрологія
  • Астрономія
  • Банківська справа
  • Безпека життєдіяльності
  • Біографії
  • Біологія
  • Біологія і хімія
  • Ботаніка та сільське гос-во
  • Бухгалтерський облік і аудит
  • Валютні відносини
  • Ветеринарія
  • Військова кафедра
  • Географія
  • Геодезія
  • Геологія
  • Етика
  • Держава і право
  • Цивільне право і процес
  • Діловодство
  • Гроші та кредит
  • Природничі науки
  • Журналістика
  • Екологія
  • Видавнича справа та поліграфія
  • Інвестиції
  • Іноземна мова
  • Інформатика
  • Інформатика, програмування
  • Юрист по наследству
  • Історичні особистості
  • Історія
  • Історія техніки
  • Кибернетика
  • Комунікації і зв'язок
  • Комп'ютерні науки
  • Косметологія
  • Короткий зміст творів
  • Криміналістика
  • Кримінологія
  • Криптология
  • Кулінарія
  • Культура і мистецтво
  • Культурологія
  • Російська література
  • Література і російська мова
  • Логіка
  • Логістика
  • Маркетинг
  • Математика
  • Медицина, здоров'я
  • Медичні науки
  • Міжнародне публічне право
  • Міжнародне приватне право
  • Міжнародні відносини
  • Менеджмент
  • Металургія
  • Москвоведение
  • Мовознавство
  • Музика
  • Муніципальне право
  • Податки, оподаткування
  •  
    Бесплатные рефераты
     

     

     

     

     

     

         
     
    Розробка програмних засобів конвертування HTML-коду в семантичні мережі
         

     

    Інформатика, програмування

    Московський державний університет шляхів сполучення

    (МІІТ)

    Кафедра АСУ

    Курсовий проект

    «Розробка програмних засобів конвертування HTML текстів в семантичну мережу »

    Виконала:

    Студентка 5-го курсу групи УІС-511

    Болотова Е.А.

    Перевірив: Саркісян Р.Е.

    Москва 2001

    Зміст:

    Що таке семантична мережа ... ... ... ... ... ... ... ... ... ... .. 3

    Основні відомості про мову HTML ... ... ... ... ... ... ... ... .3

    1.Вступ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .3

    2.Сруктура HTML-документа ... ... ... ... ... ... ... ... .. 4

    Що таке фрейми ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .7

    Можливості подання знань на базі мови HTML ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 8

    TextAnalyst 2.0 - персональна система автоматичного аналізу тексту ... ... ... ... ... ... ... ... ... .. 14

    Принцип роботи HTML-конвертора ... ... ... ... ... ... ... ... 17

    Список використаних джерел ... ... ... ... ... ... ... .. 21

    Що таке семантична мережа

    Семантична мережа - структура для представлення знань у виглядіорієнтованого графа, в якому вершини - це поняття, а дуги --відносини. Термін семантична означає "смислова", а сама семантика --це наука, що встановлює відносини між символами та об'єктами, яківони позначають, що є наука, що визначає зміст знаків.

    Найперші семантичні мережі були розроблені в якості мови -посередника для систем машинного перекладу. Однак останні версіїсемантичних мереж стали більш потужними і гнучкими і складають конкуренціюлогічного програмування, фреймових системам і іншим мовамподання.

    На сьогоднішній день існує безліч варіантів семантичних мереж.
    Їх термінологія і структура різняться, але існують подібності, властивівсім семантичним мережам:

    1. Вузли семантичних мереж являють собою концепти предметів, подій, станів

    2. різні вузли одного концепту відносяться до різних значень, якщо вони не помічені як відносяться до одного концепту

    3. дуги семантичних мереж створюють відносини між вузлами-концептами (позначки над дугами вказують на тип ставлення)

    4. деякі відносини між концептами являють собою лінгвістичні відмінки, такі як агент, об'єкт, реципієнт та інструмент (інші означають тимчасові, просторові, логічні відносини і відносини між окремими пропозиціями

    5. концепти організовані по рівнях відповідно до ступеня узагальненості так, як, наприклад, сутність, жива істота, тварина, м'ясоїдна.

    Незважаючи на деякі відмінності, мережі зручні для читання та обробкикомп'ютером, а також досить потужні, щоб представити семантикуприродної мови.

    Найбільш часто в семантичних мережах використовуються наступні відносини:

    - зв'язок типу "частина-ціле" ( "клас-підклас", "багато-підмножина" і т.п .)

    - функціональні зв'язки, які визначаються звичайно дієсловами

    "виробляє", "належить" і т.п.)

    - кількісні ( "більше", "менше", "дорівнює" і т.п.)

    - просторові ( "близько від", "далеко від" і т.п.)

    - тимчасові ( "раніше "," пізніше "і т.п.)

    - логічні зв'язки (" і "," або "і т.п.)

    - лінгвістичні зв'язку і т.д.

    Основні відомості про мову HTML

    1. Введення

    Всі стандартні броузери для мережі Інтернет використовують способиподання текстів, засновані на мові HTML. HTML (Hyper Text Markup
    Language) - це мова гіпертекстової розмітки. Ця мова «розуміють» всікомп'ютери, він досить простий, але при цьому має достатні виразнізасоби для зручного опису різних типів документів. Мова дозволяєзберігати текст у «чистому» вигляді (не кодуючи його), що робить можливимперегляд HTML скриптів за допомогою звичайних текстових редакторів. Ця мованадає авторам Інтернет - публікацій засоби:

    - подання документів, що включають заголовки, тексти, таблиці, списки, «картинки» і т.п. елементи;

    - здійснення навігації по окремим документам і безлічі документів шляхом використання гіперпосилань;

    - конструювання діалогових форм для взаємодії з віддаленими сервісами, доступними в мережі;

    - включення в документи обчислюваних форм (spread-sheets), відео і звуку, так само як і різноманітних додатків.

    Перша версія мови HTML була розроблена Т. Бернерс-Лі з Європейського
    Центру ядерних досліджень (CERN). Надалі мова зазналаістотні зміни. До середини 90-х років відбулася стандартизація йоговерсій, яка стала займатися міжнародними організаціями. Уданий час найбільш розвиненою є версія мови HTML 4.0, в якійпредставлені нові можливості апаратури і вимоги виробниківпрограмного забезпечення броузерів, а також побажання Інтернет - авторів.

    2. Структура HTML-документа

    У HTML - файлі знаходиться символьний інформація. Частина її - це дані,складові вміст документа, а інша частина - HTML - теги, мовніконструкції, які використовуються для розмітки документа та керуючі йоговідображенням. Для виділення тегів в тексті HTML - документа ці конструкціїберуться в кутові дужки. Зазвичай теги використовуються парами: відкриває тазакриває тег.

    Типовий HTML - документ має наступну структуру:

    "http://www.w3.org/TR/REC-html40/strict.dtd">

    Найменування документа name = keywords content = "Ключові слова">

    Тіло документа

    У наведеному фрагменті коментар фіксує поточнийстан специфікації версії мови HTML. Документ має відкриватися тегом
    , Закриватися тегом і складатися з двох частин: заголовка ітіла документа.

    Заголовок знаходиться між тегами і і містить службовуінформацію. У представленому вище фрагменті HTML - документа показані двакомпонента заголовка:

    - Назва - рядок символів, що відображається в заголовку вікна браузера.

    - - додаткова інформація про HTML - документі (у нашому прикладі цей тег за допомогою параметрів name і content фіксує значення першого атрибута як keywords, а другий - як ключові слова «Подання знань» та «Мультиагентні системи»). Цей тег орієнтований на анотування Інтернет - документів і значно полегшує завдання індексування їх, наприклад, за допомогою мережевих роботів.

    Крім цих компонентів заголовок може містити ще й інші теги:

    - - базовий адреса, що використовується при обробці відносних

    URL,

    - - використовується для зв'язку HTML-документа з іншими джерелами даних.

    Власне зміст документа знаходиться в тілі між тегами і
    . Іноді замість цих тегів можна зустріти тег, якийвизначає спеціальний тип документа - Web-сторінку з кадрами або фреймами.

    Як правило, тіло HTML-документа складається з послідовностіструктурних одиниць, базисними з яких є:

    - заголовки різного рівня (текст, укладений між тегами і

    ), де i може змінюватися від 1 до 6;

    - параграфи (текст, укладений між тегами і).

    Це мінімальні кошти форматування документа. Природно, що в
    HTML ці кошти значно багатший (всілякі вирівнювання, табуляція,кілька видів списків, таблиці і т.д.).

    Найбільш важливими базовими конструкціями мови HTML є якоря.
    Синтаксично ці конструкції представлені тегами і з атрибутамиname і href. Якорем є конструкція вигляду:

    Текст

    Ця конструкція забезпечує унікальне в межах документа ім'я початкупевного фрагмента HTML-тексту. При цьому текст, укладений міжтегами і, як правило, задає семантично значуща найменуваннязаголовка.

    Для посилань на помічені в такий спосіб частини Інтернет - документавикористовуються конструкції такого вигляду:

    1) Текст - Визначає локальну посилання на частину документа, що починається з вказаної мітки

    2) Текст - Визначає глобальну посилання на документ у мережі, однозначно ідентифікований за допомогою URL (Unified Resource

    Locator) - Інтернет - адреса: ім'я домену, уточнене назвою протоколу і власне ім'я документа, включаючи шлях до нього в межах цього домену.

    Важливими конструкціями HTML також є таблиці з багатимиможливостями багаторівневих заголовків і форми, за допомогою яких в мовувведені засоби забезпечення діалогу з читачами Інтернет - документів.
    Базисними конструкціями форм є редаговані текстові поля,елементи вибору, різні кнопки і т.д.

    Приклад створення таблиці:

    столбец1, рядок1 столбец2, рядок1 столбец1, рядок2 столбец2, рядок2

    Найпростіший приклад створення форми:

    Ви можете ввести в полі один рядок

    Для обробки результатів вводу натисніть

    Ще одна важлива конструкція - це фрейми (frames). З їх допомогою можнарозділити документ на частини і представляти їх в окремих,неперекривающіхся областях екрана. Таке подання інформаціїхарактерно для багатовіконний додатків.

    Крім цього є й інші спорудження розмітки Інтернет --документів. Серед цих конструкцій треба відзначити більш чіткий поділміж структурою документа і його поданням за рахунок використаннятаблиць стилів, скриптів, що підтримують, зокрема, створення динамічнихсторінок, новий механізм інтеграції текстових і графічних посилань,що виконується на стороні клієнта і стандартизацію механізму підключення до
    HTML-документами базисних медіаоб'ектов і додатків.

    Що таке фрейми

    Термін фрейм був запропонований в 70-ті роки для позначення структури знаньдля сприйняття просторових сцен. Фрейм - це абстрактний образ дляподання якогось стереотипу сприйняття. Фреймом також називається іформалізована модель для відображення образу.

    Розрізняють:

    - фрейми-зразки (прототипи) - зберігаються в базі даних

    - фрейми-екземпляри - створюються для відображення реальних фактичних ситуацій на основі даних, що надходять

    - фрейми-структури - використовуються для позначення об'єктів і понять

    - фрейми-ролі

    - фрейми-сценарії

    - фрейми-ситуації

    Зазвичай структура фрейму представляється як список властивостей:

    (ІМ'Я фрейму:

    (ім'я 1-го слота: значення 1 -- го слота),

    (ім'я 2-го слота: значення 2-го слота),

    ------------------ --------

    (ім'я N-го слота: значення N-го слота)

    В якості значення слота може виступати ім'я іншої фрейма, такутворюється мережа фреймів.

    Існує декілька способів отримання слотом значень у фреймі -екземплярі:

    - за умовчанням від фрейму-зразка (значення default)

    - через успадкування властивостей від фрейму, зазначеного у слоті АКО (a kind of)

    - за формулою, вказаною в слоті

    - через приєднану процедуру

    - явно з діалогу з користувачем

    - з бази даних.

    Можливості подання знань на базі мови HTML

    Розглянемо, яким чином HTML-документ може бути представлений у виглядісемантичної мережі. Нам необхідно виділити ті конструкції мови, якіможуть бути корисними для вирішення цього завдання.

    Перш за все, до числа таких конструкцій відносяться теги типу, і. Перший тег важливий для фіксації семантики всього HTML --документа, так як текст, укладений між тегами і частішевсього відображає його призначення або зміст.

    Теги типу вводять імена атрибутів і їх значення з допомогоюпараметрів name = "..." і content = "...", а посилання і якоря фіксують відносиниміж частинами одного документа або між окремими документами.

    Теги типу явно вводять семантику значень атрибутів, однаковоінтерпретуються браузерами за рахунок ключових слів, які можуть бутизначеннями параметра name.

    Теги типу фіксують лише факт наявності відносини між посиланням та їїякорем. У деяких випадках цього відношення можна «приписати» ім'я SeeAlso
    (дивись також), в інших випадках - ConsistOf, PartOf або інше відповіднеім'я, але семантика даної конструкції імпліцитно, а вбудована інтерпретаціяїї пов'язана лише з переходом по посиланню і візуалізацією початкувідповідного фрагмента документа або завантаженням нового документа дляперегляду.

    Іншими корисними конструкціями є заголовки розділів іпідрозділів (тексти між тегами і), списки, таблиці та іншіелементи мови.

    Але в цілому, виділення значущих для семантичної інтерпретаціїконструкцій є експертною задачею, що вирішується щоразу авторомвідповідній Інтернет - публікації по-своєму. Але існують певністереотипи. Наприклад, на сторінках Інтернет - магазинів каталоги товарів убільшості випадків представляються таблицями або списками, або «зашиті» вчутливі для клацання миші графічні об'єкти. Це характерно і дляіндексів на сайтах машин пошуку.

    Розглянемо як приклад сторінку офіційного сайту компанії
    Microsystems LTD, розташовану в мережі за адресою http://www.analyst.ru. Націй сторінці розташовується по інформація за програмою TextAnalyst 2.0.
    Екранна форма цієї сторінки показано на малюнку.

    Фрагмент відповідного HTML - тексту представлений нижче:


    ---------------------------------


    Microsystems, Ltd

    ---------------------------------------- -------

    ------------------------------------ -

    ------------------------------------------ ----

    Products

    TextAnalyst SDK

    TextAnalyst

    Text Referent

    ----- -----------------------------------

    TextAnalyst

    Отримайте безкоштовну версію

    TextAnalyst

    Системні вимоги

    Intel-based PC

    Windows 9X, NT, 2000, Me

    Технічні характеристики/tr>

    Середня швидкість аналізу тексту близько 1Мбайт/мін (привикористанні Pentium-II).

    Максимальний об'єм аналізованої добірки не обмежений ізалежить від обсягу ресурсів комп'ютера і налаштування TextAnalyst.

    Власний обсяг TextAnalyst не перевищує 5Мб.

    Формати оброблюваних файлів:

    *. txt (ANSI, DOS), *. rtf

    Експорт інформації у формати: *. txt,

    *. csw (електронні таблиці).

    --------- --------------------------

    TextAnalyst 2.0 персональна система автоматичногоаналізу тексту

    TextAnalyst розроблений як інструмент для аналізузмісту текстів, смислового пошуку інформації, формування електроннихархівів, і надає користувачеві наступні основніможливості: аналізу змісту тексту з автоматичним формуваннямсемантичної мережі з гіперпосиланнями - отримання смислового портрета тексту втермінах основних понять і їх смислових зв'язків; аналізу змісту тексту з автоматичним формуваннямтематичного древа з гіперпосиланнями - виявлення семантичної структуритексту у вигляді ієрархії тем і підтем; смислового пошуку з урахуванням прихованих смислових зв'язків слівзапиту зі словами тексту; автоматичного реферування тексту - формування йогосмислового портрета в термінах найбільш інформативних фраз; кластеризації інформації - аналізу розподілуматеріалу текстів за тематичними класів; автоматичної індексації тексту з перетворенням вгіпертекст; ранжирування всіх видів інформації про семантику тексту по
    «Ступеня значимості» з можливістю варіювання детальності їїдослідження; автоматичного/автоматизованого формуванняповнотекстової бази знань з гіпертекстової структурою і можливостямиасоціативного доступу до інформації;

    Не лякайтеся великої кількості можливостей!

    Робота з TextAnalyst здасться Вамнесподівано простий і приємною, а його аналітичні здібності заощадятьмасу корисного часу ...

    ----------------------------------

    Порівнявши наведені екранну форму і HTML-текст, бачимо, щосемантично значущими елементами даного документу є:
    - ключові слова, що відносяться до даного документа: Microsystems,

    TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, мікросистеми, аналіз текстів, база знань, документообіг, класифікація, семантичний аналіз, нейронні мережі, натуральні мови, текст процесор (тег);
    - все меню організовані у вигляді таблиць (тег), в осередках яких

    (тег) розташовані посилання (тег), за допомогою яких можна перейти до іншої інформації, що цікавить. Наприклад, можна отримати інформацію про продукти даної компанії, вибравши їх назва з лівого меню.
    - Текст опису можливостей програми TextAnalyst організований у вигляді списку (тег).

    Т.ч. можна бачити, семантично значущі характеристики документа можутьбути розкидані по різних частинах документа або з різних документів. Цесильно ускладнює семантичний аналіз Інтернет - документів.

    Вирішення цієї проблеми в даний час пов'язаний з використанням двохпідходів. Перший підхід передбачає, що семантична розмітка документавиконується вручну його автором на основі спеціальних метатегів, а другапідхід пов'язаний з автоматичним або напівавтоматичним перетвореннямвихідного тексту в спеціальне семантичне подання. Доцільноконвертувати HTML-тест в більш зручну форму подання для подальшоїобробки.

    TextAnalyst 2.0 - персональна система автоматичного аналізу тексту

    TextAnalyst розроблений як інструмент для аналізу змістутекстів, смислового пошуку інформації, формування електронних архівів, інадає користувачеві наступні основні можливості??:

    . аналіз змісту тексту з автоматичним формуванням семантичної мережі з гіперпосиланнями - отримання смислового портрета тексту в термінах основних понять і їх смислових зв'язків;

    . аналіз змісту тексту з автоматичним формуванням тематичного древа з гіперпосиланнями - виявлення семантичної структури тексту у вигляді ієрархії тем і підтем;

    . розумовий пошук з урахуванням прихованих смислових зв'язків слів запиту зі словами тексту;

    . автоматичне реферування тексту - формування його смислового портрета в термінах найбільш інформативних фраз;

    . кластеризація інформації - аналіз розподілу матеріалу текстів за тематичними класів;

    . автоматична індексація тексту з перетворенням у гіпертекст;

    . ранжування всіх видів інформації про семантику тексту по «ступеня значимості» з можливістю варіювання детальності її дослідження;

    . автоматичне/автоматизоване формування повнотекстової бази знань з гіпертекстової структурою і можливостями асоціативного доступу до інформації.

    Розглянемо на нашому прикладі роботу цієї програми. Після запуску
    TextAnalyst, необхідно відкрити текстовий файл, в якому розташований HTML -документ нашого прикладу. Програма виконує аналіз запропонованого тексту івидає результати (див. малюнок)

    Вивчивши запропонований текст, TextAnalyst формує мережу найбільш значущихпонять, що містяться в даному тексті. У таку включені ті терміни тексту,які несуть основне смислове навантаження. Т.ч. мережа дозволяє відкинутинеістотну інформацію та представити зміст тексту в стислому вигляді.
    Кожне поняття, що з'являється безліч разів у різних частинах тексту, вмережі представлено єдиним вузлом. Різні форми слів для відображенняв один вузол мережі представляються до загальної граматичній формі.

    Кожен елемент мережі характеризується числовий оцінкою - смисловим вагою.
    Зв'язок між поняттями також характеризуються вагами. Значення смисловоговаги (від 1 до 100) показує, наскільки важливу роль відіграє поняття длясенсу всього тексту, тобто як багато інформації в тексті стосується даногопоняття. Максимальне значення, яка дорівнює 100, говорить про те, що поняттяє ключовим і представляє найважливішу тему тексту. Маленьке, близькедо одиниці значення показує, що відповідна тема лише побіжнозгадана в тексті і в ньому дуже мало інформації, що відноситься до даногопоняттю. Друге число, яке стоїть перед смисловим вагою, ближче до розкритоговузла, представляє вага зв'язку від поняття в вершині розкритого списку доданим. Велике значення ваги зв'язку (близьке до 100) вказує на те, щопереважна частина інформації в тексті, що стосується першого, стосується в той жечас і друге поняття. Мале (близьке до 1) значення означає, що першийпоняття слабко пов'язане з другим і дуже мало інформації по першій темістосується в той же час і другий.

    За умовчанням на екрані з'являється поняття з вагою не менше 5. Видмережі на екрані можна налаштовувати, змінюючи кількість відображуваних понять ізв'язків, а також спосіб їх сортування.

    TextAnalyst надає послугу автоматичного реферування.
    Формується реферат містить список найбільш інформативних пропозиційтексту. Це дозволяє швидко ознайомитися зі змістом тексту. Подробиціреферату можна налаштовувати, змінюючи кількість формують його пропозицій.
    Кожна пропозиція характеризується відносною ступенем значущості увсьому тексті.

    У нашому прикладі реферат виглядає таким чином:

    98 аналізу змісту тексту з автоматичним формуванням семантичноїмережі з гіперпосиланнями - отримання смислового портрета тексту в термінахосновних понять і їх смислових зв'язків;
    98 аналізу змісту тексту з автоматичнимформуванням тематичного древа з гіперпосиланнями - виявлення семантичноїструктури тексту у вигляді ієрархії тем і підтем;

    Цифри показують ступінь значущості речень у тексті. Значенняваги, близьке до 100, означає, що дана пропозиція являєнайважливішу інформацію, що стосується головних понять тексту. Ці поняття врефераті виділяються кольором.

    За умовчанням на екрані відображаються пропозиції реферату з вагами НЕменше 90.

    Для розглянутого вище прімераHTML-тексту опису сторінки
    Analyst.ru фрагменти семантичної мережі виглядають таким чином:


    Принцип роботи HTML-конвертора

    Розглянемо як приклад наступне підмножина HTML-мови,яке може бути задано наступними визначеннями:

    HTML-text:: = HEAD BODY

    HEAD:: = TITLE (HEAD) | META (HEAD) | LINK (HEAD) ...

    TITLE:: = рядок

    META:: =

    KEYWORDS:: = ...

    BODY:: = HTML-BODY

    HTML-BODY:: = PARAGRAPH (HTML-BODY) | TABLE (HTML-BODY) | LIST (HTML-
    BODY) | ANCHOR (HTML-BODY) | ...

    PARAGRAPH:: = текст

    TABLE:: = TABLE-CELLS

    TABLE-CELLS:: = STROKA (TABLE-CELLS) | ...

    STROKA:: = CELL

    CELL:: = текст

    LIST:: = LIST-ATOM

    LIST-ATOM:: = ...

    ANCHOR:: = TEXT

    TEXT:: = ...

    LINK: = ... < p> Синтаксична діаграма, що відповідає цим правилам виглядаєнаступним чином:

    З теоретичної точки зору HTML - це проста мова програмування зконтекстно-вільною граматикою. Для аналізу HTML-текстів можнавикористовувати спадні розпізнавача, що реалізуються на базі методурекурсивного узвозу. Розглянемо продукційної-фреймовий формалізмпредставлення знань та розробку на його основі інтелектуальний HTML -конвертор.

    Для початку необхідно призначити розклад відображення кожного правиласпецифікації HTML-конструкцій у відповідний об'єкт бази знань нарівні фрейму-прототипу. Система таких прототипів дасть нам опис мови,а безліч фреймів-екземплярів - специфікацію конкретних і синтаксичноправильних HTML-текстів. Основні правила такого відображення такі:

    - кожному концепту з лівої частини BNF-визначення ставимо у відповідність ім'я фрейму-прототипу;

    - альтернатив з правої частини BNF-визначення при цьому повинні відповідати імена слотів цього фрейму;

    - для концептів-нетерміналов відповідний слот повинен мати тип frame;

    - для концептів-терміналів відповідні слоти будуть, як правило, мати тип numb або string;

    - рекурсія в BNF-визначеннях замінюється итерацией, а відповідні слоти стають множинними.

    Після застосування цих правил до BNF-визначенням мови HTML отримаємотака множина фреймів-прототипів:

    [html is_aprototype, if_added HTML ();

    HEADframe, restr_by head;

    BODYframe, restr_by body];

    [head is_aprototype, if_added HEAD ();

    BODY (frame), restr_by one_of (title, meta, ... }];

    [title is_aprototype, if_added TITLE ( );

    BODYstring];

    [meta is_aprototype, if_added META ();

    BODYstring];

    ... ... ... ... ... ... ....

    [body is_aprototype, if_added BODY ();

    SENT (frame), restr_by one_of (header, paragraph, table, ... }];

    [paragraph is_aprototype, if_added PARAGRAPH ();

    [LIST is_aprototype; ATOM (frame), if_added LI ()];

    BODYframe, restr_by text]; < p> [table is_aprototype; if_added TABLE ();

    TAB (frame), restr_by one_of (stroka, ... };]

    [stroka is_aprototype, if_added TR ();

    CELLS (frame), restr_by one_of (cell, ... }];

    [cell is_aprototype, if_added TD ();];

    ... ... ... ... ... ... ... ...

    [anchor is_aprototype;

    BODYframe, restr_by text];

    ... ... ... ... ... ... ... ...

    [link is_aprototype;

    URLframe, restr_by one_of (http, ftp, ... }];

    MAILframe, restr_by mail];

    [url is_alink; without_slot MAIL];

    [http is_aurl, if_added HTTP ();

    SERVERstring;

    DIR (string);

    FILEstring];

    [ftp is_aurl, if_added FTP ();

    SERVERstring;

    DIR (string);

    FILEstring];

    ... ... ... ... ... ... ... ... ... ...

    Згідно з наведеними фреймами-прототипами і синтаксичнимидіаграмами, можна специфікувати процедурну частину конвертора як системудемонів, приєднаних до фреймах або до їх слотам.

    Специфікація одного з таких демонів представлена нижче на мові Java:

    public class HTML extends FramePrototype (

    HEAD head = null;

    BODY body-null;

    ... ... ... ....

    String keyword;

    Public void HTML (String name ) (

    Super (name); keyword = getToken (); if (keyword.compareTo ( "") = = 0 (head = new HEAD (getNewName ()); body = new BODY (getNewName ( ));

    ); keyword = getToken (); if (keyword.compareTo ("")= = 0) return;

    )

    ... ... ... ... ... ... ...

    Public void (String nam) (

    Super (name);

    Keword = getToken ();

    If (keyword compareTo ( "") = = 0 (paragraph = new PARAGRAPH (getNewName ()); header = new HEADER (getNewName ()); table = new TABLE (getNewName ());

    ); keyword = getToken (); if (keyword compareTo ( "") = = 0) return;

    )

    ... ... ... ... ... ... ... ... ... ... ..

    )

    По суті, такий демон є конструктором класу HTML, а запускконвертора здійснюється за допомогою оператора створення нового об'єкта цьогокласу:

    HTML currPage = new HTML (get_new_name ());

    При цьому будуть рекурсивно викликатися конструктори інших класів (наверхньому рівні це HEAD, BODY), що, в кінцевому рахунку, призведе допобудови безлічі фреймів-екземплярів, що представляють аналізовану HTML -сторінку.

    Отримання корисної надалі бази знань передбачає подальшусемантичну інтерпретацію фреймової уявлення і побудову вЗрештою семантичної мережі, що відображає зміст вихідного Інтернет --документа.

    Список використаних джерел:

    1) Т.А. Гаврилова, В.Ф. Хорошевський «Бази знань інтелектуальних систем», підручник, Санкт-Петербург, «Пітер», 2001

    2) www.citforum.ru

    3) www.bur.oivta.ru

    4) www.analyst.ru

         
     
         
    Реферат Банк
     
    Рефераты
     
    Бесплатные рефераты
     

     

     

     

     

     

     

     
     
     
      Все права защищены. Reff.net.ua - українські реферати ! DMCA.com Protection Status