Дерево
безпосередніх складових
Дерево
безпосередніх складових (ДНС) обеспечіваает структурний опис
пропозицій. Граматика безпосередніх складових (ДПС) характеризує ДНС.
І те й інше тому грають важливу роль в обробці природної мови для
створення структурних описів пропозиції, які можуть бути використані в
обробці систем розуміння або породження мови.
Дерево
безпосередніх складових:
ДНС кодує
ієрархічну структуру пропозиції. Ця інформація двох видів: ієрархічна
структура групування та синтаксичні категорії цих угруповань.
Пропозиція
John wanted to publish the paper. (1)
має наступну
структуру:
(2)
John wanted to publish
thepaper
Ця структура
може бути представлена і в скобочной конструкції:
[[John] [[wanted] [[to] [publish] [[the] [paper ]]]]]( 3)
(2) і (3)
описують групування без ідентифікації складових. Такі конструкції
називаються "скелетом". Скелети характеризують фразу без позначення вершин дерева.
Скелет з позначенням категорій є ДНС, для фрази (1) це буде виглядати
так
S
NPVP
VP
NP (4)
NPRVPV
DET N
John wanted to publish
thepaper
"John" є тут власним ім'ям, яке є також групою підмета,
"Wanted" і
"Publish" - дієслова, "to" --
прийменник (точніше кажучи "to" має бути назване часткою або часом), "the" - детермінатор, "paper" - іменник, "the paper" - група іменника, "to publish the paper" - група присудка, "wanted to publish the paper "- теж група присудка, і нарешті," John wanted to publish the paper "- пропозиція.
Відповідно
скобочная конструкція (3) буде виглядати так:
[S [NR [NPR John]] [VP [V to] [V publish] [NP [DET the] [N
paper ]]]]]( 5)
Конструкції (4)
та (5) зазвичай (але не завжди) використовуються в системах обробки природної
мови.
Граматика
безпосередніх складових (ДПС)
ДПС складається з
набору нетермінальних символів (таких як N, V, NP, VP, S і т.д.) і з набору
термінальних символів (таки лексичні одиниці як John "wanted", "to",
"Publish", "the", "paper" і т. д. і з набору правил, які дозволяють
переписувати нетермінальние символи в ланцюжок термінальних і нетермінальних
символи. Якщо це переписування не залежить від контексту, то це
Контекст-незалежна граматика (КНГ), в іншому випадку - це
контекстозавісімая граматика (КЗГ). Правило перезапису має наступну форму:
А -> Х (6)
де Х --
последовательсть термінальних і нетермінальних символів, а А - нетермінальние.
КЗГ має
іследующее правило перезапису:
ZAW ->
ZXW (7)
де X, Z, W --
ланцюжка термінальних і нетермінальних символів, а А - нетермінальние.
В (7) А і Х
знаходяться в оточенні Z і W. Часто ця формула пишеться у вигляді
A -> X