Дерево
безпосередніх складових h2>
Дерево
безпосередніх складових (ДНС) обеспечіваает структурний опис
пропозицій. Граматика безпосередніх складових (ДПС) характеризує ДНС.
І те й інше тому грають важливу роль в обробці природної мови для
створення структурних описів пропозиції, які можуть бути використані в
обробці систем розуміння або породження мови. p>
Дерево
безпосередніх складових: p>
ДНС кодує
ієрархічну структуру пропозиції. Ця інформація двох видів: ієрархічна
структура групування та синтаксичні категорії цих угруповань. p>
Пропозиція p>
John wanted to publish the paper. (1) p>
має наступну
структуру: p>
(2) p>
John wanted to publish p>
thepaper p>
Ця структура
може бути представлена і в скобочной конструкції: p>
[[John] [[wanted] [[to] [publish] [[the] [paper ]]]]]( 3) p>
(2) і (3)
описують групування без ідентифікації складових. Такі конструкції
називаються "скелетом". Скелети характеризують фразу без позначення вершин дерева.
Скелет з позначенням категорій є ДНС, для фрази (1) це буде виглядати
так p>
S p>
NPVP p>
VP p>
NP (4) p>
NPRVPV p>
DET N p>
John wanted to publish p>
thepaper p>
"John" є тут власним ім'ям, яке є також групою підмета,
"Wanted" і
"Publish" - дієслова, "to" --
прийменник (точніше кажучи "to" має бути назване часткою або часом), "the" - детермінатор, "paper" - іменник, "the paper" - група іменника, "to publish the paper" - група присудка, "wanted to publish the paper "- теж група присудка, і нарешті," John wanted to publish the paper "- пропозиція. p>
Відповідно
скобочная конструкція (3) буде виглядати так: p>
[S [NR [NPR John]] [VP [V to] [V publish] [NP [DET the] [N
paper ]]]]]( 5) p>
Конструкції (4)
та (5) зазвичай (але не завжди) використовуються в системах обробки природної
мови. p>
Граматика
безпосередніх складових (ДПС) h2>
ДПС складається з
набору нетермінальних символів (таких як N, V, NP, VP, S і т.д.) і з набору
термінальних символів (таки лексичні одиниці як John "wanted", "to",
"Publish", "the", "paper" і т. д. і з набору правил, які дозволяють
переписувати нетермінальние символи в ланцюжок термінальних і нетермінальних
символи. Якщо це переписування не залежить від контексту, то це
Контекст-незалежна граматика (КНГ), в іншому випадку - це
контекстозавісімая граматика (КЗГ). Правило перезапису має наступну форму: p>
А -> Х (6) p>
де Х --
последовательсть термінальних і нетермінальних символів, а А - нетермінальние. p>
КЗГ має
іследующее правило перезапису: p>
ZAW ->
ZXW (7) p>
де X, Z, W --
ланцюжка термінальних і нетермінальних символів, а А - нетермінальние. p>
В (7) А і Х
знаходяться в оточенні Z і W. Часто ця формула пишеться у вигляді p>
A -> X