Морфологічна розмітка

ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u (Андрій Рисін, Василь Старко та ін.).

Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови

Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки). Проаналізований текст, за яким працює пошук в корпусі, має такий вигляд:

Він /|він|/|noun:m:v_naz:&pron:pers:3| поспішав /|поспішати|/|verb:imperf:past:m| писати /|писати|/|verb:imperf:inf|

Таким чином, шукати можна за словоформою, лемою або тегами, і різними їх сполученнями.

Леми визначаються тільки для тих слів, які є в словнику: https://r2u.org.ua/vesum/. Інші слова можна знайти лише за словоформою.

 

Повний перелік граматичних тегів (r2u):

 

[КЛ] — ключ леми (тег, який розрізняє різні леми з омонімів)

 

noun    іменник

    [КЛ] anim       істота

    [КЛ] fname      ім'я

    [КЛ] lname      прізвище

    [КЛ] pname       по батькові

    [КЛ] inanim     неістота

    [КЛ] unanim     невизначена категорія істота/неістота (бактерія)

         prop       власна назва

         geo        топонім

 

verb    дієслово

    [КЛ] imperf недоконаний вид

    [КЛ] perf доконаний вид

    [КЛ] rev  зворотна форма (дієслова) (тег є неявним ключем, оскільки лема на -ся завжди відрізняється від прямого дієслова)

 

    inf інфінітив

    futr  майбутній час

    past  минулий час

    pres  теперішній час

    impr    наказова форма

    impers безособова форма

 

    1       1-а особа

    2       2-а особа

    3       3-а особа

 

adj     прикметник

    compb    базова форма

    compc    порівняльна форма

    comps    найвища форма

    short    короткі форми прикметників

 

    adjp    дієприкметник: (:&adjp — лише дієприкметник; :&&adjp — дієприкметник і прикметник)

        actv   активний

        pasv   пасивний

        imperf недоконаний вид

        perf   доконаний вид

 

    (past/pres є в коментарях сирців для більшості дієприкметників, але наразі не використовується)

 

adj/adjp:

    v_zna:rinanim   знахідний для неістот (лише ч.р.)

    v_zna:ranim     знахідний для істот (лише ч.р.)

    uncontr         нестягнені (не генеруються за уставою)

 

adv     прислівник

    compb    базова форма

    compc    порівняльна форма

    comps    найвища форма

 

advp    дієприслівник

    [КЛ] perf

    [КЛ] imperf

 

prep    прийменник

 

conj    сполучник

    subord підрядний

    coord сурядний

 

part    частка

 

intj    вигук

 

numr    числівник

 

noninfl     невідмінювані частини (най-най, брутто, екстра...)

    foreign     запозичені слова невизначеної частини мови (Альгемайне, Юнайтед, ла (Ла Страда) тощо)

 

onomat (клас звуконаслідувальних слів)

 

Спільні для noun/adj/adjp:

    Відмінки:

        v_naz   називний

        v_rod   родовий

        v_dav   давальний

        v_zna   знахідний

        v_oru   орудний

        v_mis   місцевий

        v_kly   кличний

        nv    не відмінюється

        np    без множини (TODO: проставлено не всюди)

        ns    без однини (TODO: проставлено не всюди)

 

 

Спільні для noun/adj/adjp/verb

    p  множина

    s  однина

 

    Рід:

        m  чоловічий

        f  жіночий

        n  середній

 

Додаткові теги:

 

    abbr  абревіатура

    bad   покруч

    subst просторічна форма

    rare  рідковживане/діалектичне/застаріле

    coll  розмовне слово/розмовна форма

    slang сленг

    alt   альтернативне написання (не за чинним правописом)

    onomatop клас звуконаслідувальних слів

 

    :xp[1-9] омоніми, що відрізняються парадигмою відмінювання (напр. бар — р.в. бару, бар — р.в. бара)

    # в коментарях також :xv[1-9] омоніми, що відрізняються семантично (напр. глупий (дурний, має вищий ступінь глупіший) і глупий — глупа ніч, без порівняльних форм)

 

    v-u   паралельні форми на в-/у- (для правил милозвучності, не генерується за уставою)

 

Додаткові теги класів слів (після &):

     &adjp — слова, що є дієприкметниками

     &&adjp — слова, що є і прикметниками і дієприкметниками

[КЛ] &pron — наразі всі займенники мають теги відповідних частин мови (noun/adj/adv), але всі мають додатковий тег &pron

        (тег &pron разом з наступним класифікатором стає ключем леми)

     &numr — слова, що є порядковими числівниками

     &&numr — слова, що є і іменниками і кількісними числівниками

     &insert — може бути вставним словом

     &predic — може бути предикативом

 

Теги займенників:

    pers  особовий

    refl  зворотний

    pos   присвійний

    dem   вказівний

    def   означальний

    int   питальний

    rel   відносний

    neg   заперечний

    ind   неозначений

    gen   узагальнювальний

    emph  підсилювальний

 

Деяка асиметрія тегів:

    adj

        ranim/rianim присутні лише для adj:m:v_zna та adj:p:v_zna

 

    pron

        деякі pron (він, вона, воно, вони) не мають anim/inanim: "він noun:m:..."

        деякі pron (ти, я) не мають роду: "я noun:anim:s:..."

        персональні займенники мають тег особи: "вони noun:p:v_naz:&pron:pers:3"

 

    verb

        дієслова мин.ч. мають рід: "вибіляв verb:imperf:past:m"

        дієслова теп./майб.ч. мають особу та число: "вибілюю verb:imperf:pres:s:1", "вибілятиме verb:imperf:futr:s:3", "вибілятимем verb:imperf:futr:p:1"

 

Динамічні теги (відсутні в словнику, їх проставляє модуль тегування LT):

    number — число

    number:latin — число латинськими цифрами

    date — дата

    time — час

 

Джерело: https://github.com/brown-uk/dict_uk/blob/master/doc/tags.txtHow to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.