ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u (Андрій Рисін, Василь Старко та ін.).
Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови
Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки). Проаналізований текст, за яким працює пошук в корпусі, має такий вигляд:
Він /|він|/|noun:m:v_naz:&pron:pers:3| поспішав /|поспішати|/|verb:imperf:past:m| писати /|писати|/|verb:imperf:inf|
Таким чином, шукати можна за словоформою, лемою або тегами, і різними їх сполученнями.
Леми визначаються тільки для тих слів, які є в словнику: https://r2u.org.ua/vesum/. Інші слова можна знайти лише за словоформою.
Повний перелік граматичних тегів (r2u):
[КЛ] — ключ леми (тег, який розрізняє різні леми з омонімів)
noun іменник
[КЛ] anim істота
[КЛ] fname ім'я
[КЛ] lname прізвище
[КЛ] pname по батькові
[КЛ] inanim неістота
[КЛ] unanim невизначена категорія істота/неістота (бактерія)
prop власна назва
geo топонім
verb дієслово
[КЛ] imperf недоконаний вид
[КЛ] perf доконаний вид
[КЛ] rev зворотна форма (дієслова) (тег є неявним ключем, оскільки лема на -ся завжди відрізняється від прямого дієслова)
inf інфінітив
futr майбутній час
past минулий час
pres теперішній час
impr наказова форма
impers безособова форма
1 1-а особа
2 2-а особа
3 3-а особа
adj прикметник
compb базова форма
compc порівняльна форма
comps найвища форма
short короткі форми прикметників
adjp дієприкметник: (:&adjp — лише дієприкметник; :&&adjp — дієприкметник і прикметник)
actv активний
pasv пасивний
imperf недоконаний вид
perf доконаний вид
(past/pres є в коментарях сирців для більшості дієприкметників, але наразі не використовується)
adj/adjp:
v_zna:rinanim знахідний для неістот (лише ч.р.)
v_zna:ranim знахідний для істот (лише ч.р.)
uncontr нестягнені (не генеруються за уставою)
adv прислівник
compb базова форма
compc порівняльна форма
comps найвища форма
advp дієприслівник
[КЛ] perf
[КЛ] imperf
prep прийменник
conj сполучник
subord підрядний
coord сурядний
part частка
intj вигук
numr числівник
noninfl невідмінювані частини (най-най, брутто, екстра...)
foreign запозичені слова невизначеної частини мови (Альгемайне, Юнайтед, ла (Ла Страда) тощо)
onomat (клас звуконаслідувальних слів)
Спільні для noun/adj/adjp:
Відмінки:
v_naz називний
v_rod родовий
v_dav давальний
v_zna знахідний
v_oru орудний
v_mis місцевий
v_kly кличний
nv не відмінюється
np без множини (TODO: проставлено не всюди)
ns без однини (TODO: проставлено не всюди)
Спільні для noun/adj/adjp/verb
p множина
s однина
Рід:
m чоловічий
f жіночий
n середній
Додаткові теги:
abbr абревіатура
bad покруч
subst просторічна форма
rare рідковживане/діалектичне/застаріле
coll розмовне слово/розмовна форма
slang сленг
alt альтернативне написання (не за чинним правописом)
onomatop клас звуконаслідувальних слів
:xp[1-9] омоніми, що відрізняються парадигмою відмінювання (напр. бар — р.в. бару, бар — р.в. бара)
# в коментарях також :xv[1-9] омоніми, що відрізняються семантично (напр. глупий (дурний, має вищий ступінь глупіший) і глупий — глупа ніч, без порівняльних форм)
v-u паралельні форми на в-/у- (для правил милозвучності, не генерується за уставою)
Додаткові теги класів слів (після &):
&adjp — слова, що є дієприкметниками
&&adjp — слова, що є і прикметниками і дієприкметниками
[КЛ] &pron — наразі всі займенники мають теги відповідних частин мови (noun/adj/adv), але всі мають додатковий тег &pron
(тег &pron разом з наступним класифікатором стає ключем леми)
&numr — слова, що є порядковими числівниками
&&numr — слова, що є і іменниками і кількісними числівниками
&insert — може бути вставним словом
&predic — може бути предикативом
Теги займенників:
pers особовий
refl зворотний
pos присвійний
dem вказівний
def означальний
int питальний
rel відносний
neg заперечний
ind неозначений
gen узагальнювальний
emph підсилювальний
Деяка асиметрія тегів:
adj
ranim/rianim присутні лише для adj:m:v_zna та adj:p:v_zna
pron
деякі pron (він, вона, воно, вони) не мають anim/inanim: "він noun:m:..."
деякі pron (ти, я) не мають роду: "я noun:anim:s:..."
персональні займенники мають тег особи: "вони noun:p:v_naz:&pron:pers:3"
verb
дієслова мин.ч. мають рід: "вибіляв verb:imperf:past:m"
дієслова теп./майб.ч. мають особу та число: "вибілюю verb:imperf:pres:s:1", "вибілятиме verb:imperf:futr:s:3", "вибілятимем verb:imperf:futr:p:1"
Динамічні теги (відсутні в словнику, їх проставляє модуль тегування LT):
number — число
number:latin — число латинськими цифрами
date — дата
time — час
Джерело: https://github.com/brown-uk/dict_uk/blob/master/doc/tags.txt
Every part of this theme can be translated to another language. Even this content you are reading now!
The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.
For help on setting up more languages, close this popup and click the Languages menu item.