Версії корпусу

ГРАК-4
У четвертій версії додали фільтри для вибору текстів (DOC.AUTHOR, DOC.BORN тощо)
Додали основні правила для розбору текстів желехівкою. Тепер програма правильно лематизує випадки на зразок: називати ся, цїлком, мякий, сьвіт.


ГРАК-5
У п'яту версію корпусу додано переважно нехудожні тексти: "Український історичний журнал" (вибрані номери 1957-1990 рр.) та деякі інші наукові і публіцистичні тексти радянського періоду, а також колекцію сучасних наукових статей із видань АН з різних галузей знань обсягом понад 20 млн слів.


ГРАК-6
У шосту версію корпусу вперше додали поетичні тексти.


ГРАК-7
Обсяг корпусу - 437 млн токенів. Додано кілька номерів газети "Молоде життя: часопис українського пласту" 1925-1929 років, майже сто номерів журналу "Всесвіт" (1958-1983), колекцію радянських газетних матеріалів 1986-1991 років про Чорнобиль, колекцію сучасної драматургії, газету "Україна молода" 2010-2019 рр.

Наповнення корпусу за роками


ГРАК-8
У восьму версію корпусу додали тексти газети "Високий замок" 2001-2017 рр. обсягом 53 млн токенів, тексти журналу "Всесвіт" 1958-1979 рр. обсягом 17 млн токенів (у тому числі 4,8 млн токенів публіцистичних текстів), тексти журналу "Наука і суспільство" 1972-1994 рр. обсягом 4,2 млн токенів, тексти західноукраїнських газет 1945-1946 рр. обсягом 0,5 млн токенів.


Наповнення корпусу за роками

ГРАК-9
Для розмітки ГРАК-9 ми використали оновлений ВЕСУМ, який тепер тегує нестандартні граматичні форми:
1) найчастотніші короткі форми дієслів 3-ї особи: зна, співа... 
CQL: [tag="verb.*3:short"]
2) форми інфінітивів на -ть: писать, допомагать...
CQL: [tag="verb.*inf:short"]
3) найчастотніші нестягнені форми прикметників: гарная, хорошая...
CQL: [tag="adj.*long"]
4) короткі порівняльні форми прислівників: гарніш, сильніш...
CQL: [tag="adv.*short"]
5) дієприслівні форми на -ся: стріляючися, миючися...
CQL: [tag="advp.*long"]
6) найчастотніші наказові форми на -те: окропіте, хваліте
CQL: [tag="verb.*2:long"]
У дев'яту версію корпусу додано:
1) близько 600 тисяч слів газетних текстів 20-30-х років, переважно наддніпрянських, з сайту libraria, журнал "Музика — масам" 1928 і 1929 рр., близько 350 тисяч слів;
2) нові тексти діаспори, тепер обсяг підкорпусу діаспори близько 40 млн токенів, це вдвічі більше, ніж було. Додано художні твори і журнали: "Сучасність" (Мюнхен, 1961-1991), "Вісті комбатанта" (Нью-Йорк - Торонто, 1961-2014) - поки що без поділу на твори;
3) окремі номери журналів 1990-х - початку 2000-х: "Український пасічник", "Пасіка", "Сигнал" та ін.;
4) інтернет-видання: "Європейська правда" (2014-2016), "Фіртка" (2010-2020), "Репортер" (2014-2020), "Версії" (2013-2020) без поділу на твори і "Український тиждень" (2008-2019) з поділом на твори.;
5) понад 300 дисертацій 2018-2019 років з різних галузей знань;
6) найважливіші твори українських мовознавців різних років.

Наповнення корпусу за роками

Кількість токенів наукових, художніх і публіцистичних текстів (ACA, FIC, JOU) за роками:


How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.