Інші корпуси української мови та слов'янських мов

Корпуси української мови

Корпус

Обсяг Склад Доступ
Корпус текстів української мови

100 млн слів
Публіцистика, художня проза, наукові, законодавчі, поетичні, фольклорні тексти
Доступний для пошуку онлайн
Паралельні українсько-російський і російсько-український корпуси у складі Національного корпусу російської мови

9 млн слів
Художні, публіцистичні, наукові, законодавчі тексти, листи
Доступні для пошуку онлайн
Лабораторія Української
Веб-корпус із синтаксичною розміткою

3 млрд токенів
Тексти з Інтернет
Доступний для пошуку онлайн
Лабораторія Української
Корпус зі знятою омонімією

140 тис. токенів
Різностильові тексти
Доступний для пошуку онлайн і завантаження
Лабораторія Української
Паралельні корпуси

6 млн токенів
Художня проза
Доступні для пошуку онлайн
Український веб-корпус Лейпцизького університету
Корпус, скомпільований 2014 р.

1,5 млрд токенів
Тексти з Інтернет
Доступний для пошуку онлайн, пошук за словоформою
Український веб-корпус Лейпцизького університету
Корпус, скомпільований 2018 р.

257 млн токенів Тексти з Інтернет
Доступний для пошуку онлайн, пошук за словоформою
Український веб-корпус Лейпцизького університету
Корпус, скомпільований 2019 р.

1 млрд токенів Тексти з Інтернет
Доступний для пошуку онлайн, пошук за словоформою
Браунський український корпус



На стадії розроблення
Lang-uk. Корпуси українських текстів

600 млн слів
Новини, Вікіпедія, художні тексти, веб
Доступні для завантаження
Корпус української мови бібліотеки «Чтиво»

600 млн слів
Автоматично розпізнані книжки (без виправлення помилок, без корпусної розмітки): художні, наукові, публіцистичні тексти
Доступний для пошуку онлайн, пошук за словоформою


Корпуси східнослов'янських мов

Національний корпус російської мови [Национальный корпус русского языка (НКРЯ)]

>700 млн слів Художні, публіцистичні, наукові та ін. тексти з друкованих видань Доступний для пошуку онлайн
Генеральний Інтернет-корпус російської мови [Генеральный Интернет-корпус Русского Языка (ГИКРЯ)]

>20 млрд слів Тексти з Інтернет
Доступний для пошуку онлайн
Більше корпусів російської мови



Білоруський N-корпус [Беларускі N-корпус]

337 млн слів Художні, публіцистичні, наукові, релігійні, офіційно-ділові тексти
Доступний для пошуку онлайн
Корпус білоруських текстів наукового стилю Corpus Albaruthenicum

350 тис. слів Тексти наукового стилю Доступний для пошуку онлайн
Експериментальний корпус білоруської мови [Эксперыментальны корпус беларускай мовы]

7,5 млн токенів
Газетні і художні тексти
Доступний для завантаження
Паралельний Білоруський біблійський корпус [Біблійны корпуc]


16 білоруських перекладів Біблії і 6 перекладів іншими мовами, зокрема український переклад Івана Огієнка

Доступний для пошуку онлайн
Усний русинський корпус [Corpus of Spoken Rusyn]

125 тис. слів Транскипції усного мовлення з аудіозаписами. Записано на території Польщі, Словаччини, України та Угорщини в 2015 р.

Доступний для пошуку онлайн (треба натиснути log in внизу сторінки), пошук за словоформою


Корпуси західнослов'янських мов

Національний корпус польської мови [Narodowy Korpus Języka Polskiego]

1,8 млрд токенів
Художня проза, газети, наукові тексти, записи усного мовлення, тексти з Інтернет

Доступний для пошуку онлайн
Корпус польської мови видавництва PWN [Korpus Języka Polskiego Wydawnictwa Naukowego PWN]
100 млн слів Художня проза, публіцистика, інші друковані тексти (реклама, інструкції з експлуатації, правила, виборчі листівки тощо), тексти веб-сайтів, розмовні тексти

Доступний для пошуку онлайн
Корпусна пошукова система Monco [Wyszukiwarka korpusowa Monco]

>6 млрд слів
Тексти з Інтернет
Доступно для пошуку онлайн
Spokes. Усний польський корпус

2,3 млн слів Транскипції усного мовлення з аудіозаписами

Доступний для пошуку онлайн
Корпус мовлення мешканців Спіша в Польщі [Korpus języka mówionego mieszkańców Spisza]


Транскипції усного мовлення з аудіозаписами
Доступний для пошуку онлайн

Електронний корпус польських текстів 17-18 століть (до 1772 р.) [Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)]

13,5 млн токенів
Доступний для пошуку онлайн
Чеський національний корпус [Český národní korpus]

>4 млрд токенів

Сучасні письмові тексти (понад 4 млрд токенів), усні тексти (понад 7 млн токенів), історичний корпус, паралельний корпус InterCorp, який містить переклади з або на 30+ мов.

Доступний для пошуку онлайн
Старочеський текстовий банк [Staročeská textová banka]



Доступний для пошуку онлайн

База даних пізньосередньовічних біблійних текстів  [Český biblický překlad v diachronním pohledu: Databáze pozdně středověkých biblických textů]





Доступна для пошуку онлайн
Словацький національний корпус [Slovenský národný korpus]

1,5 млрд токенів Тексти різних стилів, жанрів, регіонів, з 1955 р.
Доступний для пошуку онлайн
Нижньолужицький корпус [Dolnoserbski tekstowy korpus]
15 млн токенів
Доступний для пошуку онлайн


Корпуси південнослов'янських мов

Хорватський національний корпус [Hrvatski nacionalni korpus]

217 млн токенів
Доступний для пошуку онлайн
Корпус хорватської мови Riznica [Hrvatski jezični korpus]


Класична художня література (романи, новели, драма, поезія); нехудожні тексти; наукові публікації, підручники для університетів і шкіл; переклади видатних перекладачів; інтернет-журнали та газети; книги періоду стандартизації хорватської мови, адаптовані до сучасної норми
Доступний для пошуку онлайн
Cловенський корпус Nova beseda
318 млн слів Публіцистичні тексти, стенограми засідань Державних зборів, художні, наукові, законодавчі тексти

Доступний для пошуку онлайн
Усний словенський корпус GOS [GOS — GOvorjene Slovenščine]

>1 млн слів Радіо- і телевізійні передачі, шкільні уроки, лекції, приватні розмови, консультації тощо

Доступний для пошуку онлайн
Болгарський національний корпус [Български национален корпус]



Доступний для пошуку онлайн

How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.