Основи CQL

Для того, щоб скористатися CQL, перейдіть до пошуку в корпусі та виберіть опцію CQL. У жодній іншій частині інтерфейсу CQL не працює.

Використовуючи CQL, можна задати комплексні критерії для пошуку одного чи кількох токенів. Критерії для кожного токена мають бути в квадратних дужках [ ], у форматі:

[атрибут="значення"]

Наприклад, щоб знайти лему teapot, використовуйте

[lemma="teapot"]

Кожен токен має міститися в окремій парі квадратних дужок. Для пошуку фрази refill the teapot введіть:

[lemma="refill"][lemma="the"][lemma="teapot"]

Пробіли

Пробіли не виконують жодної функції в CQL. Можна використовувати пробіли, щоб зробити текст зручнішим для читання. Такий код нічим не відрізняється від попереднього:

[ lemma = "refill" ] [ lemma = "the" ] [ lemma= "teapot" ]

Але в лапках не повинно бути жодних пробілів. Наприклад, такий пошук не дасть результатів, оскільки лема ніколи не може починатися з пробілів:

[lemma=" the"]

Ще приклади

ЗАВДАННЯ -> CQL КОД -> РЕЗУЛЬТАТ

знайти приклади “went” -> [word="went"] -> конкорданс словоформи went

знайти приклади усіх форм слова go -> [lemma="go"] -> конкорданс слів go, goes, going, gone, went

знайти приклади усіх слів з тегом NP -> [tag="NP"] -> конкорданс різноманітних слів з тегом NP

Слова, що починаються на.., закінчуються на.. або містять..

ЗАВДАННЯ -> CQL КОД

слова, що починаються на confus- -> [lemma="confus.*"]

слова, що зкінчуються на -ious -> [lemma=".*ious"]

слова з трьох літер, які починаються на b- та закінчуються на -g -> [lemma="b.g"]

Програма підтримує весь набір регулярних виразів. Можна використовувати комплексні критерії.

 

За допомогою CQL (Corpus Query Language) можна писати запити для пошуку одного токена (слова або іншого елемента тексту) або сполучення кількох токенів.

Умови для кожного токена повинні бути записані в квадратних дужках, наприклад,

для пошуку слова -

[lemma="стілець"]

для пошуку сполучення -

[lemma="взяти"] [lemma="стілець"]

В корпусі є можливість шукати за частиною словоформи, леми або набору тегів, тоді ставити .* (будь-що). Наприклад:

[lemma="ви.*"] - шукаємо всі слова, які починаються з ви-.

[tag="verb.*"] - шукаємо будь-яке дієслово з будь-якими граматичними ознаками

 [tag="verb.*" & lemma="ви.*" ] - дієслова на ви-

[tag="(verb|noun).*" & lemma="ви.*" ] - дієслово або іменник на ви-

 

Щоб шукати одночасно кілька варіантів, треба ставити знак | ("або"), наприклад, CQL:

[lemma="через|крізь"]

Якщо варіанти (чи один з них) складаються з кількох слів, треба використовувати дужки, наприклад, CQL:

[word="матиму"] | ([word="буду" ] [word="мати"])

Результат такий:

✓ | ✗ матиму 1,576

✓ | ✗ буду мати 264

 

Додати умову до літер (наприклад, [[:lower:]] - лише маленькі) до звичайного запиту CQL (наприклад, [word=".*івка"&tag!="(noun|adj).*"] - пошук словоформ на -івка, які не мають тегів іменника чи прикметника) можна так:

[word="[[:lower:]].*івка"&tag!="(noun|adj).*"]

Або те саме можна знайти так:

[word="[а-яіїєґ].*івка"&tag!="(noun|adj).*"]

Шукати вживання двох чи більше слів, між якими можуть бути інші слова:

[lemma="брати"] []{0,4} [word="ножа"]

Так ми знайдемо випадки «брати ножа», «брати гострого ножа», «брати в руку ножа», «брати зі стола гострого ножа» тощо. У фігурних дужках можна задати будь-яку відстань, у цьому прикладі стоїть: від 0 до 4 токенів.

 

Шукати сполучення із будь-якою кількістю певних токенів:

[lemma="брати"] [tag="adj.*"]* [word="ножа"]

Так ми знайдемо випадки «брати ножа», «брати гострого ножа», «брати гострого довгого ножа», «брати гострого довгого сталевого ножа». Зірочка біля токена adj означає, що прикметників може бути будь-яка кількість, у тому числі 0.

___ 

Порівняння лексем у запиті

Глобальна умова використовується для порівняння лексем між собою та встановлення додаткових опцій для окремих лексем.

Перед встановленням глобальних умов, лексеми повинні бути промарковані. Мітка — це цифра, за якою слідує двокрапка, наприклад 2: []. У самому кінці запиту, після символу “амперсанд” &, потрібно додати умову.

Цей запит знайде будь-які дві лексеми, тег яких однаковий, тобто два іменники, два прикметники, два дієслова тощо:

1:[] 2:[] & 1.tag = 2.tag

(Примітка. Зверніть увагу, що в корпусі є нелематизовані слова, у яких лема і теги пусті. Усі такі слова розпізнаються, як слова з однаковими лемами та тегами.)

В умові можна промаркувати більше, ніж одну позицію.

Цей запит є розширенням попереднього. Він знаходить два слова з однаковою міткою та інше слово, розміщене на відстані до 10 слів, лема якого є такою ж, що і лема першого слова. Наприклад, сучасні інформаційні технології проривають національні кордони і перетворюють сучасний світ в «глобальну інформаційну сіть».

1:[tag="adj.*"] 2:[] []{3,8} 3:[] & 1.tag = 2.tag & 3.lemma=1.lemma

Пошук у межах одного речення

Зауважте, що використання операторів "containing" чи "within", може вимагати круглих дужок навколо першої частини запиту.

(1:[tag="N.*"] [ ]{0,3} 2:[] within < s/>) & 1.lemma=2.lemma

Частотність слова з глобальними умовами

Цей запит знайде вираз із 2 слів, що складається з високочастотного та низькочастотного слова, тобто, коли перше слово має частоту вищу за 10 000, а друге — нижчу за 50. Наприклад, весело теревенячи

1: [] 2: [] & f(1.lemma)>10000 & f(2.lemma)<50 


Докладніше про пошук – в інструкції (англ.): https://www.sketchengine.eu/documentation/

Переклад інструкції: А. Власенко, А. Худяк.


How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.