Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку та використання корпусів.
Розв'язування задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання.
За останнє десятиліття корпусна лінгвістика швидко прийняла той досвід, який був накопичений в інших достатньо розвинених галузях, що об'єднуються терміном АОТ (автоматична обробка тексту), або ж АРТ (автоматичне розуміння тексту), корпусна лінгвістика сьогодні має дві лінії розвитку — лінгвістичний аналіз тексту і інформаційний аналіз тексту.
Інформаційний аналіз реалізується в системах типу ІПС (інформаційно-пошукові системи), а лінгвістичний аналіз прагне інтерпретувати, виявити сенс тексту, при цьому лінгвістичний аналіз характеризується локальністю, тобто проходить в рамках однієї пропозиції. Інформаційний аналіз, навпаки, «бачить» текст як ціле. Ці два напрями розвивалися майже паралельно, практично ніяк не стикаючись, унаслідок чого не отримали достатнього розвитку. Лінгвістичний аналіз не дав коректного машинного перекладу, оскільки одна неправильно інтерпретована фраза може в контексті набувати абсолютно іншого значення.
Корпуси
Нині в науковому словнику лінгвістів з'являються дуже близькі поняття: «електронні бібліотеки», «масив текстів», «колекція текстів», «електронний архів», «повнотекстова база даних». Серед них можна виділити лінгвістичні корпуси, або мовні корпуси. Корпус текстів — це вид корпусу даних, одиницями якого є тексти або їх достатньо значні фрагменти, що включають, наприклад, якісь повні фрагменти макроструктури текстів даної проблемної області.
Корпус текстів характеризується чотирма основними параметрами: по-перше, він повинен бути достатньо великого обсягу; по-друге, корпус повинен бути структурованим або розміченим; по-третє, тексти, складові певного корпусу, повинні бути в електронному варіанті; по-четверте, в поняття «Електронний корпус» входить, як правило, спеціальне програмне забезпечення для роботи з цим корпусом.
Цінність корпусу вбачається в наступному:
- одного разу зроблений корпус може багато разів використовуватися;
- корпус показує мовні дані в їх реальному оточенні, що дозволяє досліджувати лексичну і граматичну структуру мови, а також безперервні процеси мовних змін, що відбуваються в мові впродовж певного відрізка часу;
- корпус характеризується показовістю, або збалансованим складом текстів, що дозволяє використовувати його для тестування пошукових машин, машинних морфологій, систем перекладу, а також використовувати його в різних лінгвістичних дослідженнях;
- корпус має важливе значення для викладання мови, оскільки за допомогою корпусу можна швидко і ефективно перевірити особливості вживання незнайомого слова або граматичної форми.
Робота з корпусами, тобто з масивами текстів, представленими в електронному вигляді, стала одним з основних методів лінгвістичних досліджень. Так, ще в 1960-і роки створювався Браунівський корпус (США), який включає 1 млн слів. Відтоді виникла ціла низка аналогічно побудованих корпусів: LOB корпус (британська англійська у 1960-х роках), Колхапур ([en]), Веллінгтон (новозеландська англійська, Австралійський корпус англійської мови (австралійська англійська), корпус Фраун (на початку 1990-х років американська англійська), а також FLOB Корпус (1990-ті роки британська англійська). Міжнародний корпус англійської мови і Британський національний корпус British National Corpus [ 25 лютого 2011 у Wayback Machine.] включають колекцію зі 100 млн слів розмовного та письмового тексту. Наповнюються інші національні корпуси мов (угорський, італійський, хорватський, чеський, японський) обсягом 100 млн слів. На початку XXI ст. створили American National Corpus [ 13 травня 2008 у Wayback Machine.], 100 млн слів і Gigaword corpora (англійська, арабська, китайська), що включає 1 млрд слів.
Крім корпусу живих мов, з колекцій текстів зробили комп'ютерні корпуси стародавніх мов. Наприклад, з 1970-х років створюється база єврейської Біблії. У [en] зібрано понад 77 тисяч слів.
Перший комп'ютеризований лінгвістичний корпус був розроблений 1971 року Монреальським французьким проектом, що містить один мільйон слів.
Існування корпусів текстів дає можливість значно розширити й автоматизувати аналіз мовного матеріалу, який є найважливішою базою будь-якого лінгвістичного дослідження. Чим більше матеріалів аналізується, тим вища значущість висновків і рівень їх достовірності.
Сучасні комп'ютерні програми дозволяють знаходити потрібні приклади з корпусів текстів, які зберігаються в електронному вигляді на комп'ютері. Це економить значну кількість часу в порівнянні з традиційною технологією збору прикладів вручну.
Відзначимо, що саме анотація, або розмітка, — головна характеристика корпусу, яка і відрізняє його від електронних колекцій, бібліотек, енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту — це приписування тексту певної інформації для зручнішого аналізу.
Існують різні типи розмітки:
- метатекстова розмітка (автор, назва, дата створення, обсяг, тематика тексту і т. д.), яка характеризує текст в цілому;
- структурна розмітка є інформацією про структуру тексту, яка дозволяє відокремити одне слово від іншого, виділити межі словосполучення, речення, тексту;
- лінгвістична розмітка полягає в приписуванні одиницям тексту певної лінгвістичної інформації (заперечне речення або питальне, спонукальне або примикання і т. д.).
Як відомо, чим багатша і різноманітніша розмітка, тим вищою є наукова і навчальна цінність корпусу.
Історія становлення корпусної лінгвістики
В історії корпусної лінгвістики є два ключові моменти, які варто відзначити. По-перше, хоча загально вважається, що ця галузь виникла активно у 60-х роках ХХ століття разом із появою перших комп'ютерних корпусів, У. МакЕнері та А. Вільсон вказують на те, що корпусна лінгвістика має свої коріння в більш ранні періоди. По-друге, якщо розглядати корпусну лінгвістику як вивчення мови на основі реальних прикладів її вживання, то важливо відзначити, що емпіричні дослідження з використанням масштабних корпусів мовних даних відбувалися навіть до початку комп'ютерної ери. Це свідчить про те, що ідея корпусу та його використання поступово розвивалася від "кам'яного віку" до сучасних електронних баз даних. Наприклад, проект "The Survey of English Usage", започаткований у 1959 році Рендольфом Квірком в University College London, є одним із найважливіших у цьому контексті. Початково цей проект базувався на картонних картках, що містили зразки мовлення громадян. Тільки пізніше дані були перенесені у електронний формат. Сьогодні ж цю базу можна оглянути на веб-сайті проекту.
У західному світі становлення корпусної лінгвістики відзначається важливими етапами, серед яких варто виділити період створення перших корпусів. Цей час, припадаючи на 1960-ті роки, був визначним завдяки ряду масштабних досліджень, що стимулювали ідею формування корпусів, які ми зараз знаємо.
Один з найперших комп'ютерних корпусів - Браунівський корпус, був складений у Браунівському університеті в США. Створення цього корпусу було спрямоване на вивчення лінгвістичних особливостей американського варіанту англійської мови. Зразки текстів для корпусу відбиралися з різних жанрів англомовної друкованої прози, опублікованої в 1961 році. Перша версія корпусу містила 500 текстових уривків обсягом приблизно 1 мільйон слів. Цей корпус супроводжувався обширною статистичною обробкою, включаючи частотний і алфавітно-частотний словник, а також різноманітні статистичні розподіли. Започаткований успіх Британського національного корпусу, спрямованого на вивчення британського варіанту англійської мови, надихнув створення американського еквіваленту. У 1999 році було створено консорціум Американського національного корпусу, а в наступних роках були випущені перша та друга частини цього корпусу. Особливістю Американського національного корпусу є те, що він включає жанри, що ще не були представлені у Британському національному корпусі, такі як особисті електронні тести, Інтернет-чати та веб-сторінки.
У 2000-і роки спостерігається швидкий розвиток корпусної лінгвістики, що виявляється у значній кількості нових досліджень у цій галузі. Наприклад, дослідження у лексичній граматиці, лексикографії, когнітивній лінгвістиці, прагматиці, дискурс-аналізі, стилістиці, перекладознавстві та інших напрямках. Крім того, корпуси створюються для багатьох мов світу, що свідчить про загальний інтерес до корпусної лінгвістики.
Нові досягнення у цій галузі публікуються у відомих міжнародних наукових журналах, таких як Corpus, Corpus Linguistics and Linguistic Theory, ICAME Journal. На сьогоднішній день майже для кожної європейської мови існують корпуси текстів різного типу, обсягу та структури. Створення національного корпусу вважається проявом поваги до рідної мови, і хоча українська корпусна лінгвістика ще розвивається, вже здійснено значні досягнення у цій галузі.
Корпуси української мови
В Україні перший доступний для пошуку в інтернеті корпус текстів української мови розроблено співробітниками лабораторії комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка під керівництвом Н. П. Дарчук у 2004 році. Обсяг корпусу — понад 100 млн слововживань. Корпус доступний для пошуку онлайн з 2010 року.
У корпусі зберігаються публіцистичні, художні, наукові, законодавчі, поетичні, фольклорні тексти, опрацьовані автоматичним лінгвістичним аналізатором. Кожній одиниці тексту (морфемі, слову, словосполученню, реченню) приписана супровідна інформація: частиномовна належність, граматична форма, синтаксична функція, контекст тощо. Корпус надає інформацію двох типів:
- Конкорданси, або ж контексти вживання шуканих одиниць (із вказівкою на джерела). За допомогою конкордансів можливо вивчати особливості використання слів у текстах різних стилів, індивідуально-авторські вживання тих чи інших лексем, розвиток нових значень тощо. Конкорданси використовують також для психолінгвістичних та соціолінгвістичних досліджень (вивчення асоціативних зв'язків між словами), у літературознавчому аналізі (для розкриття авторського бачення певних концептів чи образів, особливостей мовної картини світу певного автора) тощо.
- Кількісні характеристики вживання у текстах мовних одиниць. Частотна інформація розкриває закономірності лексичної та статистичної будови текстів, функціонування мови в мовленні, стилістичні особливості, формальні риси одиниць і граматичних категорій.
З 2012 року доступні онлайн паралельні українсько-російський та російсько-український корпуси [ 20 квітня 2013 у Wayback Machine.] у складі Національного корпусу російської мови.
З 2014 року активно розвивається Український вебкорпус Лейпцизького університету (Німеччина) Містить тексти з інтернету, без морфологічної розмітки.
З 2017 року діє Генеральний регіонально анотований корпус української мови (ГРАК [ 1 вересня 2018 у Wayback Machine.]). Обсяг десятої версії корпусу понад 650 млн токенів.
ГРАК містить тексти 1816—2020 років, має розгалужену метарозмітку. Тексти корпусу датовано (роком написання і роком публікації), розмічено за автором, стилем, жанром, регіоном чи країною створення, правописом тощо. У ГРАКу вперше представлено великий корпус текстів діаспори (близько 40 млн токенів). ГРАК містить оригінальні та перекладні українські тексти. Морфологічну анотацію корпусу здійснено за допомогою інструмента аналізу української мови на основі словника ВЕСУМ та рушія LanguageTool. Для пошуку в корпусі використано корпусний менеджер NoSketchEngine, який дає можливість шукати в цілому корпусі або частині корпусу, отримувати конкорданси, частотні списки, завантажувати результати для подальшої роботи з ними. На сайті ГРАКа доступні додаткові інструменти, такі як інструмент для візуалізації результатів пошуку у вигляді графіків частотності за роками, інструмент для пошуку за великим списком, інструмент для аналізу складу корпусу.
2018 року було презентовано українсько-польський корпусний проєкт «Лабораторія української», у межах якого є корпус зі знятою вручну омонімією та синтаксичною розміткою обсягом 140 тис. слів, вебкорпус обсягом майже 3 млрд слів (Україна, Польща), паралельні корпуси. Морфологічну розмітку корпусів здійснено за допомогою системи Universal Dependencies. Пошук працює на основі NoSketchEngine.
Браунський український корпус [ 26 липня 2020 у Wayback Machine.] — на стадії розроблення
Lang-uk [ 31 липня 2019 у Wayback Machine.] Корпуси українських текстів, доступні для завантаження: новини, Вікіпедія, художні тексти, веб. Обсяг близько 600 млн токенів.
Корпус бібліотеки «Чтиво» [ 6 липня 2019 у Wayback Machine.]: автоматично розпізнані тексти книжок. Обсяг близько 600 млн токенів. Пошук здійснюється дослівно (без лематизації та морфологічного аналізу).
Укладено корпус текстів великої прози І. Франка із роззначенням мовлення автора і прямого мовлення, а також морфологічною та семантичною анотацією.
Конкорданси
Простір електронних текстових корпусів дав можливість результативного використання електронних конкордансів, які відкривають перспективи моделювання мовної картини світу. Конкорданс є спеціалізованою лінгвістичною прикладною програмою, за допомогою якої здійснюється автоматична вибірка заданих мовних одиниць з електронних текстів. Функцію конкордансу можна порівняти з функцією пошуку в текстовому редакторові, проте можливості конкордансу ширші — він аналізує не один, а відразу декілька текстів або корпусів електронних текстів, при цьому конкорданс виводить на екран інформацію про контекст використання заданих мовних одиниць. Залежно від технічних можливостей конкорданс може надавати інформацію про частотність вживання і сполучуваності тієї або іншої мовної одиниці, а також дає можливість звертатися до конкретного тексту, в якому був знайдений приклад.
Існують такі конкорданси для українських текстів:
- електронний конкорданс повних творів Григорія Сковороди на сайті Албертського університету в Канаді,
- онлайн конкорданс роману Івана Франка «Перехресні стежки» (автори: Бук С., Ровенчак А.) на сторінці Львівського університету.
Комп'ютерна лексикографія
Безумовно, корпусна лінгвістика яскраво і чітко репрезентує себе в одному з перспективних напрямів — комп'ютерної лексикографії. Електронні словники і енциклопедії розробляються сьогодні як автономні і мережеві програмні продукти. Не викликає сумніву той факт, що електронні словники надають користувачеві безліч додаткових можливостей в порівнянні з друкарськими аналогами:
- дозволяють зберігати великий обсяг інформації за рахунок використання гіперпосилань;
- електронний словник має ефективну систему пошуку (повнотекстовий пошук, одночасний пошук в декількох словниках, швидкість пошуку);
- у електронних словниках можуть застосовуватися засоби мультимедіа: озвучування заголовних слів, введення ілюстративного матеріалу з фотографіями, анімацією, відеофрагментами;
- можливість використання словників в локальній і глобальній мережах;
- значна економія часу і матеріальних ресурсів при створенні комп'ютерних словників.
Значний досвід досліджень в комп'ютерній лексикографії дозволяє розширити можливості вивчення смислової структури політичного слова. Так, сьогодні в наукових проектах активно розробляється ідея, пов'язана з організацією концептуального простору мови політики з позиції гіпертекстової єдності.
Кажучи про специфіку змісту такого словника, відзначимо, що слово в електронному варіанті реалізується в семантичному макрополі, що складається з декількох полів, збудованих в певну систему:
- поле індексації служить для зручного пошуку в базі даних;
- поле заголовного слова;
- поле граматичної інформації, прагматичне навантаження якої пов'язане з конкретним граматичним статусом в текстах;
- поле етимологічних довідок;
- поле авторського тлумачення будується не по всій семантичній парадигмі слова, а лише по її основній частині, тематично пов'язаній з політичною сферою вживання;
- поле ілюстрацій працює для верифікації дефініції, тим самим виявляє семантику політичного слова в певному контекстуальному оточенні. Важливо відзначити, що в словнику ілюстрації з текстів різних жанрів використовуються і в традиційному вигляді як виправдувальний контекст (це особливо важливо для метафоричних значень) і як лексикографічний прийом, що допомагає створити просторова, тимчасова і соціально-історична перспективи;
- поле фразеології;
- поле енциклопедичних відомостей відображає основні етапи становлення даної дефініції, еволюцію його домінантних ознак.
Комп'ютерне забезпечення словника довідкового типу складається з двох складових:
- база даних словника визначається системою керування базами даних;
- інтерфейс розробляється спеціально для даного словника. Базою для його реалізації послужила мова програмування Delphi, який дозволяє здійснювати завдання автоматичного пошуку слів, а також зручній навігації усередині словника.
Наведемо лексикографічний віртуальний портрет слова ескалація.
Слово в електронному словнику представлене в 4-х полях:
- поле 1 складається з блоку заголовного слова, блоку граматичних послід, етимона. У цьому ж полі обов'язковим елементом є блок авторського тлумачення;
- поле 2 представлено ілюстративним матеріалом Корпусу російської національної мови. Ці ілюстрації допомагають описати семантичну структуру слова і визначити комунікативний статус слова;
- поле 3 — мікроструктура електронного словника, що включає дефініції сучасних тямущих і тямущо-довідкових видань.
- поле 4 є, на наш погляд, необхідною структурною частиною електронного довідкового видання і містить енциклопедичні відомості про дане поняття. У великому енциклопедичному словнику, наприклад, дане слово визначається як розширення, нарощування (озброєнь тощо), поступове посилення, розповсюдження (конфлікту тощо), загострення (положення тощо).
Саме 3-і і 4-і поля можуть описати динаміку розвитку семантики слова. Наприклад, слово ескалація в сучасних словниках політичної мови представлено з імпліцитним негативним прагматичним компонентом, обумовленим категоріальною семою дія, направлена на негативний результат, що підтверджується «Полем ілюстрацій».
Таким чином, словник є систематизований алфавітний масив ядерної політичної лексики. Пропоноване лексикографічне дослідження дає можливість виявити основні тенденції в розвитку ядерної політичної лексики, забезпечити доступність словника за рахунок ефективної системи пошуку, а також зберігати великий обсяг інформації за рахунок гіперпосилань.
Див. також
Примітки
- . Архів оригіналу за 10 червня 2008. Процитовано 5 червня 2008.
- Andersen, Francis I.; Forbes, A. Dean (2003), «Hebrew Grammar Visualized: I. Syntax», Ancient Near Eastern Studies 40, pp. 43–61
- Eyland, E. Ann (1987), «Revelations from Word Counts», in Newing, Edward G.; Conrad, Edgar W., Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake
- Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.
- Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7–64.
- Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411—451.
- . Архів оригіналу за 2 травня 2022. Процитовано 19 травня 2016.
- . Архів оригіналу за 12 червня 2016. Процитовано 19 травня 2016.
- . Архів оригіналу за 19 листопада 2011. Процитовано 18 травня 2017.
{{}}
: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title () - . Архів оригіналу за 11 грудня 2016. Процитовано 17 грудня 2020.
{{}}
: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title ()
Посилання
- Корпус української мови Лабораторії комп'ютерної лінгвістики Київського національного університету імені Тараса Шевченка (доступний для онлайн-пошуку) [ 1 травня 2013 у Wayback Machine.]
- . uacorpus.org. Архів оригіналу за 1 вересня 2018. Процитовано 6 січня 2021.
- Лабораторія української [ 6 травня 2021 у Wayback Machine.]
- Неанотований корпус української мови korpus.org.ua [ 6 липня 2019 у Wayback Machine.]
- 238 Corpus-Based Monolingual Dictionaries for 219 Languages, зокрема корпус українських текстів (понад 102 млн речень).
- Паралельні українсько-російський та російсько-український корпуси на сайті Національного корпусу російської мови [ 20 квітня 2013 у Wayback Machine.]
- Паралельний польсько-український та українсько-польський корпус автоперекладів Івана Франка
- Перелік посилань на лінгвістичні корпуси на сайті Національного корпусу російської мови [ 20 квітня 2013 у Wayback Machine.] (рос.)
- Демська-Кульчицька О. Основи національного корпусу української мови.— К.: Інститут української мови національної академії наук України, 2005.— 219 с.
- Корпусна лінгвістика / В. А. Широков, О. В. Бугаков, Т. О. Грязнухіна та ін. — К.: Довіра, 2005. — 471 с.
- Бук С. Велика проза Івана Франка: електронний корпус, частотні словники та інші міждисциплінарні контексти : монографія / Львів : ЛНУ імені Івана Франка, 2021. 424 с.
- Корпус текстів Івана Франка: спроба визначення основних параметрів // Прикладна лінгвістика та лінгвістичні технології: MegaLing‑2006: Зб. наук. пр. / НАН України. Укр. мовн.-інформ. фонд, Таврійськ. нац. ун‑т ім. В. І. Вернадського; за ред. В. А. Широкова.— К.: Довіра, 2007.— С. 72–82.
- Бук С. Архітектура польсько-українського та українсько-польського паралельного корпусу автоперекладів Івана Франка // Slavia Orientalis. 2012. T. LXI, Nr 2. С. 213-230.
- Бук С. Корпус текстів у лінгводидактиці (на матеріалі омонімії у корпусі великої прози Івана Франка) // Вісник Львівського університету. Серія філологічна. 2012. Вип. 57. С. 106–116.
- Shvedova M. The General Regionally Annotated Corpus of Ukrainian (GRAC, uacorpus.org): Architecture and Functionality // Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020. P. 489—506. [ 9 січня 2021 у Wayback Machine.]
- Шведова M. Генеральний регіонально анотований корпус української мови (ГРАК) як інструмент дослідження лексико-граматичної варіативності // Людина. Комп'ютер. Комунікація: Збірник наукових праць / за ред. проф. О. П. Левченко. Видавництво Львівської політехніки, 2019. — С. 145—148.
- В. Старко, А. Рисін. Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови (2020)
- Starko V. Semantic Annotation for Ukrainian: Categorization Scheme, Principles, and Tools [ 9 січня 2021 у Wayback Machine.] // Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020.
- Buk S. The epіthetіzatіon іndex іn a work of fіctіon (on the basіs of the Text Corpus of Іvan Franko’s Long Prose Fіctіon) // Practіcal Applіcatіons of Lіnguіstіc Research / ed. by Anna Obrębska. Łódź : Prіmum Verbum, 2012. P. 73–85.
- Buk S. Dіstіnguіshіng quantіtatіve parameters of author’s language and style (A case of Іvan Franko long prose fіctіon) // Вісник Львівського університету. Серія філологічна. № 70 (2019). Випуск 70. C. 299–308.
Цю статтю треба для відповідності Вікіпедії. (Грудень 2008) |
Це незавершена стаття з мовознавства. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ko rpusna lingvi stika rozdil movoznavstva sho vivchaye stvorennya obrobku ta vikoristannya korpusiv Rozv yazuvannya zadach pov yazanih z poshukom prikladiv sho ilyustruyut te abo inshe movne yavishe a takozh z utochnennyam vzhivannya okremih leksem privelo do poyavi novogo napryamu v prikladnij lingvistici korpusnoyi lingvistiki tobto nauki sho vivchaye stvorennya korpusiv tekstiv i yihnye vikoristannya Za ostannye desyatilittya korpusna lingvistika shvidko prijnyala toj dosvid yakij buv nakopichenij v inshih dostatno rozvinenih galuzyah sho ob yednuyutsya terminom AOT avtomatichna obrobka tekstu abo zh ART avtomatichne rozuminnya tekstu korpusna lingvistika sogodni maye dvi liniyi rozvitku lingvistichnij analiz tekstu i informacijnij analiz tekstu Informacijnij analiz realizuyetsya v sistemah tipu IPS informacijno poshukovi sistemi a lingvistichnij analiz pragne interpretuvati viyaviti sens tekstu pri comu lingvistichnij analiz harakterizuyetsya lokalnistyu tobto prohodit v ramkah odniyeyi propoziciyi Informacijnij analiz navpaki bachit tekst yak cile Ci dva napryami rozvivalisya majzhe paralelno praktichno niyak ne stikayuchis unaslidok chogo ne otrimali dostatnogo rozvitku Lingvistichnij analiz ne dav korektnogo mashinnogo perekladu oskilki odna nepravilno interpretovana fraza mozhe v konteksti nabuvati absolyutno inshogo znachennya KorpusiDokladnishe Korpus tekstiv Nini v naukovomu slovniku lingvistiv z yavlyayutsya duzhe blizki ponyattya elektronni biblioteki masiv tekstiv kolekciya tekstiv elektronnij arhiv povnotekstova baza danih Sered nih mozhna vidiliti lingvistichni korpusi abo movni korpusi Korpus tekstiv ce vid korpusu danih odinicyami yakogo ye teksti abo yih dostatno znachni fragmenti sho vklyuchayut napriklad yakis povni fragmenti makrostrukturi tekstiv danoyi problemnoyi oblasti Korpus tekstiv harakterizuyetsya chotirma osnovnimi parametrami po pershe vin povinen buti dostatno velikogo obsyagu po druge korpus povinen buti strukturovanim abo rozmichenim po tretye teksti skladovi pevnogo korpusu povinni buti v elektronnomu varianti po chetverte v ponyattya Elektronnij korpus vhodit yak pravilo specialne programne zabezpechennya dlya roboti z cim korpusom Cinnist korpusu vbachayetsya v nastupnomu odnogo razu zroblenij korpus mozhe bagato raziv vikoristovuvatisya korpus pokazuye movni dani v yih realnomu otochenni sho dozvolyaye doslidzhuvati leksichnu i gramatichnu strukturu movi a takozh bezperervni procesi movnih zmin sho vidbuvayutsya v movi vprodovzh pevnogo vidrizka chasu korpus harakterizuyetsya pokazovistyu abo zbalansovanim skladom tekstiv sho dozvolyaye vikoristovuvati jogo dlya testuvannya poshukovih mashin mashinnih morfologij sistem perekladu a takozh vikoristovuvati jogo v riznih lingvistichnih doslidzhennyah korpus maye vazhlive znachennya dlya vikladannya movi oskilki za dopomogoyu korpusu mozhna shvidko i efektivno pereviriti osoblivosti vzhivannya neznajomogo slova abo gramatichnoyi formi Robota z korpusami tobto z masivami tekstiv predstavlenimi v elektronnomu viglyadi stala odnim z osnovnih metodiv lingvistichnih doslidzhen Tak she v 1960 i roki stvoryuvavsya Braunivskij korpus SShA yakij vklyuchaye 1 mln sliv Vidtodi vinikla cila nizka analogichno pobudovanih korpusiv LOB korpus britanska anglijska u 1960 h rokah Kolhapur en Vellington novozelandska anglijska Avstralijskij korpus anglijskoyi movi avstralijska anglijska korpus Fraun na pochatku 1990 h rokiv amerikanska anglijska a takozh FLOB Korpus 1990 ti roki britanska anglijska Mizhnarodnij korpus anglijskoyi movi i Britanskij nacionalnij korpus British National Corpus 25 lyutogo 2011 u Wayback Machine vklyuchayut kolekciyu zi 100 mln sliv rozmovnogo ta pismovogo tekstu Napovnyuyutsya inshi nacionalni korpusi mov ugorskij italijskij horvatskij cheskij yaponskij obsyagom 100 mln sliv Na pochatku XXI st stvorili American National Corpus 13 travnya 2008 u Wayback Machine 100 mln sliv i Gigaword corpora anglijska arabska kitajska sho vklyuchaye 1 mlrd sliv Krim korpusu zhivih mov z kolekcij tekstiv zrobili komp yuterni korpusi starodavnih mov Napriklad z 1970 h rokiv stvoryuyetsya baza yevrejskoyi Bibliyi U en zibrano ponad 77 tisyach sliv Pershij komp yuterizovanij lingvistichnij korpus buv rozroblenij 1971 roku Monrealskim francuzkim proektom sho mistit odin miljon sliv Isnuvannya korpusiv tekstiv daye mozhlivist znachno rozshiriti j avtomatizuvati analiz movnogo materialu yakij ye najvazhlivishoyu bazoyu bud yakogo lingvistichnogo doslidzhennya Chim bilshe materialiv analizuyetsya tim visha znachushist visnovkiv i riven yih dostovirnosti Suchasni komp yuterni programi dozvolyayut znahoditi potribni prikladi z korpusiv tekstiv yaki zberigayutsya v elektronnomu viglyadi na komp yuteri Ce ekonomit znachnu kilkist chasu v porivnyanni z tradicijnoyu tehnologiyeyu zboru prikladiv vruchnu Vidznachimo sho same anotaciya abo rozmitka golovna harakteristika korpusu yaka i vidriznyaye jogo vid elektronnih kolekcij bibliotek enciklopedij shiroko predstavlenih v suchasnomu Interneti Rozmitka tekstu ce pripisuvannya tekstu pevnoyi informaciyi dlya zruchnishogo analizu Isnuyut rizni tipi rozmitki metatekstova rozmitka avtor nazva data stvorennya obsyag tematika tekstu i t d yaka harakterizuye tekst v cilomu strukturna rozmitka ye informaciyeyu pro strukturu tekstu yaka dozvolyaye vidokremiti odne slovo vid inshogo vidiliti mezhi slovospoluchennya rechennya tekstu lingvistichna rozmitka polyagaye v pripisuvanni odinicyam tekstu pevnoyi lingvistichnoyi informaciyi zaperechne rechennya abo pitalne sponukalne abo primikannya i t d Yak vidomo chim bagatsha i riznomanitnisha rozmitka tim vishoyu ye naukova i navchalna cinnist korpusu Istoriya stanovlennya korpusnoyi lingvistikiV istoriyi korpusnoyi lingvistiki ye dva klyuchovi momenti yaki varto vidznachiti Po pershe hocha zagalno vvazhayetsya sho cya galuz vinikla aktivno u 60 h rokah HH stolittya razom iz poyavoyu pershih komp yuternih korpusiv U MakEneri ta A Vilson vkazuyut na te sho korpusna lingvistika maye svoyi korinnya v bilsh ranni periodi Po druge yaksho rozglyadati korpusnu lingvistiku yak vivchennya movi na osnovi realnih prikladiv yiyi vzhivannya to vazhlivo vidznachiti sho empirichni doslidzhennya z vikoristannyam masshtabnih korpusiv movnih danih vidbuvalisya navit do pochatku komp yuternoyi eri Ce svidchit pro te sho ideya korpusu ta jogo vikoristannya postupovo rozvivalasya vid kam yanogo viku do suchasnih elektronnih baz danih Napriklad proekt The Survey of English Usage zapochatkovanij u 1959 roci Rendolfom Kvirkom v University College London ye odnim iz najvazhlivishih u comu konteksti Pochatkovo cej proekt bazuvavsya na kartonnih kartkah sho mistili zrazki movlennya gromadyan Tilki piznishe dani buli pereneseni u elektronnij format Sogodni zh cyu bazu mozhna oglyanuti na veb sajti proektu U zahidnomu sviti stanovlennya korpusnoyi lingvistiki vidznachayetsya vazhlivimi etapami sered yakih varto vidiliti period stvorennya pershih korpusiv Cej chas pripadayuchi na 1960 ti roki buv viznachnim zavdyaki ryadu masshtabnih doslidzhen sho stimulyuvali ideyu formuvannya korpusiv yaki mi zaraz znayemo Odin z najpershih komp yuternih korpusiv Braunivskij korpus buv skladenij u Braunivskomu universiteti v SShA Stvorennya cogo korpusu bulo spryamovane na vivchennya lingvistichnih osoblivostej amerikanskogo variantu anglijskoyi movi Zrazki tekstiv dlya korpusu vidbiralisya z riznih zhanriv anglomovnoyi drukovanoyi prozi opublikovanoyi v 1961 roci Persha versiya korpusu mistila 500 tekstovih urivkiv obsyagom priblizno 1 miljon sliv Cej korpus suprovodzhuvavsya obshirnoyu statistichnoyu obrobkoyu vklyuchayuchi chastotnij i alfavitno chastotnij slovnik a takozh riznomanitni statistichni rozpodili Zapochatkovanij uspih Britanskogo nacionalnogo korpusu spryamovanogo na vivchennya britanskogo variantu anglijskoyi movi nadihnuv stvorennya amerikanskogo ekvivalentu U 1999 roci bulo stvoreno konsorcium Amerikanskogo nacionalnogo korpusu a v nastupnih rokah buli vipusheni persha ta druga chastini cogo korpusu Osoblivistyu Amerikanskogo nacionalnogo korpusu ye te sho vin vklyuchaye zhanri sho she ne buli predstavleni u Britanskomu nacionalnomu korpusi taki yak osobisti elektronni testi Internet chati ta veb storinki U 2000 i roki sposterigayetsya shvidkij rozvitok korpusnoyi lingvistiki sho viyavlyayetsya u znachnij kilkosti novih doslidzhen u cij galuzi Napriklad doslidzhennya u leksichnij gramatici leksikografiyi kognitivnij lingvistici pragmatici diskurs analizi stilistici perekladoznavstvi ta inshih napryamkah Krim togo korpusi stvoryuyutsya dlya bagatoh mov svitu sho svidchit pro zagalnij interes do korpusnoyi lingvistiki Novi dosyagnennya u cij galuzi publikuyutsya u vidomih mizhnarodnih naukovih zhurnalah takih yak Corpus Corpus Linguistics and Linguistic Theory ICAME Journal Na sogodnishnij den majzhe dlya kozhnoyi yevropejskoyi movi isnuyut korpusi tekstiv riznogo tipu obsyagu ta strukturi Stvorennya nacionalnogo korpusu vvazhayetsya proyavom povagi do ridnoyi movi i hocha ukrayinska korpusna lingvistika she rozvivayetsya vzhe zdijsneno znachni dosyagnennya u cij galuzi Korpusi ukrayinskoyi moviV Ukrayini pershij dostupnij dlya poshuku v interneti korpus tekstiv ukrayinskoyi movi rozrobleno spivrobitnikami laboratoriyi komp yuternoyi lingvistiki Institutu filologiyi Kiyivskogo nacionalnogo universitetu imeni Tarasa Shevchenka pid kerivnictvom N P Darchuk u 2004 roci Obsyag korpusu ponad 100 mln slovovzhivan Korpus dostupnij dlya poshuku onlajn z 2010 roku U korpusi zberigayutsya publicistichni hudozhni naukovi zakonodavchi poetichni folklorni teksti opracovani avtomatichnim lingvistichnim analizatorom Kozhnij odinici tekstu morfemi slovu slovospoluchennyu rechennyu pripisana suprovidna informaciya chastinomovna nalezhnist gramatichna forma sintaksichna funkciya kontekst tosho Korpus nadaye informaciyu dvoh tipiv Konkordansi abo zh konteksti vzhivannya shukanih odinic iz vkazivkoyu na dzherela Za dopomogoyu konkordansiv mozhlivo vivchati osoblivosti vikoristannya sliv u tekstah riznih stiliv individualno avtorski vzhivannya tih chi inshih leksem rozvitok novih znachen tosho Konkordansi vikoristovuyut takozh dlya psiholingvistichnih ta sociolingvistichnih doslidzhen vivchennya asociativnih zv yazkiv mizh slovami u literaturoznavchomu analizi dlya rozkrittya avtorskogo bachennya pevnih konceptiv chi obraziv osoblivostej movnoyi kartini svitu pevnogo avtora tosho Kilkisni harakteristiki vzhivannya u tekstah movnih odinic Chastotna informaciya rozkrivaye zakonomirnosti leksichnoyi ta statistichnoyi budovi tekstiv funkcionuvannya movi v movlenni stilistichni osoblivosti formalni risi odinic i gramatichnih kategorij Z 2012 roku dostupni onlajn paralelni ukrayinsko rosijskij ta rosijsko ukrayinskij korpusi 20 kvitnya 2013 u Wayback Machine u skladi Nacionalnogo korpusu rosijskoyi movi Z 2014 roku aktivno rozvivayetsya Ukrayinskij vebkorpus Lejpcizkogo universitetu Nimechchina Mistit teksti z internetu bez morfologichnoyi rozmitki Z 2017 roku diye Generalnij regionalno anotovanij korpus ukrayinskoyi movi GRAK 1 veresnya 2018 u Wayback Machine Obsyag desyatoyi versiyi korpusu ponad 650 mln tokeniv GRAK mistit teksti 1816 2020 rokiv maye rozgaluzhenu metarozmitku Teksti korpusu datovano rokom napisannya i rokom publikaciyi rozmicheno za avtorom stilem zhanrom regionom chi krayinoyu stvorennya pravopisom tosho U GRAKu vpershe predstavleno velikij korpus tekstiv diaspori blizko 40 mln tokeniv GRAK mistit originalni ta perekladni ukrayinski teksti Morfologichnu anotaciyu korpusu zdijsneno za dopomogoyu instrumenta analizu ukrayinskoyi movi na osnovi slovnika VESUM ta rushiya LanguageTool Dlya poshuku v korpusi vikoristano korpusnij menedzher NoSketchEngine yakij daye mozhlivist shukati v cilomu korpusi abo chastini korpusu otrimuvati konkordansi chastotni spiski zavantazhuvati rezultati dlya podalshoyi roboti z nimi Na sajti GRAKa dostupni dodatkovi instrumenti taki yak instrument dlya vizualizaciyi rezultativ poshuku u viglyadi grafikiv chastotnosti za rokami instrument dlya poshuku za velikim spiskom instrument dlya analizu skladu korpusu 2018 roku bulo prezentovano ukrayinsko polskij korpusnij proyekt Laboratoriya ukrayinskoyi u mezhah yakogo ye korpus zi znyatoyu vruchnu omonimiyeyu ta sintaksichnoyu rozmitkoyu obsyagom 140 tis sliv vebkorpus obsyagom majzhe 3 mlrd sliv Ukrayina Polsha paralelni korpusi Morfologichnu rozmitku korpusiv zdijsneno za dopomogoyu sistemi Universal Dependencies Poshuk pracyuye na osnovi NoSketchEngine Braunskij ukrayinskij korpus 26 lipnya 2020 u Wayback Machine na stadiyi rozroblennya Lang uk 31 lipnya 2019 u Wayback Machine Korpusi ukrayinskih tekstiv dostupni dlya zavantazhennya novini Vikipediya hudozhni teksti veb Obsyag blizko 600 mln tokeniv Korpus biblioteki Chtivo 6 lipnya 2019 u Wayback Machine avtomatichno rozpiznani teksti knizhok Obsyag blizko 600 mln tokeniv Poshuk zdijsnyuyetsya doslivno bez lematizaciyi ta morfologichnogo analizu Ukladeno korpus tekstiv velikoyi prozi I Franka iz rozznachennyam movlennya avtora i pryamogo movlennya a takozh morfologichnoyu ta semantichnoyu anotaciyeyu KonkordansiDokladnishe Konkordans Prostir elektronnih tekstovih korpusiv dav mozhlivist rezultativnogo vikoristannya elektronnih konkordansiv yaki vidkrivayut perspektivi modelyuvannya movnoyi kartini svitu Konkordans ye specializovanoyu lingvistichnoyu prikladnoyu programoyu za dopomogoyu yakoyi zdijsnyuyetsya avtomatichna vibirka zadanih movnih odinic z elektronnih tekstiv Funkciyu konkordansu mozhna porivnyati z funkciyeyu poshuku v tekstovomu redaktorovi prote mozhlivosti konkordansu shirshi vin analizuye ne odin a vidrazu dekilka tekstiv abo korpusiv elektronnih tekstiv pri comu konkordans vivodit na ekran informaciyu pro kontekst vikoristannya zadanih movnih odinic Zalezhno vid tehnichnih mozhlivostej konkordans mozhe nadavati informaciyu pro chastotnist vzhivannya i spoluchuvanosti tiyeyi abo inshoyi movnoyi odinici a takozh daye mozhlivist zvertatisya do konkretnogo tekstu v yakomu buv znajdenij priklad Isnuyut taki konkordansi dlya ukrayinskih tekstiv elektronnij konkordans povnih tvoriv Grigoriya Skovorodi na sajti Albertskogo universitetu v Kanadi onlajn konkordans romanu Ivana Franka Perehresni stezhki avtori Buk S Rovenchak A na storinci Lvivskogo universitetu Komp yuterna leksikografiyaBezumovno korpusna lingvistika yaskravo i chitko reprezentuye sebe v odnomu z perspektivnih napryamiv komp yuternoyi leksikografiyi Elektronni slovniki i enciklopediyi rozroblyayutsya sogodni yak avtonomni i merezhevi programni produkti Ne viklikaye sumnivu toj fakt sho elektronni slovniki nadayut koristuvachevi bezlich dodatkovih mozhlivostej v porivnyanni z drukarskimi analogami dozvolyayut zberigati velikij obsyag informaciyi za rahunok vikoristannya giperposilan elektronnij slovnik maye efektivnu sistemu poshuku povnotekstovij poshuk odnochasnij poshuk v dekilkoh slovnikah shvidkist poshuku u elektronnih slovnikah mozhut zastosovuvatisya zasobi multimedia ozvuchuvannya zagolovnih sliv vvedennya ilyustrativnogo materialu z fotografiyami animaciyeyu videofragmentami mozhlivist vikoristannya slovnikiv v lokalnij i globalnij merezhah znachna ekonomiya chasu i materialnih resursiv pri stvorenni komp yuternih slovnikiv Znachnij dosvid doslidzhen v komp yuternij leksikografiyi dozvolyaye rozshiriti mozhlivosti vivchennya smislovoyi strukturi politichnogo slova Tak sogodni v naukovih proektah aktivno rozroblyayetsya ideya pov yazana z organizaciyeyu konceptualnogo prostoru movi politiki z poziciyi gipertekstovoyi yednosti Kazhuchi pro specifiku zmistu takogo slovnika vidznachimo sho slovo v elektronnomu varianti realizuyetsya v semantichnomu makropoli sho skladayetsya z dekilkoh poliv zbudovanih v pevnu sistemu pole indeksaciyi sluzhit dlya zruchnogo poshuku v bazi danih pole zagolovnogo slova pole gramatichnoyi informaciyi pragmatichne navantazhennya yakoyi pov yazane z konkretnim gramatichnim statusom v tekstah pole etimologichnih dovidok pole avtorskogo tlumachennya buduyetsya ne po vsij semantichnij paradigmi slova a lishe po yiyi osnovnij chastini tematichno pov yazanij z politichnoyu sferoyu vzhivannya pole ilyustracij pracyuye dlya verifikaciyi definiciyi tim samim viyavlyaye semantiku politichnogo slova v pevnomu kontekstualnomu otochenni Vazhlivo vidznachiti sho v slovniku ilyustraciyi z tekstiv riznih zhanriv vikoristovuyutsya i v tradicijnomu viglyadi yak vipravduvalnij kontekst ce osoblivo vazhlivo dlya metaforichnih znachen i yak leksikografichnij prijom sho dopomagaye stvoriti prostorova timchasova i socialno istorichna perspektivi pole frazeologiyi pole enciklopedichnih vidomostej vidobrazhaye osnovni etapi stanovlennya danoyi definiciyi evolyuciyu jogo dominantnih oznak Komp yuterne zabezpechennya slovnika dovidkovogo tipu skladayetsya z dvoh skladovih baza danih slovnika viznachayetsya sistemoyu keruvannya bazami danih interfejs rozroblyayetsya specialno dlya danogo slovnika Bazoyu dlya jogo realizaciyi posluzhila mova programuvannya Delphi yakij dozvolyaye zdijsnyuvati zavdannya avtomatichnogo poshuku sliv a takozh zruchnij navigaciyi useredini slovnika Navedemo leksikografichnij virtualnij portret slova eskalaciya Slovo v elektronnomu slovniku predstavlene v 4 h polyah pole 1 skladayetsya z bloku zagolovnogo slova bloku gramatichnih poslid etimona U comu zh poli obov yazkovim elementom ye blok avtorskogo tlumachennya pole 2 predstavleno ilyustrativnim materialom Korpusu rosijskoyi nacionalnoyi movi Ci ilyustraciyi dopomagayut opisati semantichnu strukturu slova i viznachiti komunikativnij status slova pole 3 mikrostruktura elektronnogo slovnika sho vklyuchaye definiciyi suchasnih tyamushih i tyamusho dovidkovih vidan pole 4 ye na nash poglyad neobhidnoyu strukturnoyu chastinoyu elektronnogo dovidkovogo vidannya i mistit enciklopedichni vidomosti pro dane ponyattya U velikomu enciklopedichnomu slovniku napriklad dane slovo viznachayetsya yak rozshirennya naroshuvannya ozbroyen tosho postupove posilennya rozpovsyudzhennya konfliktu tosho zagostrennya polozhennya tosho Same 3 i i 4 i polya mozhut opisati dinamiku rozvitku semantiki slova Napriklad slovo eskalaciya v suchasnih slovnikah politichnoyi movi predstavleno z implicitnim negativnim pragmatichnim komponentom obumovlenim kategorialnoyu semoyu diya napravlena na negativnij rezultat sho pidtverdzhuyetsya Polem ilyustracij Takim chinom slovnik ye sistematizovanij alfavitnij masiv yadernoyi politichnoyi leksiki Proponovane leksikografichne doslidzhennya daye mozhlivist viyaviti osnovni tendenciyi v rozvitku yadernoyi politichnoyi leksiki zabezpechiti dostupnist slovnika za rahunok efektivnoyi sistemi poshuku a takozh zberigati velikij obsyag informaciyi za rahunok giperposilan Div takozhKorpus tekstiv TEI iniciativa koduvannya tekstu Primitki Arhiv originalu za 10 chervnya 2008 Procitovano 5 chervnya 2008 Andersen Francis I Forbes A Dean 2003 Hebrew Grammar Visualized I Syntax Ancient Near Eastern Studies 40 pp 43 61 Eyland E Ann 1987 Revelations from Word Counts in Newing Edward G Conrad Edgar W Perspectives on Language and Text Essays and Poems in Honor of Francis I Andersen s Sixtieth Birthday July 28 1985 Winona Lake Dukes K Atwell E and Habash N Supervised Collaboration for Syntactic Annotation of Quranic Arabic Language Resources and Evaluation Journal 2011 Sankoff D amp Sankoff G Sample survey methods and computer assisted analysis in the study of grammatical variation In Darnell R ed Canadian Languages in their Social Context Edmonton Linguistic Research Incorporated 1973 7 64 Poplack S The care and handling of a mega corpus In Fasold R amp Schiffrin D eds Language Change and Variation Amsterdam Benjamins 1989 411 451 Arhiv originalu za 2 travnya 2022 Procitovano 19 travnya 2016 Arhiv originalu za 12 chervnya 2016 Procitovano 19 travnya 2016 Arhiv originalu za 19 listopada 2011 Procitovano 18 travnya 2017 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z tekstom archived copy yak znachennya parametru title posilannya Arhiv originalu za 11 grudnya 2016 Procitovano 17 grudnya 2020 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z tekstom archived copy yak znachennya parametru title posilannya PosilannyaKorpus ukrayinskoyi movi Laboratoriyi komp yuternoyi lingvistiki Kiyivskogo nacionalnogo universitetu imeni Tarasa Shevchenka dostupnij dlya onlajn poshuku 1 travnya 2013 u Wayback Machine uacorpus org Arhiv originalu za 1 veresnya 2018 Procitovano 6 sichnya 2021 Laboratoriya ukrayinskoyi 6 travnya 2021 u Wayback Machine Neanotovanij korpus ukrayinskoyi movi korpus org ua 6 lipnya 2019 u Wayback Machine 238 Corpus Based Monolingual Dictionaries for 219 Languages zokrema korpus ukrayinskih tekstiv ponad 102 mln rechen Paralelni ukrayinsko rosijskij ta rosijsko ukrayinskij korpusi na sajti Nacionalnogo korpusu rosijskoyi movi 20 kvitnya 2013 u Wayback Machine Paralelnij polsko ukrayinskij ta ukrayinsko polskij korpus avtoperekladiv Ivana Franka Perelik posilan na lingvistichni korpusi na sajti Nacionalnogo korpusu rosijskoyi movi 20 kvitnya 2013 u Wayback Machine ros Demska Kulchicka O Osnovi nacionalnogo korpusu ukrayinskoyi movi K Institut ukrayinskoyi movi nacionalnoyi akademiyi nauk Ukrayini 2005 219 s Korpusna lingvistika V A Shirokov O V Bugakov T O Gryaznuhina ta in K Dovira 2005 471 s Buk S Velika proza Ivana Franka elektronnij korpus chastotni slovniki ta inshi mizhdisciplinarni konteksti monografiya Lviv LNU imeni Ivana Franka 2021 424 s ISBN 978 617 10 0636 2 Korpus tekstiv Ivana Franka sproba viznachennya osnovnih parametriv Prikladna lingvistika ta lingvistichni tehnologiyi MegaLing 2006 Zb nauk pr NAN Ukrayini Ukr movn inform fond Tavrijsk nac un t im V I Vernadskogo za red V A Shirokova K Dovira 2007 S 72 82 Buk S Arhitektura polsko ukrayinskogo ta ukrayinsko polskogo paralelnogo korpusu avtoperekladiv Ivana Franka Slavia Orientalis 2012 T LXI Nr 2 S 213 230 Buk S Korpus tekstiv u lingvodidaktici na materiali omonimiyi u korpusi velikoyi prozi Ivana Franka Visnik Lvivskogo universitetu Seriya filologichna 2012 Vip 57 S 106 116 Shvedova M The General Regionally Annotated Corpus of Ukrainian GRAC uacorpus org Architecture and Functionality Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems COLINS 2020 Volume I Main Conference Lviv Ukraine April 23 24 2020 P 489 506 9 sichnya 2021 u Wayback Machine Shvedova M Generalnij regionalno anotovanij korpus ukrayinskoyi movi GRAK yak instrument doslidzhennya leksiko gramatichnoyi variativnosti Lyudina Komp yuter Komunikaciya Zbirnik naukovih prac za red prof O P Levchenko Vidavnictvo Lvivskoyi politehniki 2019 S 145 148 V Starko A Risin Velikij elektronnij slovnik ukrayinskoyi movi VESUM yak zasib NLP dlya ukrayinskoyi movi 2020 Starko V Semantic Annotation for Ukrainian Categorization Scheme Principles and Tools 9 sichnya 2021 u Wayback Machine Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems COLINS 2020 Volume I Main Conference Lviv Ukraine April 23 24 2020 Buk S The epithetization index in a work of fiction on the basis of the Text Corpus of Ivan Franko s Long Prose Fiction Practical Applications of Linguistic Research ed by Anna Obrebska Lodz Primum Verbum 2012 P 73 85 Buk S Distinguishing quantitative parameters of author s language and style A case of Ivan Franko long prose fiction Visnik Lvivskogo universitetu Seriya filologichna 70 2019 Vipusk 70 C 299 308 Cyu stattyu treba vikifikuvati dlya vidpovidnosti standartam yakosti Vikipediyi Bud laska dopomozhit dodavannyam dorechnih vnutrishnih posilan abo vdoskonalennyam rozmitki statti Gruden 2008 Ce nezavershena stattya z movoznavstva Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi