У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики.
Основні властивості корпусу
Серед безлічі визначень корпусу можна виділити його основні характеристики:
- електронний — у сучасному розумінні корпус має бути в електронному вигляді
- репрезентативний — повинен добре «представляти» об'єкт, який моделює
- розмічений — головна відмінність корпусу від колекції текстів
- прагматично орієнтований — створюється під певну задачу
Класифікація корпусів
Класифікувати корпуси можна за різними ознаками: мета створення корпусу, тип мовних даних, «літературність», жанр, динамічність, тип розмітки, обсяг текстів тощо. За критерієм паралельності, наприклад, корпуси можна розділити на одномовні, двомовні і багатомовні. Багатомовні і двомовні поділяють на два типи:
- паралельні — сукупність текстів та їх перекладів на одну або кілька мов
- зіставні (псевдопаралельні) — оригінальні тексти двома або декількома мовами
Розмітка корпусів
Розмітка полягає в приписуванні текстам і їх компонентам спеціальних тегів: лінгвістичних і зовнішніх (екстралінгвістичних). Виділяють такі лінгвістичні типи розмітки: морфологічна, семантична, синтаксична, анафорична, просодична, дискурсна тощо. До деяких корпусів застосовуються подальші структурні рівні аналізу. Зокрема, деякі невеликі корпуси можуть бути повністю синтаксично розмічені. Такі корпуси зазвичай називають глибоко анотованими або синтаксичними, а сама синтаксична структура при цьому є деревом залежностей.
Ручне розмічання (анотування) текстів — дорога й трудомістка задача. На даний момент у відкритому доступі є різні програмні засоби для розмітки корпусів. Умовно їх можна розділити на відособлені (англ. stand-alone) та веборієнтовані (англ. web-based). При цьому акцент розробників в останні роки змістився в бік вебзастосунків. Такі системи мають низку переваг:
- можливість одночасного розмічання одного документа декількома людьми
- не вимагають встановлення додаткових програмних засобів, крім браузера
- гнучке розмежування прав доступу
- відображення поточного прогресу процесу розмітки
- можливість модифікації розмічуваного корпусу
Інтернет як корпус
Зовнішні відеофайли | |
---|---|
Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016 |
Сучасні технології дозволяють створювати «вебкорпуси», тобто корпуси, отримані опрацюванням інтернет-джерел:
Вебкорпус являє собою особливий вид лінгвістичного корпусу, створений поступовим завантаженням текстів з інтернету за допомогою автоматизованих процедур, які на льоту визначають мову і кодування окремих веб сторінок, видаляють шаблони, елементи навігації, посилання і рекламу (т. зв. boilerplate), здійснюють перетворення на текст, фільтрування, нормалізацію і дедуплікацію отриманих документів, які потім можна опрацювати традиційними інструментами корпусної лінгвістики (токенізація, морфосинтаксична і синтаксична анотація) та вбудувати в пошукову корпусну систему. Створення вебкорпусу не тільки значно дешевше, але перш за все його обсяг може бути навіть на порядок більшим, ніж традиційні корпуси.— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ
Застосування
Корпус — основне поняття і база даних корпусної лінгвістики. Аналіз і обробка різних типів корпусів є предметом більшості робіт в галузі комп'ютерної лінгвістики (наприклад, видобування ключових слів), розпізнавання мови і машинного перекладу, в яких корпуси часто застосовуються при створенні прихованих марковських моделей для маркування частин мови та інших завдань. Корпуси та частотні словники корисні в навчанні іноземних мов.
Див. також
Примітки
- Ванюшкин, Гращенко, 2017.
- . textualheritage.org. Архів оригіналу за 9 серпня 2020. Процитовано 26 грудня 2019.
Література
- Корпусна лінгвістика / В. А. Широков, О. В. Бугаков, Т. О. Грязнухіна та ін. К.: Довіра, 2005. 471 с.
- Бук С. Велика проза Івана Франка: електронний корпус, частотні словники та інші міждисциплінарні контексти : монографія / Львів : ЛНУ імені Івана Франка, 2021. 424 с.
- Бук С. Корпус текстів у лінгводидактиці (на матеріалі омонімії у корпусі великої прози Івана Франка) // Вісник Львівського університету. Серія філологічна. 2012. Вип. 57. С. 106–116.
- Бук С. Лінгводидактичний потенціал корпусу текстів Івана Франка у викладанні української мови як іноземної // Теорія і практика викладання української мови як іноземної. Львів: В-во ЛНУ імені Івана Франка, 2010. Вип. 5. С. 70–74.
- Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вип. 20 (17 липня). — ISSN 2227-0973. з джерела 5 травня 2021. Процитовано 5 травня 2021.
- Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М. : URSS, 2016. — 320 с.
Посилання
Корпуси текстів української мови
- Корпус української мови лінгвістичного порталу MOVA.info [ 1 травня 2021 у Wayback Machine.]
- Корпус української мови на основі електронної бібліотеки Чтиво [ 6 липня 2019 у Wayback Machine.]
- Генеральний реґіонально анотований корпус української мови [ 5 травня 2021 у Wayback Machine.]
- Корпус Лейпцизького університету [ 17 червня 2021 у Wayback Machine.]
- Лабораторія української [ 6 травня 2021 у Wayback Machine.]
- Корпус текстів великої прози І. Франка
- Паралельний польсько-український та українсько-польський корпус автоперекладів Івана Франка
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U lingvistici korpus pidibrana j obroblena za pevnimi pravilami sukupnist tekstiv yaki vikoristovuyut yak bazu dlya doslidzhennya movi Yih zastosovuyut dlya statistichnogo analizu i perevirki statistichnih gipotez pidtverdzhennya lingvistichnih pravil ciyeyi movi Korpus tekstiv ye predmetom doslidzhennya korpusnoyi lingvistiki Osnovni vlastivosti korpusuSered bezlichi viznachen korpusu mozhna vidiliti jogo osnovni harakteristiki elektronnij u suchasnomu rozuminni korpus maye buti v elektronnomu viglyadi reprezentativnij povinen dobre predstavlyati ob yekt yakij modelyuye rozmichenij golovna vidminnist korpusu vid kolekciyi tekstiv pragmatichno oriyentovanij stvoryuyetsya pid pevnu zadachuKlasifikaciya korpusivKlasifikuvati korpusi mozhna za riznimi oznakami meta stvorennya korpusu tip movnih danih literaturnist zhanr dinamichnist tip rozmitki obsyag tekstiv tosho Za kriteriyem paralelnosti napriklad korpusi mozhna rozdiliti na odnomovni dvomovni i bagatomovni Bagatomovni i dvomovni podilyayut na dva tipi paralelni sukupnist tekstiv ta yih perekladiv na odnu abo kilka mov zistavni psevdoparalelni originalni teksti dvoma abo dekilkoma movamiRozmitka korpusivRozmitka polyagaye v pripisuvanni tekstam i yih komponentam specialnih tegiv lingvistichnih i zovnishnih ekstralingvistichnih Vidilyayut taki lingvistichni tipi rozmitki morfologichna semantichna sintaksichna anaforichna prosodichna diskursna tosho Do deyakih korpusiv zastosovuyutsya podalshi strukturni rivni analizu Zokrema deyaki neveliki korpusi mozhut buti povnistyu sintaksichno rozmicheni Taki korpusi zazvichaj nazivayut gliboko anotovanimi abo sintaksichnimi a sama sintaksichna struktura pri comu ye derevom zalezhnostej Ruchne rozmichannya anotuvannya tekstiv doroga j trudomistka zadacha Na danij moment u vidkritomu dostupi ye rizni programni zasobi dlya rozmitki korpusiv Umovno yih mozhna rozdiliti na vidosobleni angl stand alone ta veboriyentovani angl web based Pri comu akcent rozrobnikiv v ostanni roki zmistivsya v bik vebzastosunkiv Taki sistemi mayut nizku perevag mozhlivist odnochasnogo rozmichannya odnogo dokumenta dekilkoma lyudmi ne vimagayut vstanovlennya dodatkovih programnih zasobiv krim brauzera gnuchke rozmezhuvannya prav dostupu vidobrazhennya potochnogo progresu procesu rozmitki mozhlivist modifikaciyi rozmichuvanogo korpusuInternet yak korpusZovnishni videofajli Orehov B V Internet kollekcii tekstov na malyh yazykah Rossii metodika sbora ochistki i analiza Seminar Kompyuternaya lingvistika 2016 Suchasni tehnologiyi dozvolyayut stvoryuvati vebkorpusi tobto korpusi otrimani opracyuvannyam internet dzherel Vebkorpus yavlyaye soboyu osoblivij vid lingvistichnogo korpusu stvorenij postupovim zavantazhennyam tekstiv z internetu za dopomogoyu avtomatizovanih procedur yaki na lotu viznachayut movu i koduvannya okremih veb storinok vidalyayut shabloni elementi navigaciyi posilannya i reklamu t zv boilerplate zdijsnyuyut peretvorennya na tekst filtruvannya normalizaciyu i deduplikaciyu otrimanih dokumentiv yaki potim mozhna opracyuvati tradicijnimi instrumentami korpusnoyi lingvistiki tokenizaciya morfosintaksichna i sintaksichna anotaciya ta vbuduvati v poshukovu korpusnu sistemu Stvorennya vebkorpusu ne tilki znachno deshevshe ale persh za vse jogo obsyag mozhe buti navit na poryadok bilshim nizh tradicijni korpusi Vladimѝr Benko ARANEA SEMEJSTVO MILLIARDNYH VEB KORPUSOVZastosuvannyaKorpus osnovne ponyattya i baza danih korpusnoyi lingvistiki Analiz i obrobka riznih tipiv korpusiv ye predmetom bilshosti robit v galuzi komp yuternoyi lingvistiki napriklad vidobuvannya klyuchovih sliv rozpiznavannya movi i mashinnogo perekladu v yakih korpusi chasto zastosovuyutsya pri stvorenni prihovanih markovskih modelej dlya markuvannya chastin movi ta inshih zavdan Korpusi ta chastotni slovniki korisni v navchanni inozemnih mov Div takozhKorpusna lingvistika Matematichna lingvistika Klyuchove slovo Paralelnij tekstPrimitkiVanyushkin Grashenko 2017 textualheritage org Arhiv originalu za 9 serpnya 2020 Procitovano 26 grudnya 2019 LiteraturaKorpusna lingvistika V A Shirokov O V Bugakov T O Gryaznuhina ta in K Dovira 2005 471 s Buk S Velika proza Ivana Franka elektronnij korpus chastotni slovniki ta inshi mizhdisciplinarni konteksti monografiya Lviv LNU imeni Ivana Franka 2021 424 s ISBN 978 617 10 0636 2 Buk S Korpus tekstiv u lingvodidaktici na materiali omonimiyi u korpusi velikoyi prozi Ivana Franka Visnik Lvivskogo universitetu Seriya filologichna 2012 Vip 57 S 106 116 Buk S Lingvodidaktichnij potencial korpusu tekstiv Ivana Franka u vikladanni ukrayinskoyi movi yak inozemnoyi Teoriya i praktika vikladannya ukrayinskoyi movi yak inozemnoyi Lviv V vo LNU imeni Ivana Franka 2010 Vip 5 S 70 74 Vanyushkin A S Grashenko L A Ocenka algoritmov izvlecheniya klyuchevyh slov instrumentarij i resursy Novye informacionnye tehnologii v avtomatizirovannyh sistemah 2017 Vip 20 17 lipnya ISSN 2227 0973 z dzherela 5 travnya 2021 Procitovano 5 travnya 2021 Nikolaev I S Mitrenina O V Lando T M Prikladnaya i kompyuternaya lingvistika M URSS 2016 320 s PosilannyaKorpusi tekstiv ukrayinskoyi movi Korpus ukrayinskoyi movi lingvistichnogo portalu MOVA info 1 travnya 2021 u Wayback Machine Korpus ukrayinskoyi movi na osnovi elektronnoyi biblioteki Chtivo 6 lipnya 2019 u Wayback Machine Generalnij regionalno anotovanij korpus ukrayinskoyi movi 5 travnya 2021 u Wayback Machine Korpus Lejpcizkogo universitetu 17 chervnya 2021 u Wayback Machine Laboratoriya ukrayinskoyi 6 travnya 2021 u Wayback Machine Korpus tekstiv velikoyi prozi I Franka Paralelnij polsko ukrayinskij ta ukrayinsko polskij korpus avtoperekladiv Ivana Franka