Генеральний регіонально анотований корпус української мови (ГРАК; англ. General Regionally Annotated Corpus of Ukrainian, GRAC) — це корпус української мови обсягом понад 1,7 млрд токенів, призначений для здійснення лінгвістичних досліджень з граматики, лексики, історії української літературної мови, а також для використання під час укладання словників та граматик.
Корпус можна використати для вивчання мови, також при підготовці навчальних матеріалів, підручників, навчальних словників та вправ з використанням прикладів з реальних текстів, з урахуванням частотної сполучуваності тощо. Корпус не є взірцем нормативної української мови, в ньому можуть трапитися слова і сполучення, які не відповідають сучасним нормам літературної мови.
Корпус охоплює період з 1816 по 2023 р. і на 3 грудня 2023 року містить понад 150 тисяч текстів близько 35000 авторів.
Склад корпусу
У 10-й версії корпусу, доступній для пошуку з 20 жовтня 2020 року, 35 % становлять художні тексти. Деякі жанри художніх текстів виділені окремо: дитячі, фольклорні, драматичні твори та сценарії.
З нехудожніх текстів:
- публіцистичні тексти, зокрема колекції газет 1888—1893 рр., 1905 р., 1913—1918 рр., 1919—1943 рр., сучасні газети різних регіонів, а також тексти з інформаційних сайтів в Інтернеті;
- мемуари, листи та щоденники, зокрема чималий корпус текстів Facebook, в якому представлені блоги людей з усіх областей України та діаспори;
- наукові та навчальні тексти: монографії, дисертації, наукові статті, підручники; окремо виділено значні за обсягом підкорпуси наукової літератури з історії, етнографії, філософії, права;
- релігійні тексти, зокрема два українські переклади Біблії;
- промови та інтерв'ю.
Також до корпусу залучено деякі словники, де є фразові приклади і фразеологія, зокрема «Словарь української мови» Б. Грінченка і «Російсько-український словник сталих виразів» І. Виргана і М. Пилинської. За допомогою інструментів корпусу в словниках можна шукати не тільки слова, а й лексико-граматичні моделі у складі прикладів та фразеологічних виразів.
Близько 20 % текстів в корпусі є перекладами. Корпус містить переклади з >80 мов, найбільше — з англійської та російської.
Датування
Тексти в корпусі датовано роком написання або останнім роком, коли твір міг бути написаний; перекладні тексти датовані роком створення перекладу. Додатково може бути зазначено також рік видання, за яким подано текст.
Регіональна розмітка
В основу розмітки корпусу за регіонами покладено сучасний адміністративний поділ України. В корпусі представлені тексти з усіх областей України і з Криму.
Один текст може належати до кількох регіональних підкорпусів (якщо автор або перекладач народився, вчився, жив тривалий час в різних регіонах).
Крім регіональних підкорпусів, є підкорпуси творів авторів діаспори (США, Канада, Польща, Німеччина, Велика Британія, Франція та ін.). Це здебільшого тексти емігрантів 1940-х років і, менша частка, — 1917-1920-х рр.
Морфологічна розмітка
ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u.
Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки).
Дослідження на базі Корпусу
На базі Корпусу проведені дослідження української мови, зокрема історичної динаміки мовної норми та частотності літер і їх сполучень для розроблення шрифтів.
Див. також
Примітки
- М. О. Шведова. Динаміка вживання варіативних форм іменників-назв неістот у знахідному відмінку однини в літературних текстах регіонів України XIX-XXI ст. // Науковий вісник Херсонського державного університету. Серія «Лінгвістика»: Збірник наукових праць. Випуск 31 / Херс. держ. ун-т. — Херсон: ХДУ, 2018. — С. 88-94.
- Кирилиця та латинка в українській мові [ 27 грудня 2018 у Wayback Machine.] // Rentafont.com.ua
Посилання
- uacorpus.org [ 1 вересня 2018 у Wayback Machine.] — Генеральний регіонально анотований корпус української мови
- https://www.facebook.com/groups/488552241633414/ [ 19 вересня 2019 у Wayback Machine.] — ГРАК на Фейсбуці
- Уседоступність матеріалу для зручної роботи з ним. Марія Шведова про ГРАК української мови та неоране поле досліджень. Розмову вела Наталія КОВАЛЬ // 2020, Українська мова та література. №9-10, С. 12-17. https://www.academia.edu/44669209 [ 12 березня 2022 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U Vikipediyi ye statti pro inshi znachennya cogo termina Grak znachennya Generalnij regionalno anotovanij korpus ukrayinskoyi movi GRAK angl General Regionally Annotated Corpus of Ukrainian GRAC ce korpus ukrayinskoyi movi obsyagom ponad 1 7 mlrd tokeniv priznachenij dlya zdijsnennya lingvistichnih doslidzhen z gramatiki leksiki istoriyi ukrayinskoyi literaturnoyi movi a takozh dlya vikoristannya pid chas ukladannya slovnikiv ta gramatik Vidnoshennya kilkosti znajden variantiv dobrij den i dobrogo dnya v GRAKu versiya 17 Korpus mozhna vikoristati dlya vivchannya movi takozh pri pidgotovci navchalnih materialiv pidruchnikiv navchalnih slovnikiv ta vprav z vikoristannyam prikladiv z realnih tekstiv z urahuvannyam chastotnoyi spoluchuvanosti tosho Korpus ne ye vzircem normativnoyi ukrayinskoyi movi v nomu mozhut trapitisya slova i spoluchennya yaki ne vidpovidayut suchasnim normam literaturnoyi movi Korpus ohoplyuye period z 1816 po 2023 r i na 3 grudnya 2023 roku mistit ponad 150 tisyach tekstiv blizko 35000 avtoriv Sklad korpusuU 10 j versiyi korpusu dostupnij dlya poshuku z 20 zhovtnya 2020 roku 35 stanovlyat hudozhni teksti Deyaki zhanri hudozhnih tekstiv vidileni okremo dityachi folklorni dramatichni tvori ta scenariyi Z nehudozhnih tekstiv publicistichni teksti zokrema kolekciyi gazet 1888 1893 rr 1905 r 1913 1918 rr 1919 1943 rr suchasni gazeti riznih regioniv a takozh teksti z informacijnih sajtiv v Interneti memuari listi ta shodenniki zokrema chimalij korpus tekstiv Facebook v yakomu predstavleni blogi lyudej z usih oblastej Ukrayini ta diaspori naukovi ta navchalni teksti monografiyi disertaciyi naukovi statti pidruchniki okremo vidileno znachni za obsyagom pidkorpusi naukovoyi literaturi z istoriyi etnografiyi filosofiyi prava religijni teksti zokrema dva ukrayinski perekladi Bibliyi promovi ta interv yu Takozh do korpusu zalucheno deyaki slovniki de ye frazovi prikladi i frazeologiya zokrema Slovar ukrayinskoyi movi B Grinchenka i Rosijsko ukrayinskij slovnik stalih viraziv I Virgana i M Pilinskoyi Za dopomogoyu instrumentiv korpusu v slovnikah mozhna shukati ne tilki slova a j leksiko gramatichni modeli u skladi prikladiv ta frazeologichnih viraziv Blizko 20 tekstiv v korpusi ye perekladami Korpus mistit perekladi z gt 80 mov najbilshe z anglijskoyi ta rosijskoyi DatuvannyaTeksti v korpusi datovano rokom napisannya abo ostannim rokom koli tvir mig buti napisanij perekladni teksti datovani rokom stvorennya perekladu Dodatkovo mozhe buti zaznacheno takozh rik vidannya za yakim podano tekst Regionalna rozmitkaV osnovu rozmitki korpusu za regionami pokladeno suchasnij administrativnij podil Ukrayini V korpusi predstavleni teksti z usih oblastej Ukrayini i z Krimu Odin tekst mozhe nalezhati do kilkoh regionalnih pidkorpusiv yaksho avtor abo perekladach narodivsya vchivsya zhiv trivalij chas v riznih regionah Krim regionalnih pidkorpusiv ye pidkorpusi tvoriv avtoriv diaspori SShA Kanada Polsha Nimechchina Velika Britaniya Franciya ta in Ce zdebilshogo teksti emigrantiv 1940 h rokiv i mensha chastka 1917 1920 h rr Morfologichna rozmitkaGRAK pracyuye na bazi sistemi morfologichnogo analizu yaku rozrobili specialisti gurtu r2u Programa analizuye tekst i dlya kozhnoyi slovoformi viznachaye lemu leksemu i tegi gramatichni oznaki Doslidzhennya na bazi KorpusuNa bazi Korpusu provedeni doslidzhennya ukrayinskoyi movi zokrema istorichnoyi dinamiki movnoyi normi ta chastotnosti liter i yih spoluchen dlya rozroblennya shriftiv Div takozhTEI iniciativa koduvannya tekstu Korpusna lingvistika Korpus tekstivPrimitkiM O Shvedova Dinamika vzhivannya variativnih form imennikiv nazv neistot u znahidnomu vidminku odnini v literaturnih tekstah regioniv Ukrayini XIX XXI st Naukovij visnik Hersonskogo derzhavnogo universitetu Seriya Lingvistika Zbirnik naukovih prac Vipusk 31 Hers derzh un t Herson HDU 2018 S 88 94 Kirilicya ta latinka v ukrayinskij movi 27 grudnya 2018 u Wayback Machine Rentafont com uaPosilannyauacorpus org 1 veresnya 2018 u Wayback Machine Generalnij regionalno anotovanij korpus ukrayinskoyi movi https www facebook com groups 488552241633414 19 veresnya 2019 u Wayback Machine GRAK na Fejsbuci Usedostupnist materialu dlya zruchnoyi roboti z nim Mariya Shvedova pro GRAK ukrayinskoyi movi ta neorane pole doslidzhen Rozmovu vela Nataliya KOVAL 2020 Ukrayinska mova ta literatura 9 10 S 12 17 https www academia edu 44669209 12 bereznya 2022 u Wayback Machine