Ця стаття посилається на . |
Корпус української мови — електронний корпус текстів української мови обсягом понад 100 млн слововживань, розміщений на лінгвістичному порталі MOVA.info. Розроблений у лабораторії комп'ютерної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка під керівництвом Наталії Дарчук.
Корпус української мови | |
---|---|
Посилання | mova.info/corpus.aspx |
Комерційний | ні |
Реєстрація | Необов'язкова |
Мови | українська |
Стан | Активний |
Корпус призначений для здійснення статистично обґрунтованих лінгвістичних досліджень з української мови, для використання під час укладання словників, граматик та для довідкового використання широким колом користувачів.
Для того, щоб отримати доступ до додаткових можливостей, потрібна реєстрація на порталі, але до основного корпусу доступ є вільним. Корпус відкритий, до нього часто додаються нові тексти.
Історія створення корпусу
Корпус створила команда людей у лабораторії комп'ютерної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка. Лінгвістичну частину розробила Наталія Дарчук. Розробку програмного забезпечення здійснив Віктор Сорокін. Над вебдизайном порталу працювала Олена Сірук. Також участь у роботі над корпусом брали Оксана Зубань, Маргарита Лангенбах, Ярина Ходаківська.
Склад корпусу
До корпусу входять такі підкорпуси (розділи): законодавчі, наукові, фольклорні тексти, поетична мова, публіцистика, художня проза. Найбільше (майже 47 млн слововживань) у корпусі відводиться на публіцистику.
Корпус має синтаксичний підкорпус, за допомогою якого можна дослідити сполучуваність лексем в обраній зоні пошуку (підкорпусі), ввівши або морфологічні ознаки словосполучення, або лексичну модель словосполучення, або синтаксичні ознаки.
На базі корпусу у розділі "N-грами" інтерактивно можна побудувати словник двох, трьох, чотирьох та п'яти-грам на основі вибраної зони пошуку (підкорпусу).
За текстами з корпусу є можливість в інтерактивному режимі сформувати частотні словники у розділах "Частотні словники" та "Статистика". Для цього необхідно обрати відповідні лінгвістичні та статистичні параметри.
У розділі "Частотні словники" представлено переважно статичні словники, які не змінюються при подальшому наповненні корпусу (вказується, з якого року не проводились зміни). Також у розділі "Частотні словники" можна скористатися функцією підрахунку відстані між текстами.
На відміну від розділу "Частотні словники", розділ "Статистика" дозволяє укладати частотні словники на основі будь-якого тексту з корпусу (необхідно вказати відповідні лінгвістичні та статистичні параметри).
Можливості пошуку у корпусі
Пошук у Корпусі української мови можна здійснювати за конкретною лексемою, словоформою або за морфологічними ознаками (частиною мови та її граматичними категоріями). Можна розширити пошук до двох слів.
Можна вказати кількість слів, які будуть виведені перед і після шуканого слова (глибину контексту), максимально - 20 слів. Можна вибрати стать авторів, серед текстів яких здійснюватиметься пошук. На вибір дається три види представлення результатів пошуку: табличний і цитування та цитування параграфу.
У результаті пошуку Корпус повертає лексему (словоформу) в контексті. Для того, щоб побачити інформацію про твір, до якого входить текстова ілюстрація із результату пошуку, потрібно натиснути на «джерело». Виведеться стиль тексту, кількість словоформ, речень. Опціонально для текстів різних підкорпусів: коли, де і ким видано, рік, місце, жанр.
Наукові публікації на матеріалі корпусу
- Бобкова Т. Корпус текстів: основні аспекти визначення [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н. Дослідницький корпус української мови: основні засади і перспективи [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н., Лангенбах М. Електронний словник як дослідницька база даних [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н., Лангенбах М. Електронний словник мови Тараса Шевченка: методика і технології укладання [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н. Автоматичний синтаксичний аналіз текстів корпусу української мови [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н. Теоретичні питання моделювання ідеографічного тезауруса української мови [Архівовано 27 квітня 2022 у Wayback Machine.]
- Комп'ютерна лінгвістика: сучасне та майбутнє. Матеріали міжнародної науково-практичної конференції [Архівовано 27 квітня 2022 у Wayback Machine.]
- Зубань О. Електронні частотні морфемні словники в Корпусі української мови [Архівовано 2 травня 2022 у Wayback Machine.]
- Зубань О. Стилеметричні ознаки морфемних структур слів у поетичному мовленні Т. Шевченка (на матеріалі Корпусу української мови) [Архівовано 2 травня 2022 у Wayback Machine.]
- Лангенбах М. Автоматичне синтаксичне анотування текстів Корпусу української мови: проблеми та шляхи їх вирішення (презентація) [Архівовано 30 грудня 2019 у Wayback Machine.]
- Лангенбах М. Синтаксичний підкорпус: база даних граматичних конструкцій та модуль пошуково-аналітичних систем (презентація) [Архівовано 2 травня 2022 у Wayback Machine.]
Посилання
- Лінгвістичний портал MOVA.info [Архівовано 2 травня 2022 у Wayback Machine.]
- Лабораторія комп'ютерної лінгвістики (стаття на сайті Навчально-наукового інституту філології) [Архівовано 19 квітня 2022 у Wayback Machine.]
Див. також
Джерела
- http://www.mova.info/Page2.aspx?l1=14#:~:text=Портал%20MOVA.info%20створено%20на%20некомерційних%20засадах [Архівовано 2 травня 2022 у Wayback Machine.].
- Архівована копія. Архів оригіналу за 2 травня 2022. Процитовано 2 травня 2022.
{{}}
: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title ()
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Nemaye perevirenih versij ciyeyi storinki jmovirno yiyi she ne pereviryali na vidpovidnist pravilam proektu Cya stattya posilayetsya na pervinni dzherela Bud laska udoskonalte yiyi dodavshi posilannya na nezalezhni vtorinni chi tretinni dzherela Korpus ukrayinskoyi movi elektronnij korpus tekstiv ukrayinskoyi movi obsyagom ponad 100 mln slovovzhivan rozmishenij na lingvistichnomu portali MOVA info Rozroblenij u laboratoriyi komp yuternoyi lingvistiki Navchalno naukovogo institutu filologiyi Kiyivskogo nacionalnogo universitetu imeni Tarasa Shevchenka pid kerivnictvom Nataliyi Darchuk Korpus ukrayinskoyi moviPosilannyamova info corpus aspxKomercijnijni 1 ReyestraciyaNeobov yazkovaMoviukrayinskaStanAktivnij Korpus priznachenij dlya zdijsnennya statistichno obgruntovanih lingvistichnih doslidzhen z ukrayinskoyi movi dlya vikoristannya pid chas ukladannya slovnikiv gramatik ta dlya dovidkovogo vikoristannya shirokim kolom koristuvachiv Dlya togo shob otrimati dostup do dodatkovih mozhlivostej potribna reyestraciya na portali ale do osnovnogo korpusu dostup ye vilnim Korpus vidkritij do nogo chasto dodayutsya novi teksti Zmist 1 Istoriya stvorennya korpusu 2 Sklad korpusu 3 Mozhlivosti poshuku u korpusi 4 Naukovi publikaciyi na materiali korpusu 5 Posilannya 6 Div takozh 7 DzherelaIstoriya stvorennya korpusured nbsp Navchalno naukovij institut filologiyi Korpus stvorila komanda lyudej u laboratoriyi komp yuternoyi lingvistiki Navchalno naukovogo institutu filologiyi Kiyivskogo nacionalnogo universitetu imeni Tarasa Shevchenka Lingvistichnu chastinu rozrobila Nataliya Darchuk Rozrobku programnogo zabezpechennya zdijsniv Viktor Sorokin Nad vebdizajnom portalu pracyuvala Olena Siruk Takozh uchast u roboti nad korpusom brali Oksana Zuban Margarita Langenbah Yarina Hodakivska 2 Sklad korpusured Do korpusu vhodyat taki pidkorpusi rozdili zakonodavchi naukovi folklorni teksti poetichna mova publicistika hudozhnya proza Najbilshe majzhe 47 mln slovovzhivan u korpusi vidvoditsya na publicistiku Korpus maye sintaksichnij pidkorpus za dopomogoyu yakogo mozhna dosliditi spoluchuvanist leksem v obranij zoni poshuku pidkorpusi vvivshi abo morfologichni oznaki slovospoluchennya abo leksichnu model slovospoluchennya abo sintaksichni oznaki Na bazi korpusu u rozdili N grami interaktivno mozhna pobuduvati slovnik dvoh troh chotiroh ta p yati gram na osnovi vibranoyi zoni poshuku pidkorpusu Za tekstami z korpusu ye mozhlivist v interaktivnomu rezhimi sformuvati chastotni slovniki u rozdilah Chastotni slovniki ta Statistika Dlya cogo neobhidno obrati vidpovidni lingvistichni ta statistichni parametri U rozdili Chastotni slovniki predstavleno perevazhno statichni slovniki yaki ne zminyuyutsya pri podalshomu napovnenni korpusu vkazuyetsya z yakogo roku ne provodilis zmini Takozh u rozdili Chastotni slovniki mozhna skoristatisya funkciyeyu pidrahunku vidstani mizh tekstami Na vidminu vid rozdilu Chastotni slovniki rozdil Statistika dozvolyaye ukladati chastotni slovniki na osnovi bud yakogo tekstu z korpusu neobhidno vkazati vidpovidni lingvistichni ta statistichni parametri Mozhlivosti poshuku u korpusired nbsp Golovna storinka korpusu ukrayinskoyi movi lingvistichnogo portalu MOVA info Poshuk u Korpusi ukrayinskoyi movi mozhna zdijsnyuvati za konkretnoyu leksemoyu slovoformoyu abo za morfologichnimi oznakami chastinoyu movi ta yiyi gramatichnimi kategoriyami Mozhna rozshiriti poshuk do dvoh sliv Mozhna vkazati kilkist sliv yaki budut vivedeni pered i pislya shukanogo slova glibinu kontekstu maksimalno 20 sliv Mozhna vibrati stat avtoriv sered tekstiv yakih zdijsnyuvatimetsya poshuk Na vibir dayetsya tri vidi predstavlennya rezultativ poshuku tablichnij i cituvannya ta cituvannya paragrafu U rezultati poshuku Korpus povertaye leksemu slovoformu v konteksti Dlya togo shob pobachiti informaciyu pro tvir do yakogo vhodit tekstova ilyustraciya iz rezultatu poshuku potribno natisnuti na dzherelo Vivedetsya stil tekstu kilkist slovoform rechen Opcionalno dlya tekstiv riznih pidkorpusiv koli de i kim vidano rik misce zhanr Naukovi publikaciyi na materiali korpusured Bobkova T Korpus tekstiv osnovni aspekti viznachennya Arhivovano 27 kvitnya 2022 u Wayback Machine Darchuk N Doslidnickij korpus ukrayinskoyi movi osnovni zasadi i perspektivi Arhivovano 27 kvitnya 2022 u Wayback Machine Darchuk N Langenbah M Elektronnij slovnik yak doslidnicka baza danih Arhivovano 27 kvitnya 2022 u Wayback Machine Darchuk N Langenbah M Elektronnij slovnik movi Tarasa Shevchenka metodika i tehnologiyi ukladannya Arhivovano 27 kvitnya 2022 u Wayback Machine Darchuk N Avtomatichnij sintaksichnij analiz tekstiv korpusu ukrayinskoyi movi Arhivovano 27 kvitnya 2022 u Wayback Machine Darchuk N Teoretichni pitannya modelyuvannya ideografichnogo tezaurusa ukrayinskoyi movi Arhivovano 27 kvitnya 2022 u Wayback Machine Komp yuterna lingvistika suchasne ta majbutnye Materiali mizhnarodnoyi naukovo praktichnoyi konferenciyi Arhivovano 27 kvitnya 2022 u Wayback Machine Zuban O Elektronni chastotni morfemni slovniki v Korpusi ukrayinskoyi movi Arhivovano 2 travnya 2022 u Wayback Machine Zuban O Stilemetrichni oznaki morfemnih struktur sliv u poetichnomu movlenni T Shevchenka na materiali Korpusu ukrayinskoyi movi Arhivovano 2 travnya 2022 u Wayback Machine Langenbah M Avtomatichne sintaksichne anotuvannya tekstiv Korpusu ukrayinskoyi movi problemi ta shlyahi yih virishennya prezentaciya Arhivovano 30 grudnya 2019 u Wayback Machine Langenbah M Sintaksichnij pidkorpus baza danih gramatichnih konstrukcij ta modul poshukovo analitichnih sistem prezentaciya Arhivovano 2 travnya 2022 u Wayback Machine Posilannyared Lingvistichnij portal MOVA info Arhivovano 2 travnya 2022 u Wayback Machine Laboratoriya komp yuternoyi lingvistiki stattya na sajti Navchalno naukovogo institutu filologiyi Arhivovano 19 kvitnya 2022 u Wayback Machine Div takozhred Generalnij regionalno anotovanij korpus ukrayinskoyi movi Korpusna lingvistikaDzherelared http www mova info Page2 aspx l1 14 text Portal 20MOVA info 20stvoreno 20na 20nekomercijnih 20zasadah Arhivovano 2 travnya 2022 u Wayback Machine Arhivovana kopiya Arhiv originalu za 2 travnya 2022 Procitovano 2 travnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z tekstom archived copy yak znachennya parametru title posilannya Otrimano z https uk wikipedia org wiki Korpus ukrayinskoyi movi