Чеський національний корпус (ЧНК) (чес. Český národní korpus) — великий електронний корпус писемної та розмовної чеської мови, розроблений Інститутом Чеського національного корпусу (ICNC) на факультеті мистецтв Карлового університету в Празі. Корпус використовується для викладання та дослідження з корпусної лінгвістики. Його мета – систематично відображати чеську та інші мови в порівнянні з нею.
Історія створення
Ідея щодо створення ЧНК була вперше висунута у 1991 році та підтримана представниками Факультету філософії Карлового університету, Факультету математики та фізики Карлового університету, Університету Масарика, Університету Палацького, Інституту чеської мови Академії наук Чехії.
Заснований був в 1994 році.
Передумовами для створення корпусу слугували такі фактори, як відхилення сучасної чеської мови від загальноприйнятих норм (створення корпусу допомогло б позбавити чеську лексикографію від подібних відхилень) і стабілізація політичної ситуації (ширша співпраця з міжнародною науковою спільнотою допомогла привнесенню комп′ютерної лексикографії та корпусної лінгвістики, як окремих гілок, у чеську лінгвістику).
Укладачі
Станом на 10 вересня 2017 року над Чеським національним корпусом працюють:
- Директор Міхал Кршен
- Заступник директора Варцлав Цврчек
- Секретар Луціє Новакова
- Професор Франтішек Чермак
- Професор і голова секції діахронічного корпусу Карел Кучера
- Голова лінгвістичної секції Варцлав Цврчек
- Голова обчислювальної секції Павел Вондржичка
- Голова секції розмовного корпусу Марія Копршивова
- Голова секції лінгвістичного аналізу й анотацій Томаш Елінек
- Голова секції паралельного корпусу Александр Розен
- Та інші
Склад та об'єм корпусу
Корпус письмових текстів | ~2705 млн слововживань |
Корпус усних текстів | ~4 млн слововживань |
Діахронічний корпус | ~1,95 млн слововживань |
Корпус іноземних мов | ~6248 млн слововживань |
Паралельний корпус | ~92 млн слововживань |
Загальний об’єм корпусу складає понад 9 млрд слововживань, з яких лематизовано і розмічено тегами ~8894,5 млн.
Сфери уваги
Чеський національний корпус систематично зосереджується на таких сферах:
- Синхронні письмові корпуси: корпуси серії SYN відображають чеську мову 20-го та 21-го століття (особливо останніх двадцяти років) і становлять ядро проєкту. Тексти збагачуються метаданими, лематизацією та морфологічними тегами.
- Сучасна спонтанна розмовна чеська: корпуси серії ORAL містять сучасну, спонтанну розмовну мову, яка використовується в неформальних ситуаціях по всій Чеській Республіці (на відміну від підготовлених, переданих або написаних текстів, які зазвичай зустрічаються в розмовних корпусах).
- Багатомовний паралельний корпус: InterCorp – це великий корпус чеських текстів, узгоджених на рівні речення з перекладами на або з більш ніж 30 мов. Основу корпусу складають вирівняні вручну та вичитані художні тексти.
- Діахронічний корпус чеської мови: Корпус історичної чеської мови DIAKORP включає тексти з 14 століття. Сьогодні DIAKORP зосереджується на 19 столітті. Довгострокова мета DIAKORP полягає в тому, щоб створити корпус, що охоплює період з 1850 року по теперішній час, і поєднати дані з серією SYN.
- Спеціалізовані лінгвістичні дані: ICNC також бере участь у зборі мовних даних для конкретних дослідницьких цілей, включаючи DIALEKT (діалектне мовлення), CzeSL (тексти, написані людьми, які не є рідними, хто вивчає чеську), DEAF (чеські тексти, написані глухими), або Ієронім (перекладна і неперекладна чеська).
Джерела текстів
Основними джерелами текстів ЧНК є:
- Тексти, отримані в електронному вигляді від видавництв й індивідуальних власників
- Текстів, взятих із газет (складають абсолютну більшість текстів корпусу – близько 60%)
- Тексти словників (наприклад, корпус FSC2000 посилається на Частотний словник чеської мови)
Окремий корпус ЧНК присвячений антиутопії Джорджа Орвелла «1984», порівняно невеликий розмір якої (80 000 слів і 20 000 пунктуаційних знаків) дозволив вручну розмітити текст майже бездоганно.
Доступ
На сайті існує два види доступу: публічний і повний.
Неавторизований користувач може шукати тільки в корпусі SYN2010, об′єм якого складає всього 100 млн слів, що становить одну дев′яносту всієї бази Чеського національного корпусу. SYN2010 складається на 40% із художньої літератури, на 27% із технічної літератури і на 33% із журналістських робіт. Більшість текстів корпусу були створені з 2005 по 2009 рік.
Слова видаються в форматі concordance lines, коли кожна стрічка являє собою частину тексту, в якому є заданий вислів. Для публічного доступу можливі використання базових регулярних висловлювань, також можливий пошук за ключовими словам.
Зареєстрований користувач має повний доступ до бази даних Інституту ЧНК, а також до спеціального менеджера корпусу Bonito.
Співпраця
З корпусом співпрацюють такі наукові інституції:
- Інститут формальної і прикладної лінгвістики і Математико-фізичний факультет Карлового університету
- Кафедра комп′ютерних наук факультету електротехніки Чеського технічного університету
- Факультет інформатики Університету Масарика
- Педагогічний факультет Університету Масарика
- Департамент чеського і слов’янського мовознавства, факультет філології Університету Масарика
- Муніципальні бібліотеки в Празі
- Сілезький університет
- Університет Градець-Кралове
- Університет Палацького
- Інститут чеської мови Академії наук Чехії
Також корпус співпрацює з факультетом слов’янських мов Браунського університету (США), факультетом філософії і літератури Гранадського університету (Іспанія), Інститутом німецької мови в Мангаймі (Німеччина), Амстердамським університетом (Нідерланди) та іншими великими науковими центрами.
Примітки
- Charles University - Czech Universities. www.czechuniversities.com. Процитовано 3 травня 2022.
- People | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.
- Public Access. web.archive.org. 29 жовтня 2013. Архів оригіналу за 29 жовтня 2013. Процитовано 4 травня 2022.
- Cooperation | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Nemaye perevirenih versij ciyeyi storinki jmovirno yiyi she ne pereviryali na vidpovidnist pravilam proektu Cheskij nacionalnij korpus ChNK ches Cesky narodni korpus velikij elektronnij korpus pisemnoyi ta rozmovnoyi cheskoyi movi rozroblenij Institutom Cheskogo nacionalnogo korpusu ICNC na fakulteti mistectv Karlovogo universitetu v Prazi 1 Korpus vikoristovuyetsya dlya vikladannya ta doslidzhennya z korpusnoyi lingvistiki Jogo meta sistematichno vidobrazhati chesku ta inshi movi v porivnyanni z neyu Zmist 1 Istoriya stvorennya 2 Ukladachi 3 Sklad ta ob yem korpusu 4 Sferi uvagi 5 Dzherela tekstiv 6 Dostup 7 Spivpracya 8 PrimitkiIstoriya stvorennyared Ideya shodo stvorennya ChNK bula vpershe visunuta u 1991 roci ta pidtrimana predstavnikami Fakultetu filosofiyi Karlovogo universitetu Fakultetu matematiki ta fiziki Karlovogo universitetu Universitetu Masarika Universitetu Palackogo Institutu cheskoyi movi Akademiyi nauk Chehiyi Zasnovanij buv v 1994 roci Peredumovami dlya stvorennya korpusu sluguvali taki faktori yak vidhilennya suchasnoyi cheskoyi movi vid zagalnoprijnyatih norm stvorennya korpusu dopomoglo b pozbaviti chesku leksikografiyu vid podibnih vidhilen i stabilizaciya politichnoyi situaciyi shirsha spivpracya z mizhnarodnoyu naukovoyu spilnotoyu dopomogla privnesennyu komp yuternoyi leksikografiyi ta korpusnoyi lingvistiki yak okremih gilok u chesku lingvistiku Ukladachired Stanom na 10 veresnya 2017 roku nad Cheskim nacionalnim korpusom pracyuyut Direktor Mihal Krshen Zastupnik direktora Varclav Cvrchek Sekretar Luciye Novakova Profesor Frantishek Chermak Profesor i golova sekciyi diahronichnogo korpusu Karel Kuchera Golova lingvistichnoyi sekciyi Varclav Cvrchek Golova obchislyuvalnoyi sekciyi Pavel Vondrzhichka Golova sekciyi rozmovnogo korpusu Mariya Koprshivova Golova sekciyi lingvistichnogo analizu j anotacij Tomash Elinek Golova sekciyi paralelnogo korpusu Aleksandr Rozen Ta inshi 2 Sklad ta ob yem korpusured Korpus pismovih tekstiv 2705 mln slovovzhivan Korpus usnih tekstiv 4 mln slovovzhivan Diahronichnij korpus 1 95 mln slovovzhivan Korpus inozemnih mov 6248 mln slovovzhivan Paralelnij korpus 92 mln slovovzhivan Zagalnij ob yem korpusu skladaye ponad 9 mlrd slovovzhivan z yakih lematizovano i rozmicheno tegami 8894 5 mln Sferi uvagired Cheskij nacionalnij korpus sistematichno zoseredzhuyetsya na takih sferah Sinhronni pismovi korpusi korpusi seriyi SYN vidobrazhayut chesku movu 20 go ta 21 go stolittya osoblivo ostannih dvadcyati rokiv i stanovlyat yadro proyektu Teksti zbagachuyutsya metadanimi lematizaciyeyu ta morfologichnimi tegami Suchasna spontanna rozmovna cheska korpusi seriyi ORAL mistyat suchasnu spontannu rozmovnu movu yaka vikoristovuyetsya v neformalnih situaciyah po vsij Cheskij Respublici na vidminu vid pidgotovlenih peredanih abo napisanih tekstiv yaki zazvichaj zustrichayutsya v rozmovnih korpusah Bagatomovnij paralelnij korpus InterCorp ce velikij korpus cheskih tekstiv uzgodzhenih na rivni rechennya z perekladami na abo z bilsh nizh 30 mov Osnovu korpusu skladayut virivnyani vruchnu ta vichitani hudozhni teksti Diahronichnij korpus cheskoyi movi Korpus istorichnoyi cheskoyi movi DIAKORP vklyuchaye teksti z 14 stolittya Sogodni DIAKORP zoseredzhuyetsya na 19 stolitti Dovgostrokova meta DIAKORP polyagaye v tomu shob stvoriti korpus sho ohoplyuye period z 1850 roku po teperishnij chas i poyednati dani z seriyeyu SYN Specializovani lingvistichni dani ICNC takozh bere uchast u zbori movnih danih dlya konkretnih doslidnickih cilej vklyuchayuchi DIALEKT dialektne movlennya CzeSL teksti napisani lyudmi yaki ne ye ridnimi hto vivchaye chesku DEAF cheski teksti napisani gluhimi abo Iyeronim perekladna i neperekladna cheska Dzherela tekstivred Osnovnimi dzherelami tekstiv ChNK ye Teksti otrimani v elektronnomu viglyadi vid vidavnictv j individualnih vlasnikiv Tekstiv vzyatih iz gazet skladayut absolyutnu bilshist tekstiv korpusu blizko 60 Teksti slovnikiv napriklad korpus FSC2000 posilayetsya na Chastotnij slovnik cheskoyi movi Okremij korpus ChNK prisvyachenij antiutopiyi Dzhordzha Orvella 1984 porivnyano nevelikij rozmir yakoyi 80 000 sliv i 20 000 punktuacijnih znakiv dozvoliv vruchnu rozmititi tekst majzhe bezdoganno Dostupred Na sajti isnuye dva vidi dostupu publichnij i povnij Neavtorizovanij koristuvach mozhe shukati tilki v korpusi SYN2010 ob yem yakogo skladaye vsogo 100 mln sliv sho stanovit odnu dev yanostu vsiyeyi bazi Cheskogo nacionalnogo korpusu SYN2010 skladayetsya 3 na 40 iz hudozhnoyi literaturi na 27 iz tehnichnoyi literaturi i na 33 iz zhurnalistskih robit Bilshist tekstiv korpusu buli stvoreni z 2005 po 2009 rik Slova vidayutsya v formati concordance lines koli kozhna strichka yavlyaye soboyu chastinu tekstu v yakomu ye zadanij visliv Dlya publichnogo dostupu mozhlivi vikoristannya bazovih regulyarnih vislovlyuvan takozh mozhlivij poshuk za klyuchovimi slovam Zareyestrovanij koristuvach maye povnij dostup do bazi danih Institutu ChNK a takozh do specialnogo menedzhera korpusu Bonito Spivpracyared Z korpusom spivpracyuyut taki naukovi instituciyi 4 Institut formalnoyi i prikladnoyi lingvistiki i Matematiko fizichnij fakultet Karlovogo universitetu Kafedra komp yuternih nauk fakultetu elektrotehniki Cheskogo tehnichnogo universitetu Fakultet informatiki Universitetu Masarika Pedagogichnij fakultet Universitetu Masarika Departament cheskogo i slov yanskogo movoznavstva fakultet filologiyi Universitetu Masarika Municipalni biblioteki v Prazi Silezkij universitet Universitet Gradec Kralove Universitet Palackogo Institut cheskoyi movi Akademiyi nauk Chehiyi Takozh korpus spivpracyuye z fakultetom slov yanskih mov Braunskogo universitetu SShA fakultetom filosofiyi i literaturi Granadskogo universitetu Ispaniya Institutom nimeckoyi movi v Mangajmi Nimechchina Amsterdamskim universitetom Niderlandi ta inshimi velikimi naukovimi centrami Primitkired Charles University Czech Universities www czechuniversities com Procitovano 3 travnya 2022 People Institute of the Czech National Corpus ucnk ff cuni cz Procitovano 4 travnya 2022 Public Access web archive org 29 zhovtnya 2013 Arhiv originalu za 29 zhovtnya 2013 Procitovano 4 travnya 2022 Cooperation Institute of the Czech National Corpus ucnk ff cuni cz Procitovano 4 travnya 2022 Otrimano z https uk wikipedia org wiki Cheskij nacionalnij korpus