Американський національний корпус (American National Corpus) — це текстовий корпус американської англійської, що містить 22 мільйони слів письмових і усних даних, створених з 1990 року. Наразі ANC включає низку жанрів, такі як електронна пошта, твіти та веб-дані, які не включені в попередні корпуси, такі як Британський національний корпус . Він розмічений та лематизований для частин мови, має синтаксичну розмітку.
ANC доступний у Консорціумі лінгвістичних даних . Підмножина з п’ятнадцяти мільйонів слів цього корпусу, яка називається Open American National Corpus (OANC), є вільно доступною без обмежень щодо використання на веб-сайті ANC.
Корпус та його анотації надаються відповідно до специфікацій Linguistic Annotation Framework. Використовуючи безкоштовно наданий інструмент трансдукці, корпус і анотації, вибрані користувачем, надаються в кількох форматах: формат CoNLL IOB; формат XML, що відповідає стандарту кодування XML Corpus (можна використовувати з пошуковою системою XAIRA Британського національного корпусу); формат, сумісний із UIMA; та формати, придатні для введення в широкий спектр програмного забезпечення для конкордації. Також доступні плагіни для імпорту анотацій до General Architecture for Text Engineering.
ANC відрізняється від інших корпусів англійської мови тим, що має багато анотацій, включаючи анотації різних частин мови, анотації неглибокого аналізу та анотації для кількох типів іменованих об’єктів . Додаткові анотації додаються до всього або частин корпусу, коли вони стають доступними, часто за рахунок внесків інших проектів. На відміну від онлайн-корпусів із можливістю пошуку, які через обмеження авторських прав надають доступ лише до окремих речень, весь ANC доступний для досліджень, що включають, наприклад, розробку статистичних мовних моделей та повнотекстових лінгвістичних анотацій.
Анотації ANC створюються автоматично та не перевіряються. Піднабір із 500 000 слів, який називається підкорпусом з анотаціями вручну (MASC), анотується приблизно для 20 різних видів лінгвістичних анотацій, усі з яких були перевірені вручну або створені вручну. До них належать синтаксичні анотації Penn Treebank, семантичні анотації WordNet, семантичні анотації кадрів FrameNet та інші. Як і OANC, MASC є вільно доступним для будь-якого використання, і його можна завантажити з сайту ANC або з Консорціуму лінгвістичних даних . Він також розповсюджується у формі з тегами частини мови разом із Набором інструментів природної мови .
ANC та його підкорпуси відрізняються від подібних корпусів насамперед діапазоном наданих лінгвістичних анотацій та включенням сучасних жанрів, які не з’являються в таких ресурсах, як Британський національний корпус . Крім того, оскільки початковим цільовим використанням корпусів була розробка статистичних мовних моделей, доступні повні дані та всі анотації, що відрізняється від Корпусу сучасної американської англійської мови (COCA), який доступний лише вибірково через веб-браузер.
Подальше зростання OANC та MASC залежить від внесків даних та анотацій від спільнот комп’ютерної лінгвістики та корпусної лінгвістики.
Дивись також
Посилання
- Ide, N. (2008). The American National Corpus: Then, Now, and Tomorrow [Архівовано 8 серпня 2021 у Wayback Machine.]. In Michael Haugh, Kate Burridge, Jean Mulder and Pam Peters (eds.), Selected Proceedings of the 2008 HCSNet Workshop on Designing the Australian National Corpus: Mustering Languages, Cascadilla Proceedings Project, Sommerville, MA.
- Ide, N., Suderman, K. (2004). The American National Corpus First Release [Архівовано 20 січня 2022 у Wayback Machine.]. Proceedings of the Fourth Language Resources and Evaluation Conference (LREC), Lisbon, 1681-84.
- Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). The Manually Annotated Sub-Corpus: A Community Resource For and By the People [Архівовано 22 січня 2022 у Wayback Machine.] Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden.
Зовнішні посилання
- Веб-сайт ANC [Архівовано 7 травня 2022 у Wayback Machine.]
- Веб-сайт MASC [Архівовано 28 березня 2022 у Wayback Machine.]
- ANC2Go [Архівовано 28 березня 2022 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Amerikanskij nacionalnij korpus American National Corpus ce tekstovij korpus amerikanskoyi anglijskoyi sho mistit 22 miljoni sliv pismovih i usnih danih stvorenih z 1990 roku Narazi ANC vklyuchaye nizku zhanriv taki yak elektronna poshta tviti ta veb dani yaki ne vklyucheni v poperedni korpusi taki yak Britanskij nacionalnij korpus Vin rozmichenij ta lematizovanij dlya chastin movi maye sintaksichnu rozmitku ANC dostupnij u Konsorciumi lingvistichnih danih Pidmnozhina z p yatnadcyati miljoniv sliv cogo korpusu yaka nazivayetsya Open American National Corpus OANC ye vilno dostupnoyu bez obmezhen shodo vikoristannya na veb sajti ANC Korpus ta jogo anotaciyi nadayutsya vidpovidno do specifikacij Linguistic Annotation Framework Vikoristovuyuchi bezkoshtovno nadanij instrument transdukci korpus i anotaciyi vibrani koristuvachem nadayutsya v kilkoh formatah format CoNLL IOB format XML sho vidpovidaye standartu koduvannya XML Corpus mozhna vikoristovuvati z poshukovoyu sistemoyu XAIRA Britanskogo nacionalnogo korpusu format sumisnij iz UIMA ta formati pridatni dlya vvedennya v shirokij spektr programnogo zabezpechennya dlya konkordaciyi Takozh dostupni plagini dlya importu anotacij do General Architecture for Text Engineering ANC vidriznyayetsya vid inshih korpusiv anglijskoyi movi tim sho maye bagato anotacij vklyuchayuchi anotaciyi riznih chastin movi anotaciyi neglibokogo analizu ta anotaciyi dlya kilkoh tipiv imenovanih ob yektiv Dodatkovi anotaciyi dodayutsya do vsogo abo chastin korpusu koli voni stayut dostupnimi chasto za rahunok vneskiv inshih proektiv Na vidminu vid onlajn korpusiv iz mozhlivistyu poshuku yaki cherez obmezhennya avtorskih prav nadayut dostup lishe do okremih rechen ves ANC dostupnij dlya doslidzhen sho vklyuchayut napriklad rozrobku statistichnih movnih modelej ta povnotekstovih lingvistichnih anotacij Anotaciyi ANC stvoryuyutsya avtomatichno ta ne pereviryayutsya Pidnabir iz 500 000 sliv yakij nazivayetsya pidkorpusom z anotaciyami vruchnu MASC anotuyetsya priblizno dlya 20 riznih vidiv lingvistichnih anotacij usi z yakih buli perevireni vruchnu abo stvoreni vruchnu Do nih nalezhat sintaksichni anotaciyi Penn Treebank semantichni anotaciyi WordNet semantichni anotaciyi kadriv FrameNet ta inshi Yak i OANC MASC ye vilno dostupnim dlya bud yakogo vikoristannya i jogo mozhna zavantazhiti z sajtu ANC abo z Konsorciumu lingvistichnih danih Vin takozh rozpovsyudzhuyetsya u formi z tegami chastini movi razom iz Naborom instrumentiv prirodnoyi movi ANC ta jogo pidkorpusi vidriznyayutsya vid podibnih korpusiv nasampered diapazonom nadanih lingvistichnih anotacij ta vklyuchennyam suchasnih zhanriv yaki ne z yavlyayutsya v takih resursah yak Britanskij nacionalnij korpus Krim togo oskilki pochatkovim cilovim vikoristannyam korpusiv bula rozrobka statistichnih movnih modelej dostupni povni dani ta vsi anotaciyi sho vidriznyayetsya vid Korpusu suchasnoyi amerikanskoyi anglijskoyi movi COCA yakij dostupnij lishe vibirkovo cherez veb brauzer Podalshe zrostannya OANC ta MASC zalezhit vid vneskiv danih ta anotacij vid spilnot komp yuternoyi lingvistiki ta korpusnoyi lingvistiki Divis takozhBritanskij nacionalnij korpus Oksfordskij korpus anglijskoyi movi Korpus suchasnoyi amerikanskoyi anglijskoyi movi COCA PosilannyaIde N 2008 The American National Corpus Then Now and Tomorrow Arhivovano 8 serpnya 2021 u Wayback Machine In Michael Haugh Kate Burridge Jean Mulder and Pam Peters eds Selected Proceedings of the 2008 HCSNet Workshop on Designing the Australian National Corpus Mustering Languages Cascadilla Proceedings Project Sommerville MA Ide N Suderman K 2004 The American National Corpus First Release Arhivovano 20 sichnya 2022 u Wayback Machine Proceedings of the Fourth Language Resources and Evaluation Conference LREC Lisbon 1681 84 Ide N Baker C Fellbaum C Passonneau R 2010 The Manually Annotated Sub Corpus A Community Resource For and By the People Arhivovano 22 sichnya 2022 u Wayback Machine Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics Uppsala Sweden Zovnishni posilannyaVeb sajt ANC Arhivovano 7 travnya 2022 u Wayback Machine Veb sajt MASC Arhivovano 28 bereznya 2022 u Wayback Machine ANC2Go Arhivovano 28 bereznya 2022 u Wayback Machine