Корпус сучасної американської англійської мови (COCA) — це корпус, який містить близько одного мільярда слів сучасної американської англійської мови. Його створив Марк Девіс, професор корпусної лінгвістики Університету Брігама Янга.
COCA має ряд індивідуальних особливостей: величезний розмір корпусу, актуальні для сьогодення тексти (до 2019 року), великий асортимент жанрів текстів та зручний швидкий пошук, який надає можливість фільтрувати по жанрах та часі, а також порівнювати. Ще він відрізняється тим, що видає одразу 60 000 слів у корпусі і велику кількість інформації для кожного слова, в тому числі частоту, визначення, синоніми, записи в мережі WordNet, пов'язані теми, конкорданси, асоціації, веб-сайти, які мають слово із запиту як ключове та рядки з KWIC чи конкордансу.
Усі ці риси сприяють Корпусу сучасної американської англійської мови бути ідеальним для науковців, вчителів, викладачів та учнів.
Зміст
Корпус сучасної американської англійської мови (COCA) станом на квітень 2022 року складається з 1 001 610 938 слів. Він постійно поповнюється: у 2009 році там містилося понад 385 мільйонів слів; у 2010 році - близько 400 мільйонів слів; до березня 2019 року корпус зріс до 560 мільйонів слів; а до грудня 2019 року ця кількість досягла 1 мільярда слів.
Станом на квітень 2022 року Корпус сучасної американської англійської складається з 485 202 текстів. Згідно з веб-сайтом, поточний корпус (квітень 2022 року) складається з текстів, які включають 25+ мільйонів слів для кожного року (1990-2019).
Для кожного року, що міститься в корпусі (1990-2019), корпус рівномірно поділений на вісім жанрів: розмовні, художні, академічні тексти, популярні журнали, газети та (з оновленням у березні 2020): телебачення і субтитри до фільмів, блоги та інші веб-сторінки. Спочатку реєстрів було 6, та станом на квітень 2022 COCA також містить 125 496 215 слів з блогів і 129 899 426 слів із веб-сайтів, що робить його корпусом, який справді складається з сучасної американської англійської мови (див. сторінку «Тексти та реєстри» на сайті COCA).
Тексти беруться з різноманітних ресурсів:
- Розмовні: 127 396 916 слів. Стенограми розмов без сценарію з більш ніж 150 різних теле- та радіопрограм.
- Художня література: 119 505 292 слова. Оповідання та п’єси, перші розділи книг 1990 – дотепер і сценарії фільмів.
- Популярні журнали: 127 352 014 слів. Близько 100 різних журналів із таких сфер як новини, здоров’я, будинок і садівництво, жіночі, фінансові, релігійні, спортивні тощо.
- Газети: 122 959 393 слова. Десять газет США, з текстами із різних розділів газет таких як місцеві новини, думки, спорт та фінанси тощо.
- Академічні журнали: 120 988 348 слів. Майже 100 різних рецензованих журналів, які були відібрані щоб охопити весь діапазон системи класифікації Бібліотеки Конгресу.
- ТБ/субтитри фільмів: 128 012 334 слова. Субтитри були взяті з колекції OpenSubtitles [ 6 травня 2022 у Wayback Machine.].
- Блоги: 125 496 215 слів. Ці тексти репрезентують підмножину текстів із США в корпусі GloWbE [ 2 квітня 2022 у Wayback Machine.].
- Веб-сторінки: 129 899 426 слів. Підмножина "Загальні" тексти з США в корпусі GloWbE [ 2 квітня 2022 у Wayback Machine.]. Деякі з них є блогами, так як на той час неможливо було шукати "НЕ блоги" в Google.
Доступність
Корпус сучасної американської англійської мови є безкоштовний для пошуку за допомогою свого веб-інтерфейсу, користувачам потрібно лише зареєструватися і це дозволить здійснювати обмежену кількість запитів у день.
Запити
- Інтерфейс такий самий, як інтерфейс BYU-BNC для Британського національного корпусу (який містить 100 мільйонів слів), корпусу журналу TIME (100 мільйонів слів) і *Historical* American English (COHA) (400 мільйонів слів), станом на 1810-2000-ті роки.
- Запити можна робити за словом, фразою, альтернативами, підрядком, частиною мови, лемою, синонімами та налаштованими списками.
- Корпус позначений тегами CLAWS, тією ж частиною мови, що використовувалася для BNC і корпусу TIME.
- Діаграми (які містять загальні відомості для всіх відповідних форм у кожному жанрі (піджанрі) або році (доступні від 1990 - дотепер) та списки таблиць (які відображають частоту для кожної відповідної форми в будь-якому доступному жанрі чи році).
- Повний пошук колокацій (до десяти слів ліворуч і праворуч від слова-вузла).
- Конкорданси, які можна повторно сортувати, показують найпоширеніші (спільні) слова/рядки ліворуч і праворуч від шуканого слова.
- Порівняння між жанрами або періодами часу (наприклад, словосполучення зі словом «chair» (крісло, стілець) частіше використовуються у художній чи академічній літературі, іменники з дієсловом «break the [N]» (зламати + ім.) - у газетах чи академічних розділах, прикметники - в спортивних журналах, або дієслова, які є більш поширеними у 2005–2010 роках, ніж раніше).
- Одноетапне порівняння колокацій споріднених слів, щоб вивчити семантичні або культурні відмінності між словами (наприклад, порівняння колокатів 'small' (малий), 'little' (маленький), 'tiny' (крихітний), 'miniscule' (мініатюрний), 'lilliputian' (ліліпут); або 'Democrats' (демократи) та 'Republicans' (республіканці); або 'men' (чоловіки) та 'women' (жінки)).
- Користувачі можуть включати семантичну інформацію з тезаурусу на 60 000 записів безпосередньо як частину синтаксису запиту (наприклад, частіше синонімами слова 'beautiful' (красивий), 'strong' (сильний) користуються у ТБ/субтитрах фільмів та художній літературі, але не в академічній літературі).
- Корисним також є список із найпопулярніших 60 000 слів (лем), який містить багато інформації про кожне. Якщо слово знаходиться на ~ 5000-му місці, то воно частовживане, якщо ~ 25 000-му - середньовживане, і якщо ~ 45 000-му - рідковживане. До кожного слова користувач може послухати правильну вимову, подивитись відео з ним у тексті, знайти пов'язані картинки в Google Images та перекласти на бажану мову. Корпус надає можливість шукати у 60 000-му списку слово за вимовою, це є дуже зручно, через складність написання англійських слів (наприклад, при пошуку двоскладового слова з наголосом на другому складі 'away' ми отримуємо в результаті слова, які римуються із заданим 'today' - 'suvey' - 'display'...).
- Крім цього користувачі можуть створювати свої «індивідуальні» списки слів, а потім повторно використовувати їх, як частину наступних запитів (наприклад, списки, пов’язані з певною семантичною категорією (одяг, їжа, емоції), або визначеною користувачем частиною мови).
- Зверніть увагу, що корпус доступний лише через веб-інтерфейс через обмеження авторських прав.
Пов'язані
Корпус Global Web-based English [ 2 квітня 2022 у Wayback Machine.] (GloWbE; вимовляється 'globe' [glowb]) містить близько 1,9 мільярда слів з текстів різних двадцяти країн. Це робить його приблизно в 100 разів більшим за інші корпуси, як-от Міжнародний корпус англійської мови, і дозволяє здійснювати багато типів пошуку, які були б неможливі в іншому випадку. На додаток до цього онлайн-інтерфейсу ви також можете завантажити повнотекстові дані з корпусу.
Корпус Global Web-based English [ 2 квітня 2022 у Wayback Machine.] унікальний тим, що дозволяє проводити порівняння між різними видами англійської мови та пов'язаний з багатьма іншими корпусами.
Дивись також
Бібліографія
- Davies, Mark (2010). The Corpus of Contemporary American English as the First Reliable Monitor Corpus of English. Literary and Linguistic Computing. 25 (4): 447—65. doi:10.1093/llc/fqq018.
- Bennett, Gena R. (2010). Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. : University of Michigan. с. 144. ISBN .
- Davies, Mark (2010). More than a peephole: Using large and diverse online corpora. International Journal of Corpus Linguistics. 15 (3): 405—11. doi:10.1075/ijcl.15.3.13dav.
- Anderson, Wendy; Corbett, John (2009), Exploring English with Online Corpora, Palgrave Macmillan, с. 205, ISBN
- Davies, Mark (2009). The 385+ Million Word Corpus of Contemporary American English (1990–present). International Journal of Corpus Linguistics. John Benjamins Publishing Company. 14 (2): 159–190(32). doi:10.1075/ijcl.14.2.02dav.
- Lindquist, Hans (2009). Corpus Linguistics and the Description of English. Edinburgh University Press. ISBN .
- Davies, Mark (2005). The advantage of using relational databases for large corpora: Speed, advanced queries, and unlimited annotation. International Journal of Corpus Linguistics. John Benjamins Publishing Company. 10 (3): 307–334(28). doi:10.1075/ijcl.10.3.02dav.
Посилання
- Milana, Prior (2021). A Comparative Corpus Study on Intensifier Usage across Registers in American English.
- . www.mark-davies.org. Архів оригіналу за 18 квітня 2022. Процитовано 9 листопада 2021.
- Kauhanen, Henri (21 березня 2011). . VARIENG. Архів оригіналу за 12 січня 2012. Процитовано 13 жовтня 2011.
- . www.english-corpora.org. Архів оригіналу за 2 квітня 2022. Процитовано 18 грудня 2019.
Зовнішні посилання
- Офіційний сайт
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Korpus suchasnoyi amerikanskoyi anglijskoyi movi COCA ce korpus yakij mistit blizko odnogo milyarda sliv suchasnoyi amerikanskoyi anglijskoyi movi Jogo stvoriv Mark Devis profesor korpusnoyi lingvistiki Universitetu Brigama Yanga Poshuk slova beautiful na oficijnomu sajti korpusu COCA maye ryad individualnih osoblivostej velicheznij rozmir korpusu aktualni dlya sogodennya teksti do 2019 roku velikij asortiment zhanriv tekstiv ta zruchnij shvidkij poshuk yakij nadaye mozhlivist filtruvati po zhanrah ta chasi a takozh porivnyuvati She vin vidriznyayetsya tim sho vidaye odrazu 60 000 sliv u korpusi i veliku kilkist informaciyi dlya kozhnogo slova v tomu chisli chastotu viznachennya sinonimi zapisi v merezhi WordNet pov yazani temi konkordansi asociaciyi veb sajti yaki mayut slovo iz zapitu yak klyuchove ta ryadki z KWIC chi konkordansu Usi ci risi spriyayut Korpusu suchasnoyi amerikanskoyi anglijskoyi movi buti idealnim dlya naukovciv vchiteliv vikladachiv ta uchniv ZmistKorpus suchasnoyi amerikanskoyi anglijskoyi movi COCA stanom na kviten 2022 roku skladayetsya z 1 001 610 938 sliv Vin postijno popovnyuyetsya u 2009 roci tam mistilosya ponad 385 miljoniv sliv u 2010 roci blizko 400 miljoniv sliv do bereznya 2019 roku korpus zris do 560 miljoniv sliv a do grudnya 2019 roku cya kilkist dosyagla 1 milyarda sliv Stanom na kviten 2022 roku Korpus suchasnoyi amerikanskoyi anglijskoyi skladayetsya z 485 202 tekstiv Zgidno z veb sajtom potochnij korpus kviten 2022 roku skladayetsya z tekstiv yaki vklyuchayut 25 miljoniv sliv dlya kozhnogo roku 1990 2019 Dlya kozhnogo roku sho mistitsya v korpusi 1990 2019 korpus rivnomirno podilenij na visim zhanriv rozmovni hudozhni akademichni teksti populyarni zhurnali gazeti ta z onovlennyam u berezni 2020 telebachennya i subtitri do filmiv blogi ta inshi veb storinki Spochatku reyestriv bulo 6 ta stanom na kviten 2022 COCA takozh mistit 125 496 215 sliv z blogiv i 129 899 426 sliv iz veb sajtiv sho robit jogo korpusom yakij spravdi skladayetsya z suchasnoyi amerikanskoyi anglijskoyi movi div storinku Teksti ta reyestri na sajti COCA Teksti berutsya z riznomanitnih resursiv Rozmovni 127 396 916 sliv Stenogrami rozmov bez scenariyu z bilsh nizh 150 riznih tele ta radioprogram Hudozhnya literatura 119 505 292 slova Opovidannya ta p yesi pershi rozdili knig 1990 doteper i scenariyi filmiv Populyarni zhurnali 127 352 014 sliv Blizko 100 riznih zhurnaliv iz takih sfer yak novini zdorov ya budinok i sadivnictvo zhinochi finansovi religijni sportivni tosho Gazeti 122 959 393 slova Desyat gazet SShA z tekstami iz riznih rozdiliv gazet takih yak miscevi novini dumki sport ta finansi tosho Akademichni zhurnali 120 988 348 sliv Majzhe 100 riznih recenzovanih zhurnaliv yaki buli vidibrani shob ohopiti ves diapazon sistemi klasifikaciyi Biblioteki Kongresu TB subtitri filmiv 128 012 334 slova Subtitri buli vzyati z kolekciyi OpenSubtitles 6 travnya 2022 u Wayback Machine Blogi 125 496 215 sliv Ci teksti reprezentuyut pidmnozhinu tekstiv iz SShA v korpusi GloWbE 2 kvitnya 2022 u Wayback Machine Veb storinki 129 899 426 sliv Pidmnozhina Zagalni teksti z SShA v korpusi GloWbE 2 kvitnya 2022 u Wayback Machine Deyaki z nih ye blogami tak yak na toj chas nemozhlivo bulo shukati NE blogi v Google DostupnistKorpus suchasnoyi amerikanskoyi anglijskoyi movi ye bezkoshtovnij dlya poshuku za dopomogoyu svogo veb interfejsu koristuvacham potribno lishe zareyestruvatisya i ce dozvolit zdijsnyuvati obmezhenu kilkist zapitiv u den ZapitiInterfejs takij samij yak interfejs BYU BNC dlya Britanskogo nacionalnogo korpusu yakij mistit 100 miljoniv sliv korpusu zhurnalu TIME 100 miljoniv sliv i Historical American English COHA 400 miljoniv sliv stanom na 1810 2000 ti roki Slova za chastotoyu vzhivannya zverhu vniz chastovzhivani serednovzhivani ridkovzhivani Zapiti mozhna robiti za slovom frazoyu alternativami pidryadkom chastinoyu movi lemoyu sinonimami ta nalashtovanimi spiskami Korpus poznachenij tegami CLAWS tiyeyu zh chastinoyu movi sho vikoristovuvalasya dlya BNC i korpusu TIME Diagrami yaki mistyat zagalni vidomosti dlya vsih vidpovidnih form u kozhnomu zhanri pidzhanri abo roci dostupni vid 1990 doteper ta spiski tablic yaki vidobrazhayut chastotu dlya kozhnoyi vidpovidnoyi formi v bud yakomu dostupnomu zhanri chi roci Povnij poshuk kolokacij do desyati sliv livoruch i pravoruch vid slova vuzla Konkordansi yaki mozhna povtorno sortuvati pokazuyut najposhirenishi spilni slova ryadki livoruch i pravoruch vid shukanogo slova Porivnyannya mizh zhanrami abo periodami chasu napriklad slovospoluchennya zi slovom chair krislo stilec chastishe vikoristovuyutsya u hudozhnij chi akademichnij literaturi imenniki z diyeslovom break the N zlamati im u gazetah chi akademichnih rozdilah prikmetniki v sportivnih zhurnalah abo diyeslova yaki ye bilsh poshirenimi u 2005 2010 rokah nizh ranishe Odnoetapne porivnyannya kolokacij sporidnenih sliv shob vivchiti semantichni abo kulturni vidminnosti mizh slovami napriklad porivnyannya kolokativ small malij little malenkij tiny krihitnij miniscule miniatyurnij lilliputian liliput abo Democrats demokrati ta Republicans respublikanci abo men choloviki ta women zhinki Koristuvachi mozhut vklyuchati semantichnu informaciyu z tezaurusu na 60 000 zapisiv bezposeredno yak chastinu sintaksisu zapitu napriklad chastishe sinonimami slova beautiful krasivij strong silnij koristuyutsya u TB subtitrah filmiv ta hudozhnij literaturi ale ne v akademichnij literaturi Poshuk slova away za vimovoyu v rezultati otrimuyemo slova rimi do nogo Korisnim takozh ye spisok iz najpopulyarnishih 60 000 sliv lem yakij mistit bagato informaciyi pro kozhne Yaksho slovo znahoditsya na 5000 mu misci to vono chastovzhivane yaksho 25 000 mu serednovzhivane i yaksho 45 000 mu ridkovzhivane Do kozhnogo slova koristuvach mozhe posluhati pravilnu vimovu podivitis video z nim u teksti znajti pov yazani kartinki v Google Images ta pereklasti na bazhanu movu Korpus nadaye mozhlivist shukati u 60 000 mu spisku slovo za vimovoyu ce ye duzhe zruchno cherez skladnist napisannya anglijskih sliv napriklad pri poshuku dvoskladovogo slova z nagolosom na drugomu skladi away mi otrimuyemo v rezultati slova yaki rimuyutsya iz zadanim today suvey display Krim cogo koristuvachi mozhut stvoryuvati svoyi individualni spiski sliv a potim povtorno vikoristovuvati yih yak chastinu nastupnih zapitiv napriklad spiski pov yazani z pevnoyu semantichnoyu kategoriyeyu odyag yizha emociyi abo viznachenoyu koristuvachem chastinoyu movi Zvernit uvagu sho korpus dostupnij lishe cherez veb interfejs cherez obmezhennya avtorskih prav Pov yazaniKorpus Global Web based English 2 kvitnya 2022 u Wayback Machine GloWbE vimovlyayetsya globe glowb mistit blizko 1 9 milyarda sliv z tekstiv riznih dvadcyati krayin Ce robit jogo priblizno v 100 raziv bilshim za inshi korpusi yak ot Mizhnarodnij korpus anglijskoyi movi i dozvolyaye zdijsnyuvati bagato tipiv poshuku yaki buli b nemozhlivi v inshomu vipadku Na dodatok do cogo onlajn interfejsu vi takozh mozhete zavantazhiti povnotekstovi dani z korpusu Korpus Global Web based English 2 kvitnya 2022 u Wayback Machine unikalnij tim sho dozvolyaye provoditi porivnyannya mizh riznimi vidami anglijskoyi movi ta pov yazanij z bagatma inshimi korpusami Divis takozhAmerikanskij nacionalnij korpus Britanskij nacionalnij korpus Bank anglijskoyi movi Braunivskij korpus Mizhnarodnij korpus anglijskoyi movi Mizhnarodnij korpus vivchennya anglijskoyi movi Korpus rozmovnoyi anglijskoyi movi Oksfordskij korpus anglijskoyi movi Korpus ukrayinskoyi moviBibliografiyaDavies Mark 2010 The Corpus of Contemporary American English as the First Reliable Monitor Corpus of English Literary and Linguistic Computing 25 4 447 65 doi 10 1093 llc fqq018 Bennett Gena R 2010 Using Corpora in the Language Learning Classroom Corpus Linguistics for Teachers University of Michigan s 144 ISBN 978 0 472 03385 0 Davies Mark 2010 More than a peephole Using large and diverse online corpora International Journal of Corpus Linguistics 15 3 405 11 doi 10 1075 ijcl 15 3 13dav Anderson Wendy Corbett John 2009 Exploring English with Online Corpora Palgrave Macmillan s 205 ISBN 978 0 230 55140 4 Davies Mark 2009 The 385 Million Word Corpus of Contemporary American English 1990 present International Journal of Corpus Linguistics John Benjamins Publishing Company 14 2 159 190 32 doi 10 1075 ijcl 14 2 02dav Lindquist Hans 2009 Corpus Linguistics and the Description of English Edinburgh University Press ISBN 978 0 7486 2615 1 Davies Mark 2005 The advantage of using relational databases for large corpora Speed advanced queries and unlimited annotation International Journal of Corpus Linguistics John Benjamins Publishing Company 10 3 307 334 28 doi 10 1075 ijcl 10 3 02dav PosilannyaMilana Prior 2021 A Comparative Corpus Study on Intensifier Usage across Registers in American English www mark davies org Arhiv originalu za 18 kvitnya 2022 Procitovano 9 listopada 2021 Kauhanen Henri 21 bereznya 2011 VARIENG Arhiv originalu za 12 sichnya 2012 Procitovano 13 zhovtnya 2011 www english corpora org Arhiv originalu za 2 kvitnya 2022 Procitovano 18 grudnya 2019 Zovnishni posilannyaOficijnij sajt