Оксфордський корпус англійської мови (Oxford English Corpus) — це текстовий корпус англійської мови 21-го століття, який використовується розробниками Оксфордського словника англійської мови та програмою мовних досліджень Oxford University Press. Це найбільший корпус у своєму роді, який містить майже 2,1 мільярди слів. Вона включає мову Великобританії, США, Ірландії, Австралії, Нової Зеландії, Карибського басейну, Канади, Індії, Сінгапуру та Південної Африки. Текст в основному збирається з веб-сторінок; деякі друковані тексти, наприклад, академічні журнали, були зібрані для доповнення окремих предметних областей. Джерелами є твори різного роду, від «літературних романів і спеціалізованих журналів до щоденних газет і журналів і від Хансарда до мови блогів, електронної пошти та соціальних мереж». Це можна порівняти з подібними базами даних, які випробовують лише певний тип письма. Корпус зазвичай доступний лише для дослідників Oxford University Press, але інші дослідники, які можуть продемонструвати сильну потребу, можуть подати заявку на доступ.
Цифрова версія Oxford English Corpus відформатована в XML і зазвичай аналізується за допомогою програмного забезпечення Sketch Engine. Станом на 27 квітня 2006 року база даних словника налічувала 1 мільярд слів.
Кожен документ в OE Corpus супроводжується іменуванням метаданих :
- заголовок
- автор (якщо відомий; на багатьох веб-сайтах це важко визначити достовірно)
- стать автора (якщо відомо)
- тип мови (наприклад Британська англійська, Американська англійська)
- вихідний веб-сайт
- рік (+ дата, якщо відомо)
- дата збору
- домен + субдомен
- статистика документа (кількість лексем, речень тощо)
Примітки
- The Oxford English Corpus. Sketch Engine. Lexical Computing CZ s.r.o. Процитовано 27 жовтня 2016.
- The Oxford English Corpus. Oxford Dictionaries Online. Oxford University Press. Архів оригіналу за 1 січня 2012. Процитовано 8 листопада 2014.
- Compare COCA. Corpus of Contemporary American English. Архів оригіналу за 7 листопада 2014. Процитовано 8 листопада 2014.
- The Oxford English Corpus. Retrieved February 4, 2014.
- Dictionary database has billion words. Northwest Herald. 27 квітня 2006. с. 2. Процитовано 15 березня 2020 — через Newspapers.com.
Дивіться також
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Oksfordskij korpus anglijskoyi movi Oxford English Corpus ce tekstovij korpus anglijskoyi movi 21 go stolittya yakij vikoristovuyetsya rozrobnikami Oksfordskogo slovnika anglijskoyi movi ta programoyu movnih doslidzhen Oxford University Press Ce najbilshij korpus u svoyemu rodi yakij mistit majzhe 2 1 milyardi sliv Vona vklyuchaye movu Velikobritaniyi SShA Irlandiyi Avstraliyi Novoyi Zelandiyi Karibskogo basejnu Kanadi Indiyi Singapuru ta Pivdennoyi Afriki Tekst v osnovnomu zbirayetsya z veb storinok deyaki drukovani teksti napriklad akademichni zhurnali buli zibrani dlya dopovnennya okremih predmetnih oblastej Dzherelami ye tvori riznogo rodu vid literaturnih romaniv i specializovanih zhurnaliv do shodennih gazet i zhurnaliv i vid Hansarda do movi blogiv elektronnoyi poshti ta socialnih merezh Ce mozhna porivnyati z podibnimi bazami danih yaki viprobovuyut lishe pevnij tip pisma Korpus zazvichaj dostupnij lishe dlya doslidnikiv Oxford University Press ale inshi doslidniki yaki mozhut prodemonstruvati silnu potrebu mozhut podati zayavku na dostup Cifrova versiya Oxford English Corpus vidformatovana v XML i zazvichaj analizuyetsya za dopomogoyu programnogo zabezpechennya Sketch Engine Stanom na 27 kvitnya 2006 roku baza danih slovnika nalichuvala 1 milyard sliv Kozhen dokument v OE Corpus suprovodzhuyetsya imenuvannyam metadanih zagolovok avtor yaksho vidomij na bagatoh veb sajtah ce vazhko viznachiti dostovirno stat avtora yaksho vidomo tip movi napriklad Britanska anglijska Amerikanska anglijska vihidnij veb sajt rik data yaksho vidomo data zboru domen subdomen statistika dokumenta kilkist leksem rechen tosho PrimitkiThe Oxford English Corpus Sketch Engine Lexical Computing CZ s r o Procitovano 27 zhovtnya 2016 The Oxford English Corpus Oxford Dictionaries Online Oxford University Press Arhiv originalu za 1 sichnya 2012 Procitovano 8 listopada 2014 Compare COCA Corpus of Contemporary American English Arhiv originalu za 7 listopada 2014 Procitovano 8 listopada 2014 The Oxford English Corpus Retrieved February 4 2014 Dictionary database has billion words Northwest Herald 27 kvitnya 2006 s 2 Procitovano 15 bereznya 2020 cherez Newspapers com Divitsya takozhBritanskij nacionalnij korpus Korpus suchasnoyi amerikanskoyi anglijskoyi movi COCA Amerikanskij nacionalnij korpus Chastotnij analiz