Стандартизований корпус сучасної американської англійської мови Браунського університету (або Браунівський корпус) — це електронне зібрання текстів американського варіанту англійської мови, перший великий структурований, комп'ютеризований корпус різних жанрів, призначений для лінгвістичних досліджень сучасної англійської мови. Цей корпус вважають першим повноцінним лінгвістичним корпусом. Його розробка відкрила широкі перспективи для наукового вивчення частоти вживання та розподілу категорій слів у повсякденному мовленні. Укладений Генрі Кучерою та В. Нельсоном Френсісом з Браунського університету в Род-Айленді. Це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно 1 мільйон слововживань, зібраних з робіт, опублікованих у Сполучених Штатах протягом 1961 року.
Автор | , |
---|---|
Назва мовою оригіналу | Brown Corpus |
Країна | США |
Мова | Англійська (американський варіант) |
Тема | лінгвістичний корпус |
Видавництво | The Cooperative Research Program of the U.S. Office of Education, Brown University |
Видано | 1964 р. (оригінальна версія) |
Доступні 6 версій корпусу: оригінальна (Форма A), Форма B з виключеними пунктуаційними кодами, розмічена Форма C, Форми Бергена І та ІІ і форма Brown MARC.
Опубликований також офіційний мануал до корпусу, він доступний онлайн (див. )
Історія
У 1967 році Кучера і Френсіс оприлюднили свою знакову працю «Обчислювальний аналіз сучасної американської англійської мови», яка стала майбутньою статистичною базою для створення Браунівського корпусу.
Браунівський корпус являв собою ретельно зібрану добірку поточної американської англійської мови, що налічувала близько 1 мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс проводили на його основі різнобічні обчислювальні аналізи, оптимізувавши цей проєкт, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі.
Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів для свого нового [en]. Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був укладений за допомогою розробок корпусної лінгвістики для частоти слів та іншої інформації.
На початку Браунівський корпус мав лише самі слововживання, а також ідентифікатор розташування їх у текстах. Протягом наступних кількох років почали застосовувалися теги на позначення граматичних категорій. Програма додавання тегів Greene і Rubin (див. розділ «Позначення тегів у мові» ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.
Розмічений Браунівський корпус використовував вибірку з приблизно 80 категорій, а також спеціальні індикатори для складених слів, скорочень, іншомовних запозичень та деяких інших явищ. Він став моделлю для багатьох пізніших корпусів, таких як Корпус Ланкастера-Осло-Бергена (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). Розмітка корпусу дозволяла робити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики.
Браунівський корпус фактично ознаменував початок активного розвитку корпусної лінгвістики. Він дозволяв робити певні статистичні висновки. Наприклад, цікавим результатом є те, що навіть для досить великих вибірок графік слів у порядку зменшення їх частоти вживання утворює гіперболу: частотність n-ого найбільш вживаного слова є константою, яка приблизно пропорційна до 1/n. Таким чином, «the» становить майже 7% Браунівського корпусу, «to» і «of» більше ніж ще 3% кожне. Таким чином, слово «the» займає близько 7% Браунівського корпусу, «to» та «of» понад 3% кожне. Проте майже половина загального наповнення текстів (приблизно 50000 слів) становить hapax legomena: слова, які зустрічаються лише один раз у корпусі. Це відношення порядку та частотності досліджувалося Джорджем Кінгслі Зіпфом (наприклад, див. «Психобіологія мови») і відоме як закон Ципфа .
Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, на даний момент інші типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови ) зазвичай є набагато більшими - близько 100 мільйонів слів.
Класифікація текстів
Корпус включав 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну по 15 жанрах. Усі відібрані роботи були вперше опубліковані в 1961 році й написані носіями американської англійської мови.
Кожен зразок тексту починався з випадкової межі речення у статті чи іншому вибраному підрозділі й продовжувався до першої межі речення після 2000 слів. У невеликій кількості випадків неправильні підрахунки призвели до того, що тексти почали становити трохи менше 2000 слів.
Початкове введення даних здійснювалося на перфораційних машинах тільки великими літерами; великі літери позначалися зірочкою (*), а різні спеціальні елементи, такі як формули, також мали спеціальні кодові позначення.
Спочатку корпус (на 1961 рік) містив 1 014 312 слововживань із 15 текстових категорій:
- А. ПРЕСА: Репортаж (44 тексти)
- Політичний
- Спорт
- Суспільство
- Екстрені новини
- Фінансовий
- Культурний
- B. ПРЕСА: Редакційна стаття (27 текстів)
- Інституційний щоденник
- Особисте
- Листи до редакції
- C. ПРЕСА: Рецензії (17 текстів)
- театр
- книги
- музика
- танці
- D. РЕЛІГІЯ (17 текстів)
- Книги
- Періодичні видання
- Трактати
- E. НАВИЧКИ ТА ХОБІ (36 текстів)
- Книги
- Періодичні видання
- F. НАРОДНІ ПЕРЕКАЗИ (48 текстів)
- Книги
- Періодичні видання
- G. БЕЛЕТРИСТИКА - Біографія, мемуари тощо (75 текстів)
- Книги
- Періодичні видання
- H. ІНШЕ: Уряд і внутрішні органи США (30 текстів)
- Урядові документи
- Звіти фонду
- Галузева звітність
- Корпоративний каталог
- Галузь внутрішнього органу
- J. НАУКОВИЙ (80 текстів)
- Природничі науки
- Медицина
- Математика
- Соціальні та поведінкові науки
- Політологія, Право, Освіта
- Гуманітарні науки
- Технологія та техніка
- K. ХУДОЖНЯ ЛІТЕРАТУРА: Загальне (29 текстів)
- Романи
- Розповіді
- L. ХУДОЖНЯ ЛІТЕРАТУРА: Містика та детектив (24 тексти)
- Романи
- Розповіді
- M. ХУДОЖНЯ ЛІТЕРАТУРА: Наука (6 текстів)
- Романи
- Розповіді
- N. ХУДОЖНЯ ЛІТЕРАТУРА: Пригоди та вестерн (29 текстів)
- Романи
- Розповіді
- P. ХУДОЖНЯ ЛІТЕРАТУРА: Любовний роман та історія кохання (29 текстів)
- Романи
- Розповіді
- R. ГУМОР (9 текстів)
- Романи
- Нариси тощо.
Теги на позначення граматичних категорій
Тег | Визначення |
---|---|
CC | сполучник сурядності (and, or) |
CD | кількісні числівники (one, two і т.д.) |
CS | сполучник підрядності (if, although) |
EX | квантор існування (there is/are ...) |
JJ | прикметник |
JJA | прикметник + допоміжне слово |
JJC | прикметник, вища ступінь порівняння |
JJCC | прикметник + сполучник |
JJS | прикметник найвищого ступеня порівняння |
JJF | прикметник + жіночий рід |
JJM | прикметник + чоловічий рід |
NN | іменник однини або множини |
NNA | іменник + допоміжне слово |
NNC | іменник + сполучник |
NNS | іменник + множина |
NNP | власне ім'я або частина іменної фрази |
NNPC | власний ім'я + сполучник |
PRP | особовий займенник, однина |
PRPS | особовий займенник, множина |
PRP$ | присвійний займенник |
RB | прислівник |
RBR | прислівник у вищій ступені порівняння |
RBS | прислівник у найвищій ступені порівняння |
VB | дієслово, інфінітив |
VBA | дієслово + допоміжне дієслово, однина, теперішній час |
VBD | дієслово, минулий час |
VBG | дієслово, дієприкметник теперішнього часу/герундій |
VBN | дієслово, дієприкметник минулого часу |
VBZ | дієслово, 3 ос. однини теперішнього часу |
FW | іноземні слова |
PUN | усі розділові знаки |
Схожі проєкти
Браунівський корпус став натхненням для створення цілої групи корпусів, у тому числі корпус Ланкастер-Осло/Берген (LOB), Браунівський Британський корпус, та інші еквіваленти оригінального Браунівського корпусу.
Браунський корпус української мови — відкритий, збалансований за жанрами та в проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань зі знятою омонімією. Корпус побудований на засадах, що були покладені в основу корпусу англійської мови Brown.
Суміжні проєкти
The Lancaster-Oslo/Bergen Corpus (LOB Corpus)
The Kolhapur Corpus of Indian English
The Australian Corpus of English (ACE)
The Wellington Corpus of Written New Zealand English
The Freiburg-LOB Corpus of British English (FLOB)
The Freiburg-Brown Corpus of American English (FROWN)
The International Corpus of English (ICE)
Див. також
Джерела
- The Standard Corpus of Present-Day Edited American English (the Brown Corpus).
- Francis, W. N. and H. Kučera (1964). . Rhode Island: Department of Linguistics, Brown University. Архів оригіналу за 18 травня 2014. Процитовано 27 квітня 2022.
- Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
- Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html [ 18 травня 2014 у Wayback Machine.].
- Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM [ 3 квітня 2014 у Wayback Machine.]
- Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
- Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
- Kirsten Malmkjær, The Linguistics Encyclopedia [ 11 лютого 2022 у Wayback Machine.], 2nd ed, Routledge, 2002, , p. 87.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Standartizovanij korpus suchasnoyi amerikanskoyi anglijskoyi movi Braunskogo universitetu abo Braunivskij korpus ce elektronne zibrannya tekstiv amerikanskogo variantu anglijskoyi movi pershij velikij strukturovanij komp yuterizovanij korpus riznih zhanriv priznachenij dlya lingvistichnih doslidzhen suchasnoyi anglijskoyi movi Cej korpus vvazhayut pershim povnocinnim lingvistichnim korpusom Jogo rozrobka vidkrila shiroki perspektivi dlya naukovogo vivchennya chastoti vzhivannya ta rozpodilu kategorij sliv u povsyakdennomu movlenni Ukladenij Genri Kucheroyu ta V Nelsonom Frensisom z Braunskogo universitetu v Rod Ajlendi Ce zagalnomovnij korpus sho mistit 500 tekstiv anglijskoyi movi zagalnoyu kilkistyu priblizno 1 miljon slovovzhivan zibranih z robit opublikovanih u Spoluchenih Shtatah protyagom 1961 roku Braunivskij korpus Avtor Nazva movoyu originaluBrown CorpusKrayinaSShAMovaAnglijska amerikanskij variant Temalingvistichnij korpusVidavnictvoThe Cooperative Research Program of the U S Office of Education Brown UniversityVidano1964 r originalna versiya Kafedra kognitivnoyi lingvistiki i psihologichnih nauk Braunskogo universitetu Dostupni 6 versij korpusu originalna Forma A Forma B z viklyuchenimi punktuacijnimi kodami rozmichena Forma C Formi Bergena I ta II i forma Brown MARC Opublikovanij takozh oficijnij manual do korpusu vin dostupnij onlajn div IstoriyaU 1967 roci Kuchera i Frensis oprilyudnili svoyu znakovu pracyu Obchislyuvalnij analiz suchasnoyi amerikanskoyi anglijskoyi movi yaka stala majbutnoyu statistichnoyu bazoyu dlya stvorennya Braunivskogo korpusu Braunivskij korpus yavlyav soboyu retelno zibranu dobirku potochnoyi amerikanskoyi anglijskoyi movi sho nalichuvala blizko 1 miljona sliv vzyatih iz najriznomanitnishih dzherel Kuchera i Frensis provodili na jogo osnovi riznobichni obchislyuvalni analizi optimizuvavshi cej proyekt poyednavshi elementi lingvistiki psihologiyi statistiki ta sociologiyi Vin duzhe shiroko vikoristovuvavsya v komp yuternij lingvistici i protyagom bagatoh rokiv buv odnim z najbilsh citovanih resursiv u cij galuzi Nevdovzi pislya publikaciyi pershogo leksikostatistichnogo analizu bostonskij vidavec Houghton Mifflin zvernuvsya do Kucheri shob nadati bazu citat na miljon sliv dlya svogo novogo en Cej novatorskij novij slovnik yakij vpershe z yavivsya u 1969 roci buv pershim slovnikom yakij buv ukladenij za dopomogoyu rozrobok korpusnoyi lingvistiki dlya chastoti sliv ta inshoyi informaciyi Na pochatku Braunivskij korpus mav lishe sami slovovzhivannya a takozh identifikator roztashuvannya yih u tekstah Protyagom nastupnih kilkoh rokiv pochali zastosovuvalisya tegi na poznachennya gramatichnih kategorij Programa dodavannya tegiv Greene i Rubin div rozdil Poznachennya tegiv u movi znachno dopomogla v comu ale visokij riven pomilok oznachav sho potribna bula velika ruchna korektura Rozmichenij Braunivskij korpus vikoristovuvav vibirku z priblizno 80 kategorij a takozh specialni indikatori dlya skladenih sliv skorochen inshomovnih zapozichen ta deyakih inshih yavish Vin stav modellyu dlya bagatoh piznishih korpusiv takih yak Korpus Lankastera Oslo Bergena britanska anglijska z pochatku 1990 h ta Frajburg Braun Korpus amerikanskoyi anglijskoyi movi FROWN amerikanska anglijska z pochatku 1990 h Rozmitka korpusu dozvolyala robiti nabagato skladnishij statistichnij analiz napriklad robotu zaprogramovanu Endryu Maki ta zadokumentovanu v knigah z anglijskoyi gramatiki Braunivskij korpus faktichno oznamenuvav pochatok aktivnogo rozvitku korpusnoyi lingvistiki Vin dozvolyav robiti pevni statistichni visnovki Napriklad cikavim rezultatom ye te sho navit dlya dosit velikih vibirok grafik sliv u poryadku zmenshennya yih chastoti vzhivannya utvoryuye giperbolu chastotnist n ogo najbilsh vzhivanogo slova ye konstantoyu yaka priblizno proporcijna do 1 n Takim chinom the stanovit majzhe 7 Braunivskogo korpusu to i of bilshe nizh she 3 kozhne Takim chinom slovo the zajmaye blizko 7 Braunivskogo korpusu to ta of ponad 3 kozhne Prote majzhe polovina zagalnogo napovnennya tekstiv priblizno 50000 sliv stanovit hapax legomena slova yaki zustrichayutsya lishe odin raz u korpusi Ce vidnoshennya poryadku ta chastotnosti doslidzhuvalosya Dzhordzhem Kingsli Zipfom napriklad div Psihobiologiya movi i vidome yak zakon Cipfa Nezvazhayuchi na te sho Braunivskij korpus stav pershim u galuzi korpusnoyi lingvistiki na danij moment inshi tipovi korpusi napriklad Korpus suchasnoyi amerikanskoyi anglijskoyi movi Britanskij nacionalnij korpus abo Mizhnarodnij korpus anglijskoyi movi zazvichaj ye nabagato bilshimi blizko 100 miljoniv sliv Klasifikaciya tekstivRozpodil tekstiv u Braunivskomu korpusi za tematikoyu Korpus vklyuchav 500 tekstiv opublikovanih do 1961 roku rozpodilenih priblizno porivnu po 15 zhanrah Usi vidibrani roboti buli vpershe opublikovani v 1961 roci j napisani nosiyami amerikanskoyi anglijskoyi movi Kozhen zrazok tekstu pochinavsya z vipadkovoyi mezhi rechennya u statti chi inshomu vibranomu pidrozdili j prodovzhuvavsya do pershoyi mezhi rechennya pislya 2000 sliv U nevelikij kilkosti vipadkiv nepravilni pidrahunki prizveli do togo sho teksti pochali stanoviti trohi menshe 2000 sliv Pochatkove vvedennya danih zdijsnyuvalosya na perforacijnih mashinah tilki velikimi literami veliki literi poznachalisya zirochkoyu a rizni specialni elementi taki yak formuli takozh mali specialni kodovi poznachennya Spochatku korpus na 1961 rik mistiv 1 014 312 slovovzhivan iz 15 tekstovih kategorij A PRESA Reportazh 44 teksti Politichnij Sport Suspilstvo Ekstreni novini Finansovij Kulturnij B PRESA Redakcijna stattya 27 tekstiv Institucijnij shodennik Osobiste Listi do redakciyi C PRESA Recenziyi 17 tekstiv teatr knigi muzika tanci D RELIGIYa 17 tekstiv Knigi Periodichni vidannya Traktati E NAVIChKI TA HOBI 36 tekstiv Knigi Periodichni vidannya F NARODNI PEREKAZI 48 tekstiv Knigi Periodichni vidannya G BELETRISTIKA Biografiya memuari tosho 75 tekstiv Knigi Periodichni vidannya H INShE Uryad i vnutrishni organi SShA 30 tekstiv Uryadovi dokumenti Zviti fondu Galuzeva zvitnist Korporativnij katalog Galuz vnutrishnogo organu J NAUKOVIJ 80 tekstiv Prirodnichi nauki Medicina Matematika Socialni ta povedinkovi nauki Politologiya Pravo Osvita Gumanitarni nauki Tehnologiya ta tehnika K HUDOZhNYa LITERATURA Zagalne 29 tekstiv Romani Rozpovidi L HUDOZhNYa LITERATURA Mistika ta detektiv 24 teksti Romani Rozpovidi M HUDOZhNYa LITERATURA Nauka 6 tekstiv Romani Rozpovidi N HUDOZhNYa LITERATURA Prigodi ta vestern 29 tekstiv Romani Rozpovidi P HUDOZhNYa LITERATURA Lyubovnij roman ta istoriya kohannya 29 tekstiv Romani Rozpovidi R GUMOR 9 tekstiv Romani Narisi tosho Tegi na poznachennya gramatichnih kategorijTeg ViznachennyaCC spoluchnik suryadnosti and or CD kilkisni chislivniki one two i t d CS spoluchnik pidryadnosti if although EX kvantor isnuvannya there is are JJ prikmetnikJJA prikmetnik dopomizhne slovoJJC prikmetnik visha stupin porivnyannyaJJCC prikmetnik spoluchnikJJS prikmetnik najvishogo stupenya porivnyannyaJJF prikmetnik zhinochij ridJJM prikmetnik cholovichij ridNN imennik odnini abo mnozhiniNNA imennik dopomizhne slovoNNC imennik spoluchnikNNS imennik mnozhinaNNP vlasne im ya abo chastina imennoyi fraziNNPC vlasnij im ya spoluchnikPRP osobovij zajmennik odninaPRPS osobovij zajmennik mnozhinaPRP prisvijnij zajmennikRB prislivnikRBR prislivnik u vishij stupeni porivnyannyaRBS prislivnik u najvishij stupeni porivnyannyaVB diyeslovo infinitivVBA diyeslovo dopomizhne diyeslovo odnina teperishnij chasVBD diyeslovo minulij chasVBG diyeslovo diyeprikmetnik teperishnogo chasu gerundijVBN diyeslovo diyeprikmetnik minulogo chasuVBZ diyeslovo 3 os odnini teperishnogo chasuFW inozemni slovaPUN usi rozdilovi znakiShozhi proyektiBraunivskij korpus stav nathnennyam dlya stvorennya ciloyi grupi korpusiv u tomu chisli korpus Lankaster Oslo Bergen LOB Braunivskij Britanskij korpus ta inshi ekvivalenti originalnogo Braunivskogo korpusu Braunskij korpus ukrayinskoyi movi vidkritij zbalansovanij za zhanrami ta v proanotovanij korpus suchasnoyi ukrayinskoyi movi BrUK obsyagom 1 mln slovovzhivan zi znyatoyu omonimiyeyu Korpus pobudovanij na zasadah sho buli pokladeni v osnovu korpusu anglijskoyi movi Brown Sumizhni proyekti The Lancaster Oslo Bergen Corpus LOB Corpus The Kolhapur Corpus of Indian English The Australian Corpus of English ACE The Wellington Corpus of Written New Zealand English The Freiburg LOB Corpus of British English FLOB The Freiburg Brown Corpus of American English FROWN The International Corpus of English ICE Div takozhBritanskij nacionalnij korpusDzherelaThe Standard Corpus of Present Day Edited American English the Brown Corpus Francis W N and H Kucera 1964 Rhode Island Department of Linguistics Brown University Arhiv originalu za 18 travnya 2014 Procitovano 27 kvitnya 2022 Francis W Nelson amp Henry Kucera 1967 Computational Analysis of Present Day American English Providence RI Brown University Press Francis W Nelson amp Henry Kucera 1979 BROWN CORPUS MANUAL Manual of Information to Accompany a Standard Corpus of Present Day Edited American English for Use with Digital Computers http icame uib no brown bcm html 18 travnya 2014 u Wayback Machine Hundt Marianne Andrea Sand amp Rainer Siemund 1998 Manual of Information to Accompany the Freiburg Brown Corpus of American English FROWN http khnt hit uib no icame manuals frown INDEX HTM 3 kvitnya 2014 u Wayback Machine Leech Geoffrey amp Nicholas Smith 2005 Extending the possibilities of corpus based research on English in the twentieth century A prequel to LOB and FLOB ICAME Journal 29 83 98 Winthrop Nelson Francis and Henry Kucera 1983 Frequency Analysis of English Usage Lexicon and Grammar Houghton Mifflin Kirsten Malmkjaer The Linguistics Encyclopedia 11 lyutogo 2022 u Wayback Machine 2nd ed Routledge 2002 ISBN 0 415 22210 9 p 87