Британський національний корпус | |
---|---|
Посилання | natcorp.ox.ac.uk |
Тип | Наукова література |
Мови | Британська англійська |
Засновник | Oxford University Press і Longman |
Автор | Видавництво Оксфордського університету, Longman, W. & R. Chambers, Оксфордський університет, Університет Ланкастера, Британська бібліотека |
Започатковано | 1994 |
Стан | Відкритий |
Британський національний корпус (БНК, BNC, англ. British National Corpus) — це корпус текстів зі 100 мільйонів слів, що містить зразки письмової та розмовної британської англійської мови з широкого кола джерел . Корпус охоплює британську англійську кінця XX століття, представлений широкою різноманітністю жанрів і задуманий як зразок типової розмовної та письмової британської англійської мови того часу.
Історія
В рамках проекту зі створення Британського національного корпусу співпрацювали три видавці (Видавництво Оксфордського університету в якості провідного співавтора, а також і [en]) і два університети (Оксфордський та Ланкастерський) та Британська бібліотека.
Створення BNC почалося в 1991 році під керівництвом Консорціуму BNC; в 1994 корпус було завершено. BNC зазнав незначних змін перед випуском другого (BNC World, 2001) та третього (BNC XML Edition, 2007) видання .
Передумови створення
Спеціалісти з комп'ютерної лінгвістики бачили BNC як корпус сучасної на момент складання, характерної для реальних умов мови в усній чи письмовій формі, яку міг би обробляти комп'ютер. В результаті, BNC був складений у формі, зручній для обробки на комп'ютері, для того, щоб забезпечити автоматичний пошук та обробку методами корпусної лінгвістики. Однією з відмінностей BNC від існуючих на той час корпусів була можливість використання данних не тільки в наукових дослідженнях, а й у комерційних, і освітніх цілях .
Обсяг корпусу
Укладачі BNC для порівняння спробували представити корпус у вигляді звичайної книжкової продукції і одержали вражаючі показники. Якщо видруковувати корпус на тонкому папері з розрахунку 400 слів на сторінку, то весь його обсяг у друкованому вигляді займатиме простір близько 10 м2 . Для того, щоб прочитати цю продукцію зі швидкістю 150 слів на хвилину, витрачаючи на це 8 годин щодня, знадобилося б 4 роки [Карпіловська 2006: 76].
За заданим Британським національним корпусом стандартом були укладені представницькі корпуси багатьох європейських мов. За цією моделлю були створені національні корпуси іспанської, італійської, хорватської, чеської мов.
Компоненти корпусу: письмовий та розмовний
Письмовий корпус
90% корпусу складають зразки вживання письмової мови. Ці приклади були взяті з регіональних та загальнонаціональних газет, наукових журналів та періодики різних наукових напрямів, художньої літератури та публіцистики, як з опублікованих, так і неопублікованих матеріалів (таких як брошури, листи, студентські есе, сценарії, мови), а також з багатьох інших джерел.
Розмовний корпус
10% матеріалу Британського національного корпусу, що залишився, — це зразки застосування розмовної мови, які були представлені і записані за допомогою практичної транскрипції.
Розмовний корпус складається із двох частин. Демографічна частина містить транскрипцію спонтанних розмов, які відбувалися в реальних умовах за участю волонтерів із різних вікових груп, регіонів та соціальних верств. Ці розмови відбувалися у різних ситуаціях, включаючи ділові чи урядові зустрічі та обговорення в радіопередачах або телефоном. Це було зроблено для врахування як демографічного розподілу розмовної мови, і лінгвістично значущого розмаїття мови, обумовленого контекстом.
Друга частина розмовного корпусу включає контекстно-залежні зразки, такі як транскрипції записів, підготовлених на вході особливих зустрічей або заходів.
Усі вихідні записи, транскрибовані для включення до BNC, було розміщено в архіві звуку британської бібліотеки. Більшість записів доступно на сайті фонетичної лабораторії [ 24 березня 2022 у Wayback Machine.] Оксфордського університету.
Лукащук М. В [ 13 квітня 2022 у Wayback Machine.] виокремив ареал фіксації текстів та типи текстів, які відображають усне та письмове мовлення у своїй дисертації [ 26 лютого 2022 у Wayback Machine.]. Як свідчать дані таблиці, найбільш репрезентативним серед реґіонів фіксації текстів БНК є південна частина Великої Британії, а найменш представленими — Ірландія та США. Такий стан справ може бути зумовлений соціально-економічними та політичними чинниками з огляду на розміщення основних медійних засобів, політично-адміністративних установ, видавництв, саме в південній частині Великої Британії. З іншого боку, БНК зорієнтований, у першу чергу, на друковані матеріали Великої Британії, що значно зменшує частку друкованої продукції з інших англомовних країн (Ірландія, США).
Регіон | Тексти | Слова | % | Речення | % |
---|---|---|---|---|---|
Невідомий | 690 | 14583761 | 16.70 | 790465 | 15.76 |
Велика Британія (неуточнено) | 264 | 7124424 | 8.16 | 383046 | 7.63 |
Ірландія | 37 | 567046 | 0.64 | 31825 | 0.63 |
Велика Британія (північ) | 192 | 3778114 | 4.32 | 230008 | 4.58 |
Велика Британія (центр) | 93 | 2622554 | 3.00 | 192379 | 3.83 |
Велика Британія (південь) | 1854 | 58066891 | 66.53 | 3365045 | 67.11 |
США | 14 | 535415 | 0.61 | 21204 | 0.42 |
Як і в усних текстах, південна частина Великої Британії займає провідне місце в ареальній характеристиці письмових текстів (1854 тексти). Найменш репрезентативними є регіони Ірландії та США.
Розмітка
Корпус BNC містить граматичну розмітку частин мови. Для реалізації цієї розмітки була використана система розмітки CLAWS. Ця система пройшла крізь ряд модифікацій аж до останньої, актуальної CLAWS4.
CLAWS1 базувалася на прихованій марковській моделі та коректно розмічала від 96% до 97% будь-якого тексту. За CLAWS2 зникла необхідність мануальної підготовки тексту перед запуском процесу розмітки.
У CLAWS4 з'явилися потужніші можливості для [en], а також врахування варіацій в орфографії та мові розмітки. Подальша робота над системою розмітки орієнтувалася на збільшення успішних показників автоматичної розмітки та зменшення мануальної підготовки текстів перед процесом розмітки шляхом введення у використання додаткового програмного забезпечення для її заміщення — "Template Tagger". Пізніше були додані теги, що вказують на неоднозначність.
Мануальна розмітка все ще необхідна, оскільки CLAWS4 не може обробляти іноземні слова.
Практичне використання корпусу
Лукащук В. М. у своїй дисертації [ 26 лютого 2022 у Wayback Machine.]: "Доступ до великого обсягу текстів дозволяє уникнути хибних узагальнень про стан мови, які можуть мати місце при роботі з обмеженим матеріалом. Національні корпуси є не тільки дуже зручним інструментом для пошуку мовного матеріалу, але й предметом нової ідеології вивчення мови, для якої мова і є корпусом. Корпусна лінгвістика зосереджує свою увагу на ідеї вибору і на лінгвістиці мовлення. Таким чином, національний корпус ‒ це водночас і база, і інструмент лінгвістичного дослідження, а також обов‘язковий формат репрезентації мовного знання і мови."
Напрямки розвитку
Морфологічна обробка
У рамках поточної роботи з морфологічної обробки — ключової області в сфері обробки природної мови (Natural Language Processing), — дані BNC були використані для перевірки точності, надійності та швидкості обчислювальних інструментів, розроблених для полегшення аналізу та обробки морфологічних маркерів у британській англійській мові. Серед обчислювальних інструментів була програма (відома як аналізатор), що дозволяла аналізувати флективну морфологію британської англійської, а також програма, яка генерувала морфологічні позначки на основі результатів аналізатора.
Дані BNC також були використані для створення великого сховища інформації про морфологічні маркери британської англійської. Зокрема, з приблизно 1100 лем, виокремлених з BNC, було створено контрольний список, до якого звертався морфологічний генератор, перш ніж відмінювати дієслова з подвоєнням приголосних.
Оскільки BNC є визначною спробою збору й подальшої обробки такої великої кількості даних, він став впливовим предтечею в цій області, моделлю або зразковим корпусом, на який орієнтувалася та на якому базувалася розробка інших корпусів.
BNC2014
У липні 2014 року видавництво Кембриджського університету та Центр корпусних підходів до соціальних наук (CASS) [ 14 квітня 2022 у Wayback Machine.] в Ланкастерському університеті зробили заяву, що новий британський національний корпус – BNC2014 – знаходиться на стадії компіляції. Першим етапом спільного проекту між двома установами було укладання нового розмовного корпусу британської англійської з початку до середини 2010-х років. 25 вересня 2017 року було оприлюднено Розмовний британський національний корпус 2014 року обсягом в 11,5 мільйонів слів. Письмовий компонент BNC2014 налічує 100 мільйонів слів; його обмежена версія була опублікована 19 листопада 2021 року.
На відміну від попереднього видання, до текстів письмового компоненту BNC2014 немає вільного доступу. Запити з обмеженим функціоналом наразі реалізуються за допомогою спеціального програмного забезпечення, розробленого Ланкастерським університетом.
Питання дозволу використання матеріалу
BNC став першим корпусом такого розміру, доступний широкій аудиторії. Можливо, це було пов'язано з типовими формами угод між правовласниками та Консорціумом з одного боку, та між користувачами корпусу та Консорціумом з іншого. Творці корпусу прагнули укласти з власниками прав на інтелектуальну власність угоду зі стандартною ліцензією, одним із положень якої було включення до корпусу матеріалу без сплати будь-яких грошових зборів. Такій домовленості сприяли оригінальність та унікальність корпусу.
Однак виявилося непросто зберегти анонімність людей, внесених вкладів, без зменшення значимості їх роботи. Будь-який непрозорий натяк на особистість автора видалявся з матеріалів корпусу. При цьому розглядалася можливість підміни справжніх імен іншими іменами для збереження анонімності, що, зрештою, було визнано недоречним.
Крім того, у авторів спочатку було запрошено дозвіл на включення тільки транскрибованих версій їх мови, але не на включення самої мови. Хоча подібне рішення могло бути запитано повторно, пошук значущих авторів може бути ускладнено процесом анонімізації. У той же час стали явними фактори, які поглиблювали небажання правовласників жертувати корпусу свої матеріали: повні тексти були виключені з корпусу, що привело до наявності мотивації для правовласників поширити інформацію за допомогою корпусу (особливо у зв’язку з його некомерційною основою).
Недоліки та обмеження
Категорії
До 2001 року в BNC все ще не було категоризації текстів для письмових текстів за межами домену, а також не було категоризації усних текстів за винятком контексту та демографічних чи соціально-економічних класів. Наприклад, до BNC було включено широкий спектр творчих текстів (романів, оповідань, віршів і драматичних сценаріїв), але такі включення вважалися марними, оскільки дослідники не змогли легко знайти піджанри, над якими вони хотіли працювати (наприклад. , поезія). Оскільки ці метадані були пропущені в заголовках файлів і в усій документації BNC, не було жодного способу дізнатися, чи дійсно «уявний» текст походить із роману, оповідання, драматичного сценарію чи збірки віршів, якщо тільки назва насправді не міститься такі слова, як "роман" або "поема".
З виходом у 2002 році нової версії BNC World Edition, BNC спробував вирішити цю проблему. Окрім домену, тепер існує 70 жанрових категорій як для усних, так і для письмових даних, тому дослідники тепер можуть спеціально отримувати тексти за жанрами. Однак навіть після цих доповнень реалізація залишається складною, оскільки призначити жанр або піджанр тексту непросто. Розділи менш чіткі для усних даних, ніж для письмових, оскільки було більше варіацій у темі та виконанні. Крім того, завжди будуть можливі підмножини жанрів кожного піджанру. Категоризація також є проблемною, оскільки певні тексти, хоча й вважаються такими, що належать до міждисциплінарного жанру, як-от лінгвістика, включають вміст, який згодом класифікується як на категорії мистецтва, так і на наукові категорії через характер їх змісту.
Класифікація та дискурс
Деякі тексти були віднесені до неправильної категорії, як правило, через оманливу назву. Користувачі не завжди можуть покладатися на назви файлів як на ознаки їх реального вмісту: наприклад, багато текстів із «лекцією» в назві насправді є обговореннями в класі або навчальними семінарами, в яких бере участь дуже невелика група людей, або були популярними лекціями (адресовані для широкої аудиторії, а не для студентів вищого навчального закладу). Однією з причин є те, що позначки жанру та піджанру можуть бути призначені лише для більшості текстів у категорії. У жанрах є піджанри, і для кожного тексту зміст може бути неоднорідним і може охоплювати кілька піджанрів.
Співвідношення письмового та усного матеріалу в BNC становить 10:1, що робить усний матеріал недостатньо представленим. Це пов’язано з тим, що вартість збору та транскрибування мільйона слів природного мовлення принаймні в 10 разів вища, ніж вартість додавання ще мільйона слів газетного тексту. Деякі лінгвісти стверджують, що це є недоліком у корпусі, оскільки мова і письмо є однаково важливими в мові. BNC не ідеально підходить для вивчення багатьох особливостей розмовного дискурсу, оскільки більшість його транскриптів є орфографічними. Паралінгвістичні особливості вказані лише приблизно.
Джерела
- Lou Burnard et al, 1998, XIII.
- Geoffrey Leech et al, 1994, с. 47-63.
- Geoffrey Leech, 1993, с. 9-15.
- What is the BNC? [ 7 квітня 2022 у Wayback Machine.]. Retrieved 12 March 2012.
- body., British Library, issuing body. Gale Group, issuing body. Gale (Firm), issuing. British Library newspapers. OCLC 181758240.
- Leech, Garside, Bryant (1994). "Corpus-based research into language: in honour of Jan Aarts". In N. Oostdjik & P. Haan (ed.). The large-scale grammatical tagging of text: Experience with the British National Corpus. Netherlands: Rodopi Publishers. с. 47—63.
- Leech, Garside, Bryant (1994). . Архів оригіналу за 13 квітня 2022. Процитовано 13 квітня 2022.
- Minnen, Guido; Carroll, John; Pearce, Darren. (PDF). Архів оригіналу (PDF) за 14 квітня 2022. Процитовано 14 квітня 2022.
- Čermák, František (2003). . Архів оригіналу за 14 квітня 2022. Процитовано 14 квітня 2022.
- . Архів оригіналу за 5 квітня 2022. Процитовано 14 квітня 2022.
- McEnery, Tony (28 липня 2014). . Архів оригіналу за 27 липня 2021. Процитовано 14 квітня 2022.
- . Архів оригіналу за 27 липня 2021. Процитовано 14 квітня 2022.
- [Lou Burnard, 2002. Британский национальный корпус]. Википедия (рос.). 23 грудня 2021. Процитовано 14 квітня 2022.
{{}}
: Перевірте схему|url=
() - (PDF). 2001. Архів оригіналу (PDF) за 15 грудня 2017. Процитовано 19 квітня 2022.
{{}}
:|first=
з пропущеним|last=
() - Lee, David (2002). "NOTES TO ACCOMPANY THE BNC WORLD EDITION (BIBLIOGRAPHICAL) INDEX". Архів оригіналу за 1 квітня 2022. Процитовано 19 квітня 2022.
- http://llt.msu.edu/vol5num3/pdf/lee.pdf.
- .
- Burnard, Lou (2002). "Where did we go wrong? A retrospective look at the British National Corpus" (PDF). Archived from the original (PDF) on 4 March 2016. Retrieved 14 March 2012.
- Aston, Guy (1998). "Learning English with the British National Corpus". Paper given at 6th Jornada de Corpus, Barcelona: UPF. Retrieved 16 March 2012.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
pochatok roboti Britanskij nacionalnij korpusPosilannyanatcorp ox ac ukTipNaukova literaturaMoviBritanska anglijskaZasnovnikOxford University Press i LongmanAvtorVidavnictvo Oksfordskogo universitetu Longman W amp R Chambers Oksfordskij universitet Universitet Lankastera Britanska bibliotekaZapochatkovano1994StanVidkritij Britanskij nacionalnij korpus BNK BNC angl British National Corpus ce korpus tekstiv zi 100 miljoniv sliv sho mistit zrazki pismovoyi ta rozmovnoyi britanskoyi anglijskoyi movi z shirokogo kola dzherel Korpus ohoplyuye britansku anglijsku kincya XX stolittya predstavlenij shirokoyu riznomanitnistyu zhanriv i zadumanij yak zrazok tipovoyi rozmovnoyi ta pismovoyi britanskoyi anglijskoyi movi togo chasu IstoriyaV ramkah proektu zi stvorennya Britanskogo nacionalnogo korpusu spivpracyuvali tri vidavci Vidavnictvo Oksfordskogo universitetu v yakosti providnogo spivavtora a takozh i en i dva universiteti Oksfordskij ta Lankasterskij ta Britanska biblioteka Stvorennya BNC pochalosya v 1991 roci pid kerivnictvom Konsorciumu BNC v 1994 korpus bulo zaversheno BNC zaznav neznachnih zmin pered vipuskom drugogo BNC World 2001 ta tretogo BNC XML Edition 2007 vidannya Peredumovi stvorennya Specialisti z komp yuternoyi lingvistiki bachili BNC yak korpus suchasnoyi na moment skladannya harakternoyi dlya realnih umov movi v usnij chi pismovij formi yaku mig bi obroblyati komp yuter V rezultati BNC buv skladenij u formi zruchnij dlya obrobki na komp yuteri dlya togo shob zabezpechiti avtomatichnij poshuk ta obrobku metodami korpusnoyi lingvistiki Odniyeyu z vidminnostej BNC vid isnuyuchih na toj chas korpusiv bula mozhlivist vikoristannya dannih ne tilki v naukovih doslidzhennyah a j u komercijnih i osvitnih cilyah Obsyag korpusuUkladachi BNC dlya porivnyannya sprobuvali predstaviti korpus u viglyadi zvichajnoyi knizhkovoyi produkciyi i oderzhali vrazhayuchi pokazniki Yaksho vidrukovuvati korpus na tonkomu paperi z rozrahunku 400 sliv na storinku to ves jogo obsyag u drukovanomu viglyadi zajmatime prostir blizko 10 m2 Dlya togo shob prochitati cyu produkciyu zi shvidkistyu 150 sliv na hvilinu vitrachayuchi na ce 8 godin shodnya znadobilosya b 4 roki Karpilovska 2006 76 Za zadanim Britanskim nacionalnim korpusom standartom buli ukladeni predstavnicki korpusi bagatoh yevropejskih mov Za ciyeyu modellyu buli stvoreni nacionalni korpusi ispanskoyi italijskoyi horvatskoyi cheskoyi mov Komponenti korpusu pismovij ta rozmovnijPismovij korpus Britanskij nacionalnij korpus 90 korpusu skladayut zrazki vzhivannya pismovoyi movi Ci prikladi buli vzyati z regionalnih ta zagalnonacionalnih gazet naukovih zhurnaliv ta periodiki riznih naukovih napryamiv hudozhnoyi literaturi ta publicistiki yak z opublikovanih tak i neopublikovanih materialiv takih yak broshuri listi studentski ese scenariyi movi a takozh z bagatoh inshih dzherel Rozmovnij korpus 10 materialu Britanskogo nacionalnogo korpusu sho zalishivsya ce zrazki zastosuvannya rozmovnoyi movi yaki buli predstavleni i zapisani za dopomogoyu praktichnoyi transkripciyi Rozmovnij korpus skladayetsya iz dvoh chastin Demografichna chastina mistit transkripciyu spontannih rozmov yaki vidbuvalisya v realnih umovah za uchastyu volonteriv iz riznih vikovih grup regioniv ta socialnih verstv Ci rozmovi vidbuvalisya u riznih situaciyah vklyuchayuchi dilovi chi uryadovi zustrichi ta obgovorennya v radioperedachah abo telefonom Ce bulo zrobleno dlya vrahuvannya yak demografichnogo rozpodilu rozmovnoyi movi i lingvistichno znachushogo rozmayittya movi obumovlenogo kontekstom Druga chastina rozmovnogo korpusu vklyuchaye kontekstno zalezhni zrazki taki yak transkripciyi zapisiv pidgotovlenih na vhodi osoblivih zustrichej abo zahodiv Usi vihidni zapisi transkribovani dlya vklyuchennya do BNC bulo rozmisheno v arhivi zvuku britanskoyi biblioteki Bilshist zapisiv dostupno na sajti fonetichnoyi laboratoriyi 24 bereznya 2022 u Wayback Machine Oksfordskogo universitetu Lukashuk M V 13 kvitnya 2022 u Wayback Machine viokremiv areal fiksaciyi tekstiv ta tipi tekstiv yaki vidobrazhayut usne ta pismove movlennya u svoyij disertaciyi 26 lyutogo 2022 u Wayback Machine Yak svidchat dani tablici najbilsh reprezentativnim sered regioniv fiksaciyi tekstiv BNK ye pivdenna chastina Velikoyi Britaniyi a najmensh predstavlenimi Irlandiya ta SShA Takij stan sprav mozhe buti zumovlenij socialno ekonomichnimi ta politichnimi chinnikami z oglyadu na rozmishennya osnovnih medijnih zasobiv politichno administrativnih ustanov vidavnictv same v pivdennij chastini Velikoyi Britaniyi Z inshogo boku BNK zoriyentovanij u pershu chergu na drukovani materiali Velikoyi Britaniyi sho znachno zmenshuye chastku drukovanoyi produkciyi z inshih anglomovnih krayin Irlandiya SShA Region Teksti Slova Rechennya Nevidomij 690 14583761 16 70 790465 15 76 Velika Britaniya neutochneno 264 7124424 8 16 383046 7 63 Irlandiya 37 567046 0 64 31825 0 63 Velika Britaniya pivnich 192 3778114 4 32 230008 4 58 Velika Britaniya centr 93 2622554 3 00 192379 3 83 Velika Britaniya pivden 1854 58066891 66 53 3365045 67 11 SShA 14 535415 0 61 21204 0 42 Yak i v usnih tekstah pivdenna chastina Velikoyi Britaniyi zajmaye providne misce v arealnij harakteristici pismovih tekstiv 1854 teksti Najmensh reprezentativnimi ye regioni Irlandiyi ta SShA RozmitkaKorpus BNC mistit gramatichnu rozmitku chastin movi Dlya realizaciyi ciyeyi rozmitki bula vikoristana sistema rozmitki CLAWS Cya sistema projshla kriz ryad modifikacij azh do ostannoyi aktualnoyi CLAWS4 CLAWS1 bazuvalasya na prihovanij markovskij modeli ta korektno rozmichala vid 96 do 97 bud yakogo tekstu Za CLAWS2 znikla neobhidnist manualnoyi pidgotovki tekstu pered zapuskom procesu rozmitki U CLAWS4 z yavilisya potuzhnishi mozhlivosti dlya en a takozh vrahuvannya variacij v orfografiyi ta movi rozmitki Podalsha robota nad sistemoyu rozmitki oriyentuvalasya na zbilshennya uspishnih pokaznikiv avtomatichnoyi rozmitki ta zmenshennya manualnoyi pidgotovki tekstiv pered procesom rozmitki shlyahom vvedennya u vikoristannya dodatkovogo programnogo zabezpechennya dlya yiyi zamishennya Template Tagger Piznishe buli dodani tegi sho vkazuyut na neodnoznachnist Manualna rozmitka vse she neobhidna oskilki CLAWS4 ne mozhe obroblyati inozemni slova Praktichne vikoristannya korpusuLukashuk V M u svoyij disertaciyi 26 lyutogo 2022 u Wayback Machine Dostup do velikogo obsyagu tekstiv dozvolyaye uniknuti hibnih uzagalnen pro stan movi yaki mozhut mati misce pri roboti z obmezhenim materialom Nacionalni korpusi ye ne tilki duzhe zruchnim instrumentom dlya poshuku movnogo materialu ale j predmetom novoyi ideologiyi vivchennya movi dlya yakoyi mova i ye korpusom Korpusna lingvistika zoseredzhuye svoyu uvagu na ideyi viboru i na lingvistici movlennya Takim chinom nacionalnij korpus ce vodnochas i baza i instrument lingvistichnogo doslidzhennya a takozh obov yazkovij format reprezentaciyi movnogo znannya i movi Napryamki rozvitkuMorfologichna obrobka U ramkah potochnoyi roboti z morfologichnoyi obrobki klyuchovoyi oblasti v sferi obrobki prirodnoyi movi Natural Language Processing dani BNC buli vikoristani dlya perevirki tochnosti nadijnosti ta shvidkosti obchislyuvalnih instrumentiv rozroblenih dlya polegshennya analizu ta obrobki morfologichnih markeriv u britanskij anglijskij movi Sered obchislyuvalnih instrumentiv bula programa vidoma yak analizator sho dozvolyala analizuvati flektivnu morfologiyu britanskoyi anglijskoyi a takozh programa yaka generuvala morfologichni poznachki na osnovi rezultativ analizatora Dani BNC takozh buli vikoristani dlya stvorennya velikogo shovisha informaciyi pro morfologichni markeri britanskoyi anglijskoyi Zokrema z priblizno 1100 lem viokremlenih z BNC bulo stvoreno kontrolnij spisok do yakogo zvertavsya morfologichnij generator persh nizh vidminyuvati diyeslova z podvoyennyam prigolosnih Oskilki BNC ye viznachnoyu sproboyu zboru j podalshoyi obrobki takoyi velikoyi kilkosti danih vin stav vplivovim predtecheyu v cij oblasti modellyu abo zrazkovim korpusom na yakij oriyentuvalasya ta na yakomu bazuvalasya rozrobka inshih korpusiv BNC2014 U lipni 2014 roku vidavnictvo Kembridzhskogo universitetu ta Centr korpusnih pidhodiv do socialnih nauk CASS 14 kvitnya 2022 u Wayback Machine v Lankasterskomu universiteti zrobili zayavu sho novij britanskij nacionalnij korpus BNC2014 znahoditsya na stadiyi kompilyaciyi Pershim etapom spilnogo proektu mizh dvoma ustanovami bulo ukladannya novogo rozmovnogo korpusu britanskoyi anglijskoyi z pochatku do seredini 2010 h rokiv 25 veresnya 2017 roku bulo oprilyudneno Rozmovnij britanskij nacionalnij korpus 2014 roku obsyagom v 11 5 miljoniv sliv Pismovij komponent BNC2014 nalichuye 100 miljoniv sliv jogo obmezhena versiya bula opublikovana 19 listopada 2021 roku Na vidminu vid poperednogo vidannya do tekstiv pismovogo komponentu BNC2014 nemaye vilnogo dostupu Zapiti z obmezhenim funkcionalom narazi realizuyutsya za dopomogoyu specialnogo programnogo zabezpechennya rozroblenogo Lankasterskim universitetom Pitannya dozvolu vikoristannya materialuBNC stav pershim korpusom takogo rozmiru dostupnij shirokij auditoriyi Mozhlivo ce bulo pov yazano z tipovimi formami ugod mizh pravovlasnikami ta Konsorciumom z odnogo boku ta mizh koristuvachami korpusu ta Konsorciumom z inshogo Tvorci korpusu pragnuli uklasti z vlasnikami prav na intelektualnu vlasnist ugodu zi standartnoyu licenziyeyu odnim iz polozhen yakoyi bulo vklyuchennya do korpusu materialu bez splati bud yakih groshovih zboriv Takij domovlenosti spriyali originalnist ta unikalnist korpusu Odnak viyavilosya neprosto zberegti anonimnist lyudej vnesenih vkladiv bez zmenshennya znachimosti yih roboti Bud yakij neprozorij natyak na osobistist avtora vidalyavsya z materialiv korpusu Pri comu rozglyadalasya mozhlivist pidmini spravzhnih imen inshimi imenami dlya zberezhennya anonimnosti sho zreshtoyu bulo viznano nedorechnim Krim togo u avtoriv spochatku bulo zaprosheno dozvil na vklyuchennya tilki transkribovanih versij yih movi ale ne na vklyuchennya samoyi movi Hocha podibne rishennya moglo buti zapitano povtorno poshuk znachushih avtoriv mozhe buti uskladneno procesom anonimizaciyi U toj zhe chas stali yavnimi faktori yaki pogliblyuvali nebazhannya pravovlasnikiv zhertuvati korpusu svoyi materiali povni teksti buli viklyucheni z korpusu sho privelo do nayavnosti motivaciyi dlya pravovlasnikiv poshiriti informaciyu za dopomogoyu korpusu osoblivo u zv yazku z jogo nekomercijnoyu osnovoyu Nedoliki ta obmezhennyaKategoriyi Do 2001 roku v BNC vse she ne bulo kategorizaciyi tekstiv dlya pismovih tekstiv za mezhami domenu a takozh ne bulo kategorizaciyi usnih tekstiv za vinyatkom kontekstu ta demografichnih chi socialno ekonomichnih klasiv Napriklad do BNC bulo vklyucheno shirokij spektr tvorchih tekstiv romaniv opovidan virshiv i dramatichnih scenariyiv ale taki vklyuchennya vvazhalisya marnimi oskilki doslidniki ne zmogli legko znajti pidzhanri nad yakimi voni hotili pracyuvati napriklad poeziya Oskilki ci metadani buli propusheni v zagolovkah fajliv i v usij dokumentaciyi BNC ne bulo zhodnogo sposobu diznatisya chi dijsno uyavnij tekst pohodit iz romanu opovidannya dramatichnogo scenariyu chi zbirki virshiv yaksho tilki nazva naspravdi ne mistitsya taki slova yak roman abo poema Z vihodom u 2002 roci novoyi versiyi BNC World Edition BNC sprobuvav virishiti cyu problemu Okrim domenu teper isnuye 70 zhanrovih kategorij yak dlya usnih tak i dlya pismovih danih tomu doslidniki teper mozhut specialno otrimuvati teksti za zhanrami Odnak navit pislya cih dopovnen realizaciya zalishayetsya skladnoyu oskilki priznachiti zhanr abo pidzhanr tekstu neprosto Rozdili mensh chitki dlya usnih danih nizh dlya pismovih oskilki bulo bilshe variacij u temi ta vikonanni Krim togo zavzhdi budut mozhlivi pidmnozhini zhanriv kozhnogo pidzhanru Kategorizaciya takozh ye problemnoyu oskilki pevni teksti hocha j vvazhayutsya takimi sho nalezhat do mizhdisciplinarnogo zhanru yak ot lingvistika vklyuchayut vmist yakij zgodom klasifikuyetsya yak na kategoriyi mistectva tak i na naukovi kategoriyi cherez harakter yih zmistu Klasifikaciya ta diskurs Deyaki teksti buli vidneseni do nepravilnoyi kategoriyi yak pravilo cherez omanlivu nazvu Koristuvachi ne zavzhdi mozhut pokladatisya na nazvi fajliv yak na oznaki yih realnogo vmistu napriklad bagato tekstiv iz lekciyeyu v nazvi naspravdi ye obgovorennyami v klasi abo navchalnimi seminarami v yakih bere uchast duzhe nevelika grupa lyudej abo buli populyarnimi lekciyami adresovani dlya shirokoyi auditoriyi a ne dlya studentiv vishogo navchalnogo zakladu Odniyeyu z prichin ye te sho poznachki zhanru ta pidzhanru mozhut buti priznacheni lishe dlya bilshosti tekstiv u kategoriyi U zhanrah ye pidzhanri i dlya kozhnogo tekstu zmist mozhe buti neodnoridnim i mozhe ohoplyuvati kilka pidzhanriv Spivvidnoshennya pismovogo ta usnogo materialu v BNC stanovit 10 1 sho robit usnij material nedostatno predstavlenim Ce pov yazano z tim sho vartist zboru ta transkribuvannya miljona sliv prirodnogo movlennya prinajmni v 10 raziv visha nizh vartist dodavannya she miljona sliv gazetnogo tekstu Deyaki lingvisti stverdzhuyut sho ce ye nedolikom u korpusi oskilki mova i pismo ye odnakovo vazhlivimi v movi BNC ne idealno pidhodit dlya vivchennya bagatoh osoblivostej rozmovnogo diskursu oskilki bilshist jogo transkriptiv ye orfografichnimi Paralingvistichni osoblivosti vkazani lishe priblizno DzherelaLou Burnard et al 1998 XIII Geoffrey Leech et al 1994 s 47 63 Geoffrey Leech 1993 s 9 15 What is the BNC 7 kvitnya 2022 u Wayback Machine Retrieved 12 March 2012 body British Library issuing body Gale Group issuing body Gale Firm issuing British Library newspapers OCLC 181758240 Leech Garside Bryant 1994 Corpus based research into language in honour of Jan Aarts In N Oostdjik amp P Haan ed The large scale grammatical tagging of text Experience with the British National Corpus Netherlands Rodopi Publishers s 47 63 Leech Garside Bryant 1994 Arhiv originalu za 13 kvitnya 2022 Procitovano 13 kvitnya 2022 Minnen Guido Carroll John Pearce Darren PDF Arhiv originalu PDF za 14 kvitnya 2022 Procitovano 14 kvitnya 2022 Cermak Frantisek 2003 Arhiv originalu za 14 kvitnya 2022 Procitovano 14 kvitnya 2022 Arhiv originalu za 5 kvitnya 2022 Procitovano 14 kvitnya 2022 McEnery Tony 28 lipnya 2014 Arhiv originalu za 27 lipnya 2021 Procitovano 14 kvitnya 2022 Arhiv originalu za 27 lipnya 2021 Procitovano 14 kvitnya 2022 Lou Burnard 2002 Britanskij nacionalnyj korpus Vikipediya ros 23 grudnya 2021 Procitovano 14 kvitnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Perevirte shemu url dovidka PDF 2001 Arhiv originalu PDF za 15 grudnya 2017 Procitovano 19 kvitnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a first z propushenim last dovidka Lee David 2002 NOTES TO ACCOMPANY THE BNC WORLD EDITION BIBLIOGRAPHICAL INDEX Arhiv originalu za 1 kvitnya 2022 Procitovano 19 kvitnya 2022 http llt msu edu vol5num3 pdf lee pdf Burnard Lou 2002 Where did we go wrong A retrospective look at the British National Corpus PDF Archived from the original PDF on 4 March 2016 Retrieved 14 March 2012 Aston Guy 1998 Learning English with the British National Corpus Paper given at 6th Jornada de Corpus Barcelona UPF Retrieved 16 March 2012