Корпус розмовної англійської мови (SEC від англ. Spoken English Corpus) — це лінгвістичний корпус записів розмовної британської англійської мови, складений протягом 1984—1987 років. Посібник з корпусу можна знайти у Міжнародному комп'ютерному архіві сучасної та середньовічної англійської мови (ICAME).
Історія
Проект Корпусу розмовної англійської мови (SEC) у 1984—1985 роках розроблявся у співпраці Фондом гуманітарних досліджень Ланкастерського університету та IBM UK Ltd, а згодом тільки IBM UK Ltd. Розробкою займалися підрозділ комп'ютерних досліджень англійської мови у Ланкастерському університеті на чолі з Джеффрі Лічем та Науковий центр IBM у Вінчестері на чолі з Джеффрі Кейем. Фінансування надавало IBM.
Матеріал корпусу
Корпус складається з 53 записаних уривків, переважно взятих з BBC, що вимовляються з акцентом, який зазвичай називають англійською літературною вимовою. Збірка охоплює такі категорії: коментарі, трансляція новин, лекції, діалоги, поезія, пропаганда. Корпус містить 52 637 слів на 339 хвилин. Склад корпусу описала Літа Тейлор у своїй статті 1996 року «The Compilation of the Govored English Corpus».
Категорія | Слів | % |
---|---|---|
Коментарі | 9066 | 17 |
Трансляція новин | 5235 | 10 |
Лекції на широку аудиторію | 4471 | 8 |
Лекції на обмежену аудиторію | 7451 | 14 |
Релігійне мовлення, включаючи літургію | 2043 | 4 |
Репортаж у журнальному стилі | 4170 | 9 |
Художня література | 7299 | 14 |
Поезія | 1292 | 2 |
Діалоги | 6826 | 13 |
Пропаганда | 1432 | 3 |
Інше | 3352 | 6 |
Разом | 52637 | 100 |
Транскрибування
Для транскрибування інтонації записаного матеріалу було розроблено певну систему. Двоє транскрибаторів, Джеррі Ноулз і Брайоні Вільямс, за підтримки Літи Тейлор, проаналізували весь корпус. Систему транскрибування пояснив Б. Вільямс, а Брайан Пікерінг провів експеримент, щоб оцінити ступінь узгодження у роботі обох транскрибаторів щодо частини корпусу, що містить близько 1000 тонів. Ступінь узгодження був високий.
Важливою властивістю сучасного корпусу є те, що він може оброблятися комп'ютером: наразі корпус, як правило, розміщується на жорсткому диску, а не на книжковій полиці. Представляючи корпус у книжковій формі, автори враховували потреби корпусних лінгвістів старого зразка, а також тих, хто ще не знайомий з корпусами. Будь-хто, у кого є корпус на диску, може зробити друковані копії більшості файлів, але без спеціального шрифту для друку просодичних символів тексти транскрипції будуть непридатні для друку або читання. З цієї причини для публікації обрано саме просодичний варіант.
Вся транскрипція у нинішньому друкованому вигляді була зроблена Пітером Олдерсоном, який пізніше обійняв посаду менеджера з дослідження мовлення в IBM. Згодом том був названий «Корпус формального британського англійського мовлення: розмовний англійський корпус Ланкастер/IBM» і вперше опублікований Лонгманом у 1996 році, пізніше Routledge у 2013 році. Наразі книга доступна в онлайн-книгарнях, включаючи Routledge і Book Depository, або в електронному форматі у Google Play Books.
Інші особливості
Граматичні позначки до кожного слова на основі було додано до тексту SEC. Той факт, що тегування було у машиночитній формі, дозволяв співвідносити граматичну та просодичну інформацію в текстах. Надалі у роботі використовувалися ймовірнісні моделі для розвитку граматичних тегів і автоматизації синтаксичного аналізу.
Енн Віхманн опублікувала своє дослідження про інтонацію SEC «Інтонація в тексті та дискурсі: початок, середина та кінець» у 2000 році.
Машиночитний корпус розмовної англійської мови (MARSEC)
Хоча текст і пов'язані з ним теги існували у машиночитній формі, самі записи існували лише у магнітофонному вигляді. Співпраця між науковцями з університетів Ланкастера та Лідса у Сполученому Королівстві, яка фінансувалася Радою економічних і соціальних досліджень у 1992—1994 роках, мала на меті створити версію корпусу, що містила би записи в цифровій формі. Головними дослідниками були Джеррі Ноулз і Тамаш Вараді (Ланкастер), Пітер Роуч і Саймон Арнфілд (Лідс). Схему проекту виклав Ноулз. Оцифровані записи були записані на CD-ROM. Пізніше диск зробили доступним для завантаження в дослідницьких цілях з Університету Лідса (цієї функції більше немає).
Aix-MARSEC
Робота над MARSEC в Ланкастері та Лідсі була завершена приблизно в 1995 році, але згодом корпус значно розвинувся в Університеті Екс-ан-Прованс у Франції, під керівництвом Деніеля Херста. Зараз база даних складається з двох основних частин: оцифрованих записів від MARSEC та лінгвістичної розмітки. Розмітку здійснено на дев'яти рівнях, включаючи фонеми, склади, слова, наголоси, одиниці ритму та другорядні й головні одиниці мовлення. Незабаром будуть інтегровані два додаткові рівні: граматична розмітка від CLAWS і система граматичних властивостей, розроблена в Екс-ан-Прованс. Можливим недоліком такої доробки є те, що пошук у корпусі можна здійснювати лише за допомогою спеціально написаних скриптів.
- Аудіозаписи Aix-MARSEC доступні тут
Примітки
- "MANUAL OF INFORMATION TO ACCOMPANY THE SEC CORPUS". korpus.uib.no. Архів оригіналу за 8 березня 2022. Процитовано 15 жовтня 2020.
- Leech, Geoffrey. (1996). "The Spoken English Corpus in its context." Foreword. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with speech. Longman. ISBN .
- Xiao, Richard; Tono, Yukio (2006). MacEnery, Tony (ed.). Corpus-Based Language Studies: An Advanced Resource Book. Taylor & Francis. с. 63. ISBN . Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
- Taylor, Lita. (1996). "The Compilation of the Spoken English Corpus." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 20—37. ISBN .
- 7.2. SEC, MARSEC and Aix-MARSEC. Архів оригіналу за 1 квітня 2022. Процитовано 17 квітня 2022.
- Williams, Briony. (1996). "The formulation of an intonation transcription system for British English." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 38—57. ISBN .
- Pickering, Brian. (1996). "Analysis of transcriber differences in the SEC." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 61—86. ISBN .
- "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus (Paperback) - Routledge". Routledge.com. Процитовано 2018-07-22. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
- "A Corpus of Formal British English Speech : Gerald Knowles : 9781138457768". www.bookdepository.com. Архів оригіналу за 30 січня 2019. Процитовано 30 січня 2019.
- Taylor, Lita. (1996). "The Compilation of the Spoken English Corpus." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 30. ISBN .
- https://ucrel.lancs.ac.uk/claws1tags.html. ucrel.lancs.ac.uk. Retrieved 2020-10-15. Архів оригіналу за 19 квітня 2021. Процитовано 17 квітня 2022.
- Sampson, Geoffrey. (1987). "Probabilistic models of analysis." Garside, Roger; Sampson, Geoffrey; Leech, Geoffrey (1987). The Computational Analysis of English. Longman. ISBN .
- "Intonation in Text and Discourse: Beginnings, Middles and Ends". Routledge & CRC Press. Архів оригіналу за 17 квітня 2022. Процитовано 15 жовтня 2020.
- Roach, P., Knowles, G., Varadi, T. and Arnfield, S. (1994) "MARSEC: a MAchine-readable Spoken English Corpus". Journal of the International Phonetic Association. 23 (2). с. 47—54. ISSN 0025-1003.
- Knowles, G. "Converting a corpus into a relational database: SEC becomes MARSEC" Geoffrey, Leech; Myers, Greg; Thomas, Jenny (1995). Spoken English on Computer. Longman. с. 208—219. ISBN .
- "MARSEC: The Machine Readable Spoken English Corpus". www.reading.ac.uk. Архів оригіналу за 21 січня 2022. Процитовано 15 жовтня 2020.
- Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 July 2010). "Aix-MARSEC database". Архів оригіналу за 23 січня 2010. Процитовано 15 квітня 2013..
- Auron, Cyril; Bouzon, Caroline (2003). "Phonotactique prédictive et alignement automatique : application au corpus MARSEC et perspectives". Predictive phonotactics and automatic alignment: application in the MARSEC corpus and prospects. ravaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (in French). Publications de l'Université de Provence. 22: 33–63. Retrieved 15 April 2013. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
- Wichmann, Anne "Speech corpora and spoken corpora" Ludeling, Anke; Kyto, Merja (2006). Corpus Linguistics 1. Walter de Gruyter. с. 200. ISBN .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Nemaye perevirenih versij ciyeyi storinki jmovirno yiyi she ne pereviryali na vidpovidnist pravilam proektu Korpus rozmovnoyi anglijskoyi movi SEC vid angl Spoken English Corpus ce lingvistichnij korpus zapisiv rozmovnoyi britanskoyi anglijskoyi movi skladenij protyagom 1984 1987 rokiv Posibnik z korpusu mozhna znajti u Mizhnarodnomu komp yuternomu arhivi suchasnoyi ta serednovichnoyi anglijskoyi movi ICAME 1 Zmist 1 Istoriya 2 Material korpusu 3 Transkribuvannya 4 Inshi osoblivosti 5 Mashinochitnij korpus rozmovnoyi anglijskoyi movi MARSEC 6 Aix MARSEC 7 PrimitkiIstoriyared Proekt Korpusu rozmovnoyi anglijskoyi movi SEC u 1984 1985 rokah rozroblyavsya u spivpraci Fondom gumanitarnih doslidzhen Lankasterskogo universitetu ta IBM UK Ltd a zgodom tilki IBM UK Ltd Rozrobkoyu zajmalisya pidrozdil komp yuternih doslidzhen anglijskoyi movi u Lankasterskomu universiteti na choli z Dzheffri Lichem ta Naukovij centr IBM u Vinchesteri na choli z Dzheffri Kejem Finansuvannya nadavalo IBM 2 Material korpusured Korpus skladayetsya z 53 zapisanih urivkiv perevazhno vzyatih z BBC sho vimovlyayutsya z akcentom yakij zazvichaj nazivayut anglijskoyu literaturnoyu vimovoyu Zbirka ohoplyuye taki kategoriyi komentari translyaciya novin lekciyi dialogi poeziya propaganda 3 Korpus mistit 52 637 sliv na 339 hvilin Sklad korpusu opisala Lita Tejlor u svoyij statti 1996 roku The Compilation of the Govored English Corpus 4 Kategoriya Sliv Komentari 9066 17 Translyaciya novin 5235 10 Lekciyi na shiroku auditoriyu 4471 8 Lekciyi na obmezhenu auditoriyu 7451 14 Religijne movlennya vklyuchayuchi liturgiyu 2043 4 Reportazh u zhurnalnomu stili 4170 9 Hudozhnya literatura 7299 14 Poeziya 1292 2 Dialogi 6826 13 Propaganda 1432 3 Inshe 3352 6 Razom 52637 100 5 Transkribuvannyared Dlya transkribuvannya intonaciyi zapisanogo materialu bulo rozrobleno pevnu sistemu Dvoye transkribatoriv Dzherri Noulz i Brajoni Vilyams za pidtrimki Liti Tejlor proanalizuvali ves korpus Sistemu transkribuvannya poyasniv B Vilyams 6 a Brajan Pikering proviv eksperiment shob ociniti stupin uzgodzhennya u roboti oboh transkribatoriv shodo chastini korpusu sho mistit blizko 1000 toniv 7 Stupin uzgodzhennya buv visokij Vazhlivoyu vlastivistyu suchasnogo korpusu ye te sho vin mozhe obroblyatisya komp yuterom narazi korpus yak pravilo rozmishuyetsya na zhorstkomu disku a ne na knizhkovij polici Predstavlyayuchi korpus u knizhkovij formi avtori vrahovuvali potrebi korpusnih lingvistiv starogo zrazka a takozh tih hto she ne znajomij z korpusami Bud hto u kogo ye korpus na disku mozhe zrobiti drukovani kopiyi bilshosti fajliv ale bez specialnogo shriftu dlya druku prosodichnih simvoliv teksti transkripciyi budut nepridatni dlya druku abo chitannya Z ciyeyi prichini dlya publikaciyi obrano same prosodichnij variant Vsya transkripciya u ninishnomu drukovanomu viglyadi bula zroblena Piterom Oldersonom yakij piznishe obijnyav posadu menedzhera z doslidzhennya movlennya v IBM Zgodom tom buv nazvanij Korpus formalnogo britanskogo anglijskogo movlennya rozmovnij anglijskij korpus Lankaster IBM i vpershe opublikovanij Longmanom u 1996 roci piznishe Routledge u 2013 roci Narazi kniga dostupna v onlajn knigarnyah vklyuchayuchi Routledge i Book Depository abo v elektronnomu formati u Google Play Books 8 9 Inshi osoblivostired Gramatichni poznachki do kozhnogo slova na osnovi tegiv CLAWS1 bulo dodano do tekstu SEC 10 11 Toj fakt sho teguvannya bulo u mashinochitnij formi dozvolyav spivvidnositi gramatichnu ta prosodichnu informaciyu v tekstah Nadali u roboti vikoristovuvalisya jmovirnisni modeli dlya rozvitku gramatichnih tegiv i avtomatizaciyi sintaksichnogo analizu 12 Enn Vihmann opublikuvala svoye doslidzhennya pro intonaciyu SEC Intonaciya v teksti ta diskursi pochatok seredina ta kinec u 2000 roci 13 Mashinochitnij korpus rozmovnoyi anglijskoyi movi MARSEC red Hocha tekst i pov yazani z nim tegi isnuvali u mashinochitnij formi sami zapisi isnuvali lishe u magnitofonnomu viglyadi Spivpracya mizh naukovcyami z universitetiv Lankastera ta Lidsa u Spoluchenomu Korolivstvi yaka finansuvalasya Radoyu ekonomichnih i socialnih doslidzhen u 1992 1994 rokah mala na meti stvoriti versiyu korpusu sho mistila bi zapisi v cifrovij formi 14 Golovnimi doslidnikami buli Dzherri Noulz i Tamash Varadi Lankaster Piter Rouch i Sajmon Arnfild Lids Shemu proektu viklav Noulz 15 Ocifrovani zapisi buli zapisani na CD ROM Piznishe disk zrobili dostupnim dlya zavantazhennya v doslidnickih cilyah z Universitetu Lidsa ciyeyi funkciyi bilshe nemaye 16 Aix MARSECred Robota nad MARSEC v Lankasteri ta Lidsi bula zavershena priblizno v 1995 roci ale zgodom korpus znachno rozvinuvsya v Universiteti Eks an Provans u Franciyi pid kerivnictvom Denielya Hersta 17 Zaraz baza danih skladayetsya z dvoh osnovnih chastin ocifrovanih zapisiv vid MARSEC ta lingvistichnoyi rozmitki Rozmitku zdijsneno na dev yati rivnyah vklyuchayuchi fonemi skladi slova nagolosi odinici ritmu ta drugoryadni j golovni odinici movlennya Nezabarom budut integrovani dva dodatkovi rivni gramatichna rozmitka vid CLAWS i sistema gramatichnih vlastivostej rozroblena v Eks an Provans 18 Mozhlivim nedolikom takoyi dorobki ye te sho poshuk u korpusi mozhna zdijsnyuvati lishe za dopomogoyu specialno napisanih skriptiv 19 Audiozapisi Aix MARSEC dostupni tutPrimitkired MANUAL OF INFORMATION TO ACCOMPANY THE SEC CORPUS korpus uib no Arhiv originalu za 8 bereznya 2022 Procitovano 15 zhovtnya 2020 Leech Geoffrey 1996 The Spoken English Corpus in its context Foreword Knowles Gerard Wichmann Anne Alderson Peter eds 1996 Working with speech Longman ISBN 9780582045347 Xiao Richard Tono Yukio 2006 MacEnery Tony ed Corpus Based Language Studies An Advanced Resource Book Taylor amp Francis s 63 ISBN 9780415286220 Arhiv originalu za 17 kvitnya 2022 Procitovano 17 kvitnya 2022 Taylor Lita 1996 The Compilation of the Spoken English Corpus Knowles Gerard Wichmann Anne Alderson Peter eds 1996 Working with Speech Longman s 20 37 ISBN 9780582045347 7 2 SEC MARSEC and Aix MARSEC Arhiv originalu za 1 kvitnya 2022 Procitovano 17 kvitnya 2022 Williams Briony 1996 The formulation of an intonation transcription system for British English Knowles Gerard Wichmann Anne Alderson Peter eds 1996 Working with Speech Longman s 38 57 ISBN 9780582045347 Pickering Brian 1996 Analysis of transcriber differences in the SEC Knowles Gerard Wichmann Anne Alderson Peter eds 1996 Working with Speech Longman s 61 86 ISBN 9780582045347 A Corpus of Formal British English Speech The Lancaster IBM Spoken English Corpus Paperback Routledge Routledge com Procitovano 2018 07 22 Arhiv originalu za 17 kvitnya 2022 Procitovano 17 kvitnya 2022 A Corpus of Formal British English Speech Gerald Knowles 9781138457768 www bookdepository com Arhiv originalu za 30 sichnya 2019 Procitovano 30 sichnya 2019 Taylor Lita 1996 The Compilation of the Spoken English Corpus Knowles Gerard Wichmann Anne Alderson Peter eds 1996 Working with Speech Longman s 30 ISBN 9780582045347 https ucrel lancs ac uk claws1tags html ucrel lancs ac uk Retrieved 2020 10 15 Arhiv originalu za 19 kvitnya 2021 Procitovano 17 kvitnya 2022 Sampson Geoffrey 1987 Probabilistic models of analysis Garside Roger Sampson Geoffrey Leech Geoffrey 1987 The Computational Analysis of English Longman ISBN 9780582291492 Intonation in Text and Discourse Beginnings Middles and Ends Routledge amp CRC Press Arhiv originalu za 17 kvitnya 2022 Procitovano 15 zhovtnya 2020 Roach P Knowles G Varadi T and Arnfield S 1994 MARSEC a MAchine readable Spoken English Corpus Journal of the International Phonetic Association 23 2 s 47 54 ISSN 0025 1003 Knowles G Converting a corpus into a relational database SEC becomes MARSEC Geoffrey Leech Myers Greg Thomas Jenny 1995 Spoken English on Computer Longman s 208 219 ISBN 9780582250215 MARSEC The Machine Readable Spoken English Corpus www reading ac uk Arhiv originalu za 21 sichnya 2022 Procitovano 15 zhovtnya 2020 Hirst Daniel De Looze Celine Auran Cyril Bouzon Caroline 27 July 2010 Aix MARSEC database Arhiv originalu za 23 sichnya 2010 Procitovano 15 kvitnya 2013 Auron Cyril Bouzon Caroline 2003 Phonotactique predictive et alignement automatique application au corpus MARSEC et perspectives Predictive phonotactics and automatic alignment application in the MARSEC corpus and prospects ravaux interdisciplinaires du laboratoire parole et langage d Aix en Provence in French Publications de l Universite de Provence 22 33 63 Retrieved 15 April 2013 Arhiv originalu za 17 kvitnya 2022 Procitovano 17 kvitnya 2022 Wichmann Anne Speech corpora and spoken corpora Ludeling Anke Kyto Merja 2006 Corpus Linguistics 1 Walter de Gruyter s 200 ISBN 9783110180435 Otrimano z https uk wikipedia org wiki Korpus rozmovnoyi anglijskoyi movi