Парале́льний текст (бітекст, білінгвальний текст) — це текст однією мовою разом з його перекладом на іншу мову. Зіставлення паралельних текстів — це ідентифікація відповідних один одному речень в обох половинах паралельного тексту. Великі збірки паралельних текстів називаються паралельним корпусом (англ. parallel corpora). Зіставлення паралельного корпусу на рівні речень є необхідною передумовою для різних аспектів лінгвістичних досліджень. У процесі перекладу речення можуть розділятися, зливатися, видалятися, вставлятися або змінювати свою послідовність. У зв'язку з цим зіставлення часто стає складним завданням.
Бітекст
У сфері наукових досліджень проблем перекладу бітекст — це суміщений документ, що складається з версій відповідного тексту оригінальною мовою і цільовою мовою. Бітексти створюються за допомогою спеціальних комп'ютерних програм, які називаються «інструментами зіставлення» (alignment tool) або «інструментами для бітексту» (bitext tool). Такі програми дають змогу автоматично зіставляти текст вихідною мовою та його переклад. Вони, як правило, узгоджують два тексти (оригінал і переклад) по кожному реченню. Збірка бітекстів зветься «бітекстовою базою даних» або «двомовним корпусом» і може використовуватися як довідник для пошуку потрібних словосполучень.
Історія
Ідея бітексту належить Брайану Херісу (Brian Harris), котрий першим опублікував дослідження з цієї концепції у 1988 році. Пізніше її розвинула група вчених при Монреальському університеті під назвою RALI (Recherche appliquée en linguistique informatique або Applied Research in Computational Linguistics — «Прикладні дослідження в обчислювальній лінгвістиці»). Ця група складалася з програмістів і лінгвістів, що вивчали природне опрацювання тексту. Відомими промоутерами концепції бітексту вважаються П'єр Ізабель (Pierre Isabelle) та Клод Бедар (Claude Bédard).
Бітексти і пам'ять перекладів
Ідея бітексту має багато спільного з концепцією пам'яті перекладів. Головна відмінність між ними полягає в тому, що пам'ять перекладів являє собою базу даних, у якій текстові сегменти (відповідні один одному речення) розташовані в довільному порядку і не пов'язані з оригінальним текстом, тобто оригінальна послідовність речень втрачається. Натомість бітекст зберігає первісну послідовність речень.
Стандартним форматом для обміну базами даних пам'яті перекладів між різними програмами автоматизованого перекладу є формат TMX (XML-словник, що його розробила асоціація LISA (Localization Industry Standards Association — Асоціація для вироблення стандартів галузі локалізації). Формат TMX дає змогу зберігати оригінальний порядок речень. Бітексти створюються як довідковий інструмент для консультацій спеціалістів-перекладачів, а не задля автоматизованих програм. Тому невеликі помилки вирівнювання або неточності, що можуть призвести до збоїв у пам'яті перекладів, у бітекстах не мають значення.
Паралельні корпуси в Інтернеті
- законодавства Європейського Союзу: Acquis Communautaire, що містить 231 мовну пару.
- COMPARA — Паралельний корпус Portuguese/English
- Nunavut Hansard — Паралельний корпус English/Inuktitut
Див. також
Джерела та посилання
- Ralf Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga, 2006, The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages, Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006.
- Бук С. Архітектура польсько-українського та українсько-польського паралельного корпусу автоперекладів Івана Франка // Slavia Orientalis. 2012. T. LXI, Nr 2. С. 213-230.
Документація
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Parale lnij tekst bitekst bilingvalnij tekst ce tekst odniyeyu movoyu razom z jogo perekladom na inshu movu Zistavlennya paralelnih tekstiv ce identifikaciya vidpovidnih odin odnomu rechen v oboh polovinah paralelnogo tekstu Veliki zbirki paralelnih tekstiv nazivayutsya paralelnim korpusom angl parallel corpora Zistavlennya paralelnogo korpusu na rivni rechen ye neobhidnoyu peredumovoyu dlya riznih aspektiv lingvistichnih doslidzhen U procesi perekladu rechennya mozhut rozdilyatisya zlivatisya vidalyatisya vstavlyatisya abo zminyuvati svoyu poslidovnist U zv yazku z cim zistavlennya chasto staye skladnim zavdannyam BitekstU sferi naukovih doslidzhen problem perekladu bitekst ce sumishenij dokument sho skladayetsya z versij vidpovidnogo tekstu originalnoyu movoyu i cilovoyu movoyu Biteksti stvoryuyutsya za dopomogoyu specialnih komp yuternih program yaki nazivayutsya instrumentami zistavlennya alignment tool abo instrumentami dlya bitekstu bitext tool Taki programi dayut zmogu avtomatichno zistavlyati tekst vihidnoyu movoyu ta jogo pereklad Voni yak pravilo uzgodzhuyut dva teksti original i pereklad po kozhnomu rechennyu Zbirka bitekstiv zvetsya bitekstovoyu bazoyu danih abo dvomovnim korpusom i mozhe vikoristovuvatisya yak dovidnik dlya poshuku potribnih slovospoluchen IstoriyaIdeya bitekstu nalezhit Brajanu Herisu Brian Harris kotrij pershim opublikuvav doslidzhennya z ciyeyi koncepciyi u 1988 roci Piznishe yiyi rozvinula grupa vchenih pri Monrealskomu universiteti pid nazvoyu RALI Recherche appliquee en linguistique informatique abo Applied Research in Computational Linguistics Prikladni doslidzhennya v obchislyuvalnij lingvistici Cya grupa skladalasya z programistiv i lingvistiv sho vivchali prirodne opracyuvannya tekstu Vidomimi promouterami koncepciyi bitekstu vvazhayutsya P yer Izabel Pierre Isabelle ta Klod Bedar Claude Bedard Biteksti i pam yat perekladivIdeya bitekstu maye bagato spilnogo z koncepciyeyu pam yati perekladiv Golovna vidminnist mizh nimi polyagaye v tomu sho pam yat perekladiv yavlyaye soboyu bazu danih u yakij tekstovi segmenti vidpovidni odin odnomu rechennya roztashovani v dovilnomu poryadku i ne pov yazani z originalnim tekstom tobto originalna poslidovnist rechen vtrachayetsya Natomist bitekst zberigaye pervisnu poslidovnist rechen Standartnim formatom dlya obminu bazami danih pam yati perekladiv mizh riznimi programami avtomatizovanogo perekladu ye format TMX XML slovnik sho jogo rozrobila asociaciya LISA Localization Industry Standards Association Asociaciya dlya viroblennya standartiv galuzi lokalizaciyi Format TMX daye zmogu zberigati originalnij poryadok rechen Biteksti stvoryuyutsya yak dovidkovij instrument dlya konsultacij specialistiv perekladachiv a ne zadlya avtomatizovanih program Tomu neveliki pomilki virivnyuvannya abo netochnosti sho mozhut prizvesti do zboyiv u pam yati perekladiv u bitekstah ne mayut znachennya Paralelni korpusi v Internetizakonodavstva Yevropejskogo Soyuzu Acquis Communautaire sho mistit 231 movnu paru COMPARA Paralelnij korpus Portuguese English Nunavut Hansard Paralelnij korpus English InuktitutDiv takozhAvtomatizovanij pereklad StereotekstDzherela ta posilannyaRalf Steinberger Ralf Bruno Pouliquen Anna Widiger Camelia Ignat Tomaz Erjavec Dan Tufis Daniel Varga 2006 The JRC Acquis A multilingual aligned parallel corpus with 20 languages Proceedings of the 5th International Conference on Language Resources and Evaluation LREC 2006 Genoa Italy 24 26 May 2006 Buk S Arhitektura polsko ukrayinskogo ta ukrayinsko polskogo paralelnogo korpusu avtoperekladiv Ivana Franka Slavia Orientalis 2012 T LXI Nr 2 S 213 230 Dokumentaciya