Text Encoding Initiative (TEI) — це міжнародна наукова група дослідників письмової мови, орієнтована на співтовариство практиків в академічній сфері [en], яка працює з 1980 року. Спільнота веде список розсилки, наради та серії конференцій, а також підтримує однойменний технічний стандарт, журнал, вікі, сховище GitHub. У 2001 році ТЕІ стає консорціумом, об'єднуючи сили дослідників у галузі комп'ютерної обробки природних мов.
Text Encoding Initiative | |
---|---|
Вебсайт | tei-c.org |
Значення стандарту
Digital humanities як самостійні напрями досліджень, що виникли на межі гуманітарних наук і сучасних ІТ), перетворили текст з рукописного раритету в об'єкт електронної публікації.
Оскільки бібліотеки дедалі більше оцифровують свої колекції (Google книги, Проєкт «Гутенберга», проєкт Ґалліка від Національної бібліотеки Франції, проєкт Європіана від Європейської комісії, проєкт Open Library), зростає кількість відсканованих рукописів, які сучасним методам розпізнавання тексту складно розшифровувати.
Документи цієї категорії варіюються від середньовічних рукописів до ранніх друкованих творів, більшість із них не мають електронних транскрипцій, бо поточні методи OCR не працюють, їх вміст залишається непрозорим для пошуку.
Користуючись існуючими методами розпізнавання символів нових сценаріїв дослідник іноді повинен вручну сегментувати та позначати екземпляри кожного гліфа. Інші методи передбачають розмітку цілих рядків тексту замість [en].
Огляд методів розпізнавання тексту
Основний спосіб аналізу об'єктів тексту теоретиками обробки тексту та розробниками стандартів початку 1980-х років (спільнота SGML, в їхньому розумінні документи могли бути представлені за правилами розмітки єдиної логічної ієрархічної «фізичної» структури), принципово відрізняється від способу аналізу об'єктів літературно-лінгвістичним кодувальним співтовариством кінця 1980-х (спільнота TEI, виявила багато ієрархічних правдоподібно «логічних» структур).
Уперше основні принципи системи кодування текстів ТЕІ опубліковано у 1994 році, після шести літ розробок з кодування та розпізнавання рукописних текстів вченими Оксфордського університету [en] та [en]
В 2002 виник стандарт LMNL, що дозволяє розмічати та обробляти текст, не встановлюючи ієрархії взагалі. Синтаксис цього методу кодування під назвою HORSE дозволяє повністю представити будь-який документ LMNL у XML. Згодом назва методу була змінена на OSIS (XML-схема CLIX, дуже схожа на схему ініціативи кодування тексту TEI).
Спочатку TEI базувалася на електронному корпусі текстів класиків англійської літератури ([en]). Зараз до складу міжнародної наукової групи, яка адаптує систему TEI для кодування документів , увійшли понад 100 вчених різних спеціальностей з різних країн світу, проєкти національного рівня (British National Corpus, [en], та менш відомі University of Michigan Humanities Text Initiative (HTI), University of Virginia Electronic Text Center, тощо.
Тематика кодування текстових документів у світі постійно і послідовно розвивається з 1980-х років. В даний час в світі працює кілька спільнот, які розробляють проблемно-орієнтовані схеми кодуванні текстових документів, наприклад
- [en],
- [en],
- [de]
- [en].
- (кодування рукописних джерел).
Вони використовують формат TEI, пропонуючи власні розширення. До теперішнього часу їх розробки носять методичний характер: розробляється багатоцільова схема кодування рукописів, але не обговорюється автоматизація процесу кодування. Популярні проєкти по розмітці рукописних джерел орієнтовані на підтримку колективної розмітки вручну, наприклад, FromThePage, T-PEN (Transcription for Paleographical and Editorial Notation).
Технічні деталі
Як правило, в колекціях електронних бібліотек документи зберігаються у форматі растрових графічних файлів. Транскрипція первинних текстів у машиночитану форму складається з низки актів перекладу з однієї семіотичної системи (системи первинного джерела) на іншу семіотичну систему (систему комп'ютера). Як і всі акти перекладу, цей акт теж неповний та інтерпретаційний.
Адже первинний текст існує тільки в одній формі. Біблій багато, а Codex Siniaticus лише один.
Розпізнавання тексту включає етапи передобробки (бінарізаціі зображень), сегментації (виділення текстових областей, рядків, слів, символів), аналізу бінарних зображень символів або слів (встановлення значень ознак, порівняння з еталонами) і вибору відповідних словоформ зі словника відповідно до певної моделі мови.
Розпізнавання рукописних історичних документів в останні роки стало одним з найактуальніших наукових напрямків, активною розробкою методів усунення дефектів і покращенням якості цифрових зображень рукописів, а також сегментації рядків, оскільки сегментація символів в рукописних текстах часто виявляється складною, пропонуються спеціальні алгоритми розпізнавання незрозумілих слів і цілих рядків, засновані на прихованих марковських моделях і випадкових полях, велика увага приділяється розпізнаванню давньогрецьких текстів і арабських рукописів.
Приклади практики транскрипції, видобутку даних та редагування тексту, на основі таких програми, як T-PEN, бюро транскрипцій [en], TEI-тексти, зробили серйозний внесок в оцінювання різноманітних форматів книг для проведення досліджень. Їх цінність не обов'язково полягає в тому, що програми полегшують текстові експерименти, а в тому, що створюється виразно інша парадигма.
Див. також
- Корпусна лінгвістика
- Мова розмітки даних
- Інкунабула
- Палеографія
- [en]
- [en]
- [en]
- [en]
- VisColl
- Mapping the Republic of Letters
- Європейська абетка Войнича
Примітки
- . cds.library.brown.edu. Архів оригіналу за 23 березня 2021. Процитовано 24 березня 2021.
- . textolog-rgali.ru. Архів оригіналу за 21 червня 2021. Процитовано 24 березня 2021.
- . www.balisage.net (англ.). Архів оригіналу за 27 серпня 2020. Процитовано 24 березня 2021.
- http://dspace.nbuv.gov.ua/bitstream/handle/123456789/1863/57%2520-%2520Demska-Kulchytska.pdf[недоступне посилання]
- . tei-c.org. Архів оригіналу за 13 квітня 2021. Процитовано 24 березня 2021.
- . wiki.tei-c.org. Архів оригіналу за 15 квітня 2021. Процитовано 24 березня 2021.
- . wiki.tei-c.org. Архів оригіналу за 31 липня 2016. Процитовано 24 березня 2021.
- . wiki.digitalclassicist.org. Архів оригіналу за 27 березня 2019. Процитовано 24 березня 2021.
- Moghaddam R.F., Cheriet M. Low quality document image modelling and enhancement // Int. J. on Document Analysis and Recognition. — 2009. — V. 11, No 4. — P. 183—201
- Malleron V. et al. Text lines and snippets extraction for 19th century handwriting documents layout analysis // Int. Conf. on Document Analysis and Recognition. — Barcelone, 2009. — P. 1001—1005
- Adamek T., O'Connor N.E., Smeaton A.F. Word matching using single closed contours for indexing handwritten historical documents //Int. J. on Document Analysis and Recognition. — 2007. — V. 9, No 2 — 4. — P. 153—165.
- Plötz T., Fink G.A. Markov models for offline handwriting recognition: a survey //Int. J. on Document Analysis and Recognition. — 2009. — V. 12, No 4. — P. 269—298.
- Feng S., Manmatha R., Mccallum A. Exploring the use of conditional random field models and HMMs for historical handwritten document recognition// 2nd Int. Conf. on Document Image Analysis for Libraries (DIAL), 2006. — P. 8-37.
- Ntzios K. et al. An old Greek handwritten OCR system based on an efficient segmentation-free approach //Int. J. on Document Analysis and Recognition. — 2007. — V. 9, No 2 — 4. — P. 179—192.
- Lorigo L.M., Govindaraju V. Offline Arabic handwriting recognition: a survey // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2006. — V. 28, No 5. — P. 712—724
- . Архів оригіналу за 16 травня 2021. Процитовано 24 березня 2021.
{{}}
: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title () - . Архів оригіналу за 25 травня 2018. Процитовано 24 березня 2021.
{{}}
: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title () - . wiki.usask.ca. Архів оригіналу за 25 жовтня 2021. Процитовано 24 березня 2021.
- , KislakCenter, 21 березня 2021, архів оригіналу за 1 листопада 2020, процитовано 24 березня 2021
- . The National Endowment for the Humanities (англ.). Архів оригіналу за 24 березня 2021. Процитовано 24 березня 2021.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Text Encoding Initiative TEI ce mizhnarodna naukova grupa doslidnikiv pismovoyi movi oriyentovana na spivtovaristvo praktikiv v akademichnij sferi en yaka pracyuye z 1980 roku Spilnota vede spisok rozsilki naradi ta seriyi konferencij a takozh pidtrimuye odnojmennij tehnichnij standart zhurnal viki shovishe GitHub U 2001 roci TEI staye konsorciumom ob yednuyuchi sili doslidnikiv u galuzi komp yuternoyi obrobki prirodnih mov Text Encoding InitiativeVebsajt tei c orgZnachennya standartuDigital humanities yak samostijni napryami doslidzhen sho vinikli na mezhi gumanitarnih nauk i suchasnih IT peretvorili tekst z rukopisnogo raritetu v ob yekt elektronnoyi publikaciyi Oskilki biblioteki dedali bilshe ocifrovuyut svoyi kolekciyi Google knigi Proyekt Gutenberga proyekt Gallika vid Nacionalnoyi biblioteki Franciyi proyekt Yevropiana vid Yevropejskoyi komisiyi proyekt Open Library zrostaye kilkist vidskanovanih rukopisiv yaki suchasnim metodam rozpiznavannya tekstu skladno rozshifrovuvati Dokumenti ciyeyi kategoriyi variyuyutsya vid serednovichnih rukopisiv do rannih drukovanih tvoriv bilshist iz nih ne mayut elektronnih transkripcij bo potochni metodi OCR ne pracyuyut yih vmist zalishayetsya neprozorim dlya poshuku Koristuyuchis isnuyuchimi metodami rozpiznavannya simvoliv novih scenariyiv doslidnik inodi povinen vruchnu segmentuvati ta poznachati ekzemplyari kozhnogo glifa Inshi metodi peredbachayut rozmitku cilih ryadkiv tekstu zamist en Oglyad metodiv rozpiznavannya tekstuOsnovnij sposib analizu ob yektiv tekstu teoretikami obrobki tekstu ta rozrobnikami standartiv pochatku 1980 h rokiv spilnota SGML v yihnomu rozuminni dokumenti mogli buti predstavleni za pravilami rozmitki yedinoyi logichnoyi iyerarhichnoyi fizichnoyi strukturi principovo vidriznyayetsya vid sposobu analizu ob yektiv literaturno lingvistichnim koduvalnim spivtovaristvom kincya 1980 h spilnota TEI viyavila bagato iyerarhichnih pravdopodibno logichnih struktur Upershe osnovni principi sistemi koduvannya tekstiv TEI opublikovano u 1994 roci pislya shesti lit rozrobok z koduvannya ta rozpiznavannya rukopisnih tekstiv vchenimi Oksfordskogo universitetu en ta en V 2002 vinik standart LMNL sho dozvolyaye rozmichati ta obroblyati tekst ne vstanovlyuyuchi iyerarhiyi vzagali Sintaksis cogo metodu koduvannya pid nazvoyu HORSE dozvolyaye povnistyu predstaviti bud yakij dokument LMNL u XML Zgodom nazva metodu bula zminena na OSIS XML shema CLIX duzhe shozha na shemu iniciativi koduvannya tekstu TEI Spochatku TEI bazuvalasya na elektronnomu korpusi tekstiv klasikiv anglijskoyi literaturi en Zaraz do skladu mizhnarodnoyi naukovoyi grupi yaka adaptuye sistemu TEI dlya koduvannya dokumentiv uvijshli ponad 100 vchenih riznih specialnostej z riznih krayin svitu proyekti nacionalnogo rivnya British National Corpus en ta mensh vidomi University of Michigan Humanities Text Initiative HTI University of Virginia Electronic Text Center tosho Tematika koduvannya tekstovih dokumentiv u sviti postijno i poslidovno rozvivayetsya z 1980 h rokiv V danij chas v sviti pracyuye kilka spilnot yaki rozroblyayut problemno oriyentovani shemi koduvanni tekstovih dokumentiv napriklad en en de en koduvannya rukopisnih dzherel Voni vikoristovuyut format TEI proponuyuchi vlasni rozshirennya Do teperishnogo chasu yih rozrobki nosyat metodichnij harakter rozroblyayetsya bagatocilova shema koduvannya rukopisiv ale ne obgovoryuyetsya avtomatizaciya procesu koduvannya Populyarni proyekti po rozmitci rukopisnih dzherel oriyentovani na pidtrimku kolektivnoyi rozmitki vruchnu napriklad FromThePage T PEN Transcription for Paleographical and Editorial Notation Tehnichni detaliYak pravilo v kolekciyah elektronnih bibliotek dokumenti zberigayutsya u formati rastrovih grafichnih fajliv Transkripciya pervinnih tekstiv u mashinochitanu formu skladayetsya z nizki aktiv perekladu z odniyeyi semiotichnoyi sistemi sistemi pervinnogo dzherela na inshu semiotichnu sistemu sistemu komp yutera Yak i vsi akti perekladu cej akt tezh nepovnij ta interpretacijnij Adzhe pervinnij tekst isnuye tilki v odnij formi Biblij bagato a Codex Siniaticus lishe odin Rozpiznavannya tekstu vklyuchaye etapi peredobrobki binarizacii zobrazhen segmentaciyi vidilennya tekstovih oblastej ryadkiv sliv simvoliv analizu binarnih zobrazhen simvoliv abo sliv vstanovlennya znachen oznak porivnyannya z etalonami i viboru vidpovidnih slovoform zi slovnika vidpovidno do pevnoyi modeli movi Rozpiznavannya rukopisnih istorichnih dokumentiv v ostanni roki stalo odnim z najaktualnishih naukovih napryamkiv aktivnoyu rozrobkoyu metodiv usunennya defektiv i pokrashennyam yakosti cifrovih zobrazhen rukopisiv a takozh segmentaciyi ryadkiv oskilki segmentaciya simvoliv v rukopisnih tekstah chasto viyavlyayetsya skladnoyu proponuyutsya specialni algoritmi rozpiznavannya nezrozumilih sliv i cilih ryadkiv zasnovani na prihovanih markovskih modelyah i vipadkovih polyah velika uvaga pridilyayetsya rozpiznavannyu davnogreckih tekstiv i arabskih rukopisiv Prikladi praktiki transkripciyi vidobutku danih ta redaguvannya tekstu na osnovi takih programi yak T PEN byuro transkripcij en TEI teksti zrobili serjoznij vnesok v ocinyuvannya riznomanitnih formativ knig dlya provedennya doslidzhen Yih cinnist ne obov yazkovo polyagaye v tomu sho programi polegshuyut tekstovi eksperimenti a v tomu sho stvoryuyetsya virazno insha paradigma Div takozhKorpusna lingvistika Mova rozmitki danih Inkunabula Paleografiya en en en en VisColl Mapping the Republic of Letters Yevropejska abetka VojnichaPrimitki cds library brown edu Arhiv originalu za 23 bereznya 2021 Procitovano 24 bereznya 2021 textolog rgali ru Arhiv originalu za 21 chervnya 2021 Procitovano 24 bereznya 2021 www balisage net angl Arhiv originalu za 27 serpnya 2020 Procitovano 24 bereznya 2021 http dspace nbuv gov ua bitstream handle 123456789 1863 57 2520 2520Demska Kulchytska pdf nedostupne posilannya tei c org Arhiv originalu za 13 kvitnya 2021 Procitovano 24 bereznya 2021 wiki tei c org Arhiv originalu za 15 kvitnya 2021 Procitovano 24 bereznya 2021 wiki tei c org Arhiv originalu za 31 lipnya 2016 Procitovano 24 bereznya 2021 wiki digitalclassicist org Arhiv originalu za 27 bereznya 2019 Procitovano 24 bereznya 2021 Moghaddam R F Cheriet M Low quality document image modelling and enhancement Int J on Document Analysis and Recognition 2009 V 11 No 4 P 183 201 Malleron V et al Text lines and snippets extraction for 19th century handwriting documents layout analysis Int Conf on Document Analysis and Recognition Barcelone 2009 P 1001 1005 Adamek T O Connor N E Smeaton A F Word matching using single closed contours for indexing handwritten historical documents Int J on Document Analysis and Recognition 2007 V 9 No 2 4 P 153 165 Plotz T Fink G A Markov models for offline handwriting recognition a survey Int J on Document Analysis and Recognition 2009 V 12 No 4 P 269 298 Feng S Manmatha R Mccallum A Exploring the use of conditional random field models and HMMs for historical handwritten document recognition 2nd Int Conf on Document Image Analysis for Libraries DIAL 2006 P 8 37 Ntzios K et al An old Greek handwritten OCR system based on an efficient segmentation free approach Int J on Document Analysis and Recognition 2007 V 9 No 2 4 P 179 192 Lorigo L M Govindaraju V Offline Arabic handwriting recognition a survey IEEE Transactions on Pattern Analysis and Machine Intelligence 2006 V 28 No 5 P 712 724 Arhiv originalu za 16 travnya 2021 Procitovano 24 bereznya 2021 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z tekstom archived copy yak znachennya parametru title posilannya Arhiv originalu za 25 travnya 2018 Procitovano 24 bereznya 2021 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z tekstom archived copy yak znachennya parametru title posilannya wiki usask ca Arhiv originalu za 25 zhovtnya 2021 Procitovano 24 bereznya 2021 KislakCenter 21 bereznya 2021 arhiv originalu za 1 listopada 2020 procitovano 24 bereznya 2021 The National Endowment for the Humanities angl Arhiv originalu za 24 bereznya 2021 Procitovano 24 bereznya 2021