Ця стаття потребує додаткових для поліпшення її . (Листопад 2020) |
Структурований документ — це електронний документ, де використовується якийсь метод розмітки для ідентифікації цілої або декілька частин документа, що мають різні значення. Наприклад, структурований документ може ідентифікувати певну частину як «заголовок глави» (або «зразок коду» або «чотиривірш»), а не як основний текст. Такі частини загалом називають «компонентами» або «елементами» документа.
Огляд
Структуровані документи, як правило, зосереджені на маркуванні певних речей, які можна використовувати для різних цілей обробки або зміни тексту. Наприклад, чітке маркування «заголовка глави» або «наголосу» набагато корисніше для людей із вадами зору, ніж просто «курсив». Так само, змістовне маркування багатьох елементів у технічній інформаційній таблиці забезпечує значно кращу інтеграцію з базами даних, пошуковими системами, онлайн-каталогами тощо.
Структуровані документи, як правило, підтримують принаймні ієрархічні структури, наприклад списки, а не просто елементи списку; розділи, а не лише заголовки розділів; і так далі. Це суттєво виділяється із системи і значно полегшує її форматування. Системи вищого рівня також підтримують безліч незалежних та / або накладених наборів компонентів.
Системи структурованих документів зазвичай дозволяють створювати чіткі правила, що визначають типи компонентів та спосіб їх поєднання. Такий набір правил називається «схемою» за аналогією зі схемами баз даних. Є кілька формальних мов для їхньої специфікації, таких як XSD, Relax NG та . Структурований документ, який відповідає правилам схеми, зазвичай називають «дійсним відповідно до цієї схеми». Деякі системи також підтримують документи з компонентами довільних типів та комбінацій, але все ж із синтаксичними правилами ідентифікації цих компонентів.
Лі й Саарела зазначили, що «Стандартна узагальнена мова розмітки (СУМР) започаткувала концепцію структурованих документів», хоча попередні системи, такі як Scribe, Augment і FRESS забезпечували багато функцій структурованих документів, а SGML-евий нащадок XML є тепер улюбленим.
Одним із широко використовуваних інструментів для структурованих документів є HTML, схема, визначена та описана за допомогою W3C. Однак, HTML має не лише теги зі значенням компонентів, таких як абзац, заголовок та код; але також із форматом, такі як курсив, жирний шрифт та більшість таблиць. На практиці HTML іноді використовується як структурована система документів, але у більшості випадків використовується як мова форматування.
Багато доменів використовують структуровані документи за допомогою спільно розроблених схем, такі як JATS для публікації журналів, TEI для документів літературного характеру, UBL та EDI для ділового обміну даними, XTCE для телеметрії космічних кораблів, REST для вебінтерфейсів та безліч інших. У всіх вище зазначених випадках використовуються специфічні схеми на основі XML.
Структурна семантика
При написанні структурованих документів основна увага приділяється кодуванню структури документа, при цьому набагато менше або ж взагалі не приділяється увага презентації його людям у вигляді друкованих сторінок чи текстом на екрані. Структуровані документи можуть бути легко оброблені комп'ютерними системами, для вилучення та представлення похідних форм документа. Наприклад, у більшості статей Вікіпедії зміст автоматично генерується з різних тегів заголовків у тілі документа. Оскільки конверсія SGML в Оксфордському словнику англійської мови чітко виділяла безліч різних значень, що надаються у друкованій версії курсивом, інструменти пошуку можуть отримувати записи на основі етимології, цитат та багатьох інших цікавих особливостей. Коли HTML надає структурну, а не просто інформацію, тоді користувачам із вадами зору можна легко надати кращий інтерфейс для читання. Коли туристичні компанії надають маршрути як структуровані документи, а не просто як зображення, користувачі можуть легко виділити необхідну інформацію та передати їх у календар або інші програми.
У HTML частиною логічної структури документа може бути тіло документа тобто <body>
, що містить заголовок першого рівня, який позначається <h1>
та абзац — <p>
.
<body> <h1>Структурований документ</h1> <p><strong class="selflink">Структурований документ</strong> це <a title="Електронний документ">електронний документ</a> де використовуються певні методи <a title="Мова маркування">маркування</a> використовується для ідентифікації цілого або декількох частин документа, що мають різні значення, окрім форматування.</p> </body>
Однією з найкращих особливостей структурованих документів є те, що їх можна багаторазово використовувати і представляти різними способами на мобільних телефонах, телевізійних екранах, синтезаторах мови та будь-якому іншому пристрої, який можна запрограмувати для їх обробки.
Інша семантика
Іншого значення можна надати тексту, що не є «структурним» у точно такому ж значенні, як великі об'єкти, але все ще вважається «структурою документа», оскільки висловлює твердження про обсяг та природу або онтологію частин документа, а не вказівки щодо її подання. У наведеному вище фрагменті HTML елемент <strong>
означає, що доданий текст є виразним. У візуальному плані це зазвичай передається напівжирним шрифтом, як <b>
; але мовний інтерфейс замість цього скоріше використовував би голосову флексію. Термін семантична розмітка виключає розмітку типу <b>
яка безпосередньо не виражає жодного значення, крім інструкції для візуального дисплея (хоча інтелектуальний агент може бути в змозі розрізнити структурне значення, що криється за тегом). «Сильний» тег є «описовим» або «структурним», оскільки він призначений для позначення абстрактної, квазілінгвістичної властивості його змісту, а не для опису відповідної презентації в якомусь конкретному середовищі.
Деякі інші структурні теги в HTML включають <abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, <q>
. Інші схеми, такі як DocBook та TEI, мають значно більший вибір.
Тег <a>
використовується для дещо іншого типу структури, а саме структури взаємозв'язку або перехресних посилань. Це, безумовно, структура, і насправді можна створити альтернативну розмітку для документів, що виражає ті самі конкретні структури в будь-який спосіб (наприклад, використовуючи трансклюзію для представлення вмісту розділу, а не презентації гіперпосилань навігації).
З самого початку HTML також мітив теги, що виражають семантику презентації, наприклад напівжирний (<b>
) або курсив (<i>
), або для зміни розміру шрифту, або які мали інші наслідки для презентації. Сучасні версії мов розмітки перешкоджають такій розмітці на користь описової розмітки, яка відображається у певних презентаціях за допомогою таблиць стилів — методу, запровадженого такими системами, як Scribe та FRESS. Таблиці різних стилів можуть бути прикріплені до будь-якої розмітки, семантичної чи презентаційної, щоб створювати різні презентації, хоча відображення назви тегу «курсив» до презентації жирним шрифтом не зовсім інтуїтивно зрозуміле.
Див. також
Список літератури
- Håkon Wium Lie; Janne Saarela (1998). . W3.org. Association for Computing Machinery. Архів оригіналу за 4 березня 2016. Процитовано 11 листопада 2020.
- . Архів оригіналу за 15 квітня 2009. Процитовано 5 березня 2014.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno Listopad 2020 Strukturovanij dokument ce elektronnij dokument de vikoristovuyetsya yakijs metod rozmitki dlya identifikaciyi ciloyi abo dekilka chastin dokumenta sho mayut rizni znachennya Napriklad strukturovanij dokument mozhe identifikuvati pevnu chastinu yak zagolovok glavi abo zrazok kodu abo chotirivirsh a ne yak osnovnij tekst Taki chastini zagalom nazivayut komponentami abo elementami dokumenta OglyadStrukturovani dokumenti yak pravilo zoseredzheni na markuvanni pevnih rechej yaki mozhna vikoristovuvati dlya riznih cilej obrobki abo zmini tekstu Napriklad chitke markuvannya zagolovka glavi abo nagolosu nabagato korisnishe dlya lyudej iz vadami zoru nizh prosto kursiv Tak samo zmistovne markuvannya bagatoh elementiv u tehnichnij informacijnij tablici zabezpechuye znachno krashu integraciyu z bazami danih poshukovimi sistemami onlajn katalogami tosho Strukturovani dokumenti yak pravilo pidtrimuyut prinajmni iyerarhichni strukturi napriklad spiski a ne prosto elementi spisku rozdili a ne lishe zagolovki rozdiliv i tak dali Ce suttyevo vidilyayetsya iz sistemi i znachno polegshuye yiyi formatuvannya Sistemi vishogo rivnya takozh pidtrimuyut bezlich nezalezhnih ta abo nakladenih naboriv komponentiv Sistemi strukturovanih dokumentiv zazvichaj dozvolyayut stvoryuvati chitki pravila sho viznachayut tipi komponentiv ta sposib yih poyednannya Takij nabir pravil nazivayetsya shemoyu za analogiyeyu zi shemami baz danih Ye kilka formalnih mov dlya yihnoyi specifikaciyi takih yak XSD Relax NG ta Strukturovanij dokument yakij vidpovidaye pravilam shemi zazvichaj nazivayut dijsnim vidpovidno do ciyeyi shemi Deyaki sistemi takozh pidtrimuyut dokumenti z komponentami dovilnih tipiv ta kombinacij ale vse zh iz sintaksichnimi pravilami identifikaciyi cih komponentiv Li j Saarela zaznachili sho Standartna uzagalnena mova rozmitki SUMR zapochatkuvala koncepciyu strukturovanih dokumentiv hocha poperedni sistemi taki yak Scribe Augment i FRESS zabezpechuvali bagato funkcij strukturovanih dokumentiv a SGML evij nashadok XML ye teper ulyublenim Odnim iz shiroko vikoristovuvanih instrumentiv dlya strukturovanih dokumentiv ye HTML shema viznachena ta opisana za dopomogoyu W3C Odnak HTML maye ne lishe tegi zi znachennyam komponentiv takih yak abzac zagolovok ta kod ale takozh iz formatom taki yak kursiv zhirnij shrift ta bilshist tablic Na praktici HTML inodi vikoristovuyetsya yak strukturovana sistema dokumentiv ale u bilshosti vipadkiv vikoristovuyetsya yak mova formatuvannya Bagato domeniv vikoristovuyut strukturovani dokumenti za dopomogoyu spilno rozroblenih shem taki yak JATS dlya publikaciyi zhurnaliv TEI dlya dokumentiv literaturnogo harakteru UBL ta EDI dlya dilovogo obminu danimi XTCE dlya telemetriyi kosmichnih korabliv REST dlya vebinterfejsiv ta bezlich inshih U vsih vishe zaznachenih vipadkah vikoristovuyutsya specifichni shemi na osnovi XML Strukturna semantikaPri napisanni strukturovanih dokumentiv osnovna uvaga pridilyayetsya koduvannyu strukturi dokumenta pri comu nabagato menshe abo zh vzagali ne pridilyayetsya uvaga prezentaciyi jogo lyudyam u viglyadi drukovanih storinok chi tekstom na ekrani Strukturovani dokumenti mozhut buti legko obrobleni komp yuternimi sistemami dlya viluchennya ta predstavlennya pohidnih form dokumenta Napriklad u bilshosti statej Vikipediyi zmist avtomatichno generuyetsya z riznih tegiv zagolovkiv u tili dokumenta Oskilki konversiya SGML v Oksfordskomu slovniku anglijskoyi movi chitko vidilyala bezlich riznih znachen sho nadayutsya u drukovanij versiyi kursivom instrumenti poshuku mozhut otrimuvati zapisi na osnovi etimologiyi citat ta bagatoh inshih cikavih osoblivostej Koli HTML nadaye strukturnu a ne prosto informaciyu todi koristuvacham iz vadami zoru mozhna legko nadati krashij interfejs dlya chitannya Koli turistichni kompaniyi nadayut marshruti yak strukturovani dokumenti a ne prosto yak zobrazhennya koristuvachi mozhut legko vidiliti neobhidnu informaciyu ta peredati yih u kalendar abo inshi programi U HTML chastinoyu logichnoyi strukturi dokumenta mozhe buti tilo dokumenta tobto lt body gt sho mistit zagolovok pershogo rivnya yakij poznachayetsya lt h1 gt ta abzac lt p gt lt body gt lt h1 gt Strukturovanij dokument lt h1 gt lt p gt lt strong class selflink gt Strukturovanij dokument lt strong gt ce lt a title Elektronnij dokument gt elektronnij dokument lt a gt de vikoristovuyutsya pevni metodi lt a title Mova markuvannya gt markuvannya lt a gt vikoristovuyetsya dlya identifikaciyi cilogo abo dekilkoh chastin dokumenta sho mayut rizni znachennya okrim formatuvannya lt p gt lt body gt Odniyeyu z najkrashih osoblivostej strukturovanih dokumentiv ye te sho yih mozhna bagatorazovo vikoristovuvati i predstavlyati riznimi sposobami na mobilnih telefonah televizijnih ekranah sintezatorah movi ta bud yakomu inshomu pristroyi yakij mozhna zaprogramuvati dlya yih obrobki Insha semantika Inshogo znachennya mozhna nadati tekstu sho ne ye strukturnim u tochno takomu zh znachenni yak veliki ob yekti ale vse she vvazhayetsya strukturoyu dokumenta oskilki vislovlyuye tverdzhennya pro obsyag ta prirodu abo ontologiyu chastin dokumenta a ne vkazivki shodo yiyi podannya U navedenomu vishe fragmenti HTML element lt strong gt oznachaye sho dodanij tekst ye viraznim U vizualnomu plani ce zazvichaj peredayetsya napivzhirnim shriftom yak lt b gt ale movnij interfejs zamist cogo skorishe vikoristovuvav bi golosovu fleksiyu Termin semantichna rozmitka viklyuchaye rozmitku tipu lt b gt yaka bezposeredno ne virazhaye zhodnogo znachennya krim instrukciyi dlya vizualnogo displeya hocha intelektualnij agent mozhe buti v zmozi rozrizniti strukturne znachennya sho kriyetsya za tegom Silnij teg ye opisovim abo strukturnim oskilki vin priznachenij dlya poznachennya abstraktnoyi kvazilingvistichnoyi vlastivosti jogo zmistu a ne dlya opisu vidpovidnoyi prezentaciyi v yakomus konkretnomu seredovishi Deyaki inshi strukturni tegi v HTML vklyuchayut lt abbr gt lt acronym gt lt address gt lt cite gt lt del gt lt dfn gt lt ins gt lt kbd gt lt q gt Inshi shemi taki yak DocBook ta TEI mayut znachno bilshij vibir Teg lt a gt vikoristovuyetsya dlya desho inshogo tipu strukturi a same strukturi vzayemozv yazku abo perehresnih posilan Ce bezumovno struktura i naspravdi mozhna stvoriti alternativnu rozmitku dlya dokumentiv sho virazhaye ti sami konkretni strukturi v bud yakij sposib napriklad vikoristovuyuchi transklyuziyu dlya predstavlennya vmistu rozdilu a ne prezentaciyi giperposilan navigaciyi Z samogo pochatku HTML takozh mitiv tegi sho virazhayut semantiku prezentaciyi napriklad napivzhirnij lt b gt abo kursiv lt i gt abo dlya zmini rozmiru shriftu abo yaki mali inshi naslidki dlya prezentaciyi Suchasni versiyi mov rozmitki pereshkodzhayut takij rozmitci na korist opisovoyi rozmitki yaka vidobrazhayetsya u pevnih prezentaciyah za dopomogoyu tablic stiliv metodu zaprovadzhenogo takimi sistemami yak Scribe ta FRESS Tablici riznih stiliv mozhut buti prikripleni do bud yakoyi rozmitki semantichnoyi chi prezentacijnoyi shob stvoryuvati rizni prezentaciyi hocha vidobrazhennya nazvi tegu kursiv do prezentaciyi zhirnim shriftom ne zovsim intuyitivno zrozumile Div takozhStrukturovanij listSpisok literaturiHakon Wium Lie Janne Saarela 1998 W3 org Association for Computing Machinery Arhiv originalu za 4 bereznya 2016 Procitovano 11 listopada 2020 Arhiv originalu za 15 kvitnya 2009 Procitovano 5 bereznya 2014