Текстові дані (також Текстовий формат) — спосіб кодування даних в обчислювальній системі у вигляді послідовності друкованих символів. В MIME закодованим таким чином даними відповідає тип text/plain
.
Часто текстові дані розуміються в більш вузькому сенсі — як текст на будь-яких мовах (формальних або природних), який може бути прочитаний та зрозумілий людиною.
Текстовому формату протиставляються «двійкові дані», інформація в яких закодована довільним чином, не розраховані на сприйняття людиною.
Для більшої частини комп'ютерного обладнання та програм неважливо, чи є дані текстовими. Однак багато мережевих протоколів розраховані на роботу лише з текстовими даними і не можуть обробляти довільну послідовність байтів. Також, деякі програми обробляють текстові та двійкові дані по-різному, а деякі призначені для обробки саме текстових даних. Програми для створення та редагування текстових даних називаються текстовими редакторами.
Структура
Текстовими даними зазвичай називаються послідовності з підмножини знаків, що включають лише друковані знаки (літери, цифри, знаки пунктуації) та деякі керуючі знаки (прогалини, табуляції, переклади рядка). Існують методи (наприклад, UUENCODE), що дозволяють закодувати в текстовому форматі довільні дані будь-якого формату.
Вимога до можливості розуміння вмісту людиною вносить додаткову надмірність в уявлення даних. Наприклад, число 123, для кодування якого достатньо одного 8-бітного байта, в текстовому вигляді кодується декількома цифровими символами — так, в десятковій системі числення для цього потрібно три знака («123»), в двійковій — сім знаків («1111011»), в шістнадцятковій — два («7B»).
Розбиття на рядки
Текстові дані можуть розділятися на рядки. На деяких платформах (переважно, в операційних системах сімейства UNIX) розбиття на рядки кодується одним керуючим знаком з кодом 10 в таблиці ASCII (найменування — Line Feed, LF), на інших (наприклад, в MS-DOS та Microsoft Windows) — парою керуючих знаків з кодами 13 та 10 (Carriage Return і Line Feed, CR/LF). В Mac OS (але не Mac OS X) розбиття кодується одним знаком з кодом 13.
Таке розбиття керуючим знаком або знаками пояснюється роботою друкарських машинок, через які здійснювалося введення в деяких перших комп'ютерах — позиція введення там вказувалася становищем валика з папером, і для повороту валика та переходу до наступного рядка вимагалося натискання однієї або двох клавіш або важелів.
Також, знаки розбивки рядків використовувалися для управління механічними принтерами (ними могли виступати ті ж друкарські машинки, використовувані і для введення) — знак LF викликав прокрутку рулону з папером, а знак CR викликав повернення друкованої каретки (там, де вони були) на початок рядка. Звідси й назва знаків — англ. Line Feed (переклад рядка) та англ. Carriage Return (повернення каретки).
На деяких платформах розбивка на рядки робилася інакше — текст представлявся у вигляді послідовності записів фіксованої довжини, для чого більш короткі рядки доповнювалися потрібною кількістю пробілів. Це відповідало поданню даних на перфокартах, які слугували засобом введення та навіть зберігання даних.
Кодування
Перед початком 1960-х, комп'ютери переважно використовувалися для подрібнення чисел, а не для тексту; пам'ять була дуже дорогою. Комп'ютери часто резервували лише 6 бітів для кожного символу, вміщаючи лише 64 символи — присвоєння кодів для A-Z, a-z, і 0-9 залишає лише 2 коди: далеко не достатньо для нормального використання. Більшість комп'ютерів вирішили не підтримувати малі літери.
Фред Брукс з IBM дуже схилявся до 8-бітних байтів, оскільки коли-небудь люди захочуть обробити текст; він мав рацію. Хоча IBM використовували EBCDIC, більшість текстів відтоді кодувалися в форматі ASCII, використовуючи значення від 0 до 31 для (недрукованих) контрольних символів та значення від 32 до 127 для графічних символів, таких як букви, цифри та розділові знаки. Більшість машин зберігаються символи в 8 бітах рідше, аніж 7, не звертаючи уваги на зайвий біт або використовуючи його як контрольний біт.
Майже повсюдне поширення ASCII дало великий плюс і пішло на користь, але все одно було не в змозі вирішити міжнародні та лінгвістичні проблеми. Знак долара («$») не був таким корисним в Англії, і акцентовані символи, використовувані в іспанських, французьких, німецьких, і багатьох інших мовах були повністю недоступні в ASCII (не кажучи вже про символи, які використовувалися в грецький, російський, і більшість східні мови). Багато людей, компаній, країн визначають зайві символи за необхідні — часто перепризначаючи керуючі символи, або використовуючи значення в діапазоні від 128 до 255. Використання значення понад 128 конфліктів за допомогою 8-го біту як суми, але використання контрольної суми поступово вимерли.
Ці додаткові символи були закодовані по-різному в різних країнах, що робить тексти неможливими для декодування без з'ясування авторських правил. Наприклад, браузер може відображати A замість `, якщо він намагався інтерпретувати один набір символів як інший. Міжнародна організація зі стандартизації (ISO) зрештою розробила декілька кодових сторінок при ISO 8859 для розміщення на різних мовах. Перший з них (ISO 8859-1) також відомий як «Latin-1», і покриває потреби більшості європейських мов (не всіх), що використовують символи на латинській основі (не було достатньо місця, щоб охопити їх усі). Згодом ISO 2022 розробив забезпечення для «перемикання» між різними наборами символів в середині файлу. Багато інших організацій розробили варіації на них, і впродовж багатьох років для Windows і Macintosh комп'ютери використовуються несумісні варіації.
Ситуація з кодуванням текстів ставала дедалі важчою, призводячи до зусиль ISO і Unicode Consortium розробити єдине уніфіковане кодування, яке б було спроможне покрити всі відомі (або, принаймні все останнім часом відомо) мови. Через якийсь час конфлікту, ці зусилля були об'єднані. Unicode останнім часом дозволяє 1,114,112 кодових значень, і привласнює коди охоплюючи майже всі сучасні системи текстописання, багато немовних символів, таких як графічні позначки принтера, математичні символів, і т. д..
Текст вважається текстовими даними незалежно від його кодування. Щоб правильно зрозуміти або обробити його, одержувач повинен знати (або бути в змозі з'ясувати,), яке кодування було використане. Користувачеві не потрібні знання про комп'ютерну архітектуру, яка була використана чи про бінарні структури, що визначаються будь-якою програмою, яка створює дані.
Текстові дані (визначення Unicode)
- «Текстові дані являють собою основний, змінний зміст тексту.»
- «Текстові дані становлять собою лиш символьний контент, а не його зовнішній вигляд.»
- «Можуть бути відображені безліччю способів та вимагають процес рендеринга, щоб зробити видимим зокрема зовнішній вигляд.»
- "Натомість, розрізнені процеси візуалізації просто потрібні, щоб зробити текст читабельним відповідно до передбаченого читання. "
- «Цей критерій розбірливості обмежує коло можливих появ.»
- «Відносини між зовнішністю та змістом текстових даних можна резюмувати таким чином: текстові дані повинен містити достатньо інформації, щоб дозволити тексту бути поданим розбірливо, і більше нічого»
- «Стандарт Unicode кодує текстові дані.»
- «Різниця між текстовими даними та іншими формами даних полягає в тому, що в тому ж потоці даних є функція вищого рівня, яка не зазначена в стандартному Unicode.».
Використання
Мета використання текстових даних сьогодні, перш за все, незалежність від програм, які вимагають їх власного спеціального кодування або форматування, і від комп'ютерних проблем архітектури, таких як порядок байтів, і т. д. Файли текстових даних можна відкрити, читати та редагувати з безлічі загальних текстових редакторів та утилитів. Наприклад, Блокнот (Windows), редагування (DOS), Emacs, VI, Gedit або nano (Unix, Linux), SimpleText (Mac OS), або TextEdit (Mac OS X). Переглянути текстові файли можна також вбудованими командами (type
в DOS і Windows) і утилітами (cat
в Unix).
Багато інших комп'ютерних програми здатні також обробляти або створювати дані текстового типу. Наприклад, безліч команд в DOS, Windows, Mac OS і Unix і йому споріднених; а також веббраузери (численні браузери, такі як Lynx і Line Mode Browser продукують лише текстові дані для відображення).
Текстові дані майже універсальні в програмуванні; файл вихідного коду, що містить інструкції в мові програмування, переважно завжди являєю собою файл текстових даних. Текстові дані також широко використовується для конфігурації файлів, які зчитуються для збережених налаштувань при запуску програми, і для багатьох e-mail.
Текстовий формат часто використовуються для представлення даних, які самі не є чисто текстовими. У цьому разі інші формати даних «надбудовуються» над простим текстом, для чого їх керуючі конструкції виражаються за допомогою друкованих слів і розділових знаків. Це забезпечує зручність роботи з даними на двох рівнях — наприклад, дані HTML і XML можна переглядати та редагувати за показом форматування в режимі WYSIWYG, а можна їх відкрити в звичайному текстовому редакторі і мати доступ до всіх тонкощів мови розмітки. При зберіганні даних в «довічним» вигляді (як це робиться, наприклад, в Microsoft Word ранніх версій) з ними нерідко не можна працювати в інших програмах (через недоступність інформації про структуру формату) або навіть в різних версіях однієї і тієї ж програми.
У більшості мов програмування передбачається використання текстового формату для вихідного коду програм. Крім іншого, це дозволяє застосовувати до вихідних кодів різноманітні утиліти для перетворень, оформлення, пошуку, статистики, аналізу і т. д.
В файлах конфігурації багатьох програм застосовується текстовий формат, навіть якщо там представлені числа та виконавчі перемикачі (так/ні). Це дещо ускладнює програми через необхідність перетворення текстових даних у внутрішній формат і навпаки, але з'являється можливість правити конфігурацію вручну, без використання коштів налаштування самої програми.
Споріднені терміни
Термін відкритий текст (англ. plaintext; виглядає дуже схоже на термін англ. plain text, використовуваний для позначення текстових даних) широко застосовується в криптографії та означає будь-які незашифровані дані, в тому числі і не текстові. Термін «чистий текст» (англ. cleartext) також застосовується в криптографії та означає незашифровані дані, до того ж зрозумілі людині та незахищені від «підслуховування» при передачі.
Див. також
Ця стаття не містить . (листопад 2014) |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Tekstovi dani takozh Tekstovij format sposib koduvannya danih v obchislyuvalnij sistemi u viglyadi poslidovnosti drukovanih simvoliv V MIME zakodovanim takim chinom danimi vidpovidaye tip text plain Chasto tekstovi dani rozumiyutsya v bilsh vuzkomu sensi yak tekst na bud yakih movah formalnih abo prirodnih yakij mozhe buti prochitanij ta zrozumilij lyudinoyu Tekstovomu formatu protistavlyayutsya dvijkovi dani informaciya v yakih zakodovana dovilnim chinom ne rozrahovani na sprijnyattya lyudinoyu Dlya bilshoyi chastini komp yuternogo obladnannya ta program nevazhlivo chi ye dani tekstovimi Odnak bagato merezhevih protokoliv rozrahovani na robotu lishe z tekstovimi danimi i ne mozhut obroblyati dovilnu poslidovnist bajtiv Takozh deyaki programi obroblyayut tekstovi ta dvijkovi dani po riznomu a deyaki priznacheni dlya obrobki same tekstovih danih Programi dlya stvorennya ta redaguvannya tekstovih danih nazivayutsya tekstovimi redaktorami StrukturaTekstovimi danimi zazvichaj nazivayutsya poslidovnosti z pidmnozhini znakiv sho vklyuchayut lishe drukovani znaki literi cifri znaki punktuaciyi ta deyaki keruyuchi znaki progalini tabulyaciyi perekladi ryadka Isnuyut metodi napriklad UUENCODE sho dozvolyayut zakoduvati v tekstovomu formati dovilni dani bud yakogo formatu Vimoga do mozhlivosti rozuminnya vmistu lyudinoyu vnosit dodatkovu nadmirnist v uyavlennya danih Napriklad chislo 123 dlya koduvannya yakogo dostatno odnogo 8 bitnogo bajta v tekstovomu viglyadi koduyetsya dekilkoma cifrovimi simvolami tak v desyatkovij sistemi chislennya dlya cogo potribno tri znaka 123 v dvijkovij sim znakiv 1111011 v shistnadcyatkovij dva 7B Rozbittya na ryadki Tekstovi dani mozhut rozdilyatisya na ryadki Na deyakih platformah perevazhno v operacijnih sistemah simejstva UNIX rozbittya na ryadki koduyetsya odnim keruyuchim znakom z kodom 10 v tablici ASCII najmenuvannya Line Feed LF na inshih napriklad v MS DOS ta Microsoft Windows paroyu keruyuchih znakiv z kodami 13 ta 10 Carriage Return i Line Feed CR LF V Mac OS ale ne Mac OS X rozbittya koduyetsya odnim znakom z kodom 13 Take rozbittya keruyuchim znakom abo znakami poyasnyuyetsya robotoyu drukarskih mashinok cherez yaki zdijsnyuvalosya vvedennya v deyakih pershih komp yuterah poziciya vvedennya tam vkazuvalasya stanovishem valika z paperom i dlya povorotu valika ta perehodu do nastupnogo ryadka vimagalosya natiskannya odniyeyi abo dvoh klavish abo vazheliv Takozh znaki rozbivki ryadkiv vikoristovuvalisya dlya upravlinnya mehanichnimi printerami nimi mogli vistupati ti zh drukarski mashinki vikoristovuvani i dlya vvedennya znak LF viklikav prokrutku rulonu z paperom a znak CR viklikav povernennya drukovanoyi karetki tam de voni buli na pochatok ryadka Zvidsi j nazva znakiv angl Line Feed pereklad ryadka ta angl Carriage Return povernennya karetki Na deyakih platformah rozbivka na ryadki robilasya inakshe tekst predstavlyavsya u viglyadi poslidovnosti zapisiv fiksovanoyi dovzhini dlya chogo bilsh korotki ryadki dopovnyuvalisya potribnoyu kilkistyu probiliv Ce vidpovidalo podannyu danih na perfokartah yaki sluguvali zasobom vvedennya ta navit zberigannya danih KoduvannyaPered pochatkom 1960 h komp yuteri perevazhno vikoristovuvalisya dlya podribnennya chisel a ne dlya tekstu pam yat bula duzhe dorogoyu Komp yuteri chasto rezervuvali lishe 6 bitiv dlya kozhnogo simvolu vmishayuchi lishe 64 simvoli prisvoyennya kodiv dlya A Z a z i 0 9 zalishaye lishe 2 kodi daleko ne dostatno dlya normalnogo vikoristannya Bilshist komp yuteriv virishili ne pidtrimuvati mali literi Fred Bruks z IBM duzhe shilyavsya do 8 bitnih bajtiv oskilki koli nebud lyudi zahochut obrobiti tekst vin mav raciyu Hocha IBM vikoristovuvali EBCDIC bilshist tekstiv vidtodi koduvalisya v formati ASCII vikoristovuyuchi znachennya vid 0 do 31 dlya nedrukovanih kontrolnih simvoliv ta znachennya vid 32 do 127 dlya grafichnih simvoliv takih yak bukvi cifri ta rozdilovi znaki Bilshist mashin zberigayutsya simvoli v 8 bitah ridshe anizh 7 ne zvertayuchi uvagi na zajvij bit abo vikoristovuyuchi jogo yak kontrolnij bit Majzhe povsyudne poshirennya ASCII dalo velikij plyus i pishlo na korist ale vse odno bulo ne v zmozi virishiti mizhnarodni ta lingvistichni problemi Znak dolara ne buv takim korisnim v Angliyi i akcentovani simvoli vikoristovuvani v ispanskih francuzkih nimeckih i bagatoh inshih movah buli povnistyu nedostupni v ASCII ne kazhuchi vzhe pro simvoli yaki vikoristovuvalisya v greckij rosijskij i bilshist shidni movi Bagato lyudej kompanij krayin viznachayut zajvi simvoli za neobhidni chasto perepriznachayuchi keruyuchi simvoli abo vikoristovuyuchi znachennya v diapazoni vid 128 do 255 Vikoristannya znachennya ponad 128 konfliktiv za dopomogoyu 8 go bitu yak sumi ale vikoristannya kontrolnoyi sumi postupovo vimerli Ci dodatkovi simvoli buli zakodovani po riznomu v riznih krayinah sho robit teksti nemozhlivimi dlya dekoduvannya bez z yasuvannya avtorskih pravil Napriklad brauzer mozhe vidobrazhati A zamist yaksho vin namagavsya interpretuvati odin nabir simvoliv yak inshij Mizhnarodna organizaciya zi standartizaciyi ISO zreshtoyu rozrobila dekilka kodovih storinok pri ISO 8859 dlya rozmishennya na riznih movah Pershij z nih ISO 8859 1 takozh vidomij yak Latin 1 i pokrivaye potrebi bilshosti yevropejskih mov ne vsih sho vikoristovuyut simvoli na latinskij osnovi ne bulo dostatno miscya shob ohopiti yih usi Zgodom ISO 2022 rozrobiv zabezpechennya dlya peremikannya mizh riznimi naborami simvoliv v seredini fajlu Bagato inshih organizacij rozrobili variaciyi na nih i vprodovzh bagatoh rokiv dlya Windows i Macintosh komp yuteri vikoristovuyutsya nesumisni variaciyi Situaciya z koduvannyam tekstiv stavala dedali vazhchoyu prizvodyachi do zusil ISO i Unicode Consortium rozrobiti yedine unifikovane koduvannya yake b bulo spromozhne pokriti vsi vidomi abo prinajmni vse ostannim chasom vidomo movi Cherez yakijs chas konfliktu ci zusillya buli ob yednani Unicode ostannim chasom dozvolyaye 1 114 112 kodovih znachen i privlasnyuye kodi ohoplyuyuchi majzhe vsi suchasni sistemi tekstopisannya bagato nemovnih simvoliv takih yak grafichni poznachki printera matematichni simvoliv i t d Tekst vvazhayetsya tekstovimi danimi nezalezhno vid jogo koduvannya Shob pravilno zrozumiti abo obrobiti jogo oderzhuvach povinen znati abo buti v zmozi z yasuvati yake koduvannya bulo vikoristane Koristuvachevi ne potribni znannya pro komp yuternu arhitekturu yaka bula vikoristana chi pro binarni strukturi sho viznachayutsya bud yakoyu programoyu yaka stvoryuye dani Tekstovi dani viznachennya Unicode Tekstovi dani yavlyayut soboyu osnovnij zminnij zmist tekstu Tekstovi dani stanovlyat soboyu lish simvolnij kontent a ne jogo zovnishnij viglyad Mozhut buti vidobrazheni bezlichchyu sposobiv ta vimagayut proces renderinga shob zrobiti vidimim zokrema zovnishnij viglyad Natomist rozrizneni procesi vizualizaciyi prosto potribni shob zrobiti tekst chitabelnim vidpovidno do peredbachenogo chitannya Cej kriterij rozbirlivosti obmezhuye kolo mozhlivih poyav Vidnosini mizh zovnishnistyu ta zmistom tekstovih danih mozhna rezyumuvati takim chinom tekstovi dani povinen mistiti dostatno informaciyi shob dozvoliti tekstu buti podanim rozbirlivo i bilshe nichogo Standart Unicode koduye tekstovi dani Riznicya mizh tekstovimi danimi ta inshimi formami danih polyagaye v tomu sho v tomu zh potoci danih ye funkciya vishogo rivnya yaka ne zaznachena v standartnomu Unicode VikoristannyaTekstovij fajl pokazanij komandoyu cat u vikni xterm Meta vikoristannya tekstovih danih sogodni persh za vse nezalezhnist vid program yaki vimagayut yih vlasnogo specialnogo koduvannya abo formatuvannya i vid komp yuternih problem arhitekturi takih yak poryadok bajtiv i t d Fajli tekstovih danih mozhna vidkriti chitati ta redaguvati z bezlichi zagalnih tekstovih redaktoriv ta utilitiv Napriklad Bloknot Windows redaguvannya DOS Emacs VI Gedit abo nano Unix Linux SimpleText Mac OS abo TextEdit Mac OS X Pereglyanuti tekstovi fajli mozhna takozh vbudovanimi komandami type v DOS i Windows i utilitami cat v Unix Bagato inshih komp yuternih programi zdatni takozh obroblyati abo stvoryuvati dani tekstovogo tipu Napriklad bezlich komand v DOS Windows Mac OS i Unix i jomu sporidnenih a takozh vebbrauzeri chislenni brauzeri taki yak Lynx i Line Mode Browser produkuyut lishe tekstovi dani dlya vidobrazhennya Tekstovi dani majzhe universalni v programuvanni fajl vihidnogo kodu sho mistit instrukciyi v movi programuvannya perevazhno zavzhdi yavlyayeyu soboyu fajl tekstovih danih Tekstovi dani takozh shiroko vikoristovuyetsya dlya konfiguraciyi fajliv yaki zchituyutsya dlya zberezhenih nalashtuvan pri zapusku programi i dlya bagatoh e mail Tekstovij format chasto vikoristovuyutsya dlya predstavlennya danih yaki sami ne ye chisto tekstovimi U comu razi inshi formati danih nadbudovuyutsya nad prostim tekstom dlya chogo yih keruyuchi konstrukciyi virazhayutsya za dopomogoyu drukovanih sliv i rozdilovih znakiv Ce zabezpechuye zruchnist roboti z danimi na dvoh rivnyah napriklad dani HTML i XML mozhna pereglyadati ta redaguvati za pokazom formatuvannya v rezhimi WYSIWYG a mozhna yih vidkriti v zvichajnomu tekstovomu redaktori i mati dostup do vsih tonkoshiv movi rozmitki Pri zberiganni danih v dovichnim viglyadi yak ce robitsya napriklad v Microsoft Word rannih versij z nimi neridko ne mozhna pracyuvati v inshih programah cherez nedostupnist informaciyi pro strukturu formatu abo navit v riznih versiyah odniyeyi i tiyeyi zh programi U bilshosti mov programuvannya peredbachayetsya vikoristannya tekstovogo formatu dlya vihidnogo kodu program Krim inshogo ce dozvolyaye zastosovuvati do vihidnih kodiv riznomanitni utiliti dlya peretvoren oformlennya poshuku statistiki analizu i t d V fajlah konfiguraciyi bagatoh program zastosovuyetsya tekstovij format navit yaksho tam predstavleni chisla ta vikonavchi peremikachi tak ni Ce desho uskladnyuye programi cherez neobhidnist peretvorennya tekstovih danih u vnutrishnij format i navpaki ale z yavlyayetsya mozhlivist praviti konfiguraciyu vruchnu bez vikoristannya koshtiv nalashtuvannya samoyi programi Sporidneni terminiTermin vidkritij tekst angl plaintext viglyadaye duzhe shozhe na termin angl plain text vikoristovuvanij dlya poznachennya tekstovih danih shiroko zastosovuyetsya v kriptografiyi ta oznachaye bud yaki nezashifrovani dani v tomu chisli i ne tekstovi Termin chistij tekst angl cleartext takozh zastosovuyetsya v kriptografiyi ta oznachaye nezashifrovani dani do togo zh zrozumili lyudini ta nezahisheni vid pidsluhovuvannya pri peredachi Div takozhPerelik fajlovih formativCya stattya ne mistit posilan na dzherela Vi mozhete dopomogti polipshiti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Material bez dzherel mozhe buti piddano sumnivu ta vilucheno listopad 2014