Те́кстовий файл (англ. textfile; застаріле англ. flatfile) — форма подання послідовності символів у комп'ютері, де кожен символ із задіяного набору символів кодується одним байтом чи послідовністю двох, трьох і т. д. байтів.
На відміну від терміна «текстовий формат», що характеризує вміст даних, термін «текстовий файл» стосується файлу та характеризує його як контейнер, який зберігає такі дані.
Опис
Текстовий файл — послідовність символів (переважно друкованих знаків, що належать тому чи іншому набору символів). Ці символи зазвичай згруповані в рядки (англ. lines, rows). У сучасних системах рядки розділяються роздільниками рядків, у минулому ж рядки зберігались у вигляді записів постійної або змінної довжини (перфокарта). Іноді кінець текстового файлу (особливо тоді, коли в файловій системі не зберігається інформація про розмір файлу) також позначається спеціальними знаками (одним або більше), відомими як маркери кінця файлу.
Текстовий файл може містити як форматований, так і неформатований текст.
Текстовим файлам протиставляються двійкові (бінарні) файли, в яких інформація організована за іншими принципами (вона містить інформацію, не прив'язану до набору символів).
Переваги та недоліки
Переваги
- Універсальність — текстовий файл може бути прочитаний (так чи інакше) на будь-якій системі або ОС, особливо, якщо йдеться про однобайтові кодування на кшталт ASCII, які не схильні до проблеми, характерної для інших форматів файлів — для них не важлива різниця в порядку байтів або довжині машинного слова на різних платформах.
- Стійкість — кожне слово та символ у такому файлі самодостатні і, якщо трапиться пошкодження байтів у такому файлі, то зазвичай можна відновити дані за контекстом або продовжити обробку решти вмісту, а в стиснених чи двійкових файлів пошкодження декількох байтів може зробити файл абсолютно невідновним. Багато систем управління версіями розраховані на текстові файли і з двійковими файлами можуть працювати лише як з єдиним цілим.
- Формат текстового файлу вкрай простий і його можна змінювати текстовим редактором — програмою, яка входить в комплект практично будь-якої ОС.
Недоліки
- У великих нестиснутих текстових файлів низька інформаційна ентропія — ці файли займають більше місця, ніж мінімально необхідно. Хоча ця ж надмірність інформації визначає підвищену стійкість до збоїв у каналах передачі даних і при отриманні даних з носіїв, наприклад, з магнітної стрічки.
- Деякі операції з текстовими файлами неефективні. Наприклад, якщо в файлі зустрінеться число, обчислювальна система до початку операцій з ним повинна буде перетворити його в свій внутрішній формат, застосувавши порівняно складну процедуру конвертації числа; щоб перейти на 1000-ий рядок, потрібно порахувати попередні 999 рядків; складно замінити один рядок іншим, тощо. Тому при роботі з великими обсягами даних текстові файли застосовують лише як проміжний формат, що забезпечує інтероперабельність.
Формати, засновані на текстових файлах
В силу своєї простоти текстові файли нерідко використовуються для зберігання службової інформації (наприклад, логів): оскільки операція додавання в кінець текстового файлу нових даних не вимагає значних обчислювальних ресурсів (незалежно від уже наявного обсягу файлу і виду текстових даних, що додаються), ведення текстових лог-файлів зазвичай відбувається ефективно та непомітно для користувача і для інших додатків (аж до вичерпання дискового простору). Текстовий формат служить основою для багатьох спеціалізованих форматів (наприклад, .ini, SGML, HTML, XML, TeX, вихідних текстів мов програмування).
В текстовому файлі текст може зберігатися як в неформатованому, так і в форматованому або розміченому вигляді (наприклад, Rich Text Format, HTML), де кожен символ чи група символів (рядки, абзаци, таблиці тощо) може бути відформатований (визначений шрифт, накреслення, розмір і т. д.). З
Розширення імен файлів
В DOS і Windows для файлів з неформатованим текстом зазвичай використовується розширення .txt. Проте, текстовими можуть бути файли з будь-яким іншим розширенням або й без нього. Наприклад, вихідні коди програм зазвичай зберігаються в файлах з розширеннями, відповідними мові програмування, якою вони написані (.bas, .pas, .c тощо).
Форматований текст (текст із розміткою) зазвичай зберігається у файлах з розширенням, відповідним формату або мові розмітки — .rtf, .htm, .html тощо.
Кодування
8-бітний текст
Історично для кодування текстових файлів застосовувалися 7-бітний набір символів ASCII, а також 8-бітні EBCDIC та різні розширення ASCII. У 8-бітних кодових сторінках у першій половині кодової таблиці загальноприйнято використовувати символи, відповідні ASCII.
Перевагою 8-бітного представлення тексту є програмна простота та незалежність від проблеми порядку байтів або довжини машинного слова на різних платформах. Недолік — багато різних, часом несумісних стандартів.
Unicode в текстових файлах
Застосування Unicode у текстових файлах хоча й переважно вирішує «проблему кодувань» та стандартизує вживання керуючих символів, але створює свої проблеми. У більшості сучасних систем неподільною одиницею інформації в потоці даних є байт (октет, 8 біт), яких для кодування одного символу Юнікоду потрібно декілька. Як вихід, застосовуються несумісні між собою системи: UTF-8 і дві версії UTF-16 (UTF-16LE та UTF-16BE з протилежним між собою порядком байтів). Іноді в початок файлу додають спеціальний символ-маркер (U + FEFF), що дозволяє розпізнати формат однозначно. UTF-8 має перевагу зворотної сумісності з ASCII, однак програмна обробка тексту в UTF-8 ускладнюється непостійним розміром символу. Тексти в Юнікоді відрізняються ще більшою надмірністю, ніж 8-бітові.
Символи керування
Різні операційні системи дотримуються свого уявлення про символи нового рядка та кінця файлу. В UNIX символ нового рядка — одиничний символ LF (код 0xA), в Mac OS — символ CR (код 0xD), а в DOS і Windows — послідовність двох символів: CR і LF.
Дивись також
Примітки
- The Unicode Standard, Version 5.0--electronic edition (PDF).
Джерела
- Freytag, Asmus (18 грудня 2015). FAQ – UTF-8, UTF-16, UTF-32 & BOM. The Unicode Consortium. Процитовано 30 травня 2016.
Yes, UTF-8 can contain a BOM. However, it makes no difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used transparently in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.
- 3.403 Text File. IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. Процитовано 1 березня 2019.
Посилання
- Текстові файли
- C2: the Power of Plain Text
- Поняття файлу
- ВВЕДЕННЯ ТА ВИВЕДЕННЯ ДАНИХ З ВИКОРИСТАННЯМ ТЕКСТОВИХ ФАЙЛІВ
Ця стаття не містить . (жовтень 2014) |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Te kstovij fajl angl textfile zastarile angl flatfile forma podannya poslidovnosti simvoliv u komp yuteri de kozhen simvol iz zadiyanogo naboru simvoliv koduyetsya odnim bajtom chi poslidovnistyu dvoh troh i t d bajtiv Piktogrammnij opis tekstovogo fajlu z CSV danimi Na vidminu vid termina tekstovij format sho harakterizuye vmist danih termin tekstovij fajl stosuyetsya fajlu ta harakterizuye jogo yak kontejner yakij zberigaye taki dani OpisTekstovij fajl poslidovnist simvoliv perevazhno drukovanih znakiv sho nalezhat tomu chi inshomu naboru simvoliv Ci simvoli zazvichaj zgrupovani v ryadki angl lines rows U suchasnih sistemah ryadki rozdilyayutsya rozdilnikami ryadkiv u minulomu zh ryadki zberigalis u viglyadi zapisiv postijnoyi abo zminnoyi dovzhini perfokarta Inodi kinec tekstovogo fajlu osoblivo todi koli v fajlovij sistemi ne zberigayetsya informaciya pro rozmir fajlu takozh poznachayetsya specialnimi znakami odnim abo bilshe vidomimi yak markeri kincya fajlu Tekstovij fajl mozhe mistiti yak formatovanij tak i neformatovanij tekst Tekstovim fajlam protistavlyayutsya dvijkovi binarni fajli v yakih informaciya organizovana za inshimi principami vona mistit informaciyu ne priv yazanu do naboru simvoliv Perevagi ta nedoliki Perevagi Universalnist tekstovij fajl mozhe buti prochitanij tak chi inakshe na bud yakij sistemi abo OS osoblivo yaksho jdetsya pro odnobajtovi koduvannya na kshtalt ASCII yaki ne shilni do problemi harakternoyi dlya inshih formativ fajliv dlya nih ne vazhliva riznicya v poryadku bajtiv abo dovzhini mashinnogo slova na riznih platformah Stijkist kozhne slovo ta simvol u takomu fajli samodostatni i yaksho trapitsya poshkodzhennya bajtiv u takomu fajli to zazvichaj mozhna vidnoviti dani za kontekstom abo prodovzhiti obrobku reshti vmistu a v stisnenih chi dvijkovih fajliv poshkodzhennya dekilkoh bajtiv mozhe zrobiti fajl absolyutno nevidnovnim Bagato sistem upravlinnya versiyami rozrahovani na tekstovi fajli i z dvijkovimi fajlami mozhut pracyuvati lishe yak z yedinim cilim Format tekstovogo fajlu vkraj prostij i jogo mozhna zminyuvati tekstovim redaktorom programoyu yaka vhodit v komplekt praktichno bud yakoyi OS Nedoliki U velikih nestisnutih tekstovih fajliv nizka informacijna entropiya ci fajli zajmayut bilshe miscya nizh minimalno neobhidno Hocha cya zh nadmirnist informaciyi viznachaye pidvishenu stijkist do zboyiv u kanalah peredachi danih i pri otrimanni danih z nosiyiv napriklad z magnitnoyi strichki Deyaki operaciyi z tekstovimi fajlami neefektivni Napriklad yaksho v fajli zustrinetsya chislo obchislyuvalna sistema do pochatku operacij z nim povinna bude peretvoriti jogo v svij vnutrishnij format zastosuvavshi porivnyano skladnu proceduru konvertaciyi chisla shob perejti na 1000 ij ryadok potribno porahuvati poperedni 999 ryadkiv skladno zaminiti odin ryadok inshim tosho Tomu pri roboti z velikimi obsyagami danih tekstovi fajli zastosovuyut lishe yak promizhnij format sho zabezpechuye interoperabelnist Formati zasnovani na tekstovih fajlah V silu svoyeyi prostoti tekstovi fajli neridko vikoristovuyutsya dlya zberigannya sluzhbovoyi informaciyi napriklad logiv oskilki operaciya dodavannya v kinec tekstovogo fajlu novih danih ne vimagaye znachnih obchislyuvalnih resursiv nezalezhno vid uzhe nayavnogo obsyagu fajlu i vidu tekstovih danih sho dodayutsya vedennya tekstovih log fajliv zazvichaj vidbuvayetsya efektivno ta nepomitno dlya koristuvacha i dlya inshih dodatkiv azh do vicherpannya diskovogo prostoru Tekstovij format sluzhit osnovoyu dlya bagatoh specializovanih formativ napriklad ini SGML HTML XML TeX vihidnih tekstiv mov programuvannya V tekstovomu fajli tekst mozhe zberigatisya yak v neformatovanomu tak i v formatovanomu abo rozmichenomu viglyadi napriklad Rich Text Format HTML de kozhen simvol chi grupa simvoliv ryadki abzaci tablici tosho mozhe buti vidformatovanij viznachenij shrift nakreslennya rozmir i t d Z Rozshirennya imen fajliv V DOS i Windows dlya fajliv z neformatovanim tekstom zazvichaj vikoristovuyetsya rozshirennya txt Prote tekstovimi mozhut buti fajli z bud yakim inshim rozshirennyam abo j bez nogo Napriklad vihidni kodi program zazvichaj zberigayutsya v fajlah z rozshirennyami vidpovidnimi movi programuvannya yakoyu voni napisani bas pas c tosho Formatovanij tekst tekst iz rozmitkoyu zazvichaj zberigayetsya u fajlah z rozshirennyam vidpovidnim formatu abo movi rozmitki rtf htm html tosho Koduvannya8 bitnij tekst Dokladnishe Kodova storinka Istorichno dlya koduvannya tekstovih fajliv zastosovuvalisya 7 bitnij nabir simvoliv ASCII a takozh 8 bitni EBCDIC ta rizni rozshirennya ASCII U 8 bitnih kodovih storinkah u pershij polovini kodovoyi tablici zagalnoprijnyato vikoristovuvati simvoli vidpovidni ASCII Perevagoyu 8 bitnogo predstavlennya tekstu ye programna prostota ta nezalezhnist vid problemi poryadku bajtiv abo dovzhini mashinnogo slova na riznih platformah Nedolik bagato riznih chasom nesumisnih standartiv Unicode v tekstovih fajlah Zastosuvannya Unicode u tekstovih fajlah hocha j perevazhno virishuye problemu koduvan ta standartizuye vzhivannya keruyuchih simvoliv ale stvoryuye svoyi problemi U bilshosti suchasnih sistem nepodilnoyu odiniceyu informaciyi v potoci danih ye bajt oktet 8 bit yakih dlya koduvannya odnogo simvolu Yunikodu potribno dekilka Yak vihid zastosovuyutsya nesumisni mizh soboyu sistemi UTF 8 i dvi versiyi UTF 16 UTF 16LE ta UTF 16BE z protilezhnim mizh soboyu poryadkom bajtiv Inodi v pochatok fajlu dodayut specialnij simvol marker U FEFF sho dozvolyaye rozpiznati format odnoznachno UTF 8 maye perevagu zvorotnoyi sumisnosti z ASCII odnak programna obrobka tekstu v UTF 8 uskladnyuyetsya nepostijnim rozmirom simvolu Teksti v Yunikodi vidriznyayutsya she bilshoyu nadmirnistyu nizh 8 bitovi Simvoli keruvannya Dokladnishe Keruyuchi simvoli Rizni operacijni sistemi dotrimuyutsya svogo uyavlennya pro simvoli novogo ryadka ta kincya fajlu V UNIX simvol novogo ryadka odinichnij simvol LF kod 0xA v Mac OS simvol CR kod 0xD a v DOS i Windows poslidovnist dvoh simvoliv CR i LF Divis takozhTekst Tekstovij redaktor Tekstovi dani ASCII grafika Perelik fajlovih formativPrimitkiThe Unicode Standard Version 5 0 electronic edition PDF DzherelaFreytag Asmus 18 grudnya 2015 FAQ UTF 8 UTF 16 UTF 32 amp BOM The Unicode Consortium Procitovano 30 travnya 2016 Yes UTF 8 can contain a BOM However it makes no difference as to the endianness of the byte stream UTF 8 always has the same byte order An initial BOM is only used as a signature an indication that an otherwise unmarked text file is in UTF 8 Note that some recipients of UTF 8 encoded data do not expect a BOM Where UTF 8 is used transparently in 8 bit environments the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning such as the use of of at the beginning of Unix shell scripts 3 403 Text File IEEE Std 1003 1 2017 Edition IEEE Computer Society Procitovano 1 bereznya 2019 PosilannyaTekstovi fajli C2 the Power of Plain Text Ponyattya fajlu VVEDENNYa TA VIVEDENNYa DANIH Z VIKORISTANNYaM TEKSTOVIH FAJLIV Cya stattya ne mistit posilan na dzherela Vi mozhete dopomogti polipshiti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Material bez dzherel mozhe buti piddano sumnivu ta vilucheno zhovten 2014