Юніко́д (англ. Unicode), УНІфіковане КОДування — промисловий стандарт, розроблений, щоб забезпечити цифрове представлення символів усіх писемностей світу та спеціальних символів. Удосконалений сумісно зі стандартом Універсальний Набір Символів (Universal Character Set — UCS) і опублікований у формі книги Стандарт Юнікод, Юнікод складається з асортименту символів, методології кодування та комплекту (набору) стандартів кодування символів, комплекту кодових таблиць для посилань на зображення символів, списку властивостей символів таких, наприклад, як верхній і нижній регістр (розкладка), комплект довідкових даних комп'ютерних файлів, правил нормалізації, декомпозиції, зіставлення і зображення (рендерингу).
Огляд
Стандарт запропонувала в 1991 році організація Консорціум Юнікоду (англ. Unicode Consortium), яка об'єднує найбільші ІТ-компанії (корпорації). Консорціум Юнікоду — неприбуткова (некомерційна) організація, яка координує розвиток Юнікоду, має амбітну мету замінити в кінцевому підсумку існуючі системи кодування символів Юнікодом і його системою стандартів Формат Перетворень Юнікоду (UTF, Unicode Transformation Format), тому що багато існуючих систем кодування є обмеженими в розмірі й можливостях і несумісними з багатомовними середовищами. Успіхи Юнікоду в уніфікації наборів символів призвели до його розповсюдження і домінуючого використання в інтернаціоналізації і локалізації програмного забезпечення комп'ютерів. Стандарт був використаний у багатьох новітніх технологіях, наприклад, у XML, мові програмування JavaScript і сучасних операційних системах.
Юнікод знімає старе обмеження на кодування символів лише одним байтом. Натомість використовується 17 просторів, кожен з яких визначає 65,536 кодів і дає можливість описати максимум 1 114 112 (17 * 216) різних символів. Basic Multilingual Plane (BMP) — Основна Багатомовна Площина містить майже всі символи, які ви будете коли-небудь використовувати.
Юнікод має декілька реалізацій, але найпоширенішими є дві: UTF (Unicode Transformation Format) — Формат Перетворення Юнікоду та UCS (Universal Character Set) — Універсальна Таблиця Символів. Число після UTF визначає кількість бітів, що виділені під один юніт, а число після UCS визначає кількість байтів. Універсальний набір символів задає однозначну відповідність символів кодам — елементам кодового простору, тобто невід'ємним цілим числам. UTF-8 став найпоширенішим для інтернаціональних кодувань.
UTF-8 є системою кодування зі змінною довжиною кодування символів. Це означає, що для кодування символів він використовує від 1 до 4 байт на символ. Так, перший байт UTF-8 можна використовувати для кодування ASCII, що дає повну сумісність з кодами ASCII. Перекодування кодів ASCII у кодах UTF-8 для латинських символів не збільшить розмір даних, бо для цього використовується тільки один байт на символ. Для символів інших мов, де, наприклад, для кодування треба використовувати два байти на символ, це кодування збільшує розмір даних на, приблизно, 50 % або більше.
UTF-8 дозволяє працювати в стандартизованому міжнародно прийнятому багатомовному середовищі, з порівняно незначним збільшенням обсягу даних. UTF-8 являє собою ідеальний спосіб передачі символів через Інтернет, електронну пошту, чат тощо.
Коди в стандарті Unicode поділені на декілька областей. Область з кодами від U+0000 до U+007F (про запис виду «U+xxxx» дивись нижче в розділі «Кодовий простір») містить символи набору ASCII. Далі розміщені області знаків різних писемностей, знаки пунктуації і технічні символи. Частина кодів зарезервована для використання в майбутньому. Для символів кирилиці виділені коди від U+0400 до U+052F (див. [en]).
Розділи стандарту Юнікод
Стандарт Unicode складається з двох основних розділів: універсальний набір символів і сімейство кодувань. Універсальний набір символів задає однозначну відповідність символів кодам — елементам кодового простору, що є невід'ємними цілими числами. Сімейство кодувань визначає машинне подання послідовності кодів універсального набору символів.
- Стандарти наборів символів
UCS-4 (англ. Universal Character Set) — 1 символ = 4 байти, всього можна закодувати 232 = 4 294 967 296 символів. Проте максимальна кількість Юнікод-символів на сьогодні — 220 + 216 = 1 114 112.
UCS-2 (англ. Universal Character Set) — 1 символ = 2 байти, всього можна закодувати 216 = 65 536 символів.
- Стандарти кодувань
UTF-32 (англ. Unicode Transformation Format — формат перетворення Юнікода) — один із способів кодування символів із Unicode у вигляді 32-бітових послідовностей. 1 символ = 32 біти.
UTF-16 — один із способів кодування символів із Unicode у вигляді 16-бітних послідовностей. Символи з кодами менше 0x10000 (216) представляються як є (одна 16-бітова послідовність), а символи з кодами 0x10000–0x10FFFE — у вигляді двох 16-бітових послідовностей (так звана «сурогатна» пара), перша з яких лежить в діапазоні 0xD800–0xDBFF, а друга — 0xDC00–0xDFFF. Легко бачити, що існує 210 * 210 = 220 таких комбінацій. А загальна кількість можливих символів 220 + 216 = 1 114 112. Слід зазначити, що за стандартом ніякі символи не можуть мати кодів власне з діапазону 0xD800-0xDFFF, так що розшифровка кодування завжди однозначна. Втім, в переважній більшості випадків текст в UTF-16 є просто послідовністю символів з UCS-2, оскільки символи Unicode після коду 0x10000 використовуються вкрай рідко.
UTF-16LE та UTF-16BE — у потоці даних UTF-16 старший байт може записуватися або перед молодшим (UTF-16 Big Endian або UTF-16BE), або після молодшого (UTF-16 Little Endian або UTF-16LE). Іноді кодування Юнікода Big Endian (UTF-16BE) називають Юнікодом із зворотним порядком байтів. Аналогічно існує два варіанти 32-бітового кодування: UTF-32LE та UTF-32BE.
UTF-8 — поширене сьогодні кодування, що реалізовує представлення Юнікода, сумісне з 8-бітовим кодуванням тексту. Текст, що складається тільки з символів з номером менше 128, при записі в UTF-8 перетворюється на звичайний текст ASCII. І навпаки, в тексті UTF-8 будь-який байт із значенням менше 128 зображає символ ASCII з тим же кодом. Решта символів Юнікода зображається послідовностями завдовжки від 2 до 6 байтів (реально тільки до 4 байт, оскільки використання кодів більше 2²¹ не заплановано), в яких перший байт завжди має вид 11xxxxxx, а інші — 10xxxxxx.
Простіше кажучи, у форматі UTF-8 символи латинського алфавіту, розділові знаки і керуючі символи ASCII, записуються ASCII-кодами, а решта всіх символів кодується за допомогою октетів (послідовності завдовжки 8 бітів) зі старшим бітом 1. У результаті, навіть якщо програма не розпізнає Юнікод, то латинські букви, арабські цифри і розділові знаки зображатимуться правильно.
Символи UTF-8 отримують з Unicode таким чином:
Unicode UTF-8 0x00000000 — 0x0000007F: 0xxxxxxx
0x00000080 — 0x000007FF: 110xxxxx 10xxxxxx
0x00000800 — 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
0x00010000 — 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Також теоретично можливі, але не включені в стандарти:
Unicode UTF-8 0x00200000 — 0x03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x04000000 — 0x7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
Маркер порядку байтів
Для визначення формату представлення Юнікода в текстовому файлі використовується прийом, за яким на початку тексту записується символ U+FEFF (нерозривний пропуск з нульовою шириною), також іменований міткою порядку байтів (англ. Byte Order Mark, BOM). Цей спосіб дозволяє розрізняти UTF-16LE і UTF-16BE, оскільки символу U+FFFE не існує. Також він іноді застосовується для позначення формату UTF-8, хоча до цього формату і непридатне поняття порядку байтів. Файли, які дотримуються цього правила, починаються з таких байтів:
- UTF-8: EF BB BF
- UTF-16BE: FE FF
- UTF-16LE: FF FE
- UTF-32BE: 00 00 FE FF
- UTF-32LE: FF FE 00 00
Кодовий простір
Хоча форми запису UTF-8 і UTF-32 (8 і 32 - десяткові числа, які вказують кількість двійкових розрядів) дозволяють кодувати до 231 (2 147 483 648) кодових позицій, було ухвалено рішення використовувати лише 220+216 (1 114 112) для сумісності з UTF-16. Втім, навіть і цього більш ніж достатньо — сьогодні (у версії Unicode 5.0) використовується трохи більше 99 000 кодових позицій.
Кодування та типи текстових даних мови С/С++
У мові С/С++ історично склалася така ситуація. Для роботи зі «звичайними» текстовими даними існує тип char. Для роботи з, так званим, «широким» текстом існує тип wchar_t. Особливості використання цих типів даних залежать від системи. А власне особливостями є кодування тексту в типах даних та розмір одного символу. Для порівняння візьмемо дві системи:
Linux
1. char («звичайний» текст)
- Кодування — UTF-8
- Розмір 1 символу — 1, 2, 3 або 4 байти
- sizeof(char) = 1
2. wchar_t («широкий» текст)
- Кодування — UTF-32
- Розмір 1 символу — 4 байти
- sizeof(wchar_t) = 4
Windows
1. char («звичайний» текст)
- Кодування — кодові сторінки
- Розмір 1 символу — 1 байт
- sizeof(char) = 1
2. wchar_t («широкий» текст)
- Кодування — UTF-16
- Розмір 1 символу — 2 або 4 байти
- sizeof(wchar_t) = 2
Висновки
Характерна особливість набору символів (UCS) — символи завжди фіксованої довжини:
- UCS-2 — 1 символ = 2 байти (лише одна площина з 17-ти)
- UCS-4 — 1 символ = 4 байти (65 тис. площин не використані)
Характерна особливість кодування (UTF) — символи НЕ завжди фіксованої довжини:
- UTF-32 — єдине кодування з фіксованою довжиною символів, 1 символ = 32 біти = 4 байти, тому можна сказати, що код символу в UCS-4 дорівнює коду символу в UTF-32.
- UTF-16 — коди символів < 216 однозначно відповідають кодам символів з набору UCS-2. Коди решти символів (символи з кодом >= 216) є однозначними тільки для UTF-16.
- UTF-8 — коди символів < 128 однозначно відповідають кодам символів верхньої частини ASCII таблиці. Коди решти символів (символи з кодом >= 128) є однозначними тільки для UTF-8.
Твердження «1 байт = 1 символ» є застарілим і в переважній більшості практичних випадків є хибним. Довжина символу НЕ є фіксованою (винятком є кодування UTF-32 та ASCII таблиця). Юнікод у програмах — добра платформа для підтримки багатомовності.
Див. також
Посилання
- Офіційна сторінка Unicode Consortium [ 12 березня 2014 у Wayback Machine.]
- Версії Юнікоду: 3.1 [ 5 лютого 2005 у Wayback Machine.], 3.2 [ 5 лютого 2005 у Wayback Machine.], 4.0 [ 6 лютого 2007 у Wayback Machine.], 4.0.1 [ 8 лютого 2007 у Wayback Machine.], 4.1 [ 25 травня 2021 у Wayback Machine.] 5.0.0 [ 10 червня 2008 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Yuniko d angl Unicode UNIfikovane KODuvannya promislovij standart rozroblenij shob zabezpechiti cifrove predstavlennya simvoliv usih pisemnostej svitu ta specialnih simvoliv Udoskonalenij sumisno zi standartom Universalnij Nabir Simvoliv Universal Character Set UCS i opublikovanij u formi knigi Standart Yunikod Yunikod skladayetsya z asortimentu simvoliv metodologiyi koduvannya ta komplektu naboru standartiv koduvannya simvoliv komplektu kodovih tablic dlya posilan na zobrazhennya simvoliv spisku vlastivostej simvoliv takih napriklad yak verhnij i nizhnij registr rozkladka komplekt dovidkovih danih komp yuternih fajliv pravil normalizaciyi dekompoziciyi zistavlennya i zobrazhennya renderingu Logotip UnicodeOglyadStandart zaproponuvala v 1991 roci organizaciya Konsorcium Yunikodu angl Unicode Consortium yaka ob yednuye najbilshi IT kompaniyi korporaciyi Konsorcium Yunikodu nepributkova nekomercijna organizaciya yaka koordinuye rozvitok Yunikodu maye ambitnu metu zaminiti v kincevomu pidsumku isnuyuchi sistemi koduvannya simvoliv Yunikodom i jogo sistemoyu standartiv Format Peretvoren Yunikodu UTF Unicode Transformation Format tomu sho bagato isnuyuchih sistem koduvannya ye obmezhenimi v rozmiri j mozhlivostyah i nesumisnimi z bagatomovnimi seredovishami Uspihi Yunikodu v unifikaciyi naboriv simvoliv prizveli do jogo rozpovsyudzhennya i dominuyuchogo vikoristannya v internacionalizaciyi i lokalizaciyi programnogo zabezpechennya komp yuteriv Standart buv vikoristanij u bagatoh novitnih tehnologiyah napriklad u XML movi programuvannya JavaScript i suchasnih operacijnih sistemah Yunikod znimaye stare obmezhennya na koduvannya simvoliv lishe odnim bajtom Natomist vikoristovuyetsya 17 prostoriv kozhen z yakih viznachaye 65 536 kodiv i daye mozhlivist opisati maksimum 1 114 112 17 216 riznih simvoliv Basic Multilingual Plane BMP Osnovna Bagatomovna Ploshina mistit majzhe vsi simvoli yaki vi budete koli nebud vikoristovuvati Yunikod maye dekilka realizacij ale najposhirenishimi ye dvi UTF Unicode Transformation Format Format Peretvorennya Yunikodu ta UCS Universal Character Set Universalna Tablicya Simvoliv Chislo pislya UTF viznachaye kilkist bitiv sho vidileni pid odin yunit a chislo pislya UCS viznachaye kilkist bajtiv Universalnij nabir simvoliv zadaye odnoznachnu vidpovidnist simvoliv kodam elementam kodovogo prostoru tobto nevid yemnim cilim chislam UTF 8 stav najposhirenishim dlya internacionalnih koduvan UTF 8 ye sistemoyu koduvannya zi zminnoyu dovzhinoyu koduvannya simvoliv Ce oznachaye sho dlya koduvannya simvoliv vin vikoristovuye vid 1 do 4 bajt na simvol Tak pershij bajt UTF 8 mozhna vikoristovuvati dlya koduvannya ASCII sho daye povnu sumisnist z kodami ASCII Perekoduvannya kodiv ASCII u kodah UTF 8 dlya latinskih simvoliv ne zbilshit rozmir danih bo dlya cogo vikoristovuyetsya tilki odin bajt na simvol Dlya simvoliv inshih mov de napriklad dlya koduvannya treba vikoristovuvati dva bajti na simvol ce koduvannya zbilshuye rozmir danih na priblizno 50 abo bilshe UTF 8 dozvolyaye pracyuvati v standartizovanomu mizhnarodno prijnyatomu bagatomovnomu seredovishi z porivnyano neznachnim zbilshennyam obsyagu danih UTF 8 yavlyaye soboyu idealnij sposib peredachi simvoliv cherez Internet elektronnu poshtu chat tosho Kodi v standarti Unicode podileni na dekilka oblastej Oblast z kodami vid U 0000 do U 007F pro zapis vidu U xxxx divis nizhche v rozdili Kodovij prostir mistit simvoli naboru ASCII Dali rozmisheni oblasti znakiv riznih pisemnostej znaki punktuaciyi i tehnichni simvoli Chastina kodiv zarezervovana dlya vikoristannya v majbutnomu Dlya simvoliv kirilici vidileni kodi vid U 0400 do U 052F div en Rozdili standartu YunikodStandart Unicode skladayetsya z dvoh osnovnih rozdiliv universalnij nabir simvoliv i simejstvo koduvan Universalnij nabir simvoliv zadaye odnoznachnu vidpovidnist simvoliv kodam elementam kodovogo prostoru sho ye nevid yemnimi cilimi chislami Simejstvo koduvan viznachaye mashinne podannya poslidovnosti kodiv universalnogo naboru simvoliv Standarti naboriv simvoliv UCS 4 angl Universal Character Set 1 simvol 4 bajti vsogo mozhna zakoduvati 232 4 294 967 296 simvoliv Prote maksimalna kilkist Yunikod simvoliv na sogodni 220 216 1 114 112 UCS 2 angl Universal Character Set 1 simvol 2 bajti vsogo mozhna zakoduvati 216 65 536 simvoliv Standarti koduvan UTF 32 angl Unicode Transformation Format format peretvorennya Yunikoda odin iz sposobiv koduvannya simvoliv iz Unicode u viglyadi 32 bitovih poslidovnostej 1 simvol 32 biti UTF 16 odin iz sposobiv koduvannya simvoliv iz Unicode u viglyadi 16 bitnih poslidovnostej Simvoli z kodami menshe 0x10000 216 predstavlyayutsya yak ye odna 16 bitova poslidovnist a simvoli z kodami 0x10000 0x10FFFE u viglyadi dvoh 16 bitovih poslidovnostej tak zvana surogatna para persha z yakih lezhit v diapazoni 0xD800 0xDBFF a druga 0xDC00 0xDFFF Legko bachiti sho isnuye 210 210 220 takih kombinacij A zagalna kilkist mozhlivih simvoliv 220 216 1 114 112 Slid zaznachiti sho za standartom niyaki simvoli ne mozhut mati kodiv vlasne z diapazonu 0xD800 0xDFFF tak sho rozshifrovka koduvannya zavzhdi odnoznachna Vtim v perevazhnij bilshosti vipadkiv tekst v UTF 16 ye prosto poslidovnistyu simvoliv z UCS 2 oskilki simvoli Unicode pislya kodu 0x10000 vikoristovuyutsya vkraj ridko UTF 16LE ta UTF 16BE u potoci danih UTF 16 starshij bajt mozhe zapisuvatisya abo pered molodshim UTF 16 Big Endian abo UTF 16BE abo pislya molodshogo UTF 16 Little Endian abo UTF 16LE Inodi koduvannya Yunikoda Big Endian UTF 16BE nazivayut Yunikodom iz zvorotnim poryadkom bajtiv Analogichno isnuye dva varianti 32 bitovogo koduvannya UTF 32LE ta UTF 32BE UTF 8 poshirene sogodni koduvannya sho realizovuye predstavlennya Yunikoda sumisne z 8 bitovim koduvannyam tekstu Tekst sho skladayetsya tilki z simvoliv z nomerom menshe 128 pri zapisi v UTF 8 peretvoryuyetsya na zvichajnij tekst ASCII I navpaki v teksti UTF 8 bud yakij bajt iz znachennyam menshe 128 zobrazhaye simvol ASCII z tim zhe kodom Reshta simvoliv Yunikoda zobrazhayetsya poslidovnostyami zavdovzhki vid 2 do 6 bajtiv realno tilki do 4 bajt oskilki vikoristannya kodiv bilshe 2 ne zaplanovano v yakih pershij bajt zavzhdi maye vid 11xxxxxx a inshi 10xxxxxx Prostishe kazhuchi u formati UTF 8 simvoli latinskogo alfavitu rozdilovi znaki i keruyuchi simvoli ASCII zapisuyutsya ASCII kodami a reshta vsih simvoliv koduyetsya za dopomogoyu oktetiv poslidovnosti zavdovzhki 8 bitiv zi starshim bitom 1 U rezultati navit yaksho programa ne rozpiznaye Yunikod to latinski bukvi arabski cifri i rozdilovi znaki zobrazhatimutsya pravilno Simvoli UTF 8 otrimuyut z Unicode takim chinom Unicode UTF 8 0x00000000 0x0000007F 0xxxxxxx 0x00000080 0x000007FF 110xxxxx 10xxxxxx 0x00000800 0x0000FFFF 1110xxxx 10xxxxxx 10xxxxxx 0x00010000 0x001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx Takozh teoretichno mozhlivi ale ne vklyucheni v standarti Unicode UTF 8 0x00200000 0x03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x04000000 0x7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxxMarker poryadku bajtivDokladnishe Marker poryadku bajtiv Dlya viznachennya formatu predstavlennya Yunikoda v tekstovomu fajli vikoristovuyetsya prijom za yakim na pochatku tekstu zapisuyetsya simvol U FEFF nerozrivnij propusk z nulovoyu shirinoyu takozh imenovanij mitkoyu poryadku bajtiv angl Byte Order Mark BOM Cej sposib dozvolyaye rozriznyati UTF 16LE i UTF 16BE oskilki simvolu U FFFE ne isnuye Takozh vin inodi zastosovuyetsya dlya poznachennya formatu UTF 8 hocha do cogo formatu i nepridatne ponyattya poryadku bajtiv Fajli yaki dotrimuyutsya cogo pravila pochinayutsya z takih bajtiv UTF 8 EF BB BF UTF 16BE FE FF UTF 16LE FF FE UTF 32BE 00 00 FE FF UTF 32LE FF FE 00 00Kodovij prostirHocha formi zapisu UTF 8 i UTF 32 8 i 32 desyatkovi chisla yaki vkazuyut kilkist dvijkovih rozryadiv dozvolyayut koduvati do 231 2 147 483 648 kodovih pozicij bulo uhvaleno rishennya vikoristovuvati lishe 220 216 1 114 112 dlya sumisnosti z UTF 16 Vtim navit i cogo bilsh nizh dostatno sogodni u versiyi Unicode 5 0 vikoristovuyetsya trohi bilshe 99 000 kodovih pozicij Koduvannya ta tipi tekstovih danih movi S S U movi S S istorichno sklalasya taka situaciya Dlya roboti zi zvichajnimi tekstovimi danimi isnuye tip char Dlya roboti z tak zvanim shirokim tekstom isnuye tip wchar t Osoblivosti vikoristannya cih tipiv danih zalezhat vid sistemi A vlasne osoblivostyami ye koduvannya tekstu v tipah danih ta rozmir odnogo simvolu Dlya porivnyannya vizmemo dvi sistemi Linux 1 char zvichajnij tekst Koduvannya UTF 8 Rozmir 1 simvolu 1 2 3 abo 4 bajti sizeof char 1 2 wchar t shirokij tekst Koduvannya UTF 32 Rozmir 1 simvolu 4 bajti sizeof wchar t 4 Windows 1 char zvichajnij tekst Koduvannya kodovi storinki Rozmir 1 simvolu 1 bajt sizeof char 1 2 wchar t shirokij tekst Koduvannya UTF 16 Rozmir 1 simvolu 2 abo 4 bajti sizeof wchar t 2VisnovkiHarakterna osoblivist naboru simvoliv UCS simvoli zavzhdi fiksovanoyi dovzhini UCS 2 1 simvol 2 bajti lishe odna ploshina z 17 ti UCS 4 1 simvol 4 bajti 65 tis ploshin ne vikoristani Harakterna osoblivist koduvannya UTF simvoli NE zavzhdi fiksovanoyi dovzhini UTF 32 yedine koduvannya z fiksovanoyu dovzhinoyu simvoliv 1 simvol 32 biti 4 bajti tomu mozhna skazati sho kod simvolu v UCS 4 dorivnyuye kodu simvolu v UTF 32 UTF 16 kodi simvoliv lt 216 odnoznachno vidpovidayut kodam simvoliv z naboru UCS 2 Kodi reshti simvoliv simvoli z kodom gt 216 ye odnoznachnimi tilki dlya UTF 16 UTF 8 kodi simvoliv lt 128 odnoznachno vidpovidayut kodam simvoliv verhnoyi chastini ASCII tablici Kodi reshti simvoliv simvoli z kodom gt 128 ye odnoznachnimi tilki dlya UTF 8 Tverdzhennya 1 bajt 1 simvol ye zastarilim i v perevazhnij bilshosti praktichnih vipadkiv ye hibnim Dovzhina simvolu NE ye fiksovanoyu vinyatkom ye koduvannya UTF 32 ta ASCII tablicya Yunikod u programah dobra platforma dlya pidtrimki bagatomovnosti Div takozhSimvol zaminiPosilannyaOficijna storinka Unicode Consortium 12 bereznya 2014 u Wayback Machine Versiyi Yunikodu 3 1 5 lyutogo 2005 u Wayback Machine 3 2 5 lyutogo 2005 u Wayback Machine 4 0 6 lyutogo 2007 u Wayback Machine 4 0 1 8 lyutogo 2007 u Wayback Machine 4 1 25 travnya 2021 u Wayback Machine 5 0 0 10 chervnya 2008 u Wayback Machine