UTF-8 (від англ. Unicode Transformation Format — формат перетворення Юнікоду) — кодування, що реалізовує представлення Юнікоду, сумісне з 8-бітовим кодуванням тексту.
Текст, що складається тільки з символів, коди яких менші ніж 128, при записі в UTF-8 перетворюється на звичайний текст ASCII. І навпаки, в тексті UTF-8 будь-який байт із значенням менше, ніж 128 зображає символ ASCII з тим же кодом. Решта символів Юнікоду зображається послідовностями завдовжки від 2 до 6 байтів (реально тільки до 4 байтів, оскільки використання кодів більших, ніж 221 не планується), в яких перший байт завжди має вид 11xxxxxx, а решта — 10xxxxxx. Простіше кажучи, у форматі UTF-8 символи латинського алфавіту, розділові знаки і символи управління ASCII записуються кодами US-ASCII, а решта символів кодується за допомогою октетів із старшим бітом 1. В результаті, навіть якщо програма не розпізнає Юнікод, то англійська мова і розмітка все одно відображатимуться правильно.
Формат UTF-8 був винайдений 2 вересня 1992 року Кеном Томпсоном і Робом Пайком і реалізований в Plan 9. Зараз стандарт UTF-8 офіційно закріплений в документах RFC 3629 і ISO/IEC 10646 Annex D.
Символи UTF-8 виходять з Unicode таким чином:
Unicode | UTF-8 |
0x00000000 — 0x0000007F | 0xxxxxxx |
0x00000080 — 0x000007FF | 110xxxxx 10xxxxxx |
0x00000800 — 0x0000FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
0x00010000 — 0x001FFFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
Також теоретично можливі, але не включені в стандарти:
Unicode | UTF-8 |
0x00200000 — 0x03FFFFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
0x04000000 — 0x7FFFFFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
Зауваження: Символи, закодовані в UTF-8, можуть бути завдовжки до шести байтів, проте стандарт Unicode не визначає символів вище 0x10ffff, тому символи Unicode можуть мати максимальний розмір в 4 байти в UTF-8.
Див. також
Примітки
- (28 січня 2010). . Official Google Blog. Google. Архів оригіналу за 16 червня 2016. Процитовано 5 грудня 2010.
- . Архів оригіналу за 29 жовтня 2006. Процитовано 5 жовтня 2007.
{{}}
: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title ()
Посилання
- RFC 2277(англ.) Настанови IETF щодо кодувань і мов
- Оригінальна специфікація UTF-8 [ 11 жовтня 2007 у Wayback Machine.](англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
UTF 8 vid angl Unicode Transformation Format format peretvorennya Yunikodu koduvannya sho realizovuye predstavlennya Yunikodu sumisne z 8 bitovim koduvannyam tekstu Pokazano vikoristannya osnovnih koduvan u merezhi z 2001 po 2012 rik zgidno z danimi kompaniyi Google UTF 8 obignala vsih inshih u 2008 roci i dosyagla 50 u merezhi v 2012 roci Zvernit uvagu sho v ASCII vrahovani vebstorinki z bud yakim ogoloshenim zagolovkom za umovi sho voni ye ASCII simvolami Tekst sho skladayetsya tilki z simvoliv kodi yakih menshi nizh 128 pri zapisi v UTF 8 peretvoryuyetsya na zvichajnij tekst ASCII I navpaki v teksti UTF 8 bud yakij bajt iz znachennyam menshe nizh 128 zobrazhaye simvol ASCII z tim zhe kodom Reshta simvoliv Yunikodu zobrazhayetsya poslidovnostyami zavdovzhki vid 2 do 6 bajtiv realno tilki do 4 bajtiv oskilki vikoristannya kodiv bilshih nizh 221 ne planuyetsya v yakih pershij bajt zavzhdi maye vid 11xxxxxx a reshta 10xxxxxx Prostishe kazhuchi u formati UTF 8 simvoli latinskogo alfavitu rozdilovi znaki i simvoli upravlinnya ASCII zapisuyutsya kodami US ASCII a reshta simvoliv koduyetsya za dopomogoyu oktetiv iz starshim bitom 1 V rezultati navit yaksho programa ne rozpiznaye Yunikod to anglijska mova i rozmitka vse odno vidobrazhatimutsya pravilno Format UTF 8 buv vinajdenij 2 veresnya 1992 roku Kenom Tompsonom i Robom Pajkom i realizovanij v Plan 9 Zaraz standart UTF 8 oficijno zakriplenij v dokumentah RFC 3629 i ISO IEC 10646 Annex D Simvoli UTF 8 vihodyat z Unicode takim chinom Unicode UTF 80x00000000 0x0000007F 0xxxxxxx0x00000080 0x000007FF 110xxxxx 10xxxxxx0x00000800 0x0000FFFF 1110xxxx 10xxxxxx 10xxxxxx0x00010000 0x001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx Takozh teoretichno mozhlivi ale ne vklyucheni v standarti Unicode UTF 80x00200000 0x03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx0x04000000 0x7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Zauvazhennya Simvoli zakodovani v UTF 8 mozhut buti zavdovzhki do shesti bajtiv prote standart Unicode ne viznachaye simvoliv vishe 0x10ffff tomu simvoli Unicode mozhut mati maksimalnij rozmir v 4 bajti v UTF 8 Div takozhYunikod Marker poryadku bajtPrimitki 28 sichnya 2010 Official Google Blog Google Arhiv originalu za 16 chervnya 2016 Procitovano 5 grudnya 2010 Arhiv originalu za 29 zhovtnya 2006 Procitovano 5 zhovtnya 2007 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z tekstom archived copy yak znachennya parametru title posilannya PosilannyaRFC 2277 angl Nastanovi IETF shodo koduvan i mov Originalna specifikaciya UTF 8 11 zhovtnya 2007 u Wayback Machine angl