Дедублікація (лат. deduplicatio — усунення дублів) — це процес, який направлений на виявлення та заміну цілком однакових за змістом блоків інформації одним їхнім примірником. Набув розповсюдження насамперед у зв'язку із розвитком резервного копіювання.
В дослідах виявилось, що резервні копії мають багато однакових областей даних. Обумовлено тим, що дані змінюються не по всьому масиву даних, які підлягають резервному копіюванні. Звідси, стає зрозумілим, що резервні копії мають однакові блоки даних, які можна замінити посиланням на раніше записані блоки даних.
В дедублікації весь масив даних поділяється на блоки фіксованого розміру. При збереженні наступного блоку процес перевіряє чи є вже в сховище такий самий:
- якщо є, то зберігається посилання на раніше збережений блок, замість самого блоку.
- якщо не має, то зберігається сам блок.
Процес отримання даних із Сховища, яке організовано таким чином, зводиться до отримання відповідного блоку даних.
Дедублікація відрізняється від процесу архівування тим, що дедублікація виконує пошук однакових фрагментів по всьому масиву даних, на відміну від алгоритмів стиснення, які обробляють дані в межах буферу окремого файлу.
Недоліком цього способу збереження даних є його висока вразливість від пошкодження даних — пошкоджений блок даних призведе до пошкодження й неможливості відновлення всіх файлів де він є.
Дедублікація використовується в:
- файлових системах, наприклад, ZFS, IPFS;
- системах збереження даних — дозволяє більш ефективно збергіати дані;
- системах віртуалізації — дозволяє прискорити операції збереження та відновлення snapshot-ів, зменшити потрібний обсяг даних для збереження станів віртуальних машин;
- системах передачі інформації — дозволяє за рахунок зменшення обсягу надсилаємих даних зменшити час на їх передачу.
Розрізняють дедублікацію на рівні:
- файлів;
- блоків;
- байтів.
Практична недоцільність дедублікації на байтовому рівні була доведена в дослідах при проектуванні файлової системи ZFS. Дещо схожа ідея дедублікація на байтовому рівні втілена в алгоритмі стиснення RLE.
Дедублікацію на файловому рівні виконують багато утиліт, відомим прикладом є GNU-утиліта . Вона замінює винайдені однакові файли посиланням на один примірник.
На блочному рівні, для порівняння блоків між собою використовують наступні методи:
Див. також
Джерела
- Піговський, Юрій Романович. Ефективний емпіричний метод дедублікації на файловому рівні (PDF) (укр.) . Процитовано 2018.03.08.
Примітки
- . Архів оригіналу за 11 серпня 2021.
- https://blogs.oracle.com/bonwick/zfs-deduplication-v2 [ 24 грудня 2019 у Wayback Machine.] ZFS Deduplication
- https://medium.com/@ConsenSys/an-introduction-to-ipfs[недоступне посилання з липня 2019] An Introduction to IPFS, chapter "Blockchains"
- https://blogs.oracle.com/bonwick/zfs-deduplication[недоступне посилання з липня 2019] Bonwick J. ZFS Deduplication
- https://blogs.oracle.com/bonwick/entry/zfs_dedup [ 6 серпня 2012 у Wayback Machine.] Bonwick J. ZFS Deduplication
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Dedublikaciya lat deduplicatio usunennya dubliv ce proces yakij napravlenij na viyavlennya ta zaminu cilkom odnakovih za zmistom blokiv informaciyi odnim yihnim primirnikom Nabuv rozpovsyudzhennya nasampered u zv yazku iz rozvitkom rezervnogo kopiyuvannya V doslidah viyavilos sho rezervni kopiyi mayut bagato odnakovih oblastej danih Obumovleno tim sho dani zminyuyutsya ne po vsomu masivu danih yaki pidlyagayut rezervnomu kopiyuvanni Zvidsi staye zrozumilim sho rezervni kopiyi mayut odnakovi bloki danih yaki mozhna zaminiti posilannyam na ranishe zapisani bloki danih V dedublikaciyi ves masiv danih podilyayetsya na bloki fiksovanogo rozmiru Pri zberezhenni nastupnogo bloku proces pereviryaye chi ye vzhe v shovishe takij samij yaksho ye to zberigayetsya posilannya na ranishe zberezhenij blok zamist samogo bloku yaksho ne maye to zberigayetsya sam blok Proces otrimannya danih iz Shovisha yake organizovano takim chinom zvoditsya do otrimannya vidpovidnogo bloku danih Dedublikaciya vidriznyayetsya vid procesu arhivuvannya tim sho dedublikaciya vikonuye poshuk odnakovih fragmentiv po vsomu masivu danih na vidminu vid algoritmiv stisnennya yaki obroblyayut dani v mezhah buferu okremogo fajlu Nedolikom cogo sposobu zberezhennya danih ye jogo visoka vrazlivist vid poshkodzhennya danih poshkodzhenij blok danih prizvede do poshkodzhennya j nemozhlivosti vidnovlennya vsih fajliv de vin ye Dedublikaciya vikoristovuyetsya v fajlovih sistemah napriklad ZFS IPFS sistemah zberezhennya danih dozvolyaye bilsh efektivno zbergiati dani sistemah virtualizaciyi dozvolyaye priskoriti operaciyi zberezhennya ta vidnovlennya snapshot iv zmenshiti potribnij obsyag danih dlya zberezhennya staniv virtualnih mashin sistemah peredachi informaciyi dozvolyaye za rahunok zmenshennya obsyagu nadsilayemih danih zmenshiti chas na yih peredachu Rozriznyayut dedublikaciyu na rivni fajliv blokiv bajtiv Praktichna nedocilnist dedublikaciyi na bajtovomu rivni bula dovedena v doslidah pri proektuvanni fajlovoyi sistemi ZFS Desho shozha ideya dedublikaciya na bajtovomu rivni vtilena v algoritmi stisnennya RLE Dedublikaciyu na fajlovomu rivni vikonuyut bagato utilit vidomim prikladom ye GNU utilita Vona zaminyuye vinajdeni odnakovi fajli posilannyam na odin primirnik Na blochnomu rivni dlya porivnyannya blokiv mizh soboyu vikoristovuyut nastupni metodi porivnyannya hesh sum takih yak SHA 1 SHA 256 MD5 blokiv mizh soboyu pobajtove porivnyannya heshuvannya algoritmom Fletchera fletcher4 z pobajtovoyu verifikaciyeyu Div takozhDelta koduvannya XdeltaDzherelaPigovskij Yurij Romanovich Efektivnij empirichnij metod dedublikaciyi na fajlovomu rivni PDF ukr Procitovano 2018 03 08 Primitki Arhiv originalu za 11 serpnya 2021 https blogs oracle com bonwick zfs deduplication v2 24 grudnya 2019 u Wayback Machine ZFS Deduplication https medium com ConsenSys an introduction to ipfs nedostupne posilannya z lipnya 2019 An Introduction to IPFS chapter Blockchains https blogs oracle com bonwick zfs deduplication nedostupne posilannya z lipnya 2019 Bonwick J ZFS Deduplication https blogs oracle com bonwick entry zfs dedup 6 serpnya 2012 u Wayback Machine Bonwick J ZFS Deduplication