Архівува́ння вебса́йтів (вебархівува́ння, англ. web archiving) — процес збирання та «дублювання» вебсторінок та цілих сайтів з метою збереження інформації та доступу до неї у майбутньому, якщо джерело виявиться недоступним. Передумовами розвитку вебархівування стали проблеми вимирання посилань і потенційний наступ цифрових темних століть. 1996 року створено «Архів Інтернету» — першу некомерційну організацію, яка поставила собі за мету створити «знімки» всіх сторінок в інтернеті. 2001 року «Архів» запустив сервіс із архівування сайтів Wayback Machine, через який станом на 2021 рік було збережено понад 600 млрд вебсторінок.
Від початку 2000-их років практики збереження вебсайтів активно впроваджують у багатьох країнах, зокрема й на державному рівні. При цьому діють майданчики для розробки стандартів та загальних практик у сфері вебархівування, наприклад, Міжнародний семінар архівування інтернету (IWAW) (від 2001-го) та [en] (від 2003-го).
Найчастіше інформацію зі статичних сайтів збирають за допомогою пошукових роботів (наприклад, [en] , Webrecorder, HTTrack), які надсилають HTTP-запити на вебсервери і «захоплюють» передаваний контент зі всіма гіперпосиланнями з просканованих вебсторінок. Натомість, скрипти, шаблони та контент динамічних сайтів зберігаються на вебсерверах як окремі ресурси, тому архівувати такі портали значно складніше. Процес має два основні етапи — збереження файлових даних зі структури каталогів вебсайту та подальше архівування інформації з бази даних.
Визначення
Терміни вебархівування та вебзбереження (англ. web preservation) часто використовують як взаємозамінні, проте між ними існує важлива відмінність: перший визначає весь процес збереження інтернет-ресурсу, а другий лише один з етапів. [en] визначає вебархівування як:
[...] процес збирання частин всесвітньої павутини, збереження колекцій в архівному форматі та подальше обслуговування архівів з метою надання до них доступу та використання. |
Передумови
Від початку 1990-их років створення, зберігання та поширення інформації відбувається переважно в цифровому середовищі. Вже до середини 1990-их років почали старіти раніше популярні носії інформації, такі як магнітні стрічки, дискети, zip-накопичувачі та компакт-диски, а доступ до старих файлових форматів ускладнився. Стали зникати багато великих баз даних, які не було скопійовано на інші носії чи продубльовано на папері. Так, усі дані великомасштабного проєкту BBC Domesday Project, проведеного в 1980-ті роки за участю понад мільйон осіб, було записано на кілька дисків, які до початку 2000-их років або пошкодились, або були втрачені.
Повсюдна втрата даних призвела до того, що окремі дослідники почали обговорювати потенційне настання «цифрових темних століть» (англ. digital dark age) — періоду, що характеризується практично повною відсутністю писемних свідчень. Деякі дослідники називають XXI століття «інформаційною чорною дірою» через побоювання, що програмне забезпечення та комп'ютери майбутнього не зможуть відтворити створених раніше даних. 2003 року ЮНЕСКО випустила «Хартію про збереження цифрової спадщини», яка визначає важливість резервації цифрових даних, втрата яких може призвести до «збіднення» людської спадщини. 2015 року із заявою про те, що людство рухається до «цифрових темних століть», виступив американський учений і віце-президент Google Вінтон Серф.
Іншою передумовою для розвитку вебархівування є вимирання посилань — ситуація, коли сторінки стають недоступними за попередніми URL або змінюється їх зміст. Аналіз, який провели 2017 року португальські дослідники, показав, що близько 80 % інтернет-сторінок недоступні в початковому вигляді вже через рік після опублікування, при цьому 13 % посилань у наукових статтях зникали в середньому через 27 місяців. 2021 року вчені юридичного факультету Гарвардського університету разом із журналістами The New York Times (NYT) проаналізували життєздатність посилань у більш ніж 550 тисячах випущених NYT онлайн-публікаціях у період за 2000—2017 роки — близько чверті використаних URL-адрес «вимерли». Середня тривалість життя вебсторінки становить 44-100 днів, а на сайтах новин і в соціальних мережах інформація може зникати ще швидше.
Інформація в інтернеті може зникати і з інших причин. Так, 2015 року Державний департамент США і Агентство США з міжнародного розвитку ініціювали видалення матеріалів про війну в Афганістані з метою вберегти тих, хто співпрацював з американською владою, від переслідування з боку талібів. Інший приклад — висунуті в грудні 2021 року вимоги Роскомнадзору видалити з низки російських ЗМІ матеріали про розслідування видання [en], яке раніше визнано небажаною організацією.
Відбір джерел
Починаючи від 1980-их років, окремі архіви та бібліотеки почали зберігати електронні ресурси з метою задокументувати хроніку актуальних подій. Однак відправною точкою вебархівування вважають створення 1996 року «Архіву Інтернету» — некомерційної організації, що поставила амбітну мету зберегти всі веб-сторінки всього інтернету, яких на той момент було відносно небагато. Наприкінці 1990-их — на початку 2000-их років уряди багатьох розвинених країн стали впроваджувати практики вебархівування, поклавши відповідальність за їх ведення на національні бібліотеки, які мають необхідний досвід та засоби для архівування. До 2000 року національні вебархіви з'явилися в багатьох країнах, зокрема, у Великій Британії, Новій Зеландії, США та Чехії.
Відтоді кількість проєктів із вебархівування зростає. 2011 року у світі діяло 42 програми, більшість із яких збирали регіональні вебджерела. Дослідження 2020 року показало експонентне зростання кількості установ, що мають власні репозиторії, роботу яких підтримують найняті фахівці та спеціалізоване обладнання. Більшість таких репозиторіїв поповнюється за принципом самоархівування — автори самостійно розміщують там свої матеріали. На 2019 рік вебархіви на національному рівні запроваджено практично у всіх країнах Європейського Союзу, найчастіше — у рамках роботи національних бібліотек.
Організації
«Архів Інтернету»
Першою найбільшою ініціативою з веб-архівування став «Архів Інтернету» — некомерційна організація, створена 1996 року для збереження всіх розміщених в інтернеті матеріалів. Творцем став американський програміст Брюстер Кейл, який одночасно запустив «Архів» і комерційну систему вебархівування Alexa Internet . 1997 року він розробив браузерний плагін, через який Alexa Internet автоматично визначала і зберігала в «Архів» «цінні» веб-сторінки, ранжуючи їх за кількістю відвідувань, перехресних посилань і «клацань». Від 1998 року кількість сторінок для архівування зростала вдвічі кожні 3-6 місяців.
24 жовтня 2001 року «Архів Інтернету» запустив сервіс Wayback Machine, через який користувачі могли отримати доступ до більш ніж 10 млрд заархівованих веб-сторінок. Тоді дані зберігалися на серверах Hewlett Packard і uslab.com і керувалися через операційні системи FreeBSD і Linux.
На 2021 рік колекція «Архіву Інтернету» містила багато підколекцій архівованих веб-сайтів, оцифрованих книг, аудіо та відео файлів, ігор, програмного забезпечення; при цьому кількість заархівованих вебсторінок склала понад 622 млрд.
WebCite
Сервіс WebCite, запущений 2003 року, став першим інструментом вебархівування, що дозволяє користувачам зберігати вебсайти за запитом. Він швидко набрав популярності і вже на 2005 рік близько 200 журналів просили авторів перед надсиланням рукописів архівувати використовувані вебсторінки через WebCite. Сервіс не використовує пошукових роботів для «захоплення» сторінок, архівування відбувається безпосередньо за запитом користувача.
2013 року WebCite був під загрозою закриття через брак фінансування, проте завдяки публічній кампанії зі збору коштів творця Гюнтера Айзенбаха портал продовжував свою роботу ще шість років. Від 2019 року він став доступним лише для читання та припинив приймати запити на архівування.
Archive.today
Сервіс archive.today (спосатку - archive.is) запустила 2012 року однойменна некомерційна організація. Проєкт фінансують приватні спонсори. Так само, як і WebCite, archive.today зберігає вебсторінки за запитами користувачів, розміщуючи у відкритому доступі робочу копію вебсторінки та знімок екрана зі статичною візуалізацією сторінки у форматі PNG. Розмір заархівованої сторінки з усіма зображеннями не може перевищувати 50 МБ.
Творці archive.today також запустили розширення для браузера Mozilla Firefox, яке автоматично зберігає і викладає у спільний доступ копію кожної вебсторінки, яку користувач додав у закладки.
Національні бібліотеки
У більшості розвинених країн діють закони про обов'язковий примірник, які покладають юридичну відповідальність на національні бібліотеки зберігати один примірник кожного опублікованого в цій країні друкованого видання. З розвитком засобів електронної комунікації дію закону поширили і на веб-сайти. Так, згідно із [en], [en] та [en] зобов'язані зберігати всі важливі постанови уряду Великої Британії. Оскільки чиновники все частіше публікують свої звіти в інтернеті, вебархів щомісяця відвідують понад 100 млн. користувачів (станом на 2013 рік).
1996 року Національна бібліотека Швеції ініціювала проект Kulturar, у рамках якого здійснювалося великомасштабне збереження всієї шведської мережі доменів. На початку 2005 року зібрано понад 350 000 вебсайтів або близько 10 терабайт даних, завдяки чому вебархів став найбільшим на той момент у світі. 1997 року створено спільну ініціативу національних бібліотек Данії, Фінляндії, Ісландії, Норвегії, Швеції під назвою Nordic Web Archive (NWA). В рамках NWA велася розробка інструментів та обговорювалися методи вебархівування для скандинавських країн. 2004 року NWA випустив програмний пакунок для доступу до архівованих вебдокументів, який згодом ліг в основу [en] Toolkit. Цього ж року Національна бібліотека Австралії запустила [en] — проєкт збереження електронних ресурсів Австралії. 2019 року колекція Pandora увійшла до [en] — одного з найбільших національних вебархівів у світі.
Колаборації
2001 року створено Міжнародний семінар архівування Інтернету (IWAW) — майданчик для обміну дослідженнями та досвідом у сфері вебархівування, а 2003-го з ініціативи «Архіву Інтернету» засновано [en] (IIPC), у рамках якого розробляються стандарти та засоби вебархівування. Крім «Архіву», до складу IIPC увійшли національні бібліотеки Франції, Австралії, Канади, Данії, Фінляндії, Ісландії, Італії, Норвегії, Швеції, Великої Британії, США. 2008 року в рамках IIPC розроблено [en] або WARC — формат файлів для архівування вебресурсів. На 2021 рік у IIPC перебувало більше 50 членів.
Організації часто співпрацюють для створення об'єднаних веб-архівів. Так, від 2004 до 2018 року діяв Європейський цифровий архів (згодом перейменований на [en]), який збирає електронні документи в країнах Європейського Союзу. Серед інших, до його складу входили Національні архіви Великої Британії, Товариство імені Макса Планка, Берлінський технічний університет, Саутгемптонський університет, [en]. На початку 2000-их років департаменти китаєзнавства Гейдельберзького та Лейденського університетів спільно запустили вебархів DACHS, що містить електронні матеріали з синології. Консорціуми NWA та UKWAC проводили програми спільного збору даних у партнерстві з іншими організаціями. Наприкінці 1990-их років Європейська комісія профінансувала створення Networked European Deposit Library (NEDLIB) — проекту зі збирання, описування, зберігання та відкриття доступу до збережених європейських вебсайтів. Випущений 2000 року NEDLIB Harvester став одним із перших пошукових роботів, спеціально створених для архівування даних. Згодом його використовували в низці проєктів, зокрема для збору даних із нідерландських, естонських та ісландських вебдоменів.
У липні 2011 року Національний архів Великої Британії спільно з Internet Memory Foundation запустили пілотний проєкт з вебархівування цифрових даних для місцевих органів влади. Проєкт діяв у семи архівах муніципальних утворень, що охоплюють понад 20 місцевих органів влади. Персонал пройшов безкоштовне навчання зі створення кураторського вебархіву для своєї галузі.
Університети розвинених країн також беруть участь у розвитку вебархівування. Наприклад, у Мічиганському, Індіанському, Каліфорнійському, Іллінойському та інших університетах пропонують курси з навчання архівуванню цифрових матеріалів, а кілька установ створили для дослідних цілей власні вебархіви — Stanford WebBase Archive (Стенфордський університет), Socio-Sense (Токійський університет), вебінформаційний центр (Пекінський університет) .
Відбір джерел
Перед початком архівування кожна організація визначає критерії відбору джерел. Таких критеріїв може бути один або декілька, залежно від розміру та цілей організації. Деякі веб-архіви, такі як «Архів Інтернету», мають на меті зібрати всі можливі вебсторінки — такий підхід називають неселективним або широким скануванням. В його основі лежить принцип взаємопов'язаності всесвітнього павутиння, згідно з яким по-справжньому «зберегти» якусь тему можна лише зібравши всі наявні вебсторінки, оскільки вони пов'язані між собою. Крім цього, відбір вебсайтів є дорогим і трудомістким процесом, який також може призвести до суб'єктивної вибірки. Однак підхід «Архіву» вважають нездійсненним на практиці — збереження всіх сторінок неможливе через обмеження, пов'язані з авторським правом, і навіть «Архів Інтернету» зберігає лише доступні громадськості матеріали.
Альтернативою неселективного підходу до відбору є вибірковий підхід або вибір ресурсів, ґрунтуючись на їх відповідності певним критеріям — домену (наприклад, .gov або .edu), темі, події, типу мультимедіа або жанру. Вибірковий підхід часто поєднують із практиками широкого сканування, наприклад, якщо організація архівує всі портали з певним доменним ім'ям. Так, Національна бібліотека Швеції від 1996 року збирає всі вебсайтів з доменом «.se», а Національна бібліотека Великої Британії архівує веб-сайти з доменами «.gov.uk», «.org.uk» та «.co.uk». Бібліотека НАСА Центру космічних польотів Ґоддарда зберігає всі вебсторінки з доменним ім'ям Центру. Головною перевагою вибіркового архівування є те, що такий підхід дозволяє створити більш керовані за розміром колекції пов'язаних ресурсів.
Вибірковий підхід застосовують для створення тематичних колекцій. Наприклад, DACHS збирає соціальні та культурні ресурси зі синології, а Бібліотека Конгресу, спільно з Архівом Інтернету, скомпілювала вебархіви про президентські вибори в США та події 11 вересня 2001 року. Британська бібліотека спеціалізується на вебсайтах, що становлять цінність для національної культури. Такий підхід застосовує і проєкт Pandora Національної бібліотеки Австралії. 2006 року «Архів Інтернету» запустив сервіс Archive It зі створення тематичних вебколекцій, яким часто користуються окремі організації, наприклад [en].
Деякі організації архівують ресурси, зважаючи на тип джерел. Так, бібліотека Центру космічних польотів Годдарда уникає сканування великих відеофайлів та програмних продуктів. Навпаки, інші проєкти вебархівують відео на Youtube або збирають блоги, віртуальні газети, наприклад, Національна бібліотека Франції створила окрему вебколекцію для Живих Журналів.
Збір даних
Статичні сайти
Що простіший і статичніший сайт, то легше його архівувати — копії даних завантажуються з вебсервера у вигляді файлів, які згодом можна перетворити на інші формати.
Процес автоматичного збирання вебсторінок через пошукові роботи називають «скануванням» (англ. web harvesting). Роботу передають список URL-адрес, за якими він надсилає HTTP-запити на вебсервери і «захоплює» переданий контент і всі гіперпосилання з просканованих вебсторінок. Потім автоматизоване ПЗ перетворює інформацію у формат WARC, і результатом є файл, який можна відтворити, наприклад, за допомогою Wayback Machine. Приклади пошукових роботів — розроблений «Архівом Інтернету» 2004 року [en], а також HTTrack і Wget. Мережа «сканерів» дозволяє організаціям зберігати копії вибраних сайтів з деякою періодичністю, наприклад, щодня або щорічно. Для більш точкового архівування використовують інструменти меншого масштабу, наприклад HTTrack, який дозволяє завантажувати копії вебсайтів на локальний комп'ютер.
Динамічні сайти
Архівувати динамічні сайти значно складніше, ніж статичні, оскільки контент, скрипти та шаблони зберігаються на вебсервері як окремі ресурси. а вигляд та вміст сторінки формується залежно від браузера клієнта та налаштувань сервера. На відміну від статичних веб-сайтів, автоматичного оброблення HTTP-запиту недостатньо, оскільки з боку сервера сайт генерує контент, використовуючи базу даних. Тому збереження таких ресурсів відбувається у два етапи — збереження файлових даних, що знаходяться в структурі каталогів веб-сайту, та архівування інформації бази даних. Для динамічних сайтів використання пошукових роботів має обмеження. До інструментів веб-архівування динамічного контенту відносять програмне забезпечення Software Independent Archiving of Relational Databases (SIARD), розроблене Швейцарським федеральним архівом, та DeepArc Національної бібліотеки Франції. SIARD автоматично аналізує та відображає структуру початкової бази даних. Потім він експортує структуру в текстовий файл, що містить визначення даних, описане з використанням SQL — міжнародного стандарту для опису реляційних баз даних. Згодом вміст експортується як звичайний текстовий файл, а метадані зберігаються як XML-документ.
Архівування соціальних мереж
Перші проєкти з архівування соціальних мереж почали з'являтися від 2008 року як систематичне широке сканування платформ. Так, [en] розпочала роботу зі створення архіву повідомлень, опублікованих у Твіттері, а Національна бібліотека Франції сканувала Facebook. Однак через великий обсяг контенту, відсутність технічних стандартів зі збору та зберігання інформації, а також постійні зміни технічних деталей роботи порталів, згодом організації почали застосовувати вибірковий підхід до вебархівування соціальних мереж та зберігати повідомлення лише про конкретні події або надзвичайні ситуації. Окремі організації, наприклад, Національна бібліотека Франції або Національна бібліотека Канади, запустили безперервне автоматизоване збирання новин та контенту соціальних мереж, щоб не упустити реакцію людей на непередбачені події. Вибірка здійснюється за заданими хештегами або ключовими словами, за певний період або на конкретній платформі.
Інструменти
Для збирання вебсайтів використовують різні інструменти вебархівування. Найчастіше зустрічається пошуковий робот Heritrix — доступний за ліцензією вільного програмного забезпечення вебсканер загального призначення, розроблений з урахуванням завдань вебархівування. Heritrix зберігає файли у форматі WARC і добре підходить для великомасштабних операцій сканування, однак меншою мірою захоплює динамічні сайти або сторінки в соціальних мережах. Розроблений на основі Heritrix NetarchiveSuite має додаткові функції щодо довгострокового зберігання та доступу до матеріалів.
Webrecorder використовує для збирання вмісту вебсайтів браузер, тим самим вирішуючи часті проблеми інших пошукових роботів — захоплення динамічного контенту, Adobe Flash, мультимедіа. Програма записує вебсторінки під час їх перегляду, тому добре підходить для вибіркового сканування. Вміст також зберігається у форматі WARC. Інший пошуковий робот, Brozzler, використовує для збору сторінок браузер Google Chrome і пропонує ті ж переваги, що й Webrecorder, але під час сканування не потребує взаємодії з користувачем.
HTTrack дозволяє завантажувати копії вебсайтів на локальний комп'ютер, і згодом користувач може переглянути їх у браузері. Wget та аналогічний інструмент Wpull — універсальні інструменти командного рядка, які мають вбудовані функції сканування вебсторінок, подібні до функцій HTTrack. Wpull найкраще підходить для масштабного архівування.
Через динамічну структуру сайтів соціальних мереж для їх архівації потрібні спеціалізовані інструменти. Зазвичай вебархівування виконується за допомогою інтерфейсів прикладного програмування (API), які надають розробники. F(b)arc — інструмент командного рядка, який можна використати для архівування даних за допомогою Facebook Graph. Twarc — інструмент та бібліотека командного рядка, які спрощують використання API-інтерфейсів Twitter. Social Feed Manager дозволяє збирати дані з Twitter, Tumblr, Flickr та Sina Weibo.
Найчастіше для архівування використовують формати та . Більшість ініціатив використовують для підтримки повнотекстового пошуку рішення на основі Lucene, зокрема, NutchWAX або Solr, а для підтримки пошуку URL та відображення заархівованого контенту — Wayback Machine. Для читання та вилучення метаданих із файлів WARC використовують інструменти JWAT, node-warc, WARCAT, warcio та warctools.
Дозвіл
Чи підпорядковуватиметься організація стандарту винятків для роботів і чи запитуватиме дозвіл на архівування у власників сайту, залежить від багатьох факторів — виду контенту, масштабів вебархівування, правового середовища. Однак навіть при зверненні по дозвіл лише близько 30—50 % власників сайтів відгукуються на прохання.
Як правило, урядові організації, наділені законним правом зберігати публічні записи (наприклад, Національне управління архівів та документації (США) і національні архіви Великої Британії), не потребують дозволу на сканування. Згідно зі [en] від 2006 року, Національна бібліотека Франції може під час скануванні сайтів із національними доменами нехтувати robots.txt. Інші організації, такі як «Архів Інтернету», використовують принцип відмови — дані видаляються з колекції на прохання правовласників, які можуть довести авторські права, надавши опис матеріалу, контактні дані заявника і підписану заяву.
Метадані
Вебархіви зазвичай мають ієрархічну структуру — сеанс сканування захоплює багато сайтів, кожен з яких веде на окрему вебсторінку, яка містить відео, текст та файли зображень. Для кожного з «рівнів» генеруються метадані.
Підхід до створення метаданих залежить від масштабу та ресурсів, якими володіє організація. Так, великі вебархіви часто покладаються на автоматичне створення метаданих. Деякі метадані, зокрема час збору, код стану (наприклад, помилка 404 для не знайденого або 303 для перенаправлення), розмір у байтах, URI або тип MIME (наприклад, text/ HTML) пошукові роботи захоплюють автоматично. Інформацію також можна добути з метатегів HTML-сторінок.
Для невеликих вебархівів метадані можуть створюватися вручну. Літературний архів Каліфорнійського університету в Лос-Анджелесі використовує для генерування метаданих докладні нотатки, які створює персонал у процесі збирання та аналізу веб-сторінок. У вебархіві Національного університету Тайваню діє трирівнева ієрархічна класифікація. Метадані можуть також бути створені за допомогою користувацьких тегів, коментарів або оцінок.
Проблеми
Користувачі звертаються до вебархівів з різних причин — для досліджень, компіляції власної бази даних або перегляду старих версій окремих вебресурсів. Однак найчастіше доступ до таких колекцій ускладнений відсутністю загального пошуку в доступних базах даних і незручним інтерфейсом. Для доступу та обробки збереженої інформації часто потрібні технічні навички роботи зі спеціалізованими форматами файлів. Окремі дослідники вважають, що саме з цих причин посилання на вебархіви, як і раніше, рідко зустрічаються в наукових працях, а колекції — не вивчаються.
Колекція вебархіву може виявитися неповною або упередженою через неможливість заархівувати «закриті» сайти та/або непрофесійну розробку стратегій архівування — наприклад, коли архівують лише англомовні портали великих західних країн. Попри те, що частина архівів має юридичне право нехтувати стандарт винятків для роботів, колекції інших організацій суттєво обмежені через дотримання стандарту.
Автоматичне вебархівування через пошукові роботи дозволяє «захопити» багато інформації, проте деякі інтерактивні елементи JavaScript зберегти неможливо і архівна версія втрачає функціональність.
Примітки
- Chambers, 2019, с. 85—111.
- Veronique Greenwood (June 2020). The digital Dark Ages (англ.). Yale Alumni Magazine. оригіналу за 15 жовтня 2021. Процитовано 9 грудня 2021.
- Dan Greene (21 квітня 2021). The erosion of personal ownership (англ.). Vox. оригіналу за 26 вересня 2021. Процитовано 9 грудня 2021.
- Digital Domesday Book lasts 15 years not 1000 (англ.). The Guardian. 3 березня 2002. оригіналу за 20 січня 2013. Процитовано 11 грудня 2021.
- Veronique Greenwood (06-2020). The digital Dark Ages (англ.). Yale Alumni Magazine. оригіналу за 15 жовтня 2021. Процитовано 27 вересня 2021.
- Lamont Wood (26 серпня 2010). Fending off the digital dark ages: The archival storage issue (англ.). ComputerWorld. оригіналу за 26 січня 2021. Процитовано 11 грудня 2021.
- Giaretta, 2011.
- Panos, 2003.
- Adam Wernick (1 січня 2018). Scientists warn we may be creating a 'digital dark age' (англ.). The World. оригіналу за 16 серпня 2021. Процитовано 10 грудня 2021.
- Хартия о сохранении цифрового наследия (англ.). ООН. оригіналу за 23 серпня 2021. Процитовано 12 грудня 2021.
- Costa, 2017, с. 191—205.
- Toyoda, 2012, с. 1441—1443.
- To avoid a digital dark age, all stakeholders must put their heads together (англ.). The Times of India. 17 вересня 2020. оригіналу за 8 вересня 2021. Процитовано 27 вересня 2021.
- Lauren Maffeo (29 травня 2015). Google's Vint Cerf on how to prevent a digital dark age (англ.). The Guardian. оригіналу за 19 листопада 2021. Процитовано 27 листопада 2021.
- Dave Smith (20 лютого 2015). Father of the internet: 'If we don’t move now, we risk losing all the data we’ve created in the 21st century' (англ.). Business Insider. оригіналу за 19 листопада 2021. Процитовано 28 листопада 2021.
- Николай Удинцев (13 лютого 2015). Цитата дня: почему может начаться «цифровой Тёмный век» (англ.). Look at Me. оригіналу за 19 листопада 2021. Процитовано 28 листопада 2021.
- Adoghe, 2013, с. 598—603.
- Perkel, 2015, с. 111—112.
- Brown, 2006, с. 1—256.
- Rhodes, 2010, с. 581—597.
- White, 2019, с. 29—43.
- Bowers, 2021.
- Mitchell Clark (21 травня 2021). New research shows how many important links on the web get lost to time (англ.). The Verge. оригіналу за 20 червня 2021. Процитовано 10 жовтня 2021.
- Pennock, 2013.
- Nick Bilton (7 вересня 2011). The Lifespan of a Link (англ.). The New York Times. оригіналу за 28 вересня 2021. Процитовано 10 грудня 2021.
- Matthew Gault (17 липня 2015). The US Is Removing Records of Its War in Afghanistan From the Internet (англ.). Vice. Процитовано 11 грудня 2021.
- Роскомнадзор потребовал от СМИ удалить публикации о расследованиях "Проекта", признанного нежелательной организацией (рос.). BBC. 18 грудня 2021. оригіналу за 18 грудня 2021. Процитовано 20 грудня 2021.
- Тася Елфимова (18 грудня 2021). Роскомнадзор потребовал от The Village, «Медузы» и «Дождя» удалить десятки новостей по расследованиям «Проекта» (рос.). The Village. оригіналу за 18 грудня 2021. Процитовано 19 грудня 2021.
- Patel, 2020, с. 1—10.
- Балацкая, 2021, с. 12—16.
- Pretoro, 2013, с. 63—67.
- Single Sites Web Archive - Minerva - Library of Congress Web Archive (англ.). European History Primary Sources. оригіналу за 6 травня 2021. Процитовано 13 грудня 2021.
- Rockwell, 2020, с. 1—17.
- Mark Pesce (29 жовтня 2021). Archiving the World Wide Web (англ.). Cosmos. оригіналу за 25 листопада 2021. Процитовано 11 грудня 2021.
- Kimpton, 2006.
- Masanes, 1998, с. 201—212.
- Rory Carroll (26 квітня 2013). Brewster's trillions: Internet Archive strives to keep web history alive (англ.). The Guardian. оригіналу за 15 грудня 2021. Процитовано 11 грудня 2021.
- Wayback Machine (англ.). Wayback Machine. Процитовано 7 червня 2021.
- Trudel, 2005.
- Fund WebCite (http://www.webcitation.org) (англ.). FundRz. Процитовано 18 грудня 2021.
- Archive Now (archivenow) (англ.). GitHub. оригіналу за 20 грудня 2021. Процитовано 20 грудня 2021.
- FAQ (англ.). archive.ph. оригіналу за 27 жовтня 2021. Процитовано 10 грудня 2021.
- Salman Ravoof (3 листопада 2021). How to Archive a Website: Our Mammoth Guide to Saving Your Site (англ.). Kinsta. оригіналу за 5 листопада 2021. Процитовано 7 грудня 2021.
- Jason Koebler (29 жовтня 2014). Dear GamerGate: Please Stop Stealing Our Shit (англ.). Vice. оригіналу за 27 листопада 2021. Процитовано 7 грудня 2021.
- Martin Brinkmann (22 квітня 2015). Create publicly available web page archives with Archive.is (англ.). G Hacks. оригіналу за 12 квітня 2019. Процитовано 12 грудня 2021.
- (англ.). Web Page Archiving. Архів оригіналу за 22 вересня 2013. Процитовано 10 грудня 2021.
- Система электронного обязательного экземпляра в Великобритании (англ.). Информационно-аналитический журнал Университетская Книга. 21 вересня 2013. оригіналу за 24 жовтня 2020. Процитовано 18 грудня 2021.
- The Kulturarw3 Project (англ.). Jeremy Norman's History of Information. Процитовано 10 грудня 2021.
- NWA Toolset 1.1RC10 released (англ.). NWA. оригіналу за 26 квітня 2018. Процитовано 11 грудня 2021.
- History (англ.). Pandora. оригіналу за 4 червня 2020. Процитовано 11 грудня 2021.
- Webb, 2000, с. 154—172.
- George Nott (11 березня 2019). National Library launches 'enormous' archive of Australia's Internet (англ.). Computer World. оригіналу за 24 листопада 2021. Процитовано 10 грудня 2021.
- Niu, 2012.
- IWAW 2010 : The 10th Intl Web Archiving Workshop (англ.). WikiCfP. оригіналу за 27 квітня 2021. Процитовано 15 грудня 2021.
- International Internet Preservation Consortium (англ.). International Internet Preservation Consortium. оригіналу за 14 грудня 2021. Процитовано 14 грудня 2021.
- IIPC members (англ.). International Internet Preservation Consortium. оригіналу за 16 грудня 2021. Процитовано 13 грудня 2021.
- European archive (англ.). Library of Congress. Процитовано 13 грудня 2021.
- About DACHS (англ.). Bereichbibliother Ostaasien. оригіналу за 17 жовтня 2021. Процитовано 13 грудня 2021.
- Steve Bailey, Dave Thompson (2006). Building the UK's First Public Web Archive (англ.). D-lib Magazine. оригіналу за 23 листопада 2021. Процитовано 18 грудня 2021.
- Dooley, 2017, с. 1—15.
- Johan Steenbakkers. Presentations (англ.). European Library Automation Group. оригіналу за 29 грудня 2021. Процитовано 13 грудня 2021.
- Hakala, 2001, с. 211—216.
- Duncan Jefferies (9 березня 2012). Using web archives to preserve the past. The Guardian. оригіналу за 10 червня 2021. Процитовано 11 грудня 2021.
- Alam, 2020, с. 1—251.
- Broussard, 2021, с. 276.
- Chambers, 2019.
- Поврозник, 2020.
- Slania, 2013, с. 112—126.
- João Miranda. Web Harvesting and Archiving (англ.). Web Ist UTL. оригіналу за 29 грудня 2021. Процитовано 17 грудня 2021.
- Rumianek, 2013.
- Brunelle, 2012.
- Pretoro, 2013.
- Preserving the Web (англ.). Digital Preservation Online. оригіналу за 14 вересня 2021. Процитовано 17 грудня 2021.
- Mohr, 2004, с. 1—15.
- Justin Kulesza. How to Archive a Website (англ.). Atomic Object. оригіналу за 23 червня 2016. Процитовано 14 грудня 2021.
- The command I use to archive a single website (англ.). GitHub. оригіналу за 23 грудня 2021. Процитовано 15 грудня 2021.
- Michel, 2021, с. 107—128.
- Редькина, 2019, с. 52.
- internetarchive/brozzler (англ.). GitHub. оригіналу за 10 грудня 2021. Процитовано 16 грудня 2021.
- Путеводитель по offline-браузерам. Часть 2. IXBT.com. оригіналу за 2 серпня 2019. Процитовано 17 грудня 2021.
- Legal issues (англ.). International Internet Preservation Consortium. оригіналу за 16 грудня 2021. Процитовано 16 грудня 2021.
- Berčič, 2005, с. 17—24.
- Brown, 2006.
- Olson, 2009, с. 181—196.
- Ayala, 2021, с. 89—106.
- Brügger, 2017, с. 45—61.
- Rogers, 2019, с. 49.
- Niels, 2021, с. 145—168.
- Kalev Leetaru (7 травня 2019). Why Web Archives Need To Engage With Researchers (англ.). Forbes. оригіналу за 29 грудня 2021. Процитовано 11 грудня 2021.
- Kalev Leetaru (24 лютого 2017). Are Web Archives Failing The Modern Web: Video, Social Media, Dynamic Pages and The Mobile Web. Forbes. оригіналу за 29 грудня 2021. Процитовано 11 грудня 2021.
Література
- Adoghe A., Onasoga K., Dike D., Ajayi O. Web-Archiving: techniques, challenges, and solutions : ( )[англ.]. — 2013. — Vol. 5, no. 3. — С. 598—603.
- Alam S. Mementomap: a web archive profiling framework for efficient memento routing : ( )[англ.]. — 2020.
- Ayala B. When expectations meet reality: common misconceptions about web archives and challenges for scholars : ( )[англ.] // International Journal of Digital Humanities. — 2021. — No. 2. — С. 89—106.
- Berčič B. Protection of Personal Data and Copyrighted Material on the Web: The Cases of Google and Internet Archive : ( )[англ.] // Communications Technology Law. — 2005. — Vol. 14, no. 1. — С. 17—24. — DOI:10.1080/1360083042000325283.
- Brown A. Archiving websites a practical guide for information management professionals : ( )[англ.]. — Facet publishing. — 2006. — 256 с. — .
- Brügger N., Schroeder R. Live versus archive: Comparing a web archive to a population of web pages : ( )[англ.]. — 2017. — С. 45—61. — DOI:10.2307/j.ctt1mtz55k.8.
- Brügger N. Digital humanities and web archives: Possible new paths for combining datasets : ( )[англ.] // International Journal of Digital Humanities. — 2021. — No. 2. — С. 145—168.
- Broussard M. Archiving Data Journalism : ( )[англ.] // Yhe Data Journalism Handbook. — 2021. — С. 274—278. — DOI:10.2307/j.ctv1qr6smr.40.
- Brunelle J., Nelson M. Evaluating the SiteStory Transactional Web Archive With the Tool : ( )[англ.] // ArXiv.org. — 2012.
- Costa M., Gomes D., Silva M. The evolution of web archiving : ( )[англ.] // Int J Digit Libr. — 2017. — No. 18. — С. 191—205. — DOI:10.1007/s00799-016-0171-9.
- Dooley J.M., Farrell K., Kim T., Venlet J. Developing Web Archiving Metadata Best Practices to Meet User Needs : ( )[англ.] // Journal of Western Archives. — 2017. — Vol. 8, no. 2.
- Hakala J. The NEWLIB harvester : ( )[англ.] // Zeitschrift für Bibliothekswesen und Bibliographie. — 2001. — Vol. 48, no. 3. — С. 211—216.
- Giaretta D. Avoiding a Digital Dark Age for data: why publishers shoudl care about digital preservation : ( )[англ.] // Learned Publishing. — 2011. — С. 1—18.
- Kimpton M., Ubois J. Year-by-Year: From an Archive of the Internet to an Archive on the Internet // Web Archiving. — 2006. — С. 201—212.
- Masanes J. Web Archiving : ( )[англ.]. — Springer. — 1998. — С. 1—234. — .
- Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. An Introduction to Heritrix. An open source archival quality web crawler // 4th International Web Archiving Workshop. — 2004. — С. 1—15.
- Niu J. An Overview of Web Archiving : ( )[англ.] // School of Information Faculty Publications. — 2012. — С. 1—13. — DOI:10.1045/march2012‐niu1.
- Ogden J., Maemura E. ‘Go fish’: Conceptualising the challenges of engaging national web archives for digital research : ( )[англ.] // International Journal of Digital Humanities. — No. 2. — С. 43—63. — DOI:10.1007/s42803-021-00032-5.
- Olson J. Chapter 14 - The Archive Data Store : ( )[англ.] // Database Archive. — 2009. — С. 181—196. — DOI:10.1016/B978-0-12-374720-4.00014-5.
- Panos P. The Internet Archive: An End to the Digital Dark Age : ( )[англ.] // Journal of Social Work Education. — 2003. — Vol. 39, no. 2. — С. 343—347. — DOI:10.1080/10437797.2003.10779139.
- Patel K., Phillips M., Caragea C., Fox N. Identifying Documents In-Scope of a Collection from Web Archives : ( )[англ.] // arXiv. — 2020.
- Pennock M. Web-Archiving : ( )[англ.]. — DPC Technology Watch Report 13-01 March 2013. — 2013. — DOI:10.7207/twr13-01.
- Perkel, J. The trouble with reference rot. : ( )[англ.] // Nature. — 2015. — No. 521. — С. 111—112. — DOI:10.1038/521111a.
- Pretoro E., Geeraert F., Soyez S. Behind the scenes of web archiving metadata of harvested websites : ( )[англ.] // Trust and Understanding: the value of metadata in a digitally joined-up world. — 2013. — С. 63—74.
- Rhodes S. Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability : ( )[англ.] // Law Library Journal. — 2010. — Vol. 102, no. 4. — С. 581—597.
- Rockwell G., Tchoh B. Archiving Database Driven Websites for Future Digital Archaeologists: The Archiving of TAPoR : ( )[англ.] // CSDH-SCHN 2020. — 2020. — DOI:10.17613/v412-8896.)
- Rogers R. Periodizing Web Archiving: Biographical, Event-Based, National and Autobiographical Traditions : ( )[англ.] // The SAGE Handbook of Web History. — 2019. — С. 42—57.
- Rumianek M. Archiving and Recovering Database-driven Websites : ( )[англ.] // D-Lib Magazine. — 2013. — Vol. 19, no. 1/2. — DOI:10.1045/january2013-rumianek.
- Slania H. Online Art Ephemera: Web Archiving at the National Museum of Women in the Arts : ( )[англ.] // Art Documentation: Journal of the Art Libraries Society of North America. — 2013. — Vol. 32, no. 1. — С. 112—126.
- Toyoda M., Kitsuregawa M. The History of Web Archiving : ( )[англ.] // Invited Paper. — 2012. — DOI:10.1109/JPROC.2012.2189920.
- Eysenbach G., Trudel M. Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages // J Med Internet Resources. — 2005. — DOI:10.2196/jmir.7.5.e60.
- Zittrain J., Bowers J., Stanton C. The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift within The New York Times : ( )[англ.] // Library Innovation Lab. — 2021.
- Webb C. Because It Belongs to All of Us: National Arrangements for Digital Preservation in Australian Libraries : ( )[англ.] // Australian Academic & Research Libraries. — 2000. — С. 154—172. — DOI:10.1080/00048623.2000.10755132.
- Vlassenroot E., Chambers S., Mechant P. Web archives as a data resource for digital scholars : ( )[англ.] // International Journal of Digital Humanities. — 2019. — Vol. 1, no. 85. — С. 85—111. — DOI:10.1007/s42803-019-00007-7.
- Vlassenroot E.,Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J. Web-archiving and social media: an exploratory analysis : ( )[англ.] // International Journal of Digital Humanities. — 2021. — Vol. 2. — С. 107—128.
- White J. Link Rot, Reference Rot, and Link Resolves : ( )[англ.] // New Top Technologies Every Librarian Needs to Know. — 2019. — С. 29—43.
- Балацкая Н.М., Мартиросова М.Б. Веб-архивирование как задача национальной и краеведческой библиографии : ( )[рос.] // Библиосфера. — 2021. — № 3. — С. 12—17.
- Поврозник Г.Г. Веб-архивы в реконструкции истории виртуальных музеев: потенциал и ограничения : ( )[рос.] // Вестник Пермского Университета. — 2020. — Т. 51, вып. 4. — С. 95—102.
- Редькина Н.С. Мировые тенденции развития библиотек. Оптимизм vs пессимизм (по материалам зарубежной литературы) : ( )[рос.] // Библиосфера. — 2019. — Вып. 1. — С. 49—58.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Arhivuva nnya vebsa jtiv vebarhivuva nnya angl web archiving proces zbirannya ta dublyuvannya vebstorinok ta cilih sajtiv z metoyu zberezhennya informaciyi ta dostupu do neyi u majbutnomu yaksho dzherelo viyavitsya nedostupnim Peredumovami rozvitku vebarhivuvannya stali problemi vimirannya posilan i potencijnij nastup cifrovih temnih stolit 1996 roku stvoreno Arhiv Internetu pershu nekomercijnu organizaciyu yaka postavila sobi za metu stvoriti znimki vsih storinok v interneti 2001 roku Arhiv zapustiv servis iz arhivuvannya sajtiv Wayback Machine cherez yakij stanom na 2021 rik bulo zberezheno ponad 600 mlrd vebstorinok Vid pochatku 2000 ih rokiv praktiki zberezhennya vebsajtiv aktivno vprovadzhuyut u bagatoh krayinah zokrema j na derzhavnomu rivni Pri comu diyut majdanchiki dlya rozrobki standartiv ta zagalnih praktik u sferi vebarhivuvannya napriklad Mizhnarodnij seminar arhivuvannya internetu IWAW vid 2001 go ta en vid 2003 go Najchastishe informaciyu zi statichnih sajtiv zbirayut za dopomogoyu poshukovih robotiv napriklad en Webrecorder HTTrack yaki nadsilayut HTTP zapiti na vebserveri i zahoplyuyut peredavanij kontent zi vsima giperposilannyami z proskanovanih vebstorinok Natomist skripti shabloni ta kontent dinamichnih sajtiv zberigayutsya na vebserverah yak okremi resursi tomu arhivuvati taki portali znachno skladnishe Proces maye dva osnovni etapi zberezhennya fajlovih danih zi strukturi katalogiv vebsajtu ta podalshe arhivuvannya informaciyi z bazi danih ViznachennyaTermini vebarhivuvannya ta vebzberezhennya angl web preservation chasto vikoristovuyut yak vzayemozaminni prote mizh nimi isnuye vazhliva vidminnist pershij viznachaye ves proces zberezhennya internet resursu a drugij lishe odin z etapiv en viznachaye vebarhivuvannya yak proces zbirannya chastin vsesvitnoyi pavutini zberezhennya kolekcij v arhivnomu formati ta podalshe obslugovuvannya arhiviv z metoyu nadannya do nih dostupu ta vikoristannya PeredumoviKomp yuternij terminal iz lazernim diskom sho mistit informaciyu proyektu BBC Domesday Project 1986 roku Vid pochatku 1990 ih rokiv stvorennya zberigannya ta poshirennya informaciyi vidbuvayetsya perevazhno v cifrovomu seredovishi Vzhe do seredini 1990 ih rokiv pochali stariti ranishe populyarni nosiyi informaciyi taki yak magnitni strichki disketi zip nakopichuvachi ta kompakt diski a dostup do starih fajlovih formativ uskladnivsya Stali znikati bagato velikih baz danih yaki ne bulo skopijovano na inshi nosiyi chi produblovano na paperi Tak usi dani velikomasshtabnogo proyektu BBC Domesday Project provedenogo v 1980 ti roki za uchastyu ponad miljon osib bulo zapisano na kilka diskiv yaki do pochatku 2000 ih rokiv abo poshkodilis abo buli vtracheni Povsyudna vtrata danih prizvela do togo sho okremi doslidniki pochali obgovoryuvati potencijne nastannya cifrovih temnih stolit angl digital dark age periodu sho harakterizuyetsya praktichno povnoyu vidsutnistyu pisemnih svidchen Deyaki doslidniki nazivayut XXI stolittya informacijnoyu chornoyu diroyu cherez poboyuvannya sho programne zabezpechennya ta komp yuteri majbutnogo ne zmozhut vidtvoriti stvorenih ranishe danih 2003 roku YuNESKO vipustila Hartiyu pro zberezhennya cifrovoyi spadshini yaka viznachaye vazhlivist rezervaciyi cifrovih danih vtrata yakih mozhe prizvesti do zbidnennya lyudskoyi spadshini 2015 roku iz zayavoyu pro te sho lyudstvo ruhayetsya do cifrovih temnih stolit vistupiv amerikanskij uchenij i vice prezident Google Vinton Serf Inshoyu peredumovoyu dlya rozvitku vebarhivuvannya ye vimirannya posilan situaciya koli storinki stayut nedostupnimi za poperednimi URL abo zminyuyetsya yih zmist Analiz yakij proveli 2017 roku portugalski doslidniki pokazav sho blizko 80 internet storinok nedostupni v pochatkovomu viglyadi vzhe cherez rik pislya opublikuvannya pri comu 13 posilan u naukovih stattyah znikali v serednomu cherez 27 misyaciv 2021 roku vcheni yuridichnogo fakultetu Garvardskogo universitetu razom iz zhurnalistami The New York Times NYT proanalizuvali zhittyezdatnist posilan u bilsh nizh 550 tisyachah vipushenih NYT onlajn publikaciyah u period za 2000 2017 roki blizko chverti vikoristanih URL adres vimerli Serednya trivalist zhittya vebstorinki stanovit 44 100 dniv a na sajtah novin i v socialnih merezhah informaciya mozhe znikati she shvidshe Informaciya v interneti mozhe znikati i z inshih prichin Tak 2015 roku Derzhavnij departament SShA i Agentstvo SShA z mizhnarodnogo rozvitku iniciyuvali vidalennya materialiv pro vijnu v Afganistani z metoyu vberegti tih hto spivpracyuvav z amerikanskoyu vladoyu vid peresliduvannya z boku talibiv Inshij priklad visunuti v grudni 2021 roku vimogi Roskomnadzoru vidaliti z nizki rosijskih ZMI materiali pro rozsliduvannya vidannya en yake ranishe viznano nebazhanoyu organizaciyeyu Vidbir dzherelPochinayuchi vid 1980 ih rokiv okremi arhivi ta biblioteki pochali zberigati elektronni resursi z metoyu zadokumentuvati hroniku aktualnih podij Odnak vidpravnoyu tochkoyu vebarhivuvannya vvazhayut stvorennya 1996 roku Arhivu Internetu nekomercijnoyi organizaciyi sho postavila ambitnu metu zberegti vsi veb storinki vsogo internetu yakih na toj moment bulo vidnosno nebagato Naprikinci 1990 ih na pochatku 2000 ih rokiv uryadi bagatoh rozvinenih krayin stali vprovadzhuvati praktiki vebarhivuvannya poklavshi vidpovidalnist za yih vedennya na nacionalni biblioteki yaki mayut neobhidnij dosvid ta zasobi dlya arhivuvannya Do 2000 roku nacionalni vebarhivi z yavilisya v bagatoh krayinah zokrema u Velikij Britaniyi Novij Zelandiyi SShA ta Chehiyi Vidtodi kilkist proyektiv iz vebarhivuvannya zrostaye 2011 roku u sviti diyalo 42 programi bilshist iz yakih zbirali regionalni vebdzherela Doslidzhennya 2020 roku pokazalo eksponentne zrostannya kilkosti ustanov sho mayut vlasni repozitoriyi robotu yakih pidtrimuyut najnyati fahivci ta specializovane obladnannya Bilshist takih repozitoriyiv popovnyuyetsya za principom samoarhivuvannya avtori samostijno rozmishuyut tam svoyi materiali Na 2019 rik vebarhivi na nacionalnomu rivni zaprovadzheno praktichno u vsih krayinah Yevropejskogo Soyuzu najchastishe u ramkah roboti nacionalnih bibliotek Organizaciyi Arhiv Internetu Serveri Arhivu Internetu 2008 rik Bryuster Kejl u 2009 roci Pershoyu najbilshoyu iniciativoyu z veb arhivuvannya stav Arhiv Internetu nekomercijna organizaciya stvorena 1996 roku dlya zberezhennya vsih rozmishenih v interneti materialiv Tvorcem stav amerikanskij programist Bryuster Kejl yakij odnochasno zapustiv Arhiv i komercijnu sistemu vebarhivuvannya Alexa Internet 1997 roku vin rozrobiv brauzernij plagin cherez yakij Alexa Internet avtomatichno viznachala i zberigala v Arhiv cinni veb storinki ranzhuyuchi yih za kilkistyu vidviduvan perehresnih posilan i klacan Vid 1998 roku kilkist storinok dlya arhivuvannya zrostala vdvichi kozhni 3 6 misyaciv 24 zhovtnya 2001 roku Arhiv Internetu zapustiv servis Wayback Machine cherez yakij koristuvachi mogli otrimati dostup do bilsh nizh 10 mlrd zaarhivovanih veb storinok Todi dani zberigalisya na serverah Hewlett Packard i uslab com i keruvalisya cherez operacijni sistemi FreeBSD i Linux Na 2021 rik kolekciya Arhivu Internetu mistila bagato pidkolekcij arhivovanih veb sajtiv ocifrovanih knig audio ta video fajliv igor programnogo zabezpechennya pri comu kilkist zaarhivovanih vebstorinok sklala ponad 622 mlrd WebCite Servis WebCite zapushenij 2003 roku stav pershim instrumentom vebarhivuvannya sho dozvolyaye koristuvacham zberigati vebsajti za zapitom Vin shvidko nabrav populyarnosti i vzhe na 2005 rik blizko 200 zhurnaliv prosili avtoriv pered nadsilannyam rukopisiv arhivuvati vikoristovuvani vebstorinki cherez WebCite Servis ne vikoristovuye poshukovih robotiv dlya zahoplennya storinok arhivuvannya vidbuvayetsya bezposeredno za zapitom koristuvacha 2013 roku WebCite buv pid zagrozoyu zakrittya cherez brak finansuvannya prote zavdyaki publichnij kampaniyi zi zboru koshtiv tvorcya Gyuntera Ajzenbaha portal prodovzhuvav svoyu robotu she shist rokiv Vid 2019 roku vin stav dostupnim lishe dlya chitannya ta pripiniv prijmati zapiti na arhivuvannya Archive today Servis archive today sposatku archive is zapustila 2012 roku odnojmenna nekomercijna organizaciya Proyekt finansuyut privatni sponsori Tak samo yak i WebCite archive today zberigaye vebstorinki za zapitami koristuvachiv rozmishuyuchi u vidkritomu dostupi robochu kopiyu vebstorinki ta znimok ekrana zi statichnoyu vizualizaciyeyu storinki u formati PNG Rozmir zaarhivovanoyi storinki z usima zobrazhennyami ne mozhe perevishuvati 50 MB Tvorci archive today takozh zapustili rozshirennya dlya brauzera Mozilla Firefox yake avtomatichno zberigaye i vikladaye u spilnij dostup kopiyu kozhnoyi vebstorinki yaku koristuvach dodav u zakladki Nacionalni biblioteki U bilshosti rozvinenih krayin diyut zakoni pro obov yazkovij primirnik yaki pokladayut yuridichnu vidpovidalnist na nacionalni biblioteki zberigati odin primirnik kozhnogo opublikovanogo v cij krayini drukovanogo vidannya Z rozvitkom zasobiv elektronnoyi komunikaciyi diyu zakonu poshirili i na veb sajti Tak zgidno iz en en ta en zobov yazani zberigati vsi vazhlivi postanovi uryadu Velikoyi Britaniyi Oskilki chinovniki vse chastishe publikuyut svoyi zviti v interneti vebarhiv shomisyacya vidviduyut ponad 100 mln koristuvachiv stanom na 2013 rik 1996 roku Nacionalna biblioteka Shveciyi iniciyuvala proekt Kulturar u ramkah yakogo zdijsnyuvalosya velikomasshtabne zberezhennya vsiyeyi shvedskoyi merezhi domeniv Na pochatku 2005 roku zibrano ponad 350 000 vebsajtiv abo blizko 10 terabajt danih zavdyaki chomu vebarhiv stav najbilshim na toj moment u sviti 1997 roku stvoreno spilnu iniciativu nacionalnih bibliotek Daniyi Finlyandiyi Islandiyi Norvegiyi Shveciyi pid nazvoyu Nordic Web Archive NWA V ramkah NWA velasya rozrobka instrumentiv ta obgovoryuvalisya metodi vebarhivuvannya dlya skandinavskih krayin 2004 roku NWA vipustiv programnij pakunok dlya dostupu do arhivovanih vebdokumentiv yakij zgodom lig v osnovu en Toolkit Cogo zh roku Nacionalna biblioteka Avstraliyi zapustila en proyekt zberezhennya elektronnih resursiv Avstraliyi 2019 roku kolekciya Pandora uvijshla do en odnogo z najbilshih nacionalnih vebarhiviv u sviti Kolaboraciyi Logotip Mizhnarodnogo konsorciumu zberezhennya Internetu Logotip proyektu Internet Memory Foundation zakritogo 2018 roku 2001 roku stvoreno Mizhnarodnij seminar arhivuvannya Internetu IWAW majdanchik dlya obminu doslidzhennyami ta dosvidom u sferi vebarhivuvannya a 2003 go z iniciativi Arhivu Internetu zasnovano en IIPC u ramkah yakogo rozroblyayutsya standarti ta zasobi vebarhivuvannya Krim Arhivu do skladu IIPC uvijshli nacionalni biblioteki Franciyi Avstraliyi Kanadi Daniyi Finlyandiyi Islandiyi Italiyi Norvegiyi Shveciyi Velikoyi Britaniyi SShA 2008 roku v ramkah IIPC rozrobleno en abo WARC format fajliv dlya arhivuvannya vebresursiv Na 2021 rik u IIPC perebuvalo bilshe 50 chleniv Organizaciyi chasto spivpracyuyut dlya stvorennya ob yednanih veb arhiviv Tak vid 2004 do 2018 roku diyav Yevropejskij cifrovij arhiv zgodom perejmenovanij na en yakij zbiraye elektronni dokumenti v krayinah Yevropejskogo Soyuzu Sered inshih do jogo skladu vhodili Nacionalni arhivi Velikoyi Britaniyi Tovaristvo imeni Maksa Planka Berlinskij tehnichnij universitet Sautgemptonskij universitet en Na pochatku 2000 ih rokiv departamenti kitayeznavstva Gejdelberzkogo ta Lejdenskogo universitetiv spilno zapustili vebarhiv DACHS sho mistit elektronni materiali z sinologiyi Konsorciumi NWA ta UKWAC provodili programi spilnogo zboru danih u partnerstvi z inshimi organizaciyami Naprikinci 1990 ih rokiv Yevropejska komisiya profinansuvala stvorennya Networked European Deposit Library NEDLIB proektu zi zbirannya opisuvannya zberigannya ta vidkrittya dostupu do zberezhenih yevropejskih vebsajtiv Vipushenij 2000 roku NEDLIB Harvester stav odnim iz pershih poshukovih robotiv specialno stvorenih dlya arhivuvannya danih Zgodom jogo vikoristovuvali v nizci proyektiv zokrema dlya zboru danih iz niderlandskih estonskih ta islandskih vebdomeniv U lipni 2011 roku Nacionalnij arhiv Velikoyi Britaniyi spilno z Internet Memory Foundation zapustili pilotnij proyekt z vebarhivuvannya cifrovih danih dlya miscevih organiv vladi Proyekt diyav u semi arhivah municipalnih utvoren sho ohoplyuyut ponad 20 miscevih organiv vladi Personal projshov bezkoshtovne navchannya zi stvorennya kuratorskogo vebarhivu dlya svoyeyi galuzi Universiteti rozvinenih krayin takozh berut uchast u rozvitku vebarhivuvannya Napriklad u Michiganskomu Indianskomu Kalifornijskomu Illinojskomu ta inshih universitetah proponuyut kursi z navchannya arhivuvannyu cifrovih materialiv a kilka ustanov stvorili dlya doslidnih cilej vlasni vebarhivi Stanford WebBase Archive Stenfordskij universitet Socio Sense Tokijskij universitet vebinformacijnij centr Pekinskij universitet Vidbir dzherelPered pochatkom arhivuvannya kozhna organizaciya viznachaye kriteriyi vidboru dzherel Takih kriteriyiv mozhe buti odin abo dekilka zalezhno vid rozmiru ta cilej organizaciyi Deyaki veb arhivi taki yak Arhiv Internetu mayut na meti zibrati vsi mozhlivi vebstorinki takij pidhid nazivayut neselektivnim abo shirokim skanuvannyam V jogo osnovi lezhit princip vzayemopov yazanosti vsesvitnogo pavutinnya zgidno z yakim po spravzhnomu zberegti yakus temu mozhna lishe zibravshi vsi nayavni vebstorinki oskilki voni pov yazani mizh soboyu Krim cogo vidbir vebsajtiv ye dorogim i trudomistkim procesom yakij takozh mozhe prizvesti do sub yektivnoyi vibirki Odnak pidhid Arhivu vvazhayut nezdijsnennim na praktici zberezhennya vsih storinok nemozhlive cherez obmezhennya pov yazani z avtorskim pravom i navit Arhiv Internetu zberigaye lishe dostupni gromadskosti materiali Alternativoyu neselektivnogo pidhodu do vidboru ye vibirkovij pidhid abo vibir resursiv gruntuyuchis na yih vidpovidnosti pevnim kriteriyam domenu napriklad gov abo edu temi podiyi tipu multimedia abo zhanru Vibirkovij pidhid chasto poyednuyut iz praktikami shirokogo skanuvannya napriklad yaksho organizaciya arhivuye vsi portali z pevnim domennim im yam Tak Nacionalna biblioteka Shveciyi vid 1996 roku zbiraye vsi vebsajtiv z domenom se a Nacionalna biblioteka Velikoyi Britaniyi arhivuye veb sajti z domenami gov uk org uk ta co uk Biblioteka NASA Centru kosmichnih polotiv Goddarda zberigaye vsi vebstorinki z domennim im yam Centru Golovnoyu perevagoyu vibirkovogo arhivuvannya ye te sho takij pidhid dozvolyaye stvoriti bilsh kerovani za rozmirom kolekciyi pov yazanih resursiv Vibirkovij pidhid zastosovuyut dlya stvorennya tematichnih kolekcij Napriklad DACHS zbiraye socialni ta kulturni resursi zi sinologiyi a Biblioteka Kongresu spilno z Arhivom Internetu skompilyuvala vebarhivi pro prezidentski vibori v SShA ta podiyi 11 veresnya 2001 roku Britanska biblioteka specializuyetsya na vebsajtah sho stanovlyat cinnist dlya nacionalnoyi kulturi Takij pidhid zastosovuye i proyekt Pandora Nacionalnoyi biblioteki Avstraliyi 2006 roku Arhiv Internetu zapustiv servis Archive It zi stvorennya tematichnih vebkolekcij yakim chasto koristuyutsya okremi organizaciyi napriklad en Deyaki organizaciyi arhivuyut resursi zvazhayuchi na tip dzherel Tak biblioteka Centru kosmichnih polotiv Goddarda unikaye skanuvannya velikih videofajliv ta programnih produktiv Navpaki inshi proyekti vebarhivuyut video na Youtube abo zbirayut blogi virtualni gazeti napriklad Nacionalna biblioteka Franciyi stvorila okremu vebkolekciyu dlya Zhivih Zhurnaliv Zbir danihStatichni sajti Sho prostishij i statichnishij sajt to legshe jogo arhivuvati kopiyi danih zavantazhuyutsya z vebservera u viglyadi fajliv yaki zgodom mozhna peretvoriti na inshi formati Proces avtomatichnogo zbirannya vebstorinok cherez poshukovi roboti nazivayut skanuvannyam angl web harvesting Robotu peredayut spisok URL adres za yakimi vin nadsilaye HTTP zapiti na vebserveri i zahoplyuye peredanij kontent i vsi giperposilannya z proskanovanih vebstorinok Potim avtomatizovane PZ peretvoryuye informaciyu u format WARC i rezultatom ye fajl yakij mozhna vidtvoriti napriklad za dopomogoyu Wayback Machine Prikladi poshukovih robotiv rozroblenij Arhivom Internetu 2004 roku en a takozh HTTrack i Wget Merezha skaneriv dozvolyaye organizaciyam zberigati kopiyi vibranih sajtiv z deyakoyu periodichnistyu napriklad shodnya abo shorichno Dlya bilsh tochkovogo arhivuvannya vikoristovuyut instrumenti menshogo masshtabu napriklad HTTrack yakij dozvolyaye zavantazhuvati kopiyi vebsajtiv na lokalnij komp yuter Dinamichni sajti Arhivuvati dinamichni sajti znachno skladnishe nizh statichni oskilki kontent skripti ta shabloni zberigayutsya na vebserveri yak okremi resursi a viglyad ta vmist storinki formuyetsya zalezhno vid brauzera kliyenta ta nalashtuvan servera Na vidminu vid statichnih veb sajtiv avtomatichnogo obroblennya HTTP zapitu nedostatno oskilki z boku servera sajt generuye kontent vikoristovuyuchi bazu danih Tomu zberezhennya takih resursiv vidbuvayetsya u dva etapi zberezhennya fajlovih danih sho znahodyatsya v strukturi katalogiv veb sajtu ta arhivuvannya informaciyi bazi danih Dlya dinamichnih sajtiv vikoristannya poshukovih robotiv maye obmezhennya Do instrumentiv veb arhivuvannya dinamichnogo kontentu vidnosyat programne zabezpechennya Software Independent Archiving of Relational Databases SIARD rozroblene Shvejcarskim federalnim arhivom ta DeepArc Nacionalnoyi biblioteki Franciyi SIARD avtomatichno analizuye ta vidobrazhaye strukturu pochatkovoyi bazi danih Potim vin eksportuye strukturu v tekstovij fajl sho mistit viznachennya danih opisane z vikoristannyam SQL mizhnarodnogo standartu dlya opisu relyacijnih baz danih Zgodom vmist eksportuyetsya yak zvichajnij tekstovij fajl a metadani zberigayutsya yak XML dokument Arhivuvannya socialnih merezh Pershi proyekti z arhivuvannya socialnih merezh pochali z yavlyatisya vid 2008 roku yak sistematichne shiroke skanuvannya platform Tak en rozpochala robotu zi stvorennya arhivu povidomlen opublikovanih u Tvitteri a Nacionalna biblioteka Franciyi skanuvala Facebook Odnak cherez velikij obsyag kontentu vidsutnist tehnichnih standartiv zi zboru ta zberigannya informaciyi a takozh postijni zmini tehnichnih detalej roboti portaliv zgodom organizaciyi pochali zastosovuvati vibirkovij pidhid do vebarhivuvannya socialnih merezh ta zberigati povidomlennya lishe pro konkretni podiyi abo nadzvichajni situaciyi Okremi organizaciyi napriklad Nacionalna biblioteka Franciyi abo Nacionalna biblioteka Kanadi zapustili bezperervne avtomatizovane zbirannya novin ta kontentu socialnih merezh shob ne upustiti reakciyu lyudej na neperedbacheni podiyi Vibirka zdijsnyuyetsya za zadanimi heshtegami abo klyuchovimi slovami za pevnij period abo na konkretnij platformi Instrumenti Skrinshot instrumentu Wget Dlya zbirannya vebsajtiv vikoristovuyut rizni instrumenti vebarhivuvannya Najchastishe zustrichayetsya poshukovij robot Heritrix dostupnij za licenziyeyu vilnogo programnogo zabezpechennya vebskaner zagalnogo priznachennya rozroblenij z urahuvannyam zavdan vebarhivuvannya Heritrix zberigaye fajli u formati WARC i dobre pidhodit dlya velikomasshtabnih operacij skanuvannya odnak menshoyu miroyu zahoplyuye dinamichni sajti abo storinki v socialnih merezhah Rozroblenij na osnovi Heritrix NetarchiveSuite maye dodatkovi funkciyi shodo dovgostrokovogo zberigannya ta dostupu do materialiv Webrecorder vikoristovuye dlya zbirannya vmistu vebsajtiv brauzer tim samim virishuyuchi chasti problemi inshih poshukovih robotiv zahoplennya dinamichnogo kontentu Adobe Flash multimedia Programa zapisuye vebstorinki pid chas yih pereglyadu tomu dobre pidhodit dlya vibirkovogo skanuvannya Vmist takozh zberigayetsya u formati WARC Inshij poshukovij robot Brozzler vikoristovuye dlya zboru storinok brauzer Google Chrome i proponuye ti zh perevagi sho j Webrecorder ale pid chas skanuvannya ne potrebuye vzayemodiyi z koristuvachem HTTrack dozvolyaye zavantazhuvati kopiyi vebsajtiv na lokalnij komp yuter i zgodom koristuvach mozhe pereglyanuti yih u brauzeri Wget ta analogichnij instrument Wpull universalni instrumenti komandnogo ryadka yaki mayut vbudovani funkciyi skanuvannya vebstorinok podibni do funkcij HTTrack Wpull najkrashe pidhodit dlya masshtabnogo arhivuvannya Cherez dinamichnu strukturu sajtiv socialnih merezh dlya yih arhivaciyi potribni specializovani instrumenti Zazvichaj vebarhivuvannya vikonuyetsya za dopomogoyu interfejsiv prikladnogo programuvannya API yaki nadayut rozrobniki F b arc instrument komandnogo ryadka yakij mozhna vikoristati dlya arhivuvannya danih za dopomogoyu Facebook Graph Twarc instrument ta biblioteka komandnogo ryadka yaki sproshuyut vikoristannya API interfejsiv Twitter Social Feed Manager dozvolyaye zbirati dani z Twitter Tumblr Flickr ta Sina Weibo Najchastishe dlya arhivuvannya vikoristovuyut formati ta Bilshist iniciativ vikoristovuyut dlya pidtrimki povnotekstovogo poshuku rishennya na osnovi Lucene zokrema NutchWAX abo Solr a dlya pidtrimki poshuku URL ta vidobrazhennya zaarhivovanogo kontentu Wayback Machine Dlya chitannya ta viluchennya metadanih iz fajliv WARC vikoristovuyut instrumenti JWAT node warc WARCAT warcio ta warctools DozvilChi pidporyadkovuvatimetsya organizaciya standartu vinyatkiv dlya robotiv i chi zapituvatime dozvil na arhivuvannya u vlasnikiv sajtu zalezhit vid bagatoh faktoriv vidu kontentu masshtabiv vebarhivuvannya pravovogo seredovisha Odnak navit pri zvernenni po dozvil lishe blizko 30 50 vlasnikiv sajtiv vidgukuyutsya na prohannya Yak pravilo uryadovi organizaciyi nadileni zakonnim pravom zberigati publichni zapisi napriklad Nacionalne upravlinnya arhiviv ta dokumentaciyi SShA i nacionalni arhivi Velikoyi Britaniyi ne potrebuyut dozvolu na skanuvannya Zgidno zi en vid 2006 roku Nacionalna biblioteka Franciyi mozhe pid chas skanuvanni sajtiv iz nacionalnimi domenami nehtuvati robots txt Inshi organizaciyi taki yak Arhiv Internetu vikoristovuyut princip vidmovi dani vidalyayutsya z kolekciyi na prohannya pravovlasnikiv yaki mozhut dovesti avtorski prava nadavshi opis materialu kontaktni dani zayavnika i pidpisanu zayavu MetadaniVebarhivi zazvichaj mayut iyerarhichnu strukturu seans skanuvannya zahoplyuye bagato sajtiv kozhen z yakih vede na okremu vebstorinku yaka mistit video tekst ta fajli zobrazhen Dlya kozhnogo z rivniv generuyutsya metadani Pidhid do stvorennya metadanih zalezhit vid masshtabu ta resursiv yakimi volodiye organizaciya Tak veliki vebarhivi chasto pokladayutsya na avtomatichne stvorennya metadanih Deyaki metadani zokrema chas zboru kod stanu napriklad pomilka 404 dlya ne znajdenogo abo 303 dlya perenapravlennya rozmir u bajtah URI abo tip MIME napriklad text HTML poshukovi roboti zahoplyuyut avtomatichno Informaciyu takozh mozhna dobuti z metategiv HTML storinok Dlya nevelikih vebarhiviv metadani mozhut stvoryuvatisya vruchnu Literaturnij arhiv Kalifornijskogo universitetu v Los Andzhelesi vikoristovuye dlya generuvannya metadanih dokladni notatki yaki stvoryuye personal u procesi zbirannya ta analizu veb storinok U vebarhivi Nacionalnogo universitetu Tajvanyu diye tririvneva iyerarhichna klasifikaciya Metadani mozhut takozh buti stvoreni za dopomogoyu koristuvackih tegiv komentariv abo ocinok ProblemiKoristuvachi zvertayutsya do vebarhiviv z riznih prichin dlya doslidzhen kompilyaciyi vlasnoyi bazi danih abo pereglyadu starih versij okremih vebresursiv Odnak najchastishe dostup do takih kolekcij uskladnenij vidsutnistyu zagalnogo poshuku v dostupnih bazah danih i nezruchnim interfejsom Dlya dostupu ta obrobki zberezhenoyi informaciyi chasto potribni tehnichni navichki roboti zi specializovanimi formatami fajliv Okremi doslidniki vvazhayut sho same z cih prichin posilannya na vebarhivi yak i ranishe ridko zustrichayutsya v naukovih pracyah a kolekciyi ne vivchayutsya Kolekciya vebarhivu mozhe viyavitisya nepovnoyu abo uperedzhenoyu cherez nemozhlivist zaarhivuvati zakriti sajti ta abo neprofesijnu rozrobku strategij arhivuvannya napriklad koli arhivuyut lishe anglomovni portali velikih zahidnih krayin Popri te sho chastina arhiviv maye yuridichne pravo nehtuvati standart vinyatkiv dlya robotiv kolekciyi inshih organizacij suttyevo obmezheni cherez dotrimannya standartu Avtomatichne vebarhivuvannya cherez poshukovi roboti dozvolyaye zahopiti bagato informaciyi prote deyaki interaktivni elementi JavaScript zberegti nemozhlivo i arhivna versiya vtrachaye funkcionalnist PrimitkiChambers 2019 s 85 111 Veronique Greenwood June 2020 The digital Dark Ages angl Yale Alumni Magazine originalu za 15 zhovtnya 2021 Procitovano 9 grudnya 2021 Dan Greene 21 kvitnya 2021 The erosion of personal ownership angl Vox originalu za 26 veresnya 2021 Procitovano 9 grudnya 2021 Digital Domesday Book lasts 15 years not 1000 angl The Guardian 3 bereznya 2002 originalu za 20 sichnya 2013 Procitovano 11 grudnya 2021 Veronique Greenwood 06 2020 The digital Dark Ages angl Yale Alumni Magazine originalu za 15 zhovtnya 2021 Procitovano 27 veresnya 2021 Lamont Wood 26 serpnya 2010 Fending off the digital dark ages The archival storage issue angl ComputerWorld originalu za 26 sichnya 2021 Procitovano 11 grudnya 2021 Giaretta 2011 Panos 2003 Adam Wernick 1 sichnya 2018 Scientists warn we may be creating a digital dark age angl The World originalu za 16 serpnya 2021 Procitovano 10 grudnya 2021 Hartiya o sohranenii cifrovogo naslediya angl OON originalu za 23 serpnya 2021 Procitovano 12 grudnya 2021 Costa 2017 s 191 205 Toyoda 2012 s 1441 1443 To avoid a digital dark age all stakeholders must put their heads together angl The Times of India 17 veresnya 2020 originalu za 8 veresnya 2021 Procitovano 27 veresnya 2021 Lauren Maffeo 29 travnya 2015 Google s Vint Cerf on how to prevent a digital dark age angl The Guardian originalu za 19 listopada 2021 Procitovano 27 listopada 2021 Dave Smith 20 lyutogo 2015 Father of the internet If we don t move now we risk losing all the data we ve created in the 21st century angl Business Insider originalu za 19 listopada 2021 Procitovano 28 listopada 2021 Nikolaj Udincev 13 lyutogo 2015 Citata dnya pochemu mozhet nachatsya cifrovoj Tyomnyj vek angl Look at Me originalu za 19 listopada 2021 Procitovano 28 listopada 2021 Adoghe 2013 s 598 603 Perkel 2015 s 111 112 Brown 2006 s 1 256 Rhodes 2010 s 581 597 White 2019 s 29 43 Bowers 2021 Mitchell Clark 21 travnya 2021 New research shows how many important links on the web get lost to time angl The Verge originalu za 20 chervnya 2021 Procitovano 10 zhovtnya 2021 Pennock 2013 Nick Bilton 7 veresnya 2011 The Lifespan of a Link angl The New York Times originalu za 28 veresnya 2021 Procitovano 10 grudnya 2021 Matthew Gault 17 lipnya 2015 The US Is Removing Records of Its War in Afghanistan From the Internet angl Vice Procitovano 11 grudnya 2021 Roskomnadzor potreboval ot SMI udalit publikacii o rassledovaniyah Proekta priznannogo nezhelatelnoj organizaciej ros BBC 18 grudnya 2021 originalu za 18 grudnya 2021 Procitovano 20 grudnya 2021 Tasya Elfimova 18 grudnya 2021 Roskomnadzor potreboval ot The Village Meduzy i Dozhdya udalit desyatki novostej po rassledovaniyam Proekta ros The Village originalu za 18 grudnya 2021 Procitovano 19 grudnya 2021 Patel 2020 s 1 10 Balackaya 2021 s 12 16 Pretoro 2013 s 63 67 Single Sites Web Archive Minerva Library of Congress Web Archive angl European History Primary Sources originalu za 6 travnya 2021 Procitovano 13 grudnya 2021 Rockwell 2020 s 1 17 Mark Pesce 29 zhovtnya 2021 Archiving the World Wide Web angl Cosmos originalu za 25 listopada 2021 Procitovano 11 grudnya 2021 Kimpton 2006 Masanes 1998 s 201 212 Rory Carroll 26 kvitnya 2013 Brewster s trillions Internet Archive strives to keep web history alive angl The Guardian originalu za 15 grudnya 2021 Procitovano 11 grudnya 2021 Wayback Machine angl Wayback Machine Procitovano 7 chervnya 2021 Trudel 2005 Fund WebCite http www webcitation org angl FundRz Procitovano 18 grudnya 2021 Archive Now archivenow angl GitHub originalu za 20 grudnya 2021 Procitovano 20 grudnya 2021 FAQ angl archive ph originalu za 27 zhovtnya 2021 Procitovano 10 grudnya 2021 Salman Ravoof 3 listopada 2021 How to Archive a Website Our Mammoth Guide to Saving Your Site angl Kinsta originalu za 5 listopada 2021 Procitovano 7 grudnya 2021 Jason Koebler 29 zhovtnya 2014 Dear GamerGate Please Stop Stealing Our Shit angl Vice originalu za 27 listopada 2021 Procitovano 7 grudnya 2021 Martin Brinkmann 22 kvitnya 2015 Create publicly available web page archives with Archive is angl G Hacks originalu za 12 kvitnya 2019 Procitovano 12 grudnya 2021 angl Web Page Archiving Arhiv originalu za 22 veresnya 2013 Procitovano 10 grudnya 2021 Sistema elektronnogo obyazatelnogo ekzemplyara v Velikobritanii angl Informacionno analiticheskij zhurnal Universitetskaya Kniga 21 veresnya 2013 originalu za 24 zhovtnya 2020 Procitovano 18 grudnya 2021 The Kulturarw3 Project angl Jeremy Norman s History of Information Procitovano 10 grudnya 2021 NWA Toolset 1 1RC10 released angl NWA originalu za 26 kvitnya 2018 Procitovano 11 grudnya 2021 History angl Pandora originalu za 4 chervnya 2020 Procitovano 11 grudnya 2021 Webb 2000 s 154 172 George Nott 11 bereznya 2019 National Library launches enormous archive of Australia s Internet angl Computer World originalu za 24 listopada 2021 Procitovano 10 grudnya 2021 Niu 2012 IWAW 2010 The 10th Intl Web Archiving Workshop angl WikiCfP originalu za 27 kvitnya 2021 Procitovano 15 grudnya 2021 International Internet Preservation Consortium angl International Internet Preservation Consortium originalu za 14 grudnya 2021 Procitovano 14 grudnya 2021 IIPC members angl International Internet Preservation Consortium originalu za 16 grudnya 2021 Procitovano 13 grudnya 2021 European archive angl Library of Congress Procitovano 13 grudnya 2021 About DACHS angl Bereichbibliother Ostaasien originalu za 17 zhovtnya 2021 Procitovano 13 grudnya 2021 Steve Bailey Dave Thompson 2006 Building the UK s First Public Web Archive angl D lib Magazine originalu za 23 listopada 2021 Procitovano 18 grudnya 2021 Dooley 2017 s 1 15 Johan Steenbakkers Presentations angl European Library Automation Group originalu za 29 grudnya 2021 Procitovano 13 grudnya 2021 Hakala 2001 s 211 216 Duncan Jefferies 9 bereznya 2012 Using web archives to preserve the past The Guardian originalu za 10 chervnya 2021 Procitovano 11 grudnya 2021 Alam 2020 s 1 251 Broussard 2021 s 276 Chambers 2019 Povroznik 2020 Slania 2013 s 112 126 Joao Miranda Web Harvesting and Archiving angl Web Ist UTL originalu za 29 grudnya 2021 Procitovano 17 grudnya 2021 Rumianek 2013 Brunelle 2012 Pretoro 2013 Preserving the Web angl Digital Preservation Online originalu za 14 veresnya 2021 Procitovano 17 grudnya 2021 Mohr 2004 s 1 15 Justin Kulesza How to Archive a Website angl Atomic Object originalu za 23 chervnya 2016 Procitovano 14 grudnya 2021 The command I use to archive a single website angl GitHub originalu za 23 grudnya 2021 Procitovano 15 grudnya 2021 Michel 2021 s 107 128 Redkina 2019 s 52 internetarchive brozzler angl GitHub originalu za 10 grudnya 2021 Procitovano 16 grudnya 2021 Putevoditel po offline brauzeram Chast 2 IXBT com originalu za 2 serpnya 2019 Procitovano 17 grudnya 2021 Legal issues angl International Internet Preservation Consortium originalu za 16 grudnya 2021 Procitovano 16 grudnya 2021 Bercic 2005 s 17 24 Brown 2006 Olson 2009 s 181 196 Ayala 2021 s 89 106 Brugger 2017 s 45 61 Rogers 2019 s 49 Niels 2021 s 145 168 Kalev Leetaru 7 travnya 2019 Why Web Archives Need To Engage With Researchers angl Forbes originalu za 29 grudnya 2021 Procitovano 11 grudnya 2021 Kalev Leetaru 24 lyutogo 2017 Are Web Archives Failing The Modern Web Video Social Media Dynamic Pages and The Mobile Web Forbes originalu za 29 grudnya 2021 Procitovano 11 grudnya 2021 LiteraturaAdoghe A Onasoga K Dike D Ajayi O Web Archiving techniques challenges and solutions angl 2013 Vol 5 no 3 S 598 603 Alam S Mementomap a web archive profiling framework for efficient memento routing angl 2020 Ayala B When expectations meet reality common misconceptions about web archives and challenges for scholars angl International Journal of Digital Humanities 2021 No 2 S 89 106 Bercic B Protection of Personal Data and Copyrighted Material on the Web The Cases of Google and Internet Archive angl Communications Technology Law 2005 Vol 14 no 1 S 17 24 DOI 10 1080 1360083042000325283 Brown A Archiving websites a practical guide for information management professionals angl Facet publishing 2006 256 s ISBN 978 1 85604 553 7 Brugger N Schroeder R Live versus archive Comparing a web archive to a population of web pages angl 2017 S 45 61 DOI 10 2307 j ctt1mtz55k 8 Brugger N Digital humanities and web archives Possible new paths for combining datasets angl International Journal of Digital Humanities 2021 No 2 S 145 168 Broussard M Archiving Data Journalism angl Yhe Data Journalism Handbook 2021 S 274 278 DOI 10 2307 j ctv1qr6smr 40 Brunelle J Nelson M Evaluating the SiteStory Transactional Web Archive With the Tool angl ArXiv org 2012 Costa M Gomes D Silva M The evolution of web archiving angl Int J Digit Libr 2017 No 18 S 191 205 DOI 10 1007 s00799 016 0171 9 Dooley J M Farrell K Kim T Venlet J Developing Web Archiving Metadata Best Practices to Meet User Needs angl Journal of Western Archives 2017 Vol 8 no 2 Hakala J The NEWLIB harvester angl Zeitschrift fur Bibliothekswesen und Bibliographie 2001 Vol 48 no 3 S 211 216 Giaretta D Avoiding a Digital Dark Age for data why publishers shoudl care about digital preservation angl Learned Publishing 2011 S 1 18 Kimpton M Ubois J Year by Year From an Archive of the Internet to an Archive on the Internet Web Archiving 2006 S 201 212 Masanes J Web Archiving angl Springer 1998 S 1 234 ISBN 3 540 23338 5 Mohr G Stack M Ranitovic I Avery D Kimpton M An Introduction to Heritrix An open source archival quality web crawler 4th International Web Archiving Workshop 2004 S 1 15 Niu J An Overview of Web Archiving angl School of Information Faculty Publications 2012 S 1 13 DOI 10 1045 march2012 niu1 Ogden J Maemura E Go fish Conceptualising the challenges of engaging national web archives for digital research angl International Journal of Digital Humanities No 2 S 43 63 DOI 10 1007 s42803 021 00032 5 Olson J Chapter 14 The Archive Data Store angl Database Archive 2009 S 181 196 DOI 10 1016 B978 0 12 374720 4 00014 5 Panos P The Internet Archive An End to the Digital Dark Age angl Journal of Social Work Education 2003 Vol 39 no 2 S 343 347 DOI 10 1080 10437797 2003 10779139 Patel K Phillips M Caragea C Fox N Identifying Documents In Scope of a Collection from Web Archives angl arXiv 2020 Pennock M Web Archiving angl DPC Technology Watch Report 13 01 March 2013 2013 DOI 10 7207 twr13 01 Perkel J The trouble with reference rot angl Nature 2015 No 521 S 111 112 DOI 10 1038 521111a Pretoro E Geeraert F Soyez S Behind the scenes of web archiving metadata of harvested websites angl Trust and Understanding the value of metadata in a digitally joined up world 2013 S 63 74 Rhodes S Breaking Down Link Rot The Chesapeake Project Legal Information Archive s Examination of URL Stability angl Law Library Journal 2010 Vol 102 no 4 S 581 597 Rockwell G Tchoh B Archiving Database Driven Websites for Future Digital Archaeologists The Archiving of TAPoR angl CSDH SCHN 2020 2020 DOI 10 17613 v412 8896 Rogers R Periodizing Web Archiving Biographical Event Based National and Autobiographical Traditions angl The SAGE Handbook of Web History 2019 S 42 57 Rumianek M Archiving and Recovering Database driven Websites angl D Lib Magazine 2013 Vol 19 no 1 2 DOI 10 1045 january2013 rumianek Slania H Online Art Ephemera Web Archiving at the National Museum of Women in the Arts angl Art Documentation Journal of the Art Libraries Society of North America 2013 Vol 32 no 1 S 112 126 Toyoda M Kitsuregawa M The History of Web Archiving angl Invited Paper 2012 DOI 10 1109 JPROC 2012 2189920 Eysenbach G Trudel M Going Going Still There Using the WebCite Service to Permanently Archive Cited Web Pages J Med Internet Resources 2005 DOI 10 2196 jmir 7 5 e60 Zittrain J Bowers J Stanton C The Paper of Record Meets an Ephemeral Web An Examination of Linkrot and Content Drift within The New York Times angl Library Innovation Lab 2021 Webb C Because It Belongs to All of Us National Arrangements for Digital Preservation in Australian Libraries angl Australian Academic amp Research Libraries 2000 S 154 172 DOI 10 1080 00048623 2000 10755132 Vlassenroot E Chambers S Mechant P Web archives as a data resource for digital scholars angl International Journal of Digital Humanities 2019 Vol 1 no 85 S 85 111 DOI 10 1007 s42803 019 00007 7 Vlassenroot E Chambers S Lieber S Michel A Geeraert F Pranger J Birkholz J Web archiving and social media an exploratory analysis angl International Journal of Digital Humanities 2021 Vol 2 S 107 128 White J Link Rot Reference Rot and Link Resolves angl New Top Technologies Every Librarian Needs to Know 2019 S 29 43 Balackaya N M Martirosova M B Veb arhivirovanie kak zadacha nacionalnoj i kraevedcheskoj bibliografii ros Bibliosfera 2021 3 S 12 17 Povroznik G G Veb arhivy v rekonstrukcii istorii virtualnyh muzeev potencial i ogranicheniya ros Vestnik Permskogo Universiteta 2020 T 51 vyp 4 S 95 102 Redkina N S Mirovye tendencii razvitiya bibliotek Optimizm vs pessimizm po materialam zarubezhnoj literatury ros Bibliosfera 2019 Vyp 1 S 49 58