Wayback Maszyna
Rodzaj witryny |
Archiwum |
---|---|
Założony |
|
Obsługiwany obszar | Na całym świecie ( z wyjątkiem Chin i Bahrajnu ) |
Właściciel | Archiwum internetowe |
Adres URL |
|
Handlowy | NIE |
Rejestracja | Opcjonalny |
Aktualny stan | Aktywny |
Napisane w | Jawa , Python |
The Wayback Machine to cyfrowe archiwum World Wide Web założone przez Internet Archive , organizację non-profit z siedzibą w San Francisco w Kalifornii . Stworzony w 1996 roku i udostępniony publicznie w 2001 roku, pozwala użytkownikowi „cofnąć się w czasie” i zobaczyć, jak strony internetowe wyglądały w przeszłości. Jej założyciele, Brewster Kahle i Bruce Gilliat , opracowali Wayback Machine, aby zapewnić „powszechny dostęp do wszelkiej wiedzy” poprzez zachowanie zarchiwizowanych kopii nieistniejących stron internetowych.
Uruchomiony 10 maja 1996 r. Wayback Machine zapisał ponad 38,2 miliona stron internetowych na koniec 2009 r. Na dzień 13 marca 2023 r. Wayback Machine zarchiwizował ponad 800 miliardów stron internetowych.
Historia
Wayback Machine zaczęło archiwizować strony internetowe zapisane w pamięci podręcznej w 1996 r. Jedna z najwcześniejszych znanych stron została zarchiwizowana 10 maja 1996 r. O ( UTC ).
Założyciele Internet Archive, Brewster Kahle i Bruce Gilliat, uruchomili Wayback Machine w San Francisco w Kalifornii w październiku 2001 r., głównie w celu rozwiązania problemu znikania treści internetowych po każdej zmianie lub zamknięciu witryny. Usługa umożliwia przeglądanie archiwalnych wersji stron internetowych w czasie, co archiwum nazywa „indeksem trójwymiarowym”. Kahle i Gilliat stworzyli maszynę, mając nadzieję na zarchiwizowanie całego Internetu i zapewnienie „powszechnego dostępu do wszelkiej wiedzy”. Nazwa „Wayback Machine” odnosi się do fikcyjnego urządzenia do podróży w czasie i tłumaczenia, „ Wayback Machine ”, używanego przez postacie Mister Peabody i Sherman w animowanej kreskówce The Adventures of Rocky and Bullwinkle and Friends . W jednym z segmentów kreskówki, „Peabody's Improbable History”, bohaterowie używali maszyny, aby być świadkami, uczestniczyć i często zmieniać słynne wydarzenia historyczne.
Od 1996 do 2001 roku informacje były przechowywane na taśmie cyfrowej, a Kahle od czasu do czasu pozwalał badaczom i naukowcom na dostęp do „nieporęcznej” bazy danych . Kiedy archiwum osiągnęło piątą rocznicę w 2001 roku, zostało odsłonięte i otwarte dla publiczności podczas ceremonii na Uniwersytecie Kalifornijskim w Berkeley . W momencie uruchomienia Wayback Machine zawierało już ponad 10 miliardów zarchiwizowanych stron. Dane są przechowywane w dużym klastrze Linuksa Internet Archive węzły. Od czasu do czasu przegląda i archiwizuje nowe wersje stron internetowych (patrz szczegóły techniczne poniżej). adres URL witryny w polu wyszukiwania, pod warunkiem, że witryna umożliwia Wayback Machine „indeksowanie” jej i zapisywanie danych.
30 października 2020 r. Wayback Machine rozpoczął sprawdzanie treści. Od stycznia 2022 r. przechwytywanie domen serwerów reklam jest wyłączone.
W maju 2021 roku, z okazji 25-lecia Internet Archive, Wayback Machine wprowadziło „Wayforward Machine”, która pozwala użytkownikom „podróżować do Internetu w 2046 roku, gdzie wiedza jest oblężona ” .
Specyfikacja
Oprogramowanie Wayback Machine zostało opracowane w celu „ przeszukiwania ” sieci i pobierania wszystkich publicznie dostępnych informacji i plików danych ze stron internetowych, hierarchii Gopher , systemu tablic ogłoszeń Netnews (Usenet) oraz oprogramowania do pobrania. Informacje zbierane przez te „roboty indeksujące” nie obejmują wszystkich informacji dostępnych w Internecie, ponieważ większość danych jest ograniczona przez wydawcę lub przechowywana w niedostępnych bazach danych. Aby przezwyciężyć niespójności w częściowo buforowanych stronach internetowych, Archive-It.org został opracowany w 2005 roku przez Internet Archive jako środek umożliwiający instytucjom i twórcom treści dobrowolne gromadzenie i przechowywanie kolekcji treści cyfrowych oraz tworzenie archiwów cyfrowych.
Indeksowania pochodzą z różnych źródeł, niektóre pochodzą od stron trzecich, a inne są generowane wewnętrznie przez Archiwum. Na przykład przeszukiwania są udostępniane przez Sloan Foundation i Alexa , przeszukiwania prowadzone przez Internet Archive w imieniu NARA i Internet Memory Foundation , kopie lustrzane Common Crawl . „Worldwide Web Crawls” działa od 2010 roku i przechwytuje globalną sieć.
Dokumenty i zasoby są przechowywane z adresami URL znaczników czasu, takimi jak 20230320001144
. Poszczególne zasoby stron, takie jak obrazy, arkusze stylów i skrypty, a także hiperłącza wychodzące, są powiązane ze znacznikiem czasu aktualnie przeglądanej strony, dzięki czemu są automatycznie przekierowywane do ich indywidualnych przechwyceń, które są najbliższe w czasie.
Częstotliwość przechwytywania migawek różni się w zależności od witryny. Witryny w „Indeksowaniu sieci Worldwide Web” są umieszczane na „liście indeksowania”, a witryna jest archiwizowana raz na indeksowanie. Indeksowanie może zająć miesiące, a nawet lata, w zależności od rozmiaru. Na przykład „Wide Crawl Number 13” rozpoczęło się 9 stycznia 2015 r., a zakończyło 11 lipca 2016 r. Jednak w tym samym czasie może odbywać się wiele indeksowań, a witryna może znajdować się na więcej niż jednej liście indeksowania, więc częstotliwość indeksowania witryny jest bardzo różna.
Od października 2019 r. użytkownicy są ograniczeni do 15 żądań i pobrań archiwalnych na minutę. [ dlaczego? ]
Pojemność i wzrost pamięci masowej
Wraz z rozwojem technologii na przestrzeni lat wzrosła pojemność pamięci Wayback Machine. W 2003 roku, po zaledwie dwóch latach publicznego dostępu, Wayback Machine rosła w tempie 12 terabajtów miesięcznie. Dane są przechowywane w PetaBox zaprojektowanych na zamówienie przez pracowników Internet Archive. Pierwsza szafa o pojemności 100 TB została w pełni uruchomiona w czerwcu 2004 r., chociaż wkrótce stało się jasne, że będą potrzebować znacznie więcej pamięci.
Internet Archive przeniosło swoją dostosowaną architekturę pamięci masowej do Sun Open Storage i posiada nowe centrum danych w Sun Modular Datacenter w kampusie Sun Microsystems w Kalifornii. Od 2009 roku Wayback Machine zawierała około trzech petabajtów danych i rosła w tempie 100 terabajtów każdego miesiąca.
Nowa, ulepszona wersja Wayback Machine, ze zaktualizowanym interfejsem i nowszym indeksem zarchiwizowanych treści, została udostępniona do publicznych testów w 2011 r., gdzie przechwycenia pojawiają się w układzie kalendarza z okręgami, których szerokość odzwierciedla liczbę indeksowań każdego dnia, ale bez oznaczania duplikatów gwiazdkami lub strony wyszukiwania zaawansowanego. Dodano górny pasek narzędzi , aby ułatwić nawigację między ujęciami. Wykres słupkowy przedstawia częstotliwość przechwytywania w miesiącu na przestrzeni lat. Funkcje takie jak „Zmiany”, „Podsumowanie” i graficzna mapa witryny zostały dodane później.
W marcu tego samego roku na forum Wayback Machine powiedziano, że „wersja beta nowego Wayback Machine ma bardziej kompletny i aktualny indeks wszystkich przeszukiwanych materiałów do 2010 r. I będzie nadal regularnie aktualizowana. Indeks Prowadzenie klasycznej maszyny Wayback ma tylko trochę materiału po 2008 roku i nie planuje się dalszych aktualizacji indeksu, ponieważ zostanie wycofane w tym roku”. Również w 2011 roku Internet Archive zainstalowało szóstą parę stojaków PetaBox, co zwiększyło pojemność pamięci Wayback Machine o 700 terabajtów.
W styczniu 2013 roku firma ogłosiła przełomowy kamień milowy w postaci 240 miliardów adresów URL.
W październiku 2013 roku firma wprowadziła funkcję „Zapisz stronę”, która pozwala każdemu internaucie zarchiwizować zawartość adresu URL i szybko wygenerować stały link , w przeciwieństwie do poprzedniej funkcji liveweb .
W grudniu 2014 r. Wayback Machine zawierał 435 miliardów stron internetowych, czyli prawie dziewięć petabajtów danych, i rozwijał się w tempie około 20 terabajtów tygodniowo.
W marcu 2015 roku opublikowano, że badacze bezpieczeństwa zdali sobie sprawę z zagrożenia, jakie stanowi niezamierzone hostowanie przez usługę złośliwych plików binarnych z zarchiwizowanych witryn.
W lipcu 2016 roku Wayback Machine zawierał podobno około 15 petabajtów danych.
We wrześniu 2018 r. Wayback Machine zawierał ponad 25 petabajtów danych.
Według stanu na grudzień 2020 r. Wayback Machine zawierał ponad 70 petabajtów danych.
Wayback Machine według roku | Strony zarchiwizowane |
---|---|
2004 |
30 000 000 000 (0-100B: jasnoniebieski)
|
2005 |
40 000 000 000
|
2008 |
85 000 000 000
|
2012 |
150 000 000 000 (100B-450B: żółty)
|
2013 |
373 000 000 000
|
2014 |
400 000 000 000
|
2015 |
452 000 000 000 (450B-600B: pomarańczowy)
|
2016 |
459 000 000 000
|
2017 |
279 000 000 000
|
2018 |
310 000 000 000
|
2019 |
345 000 000 000
|
2020 |
405 000 000 000
|
2021 |
514 000 000 000
|
2022 |
640 000 000 000 (600B-: czerwony)
|
ranking Alexa serwisu zmienił się ze 163 na 208. W marcu 2019 roku wynosił 244.
Interfejsy API maszyny Wayback
Usługa Wayback Machine oferuje trzy publiczne interfejsy API: SavePageNow, Availability i CDX. SavePageNow może służyć do archiwizacji stron internetowych. Dostępność API do sprawdzania stanu dostępności archiwum strony internetowej, sprawdzania, czy archiwum strony internetowej istnieje, czy nie. CDX API służy do wykonywania złożonych zapytań, filtrowania i analizy przechwyconych danych.
Zasady wykluczania witryn
W przeszłości Wayback Machine przestrzegał standardu wykluczania robotów (robots.txt) przy określaniu, czy witryna zostanie zindeksowana, a jeśli już została zindeksowana, czy jej archiwa będą dostępne publicznie. Właściciele witryn mieli możliwość rezygnacji z Wayback Machine za pomocą pliku robots.txt. Zastosowano zasady pliku robots.txt z mocą wsteczną; jeśli witryna zablokowała archiwum internetowe, wszelkie wcześniej zarchiwizowane strony z domeny również były natychmiast niedostępne. Ponadto Internet Archive stwierdziło, że „Czasami właściciel witryny kontaktuje się z nami bezpośrednio i prosi o zaprzestanie indeksowania lub archiwizacji witryny. Spełniamy te prośby”. Ponadto na stronie internetowej czytamy: „Archiwum Internetowe nie jest zainteresowane przechowywaniem ani oferowaniem dostępu do stron internetowych lub innych dokumentów internetowych osób, które nie chcą, aby ich materiały znajdowały się w zbiorach”.
17 kwietnia 2017 r. pojawiły się doniesienia o witrynach, które przestały istnieć i stały się zaparkowanymi domenami , które używały pliku robots.txt do wykluczania się z wyszukiwarek, w wyniku czego zostały nieumyślnie wykluczone z Wayback Machine. Internet Archive zmieniło zasady, aby teraz wymagać wyraźnego żądania wykluczenia w celu usunięcia go z Wayback Machine.
Zasady dotyczące archiwów w Oakland
Polityka Wayback dotycząca wykluczania z mocą wsteczną jest częściowo oparta na zaleceniach dotyczących zarządzania żądaniami usunięcia i zachowania integralności archiwalnej opublikowanych przez School of Information Management and Systems na Uniwersytecie Kalifornijskim w Berkeley w 2002 r., które dają właścicielowi witryny prawo do zablokowania dostępu do archiwów witryny . Wayback zastosował się do tych zasad, aby uniknąć kosztownych sporów sądowych.
Polityka wstecznego wykluczania Wayback zaczęła się rozluźniać w 2017 r., kiedy przestała honorować roboty na stronach internetowych rządu USA i wojska zarówno do indeksowania, jak i wyświetlania stron internetowych. Od kwietnia 2017 r. Wayback ignoruje plik robots.txt w szerszym zakresie, nie tylko w witrynach rządowych USA.
Używa
Od czasu swojej publicznej premiery w 2001 roku, Wayback Machine był badany przez naukowców zarówno pod kątem sposobów przechowywania i gromadzenia danych, jak i rzeczywistych stron zawartych w jego archiwum. Od 2013 roku uczeni napisali około 350 artykułów na temat Wayback Machine, głównie z dziedzin informatyki, bibliotekoznawstwa i nauk społecznych. Badacze nauk społecznych wykorzystali Wayback Machine do przeanalizowania, w jaki sposób rozwój stron internetowych od połowy lat 90. do chwili obecnej wpłynął na rozwój firmy.
Kiedy Wayback Machine archiwizuje stronę, zwykle zawiera większość hiperłączy, utrzymując te linki aktywne, gdy równie łatwo mogłyby zostać uszkodzone przez niestabilność Internetu. Naukowcy z Indii zbadali skuteczność zdolności Wayback Machine do zapisywania hiperłączy w internetowych publikacjach naukowych i stwierdzili, że zaoszczędziło to nieco ponad połowę z nich.
„Dziennikarze używają Wayback Machine do przeglądania martwych stron internetowych, przestarzałych doniesień prasowych i zmian w treści witryn internetowych. Jej zawartość została wykorzystana do pociągnięcia polityków do odpowiedzialności i ujawnienia kłamstw na polu bitwy”. W 2014 roku zarchiwizowana strona w mediach społecznościowych Igora Girkina , przywódcy separatystycznych rebeliantów na Ukrainie, pokazała, jak przechwalał się, że jego żołnierze zestrzelili podejrzany ukraiński samolot wojskowy, zanim okazało się, że samolot był w rzeczywistości cywilnym odrzutowcem Malaysian Airlines ( Malaysia Airlines Flight 17 ), po czym usunął post i obwinił ukraińskie wojsko o zestrzelenie samolotu. w 2017 r Marsz dla Nauki wywodzi się z dyskusji na Reddit , która wskazywała, że ktoś odwiedził Archive.org i odkrył, że wszystkie odniesienia do zmian klimatu zostały usunięte ze strony internetowej Białego Domu. W odpowiedzi użytkownik skomentował: „Musi odbyć się Marsz Naukowców w Waszyngtonie”.
Ponadto witryna jest intensywnie wykorzystywana do weryfikacji, zapewniając dostęp do odniesień i tworzenia treści przez redaktorów Wikipedii .
We wrześniu 2020 r. Ogłoszono partnerstwo z Cloudflare w celu automatycznego archiwizowania witryn internetowych obsługiwanych za pośrednictwem usługi „Always Online”, co pozwoli jej również kierować użytkowników do swojej kopii witryny, jeśli nie będzie ona mogła dotrzeć do pierwotnego hosta.
Ograniczenia
W 2014 roku między zaindeksowaniem strony internetowej a udostępnieniem jej do przeglądania w Wayback Machine występowało sześciomiesięczne opóźnienie. Obecnie czas opóźnienia wynosi od 3 do 10 godzin. Wayback Machine oferuje tylko ograniczone możliwości wyszukiwania. Jego funkcja „Site Search” pozwala użytkownikom znaleźć witrynę na podstawie słów opisujących witrynę, a nie słów znalezionych na samych stronach internetowych.
Wayback Machine nie obejmuje każdej strony internetowej, jaką kiedykolwiek stworzono, ze względu na ograniczenia robota indeksującego. Wayback Machine nie może całkowicie zarchiwizować stron internetowych zawierających funkcje interaktywne, takie jak platformy Flash i formularze napisane w języku JavaScript oraz progresywne aplikacje internetowe , ponieważ funkcje te wymagają interakcji z witryną hosta. Oznacza to, że od około 9 lipca 2013 r. Wayback Machine nie może wyświetlać komentarzy YouTube podczas zapisywania stron odtwarzania filmów, ponieważ według zespołu ds. archiwum komentarze nie są już „ładowane na samej stronie”. Robot indeksujący Wayback Machine ma trudności z wyodrębnieniem czegokolwiek, co nie jest zakodowane w HTML lub jednym z jego wariantów, co często może skutkować uszkodzonymi hiperłączami i brakującymi obrazami. Z tego powodu robot indeksujący nie może archiwizować „stron osieroconych”, do których nie prowadzą odnośniki z innych stron. Robot indeksujący Wayback Machine śledzi tylko z góry określoną liczbę hiperłączy w oparciu o ustalony limit głębokości, więc nie może zarchiwizować każdego hiperłącza na każdej stronie.
W dowodach prawnych
Postępowanie cywilne
Netbula LLC przeciwko Chordiant Software Inc.
W sprawie z 2009 r., Netbula, LLC przeciwko Chordiant Software Inc. , pozwany Chordiant złożył wniosek o zmuszenie Netbula do wyłączenia pliku robots.txt na swojej stronie internetowej, który powodował, że Wayback Machine z mocą wsteczną usunął dostęp do poprzednich wersji stron, które miał zarchiwizowane z witryny Netbula, strony, które zdaniem Chordianta poparłyby jego sprawę.
Netbula sprzeciwiła się wnioskowi, argumentując, że pozwani prosili o zmianę strony internetowej Netbula i że powinni byli bezpośrednio wezwać Internet Archive do stron. Pracownik Internet Archive złożył oświadczenie pod przysięgą popierające wniosek Chordiant, stwierdzając jednak, że nie może tworzyć stron internetowych w żaden inny sposób „bez znacznego obciążenia, kosztów i zakłóceń w swojej działalności”.
Sędzia sędziowski Howard Lloyd w północnym dystrykcie Kalifornii, okręg San Jose, odrzucił argumenty Netbuli i nakazał im tymczasowe wyłączenie blokady pliku robots.txt, aby umożliwić firmie Chordiant odzyskanie zarchiwizowanych stron, których szukali.
Telewizja Polska USA, Inc. przeciwko Echostar Satellite
W sprawie z października 2004 r. Telewizja Polska USA, Inc. przeciwko Echostar Satellite , nr 02 C 3293, 65 Fed. R. Ewid. Serw. 673 (ND Ill. 15 października 2004), strona sporu próbowała wykorzystać archiwa Wayback Machine jako źródło dopuszczalnych dowodów, być może po raz pierwszy. Telewizja Polska jest dostawcą TVP Polonia , a EchoStar obsługuje Dish Network . Przed rozpoczęciem procesu EchoStar wskazywało, że zamierza oferować migawki Wayback Machine jako dowód na zawartość serwisu Telewizji Polskiej w przeszłości. Telewizja Polska złożyła wniosek in limine zatuszować migawki na podstawie pogłosek i nieuwierzytelnionego źródła, ale sędzia pokoju Arlander Keys odrzucił pogłoski Telewizji Polskiej i oddalił wniosek TVP in limine wykluczyć dowód z rozprawy. Jednak na rozprawie sędzia Sądu Rejonowego Ronald Guzman, sędzia procesowy, odrzucił ustalenia Magistrate Keys i orzekł, że ani oświadczenie pracownika Internet Archive, ani leżące u jego podstaw strony (tj. strona Telewizji Polskiej) nie są dopuszczalne jako dowód. Sędzia Guzman uznał, że oświadczenie pracownika zawierało zarówno pogłoski, jak i niejednoznaczne oświadczenia potwierdzające, a rzekoma strona internetowa, wydruki nie były samouwierzytelniające.
Prawo patentowe
Urząd Patentowy Stanów Zjednoczonych i Europejski Urząd Patentowy akceptują datowniki z Internet Archive jako dowód na to, kiedy dana strona internetowa była publicznie dostępna. Daty te są wykorzystywane do określenia, czy strona internetowa jest dostępna jako stan techniki, na przykład przy rozpatrywaniu zgłoszenia patentowego.
Ograniczenia użyteczności
Archiwizacja strony internetowej ma ograniczenia techniczne, w związku z czym strony sporu mogą nadużywać wyników dostarczanych przez archiwa strony. Problem ten może się nasilić przez praktykę przesyłania zrzutów ekranu stron internetowych w reklamacjach, odpowiedziach lub opiniach biegłych, gdy łącza, na których się one opierają, nie są widoczne, a zatem mogą zawierać błędy. w swoich archiwach treści baz danych e-commerce innych niż RESTful .
Status prawny
W Europie Wayback Machine może być interpretowane jako naruszające prawa autorskie . Tylko twórca treści może decydować o tym, gdzie ich treść zostanie opublikowana lub powielona, więc Archiwum musiałoby usunąć strony ze swojego systemu na żądanie twórcy. Zasady wykluczania dotyczące Wayback Machine można znaleźć w sekcji często zadawanych pytań na stronie.
Niektóre sprawy zostały wniesione przeciwko Internet Archive specjalnie w związku z archiwizacją Wayback Machine.
Kwestie prawne dotyczące treści archiwalnych
Scjentologia
z Wayback Machine różne witryny krytyczne wobec scjentologii . Komunikat o błędzie informował, że była to odpowiedź na „prośbę właściciela witryny”. Później wyjaśniono, że prawnicy z Kościoła Scjentologicznego zażądali usunięcia, a właściciele strony nie chcieli usunięcia ich materiałów.
Rzecznicy opieki zdrowotnej, Inc.
W 2003 r. firma Harding Earley Follmer & Frailey broniła klienta przed sporem dotyczącym znaku towarowego, korzystając z narzędzia Archive's Wayback Machine. Pełnomocnicy byli w stanie wykazać nieważność roszczeń powoda na podstawie zawartości ich strony internetowej sprzed kilku lat. Powód, Healthcare Advocates, zmienił następnie swoją skargę, aby uwzględnić Internet Archive, zarzucając organizacji naruszenie praw autorskich, a także naruszenie ustawy DMCA oraz ustawy o oszustwach i nadużyciach komputerowych . Rzecznicy opieki zdrowotnej twierdzili, że ponieważ zainstalowali plik robots.txt plik na swojej stronie internetowej, nawet jeśli po złożeniu pierwotnego pozwu Archiwum powinno było usunąć wszystkie poprzednie kopie strony internetowej powoda z Wayback Machine, jednak niektóre materiały nadal były publicznie widoczne w Wayback. Pozew został rozstrzygnięty poza sądem po tym, jak Wayback naprawił problem.
Zuzanna Shell
Aktywistka Suzanne Shell złożyła pozew w grudniu 2005 r., Żądając, aby Internet Archive zapłaciła jej 100 000 USD za zarchiwizowanie jej witryny internetowej profane-justice.org w latach 1999–2004. Internet Archive złożyło pozew deklaratoryjny w Sądzie Okręgowym Stanów Zjednoczonych dla Północnego Dystryktu Kalifornii w dniu 20 stycznia 2006 r., szukając sądowego orzeczenia, że Internet Archive nie naruszyło praw autorskich Shell . Shell odpowiedziała i wniosła powództwo przeciwko Internet Archive za zarchiwizowanie jej witryny, co, jak twierdzi, stanowi jej naruszenie warunki świadczenia usług . W dniu 13 lutego 2007 r. sędzia Sądu Okręgowego Stanów Zjednoczonych dla Okręgu Kolorado oddalił wszystkie roszczenia wzajemne z wyjątkiem naruszenia umowy . Internet Archive nie podjęło kroków w celu odrzucenia o naruszenie praw autorskich , które Shell twierdził, wynikających z jej działań związanych z kopiowaniem, co również posunęłoby się naprzód.
25 kwietnia 2007 r. Internet Archive i Suzanne Shell wspólnie ogłosiły ugodę w swoim pozwie. Internet Archive stwierdziło, że „… nie jest zainteresowane umieszczaniem materiałów w Wayback Machine osób, które nie chcą archiwizować ich treści internetowych. Uznajemy, że pani Shell ma ważne i egzekwowalne prawa autorskie do swojej witryny internetowej i my żałuje, że włączenie jej strony internetowej do Wayback Machine spowodowało ten spór sądowy”. Shell powiedział: „Szanuję historyczną wartość celu Internet Archive. Nigdy nie zamierzałem ingerować w ten cel ani wyrządzać mu żadnej szkody”.
Daniel Dawydiuk
W latach 2013-2016 aktor pornograficzny Daniel Davydiuk próbował usunąć swoje zarchiwizowane zdjęcia z archiwum Wayback Machine, najpierw wysyłając do archiwum wiele żądań DMCA , a następnie odwołując się do Sądu Federalnego Kanady . Obrazy zostały następnie ostatecznie usunięte ze strony internetowej w 2017 roku.
FlexiSpy
z Wayback Machine usunięto archiwa strony internetowej aplikacji stalkerware FlexiSpy. Firma twierdziła, że skontaktowała się z Internet Archive, prawdopodobnie w celu usunięcia archiwów swojej strony internetowej.
Cenzura i inne zagrożenia
Archive.org jest obecnie zablokowany w Chinach . Po zdelegalizowaniu organizacji terrorystycznej Państwa Islamskiego Internet Archive zostało w całości zablokowane w Rosji jako host wideo tej organizacji, na krótki czas w latach 2015–2016. [ wymaga aktualizacji ] Od 2016 r. witryna została przywrócona, dostępna w całości, chociaż lokalni lobbyści komercyjni pozywają Internet Archive w lokalnym sądzie o zakazanie jej ze względu na prawa autorskie.
Alison Macrina , dyrektor Library Freedom Project , zauważa, że „podczas gdy bibliotekarze bardzo cenią prywatność jednostek, zdecydowanie sprzeciwiamy się cenzurze”.
Istnieje co najmniej jeden przypadek, w którym artykuł został usunięty z archiwum wkrótce po usunięciu go z pierwotnej strony internetowej. Reporter Daily Beast napisał artykuł, w którym ujawnił kilku homoseksualnych sportowców olimpijskich w 2016 roku po tym, jak stworzył fałszywy profil udający geja w aplikacji randkowej. The Daily Beast usunął artykuł po tym, jak spotkał się z powszechną furią; niedługo potem Internet Archive wkrótce zrobiło to samo, ale dobitnie stwierdziło, że zrobiło to tylko z powodu ochrony bezpieczeństwa wyrzuconych sportowców.
Inne zagrożenia to klęski żywiołowe, zniszczenia (zdalne lub fizyczne), manipulacja zawartością archiwum (patrz też: cyberatak , kopia zapasowa ), problematyczne prawa autorskie oraz inwigilacja użytkowników serwisu.
Alexander Rose, dyrektor wykonawczy Fundacji Long Now , podejrzewa, że w dłuższej perspektywie wielu pokoleń „prawie nic” przetrwa w użyteczny sposób, stwierdzając: „Jeśli zachowamy ciągłość w naszej cywilizacji technologicznej, podejrzewam, że wiele z same dane pozostaną możliwe do znalezienia i przeszukiwania. Podejrzewam jednak, że prawie nic z formatu, w jakim zostały dostarczone, nie będzie rozpoznawalne”, ponieważ witryny „z głębokim zapleczem systemów zarządzania treścią, takich jak Drupal, Ruby i Django” są trudniejsze do zarchiwizowania.
W artykule poświęconym ochronie ludzkiej wiedzy The Atlantic skomentował, że Internet Archive, które opisuje się jako budowane na dłuższą metę, „pracuje wściekle, aby przechwycić dane, zanim znikną bez jakiejkolwiek długoterminowej infrastruktury do mówienia” z."
Zobacz też
- Lista inicjatyw archiwizacji internetowej
- Heritrix
- Biblioteczna geneza
- Archiwizacja internetowa
- Kapsuła czasu
- Podróż w czasie
- Zgnilizna łącza
Linki zewnętrzne
- Oficjalna strona internetowa
- Historia Internetu jest krucha. To archiwum pilnuje, by nie zniknęło . San Francisco: PBS Newshour. Zarchiwizowane od oryginału w dniu 6 stycznia 2022 r . Źródło 19 września 2018 r .