Archiwum internetowe

Archiwum internetowe
Rozszerzenie nazwy pliku
Warc
Rodzaj mediów internetowych
aplikacja/warc
Przedłużony od ŁUK
Standard ISO 28500:2017
Otwarty format ? Tak
Strona internetowa iipc .github .io /specyfikacje-warc /specyfikacje /format -warc /warc-1 .1 /

Format archiwum Web ARChive (WARC) określa metodę łączenia wielu zasobów cyfrowych w zbiorczy plik archiwum wraz z powiązanymi informacjami. Format WARC jest wersją ARC_IA , który był tradycyjnie używany do przechowywania „ indeksowania sieci ” jako sekwencji bloków treści zebranych z sieci World Wide Web. . Format WARC uogólnia starszy format, aby lepiej wspierać zbieranie, dostęp i wymianę potrzeb organizacji zajmujących się archiwizacją. Oprócz aktualnie zarejestrowanej zawartości podstawowej, wersja uwzględnia powiązane treści drugorzędne, takie jak przypisane metadane , skrócone zdarzenia wykrywania duplikatów i późniejsze przekształcenia. Format WARC jest inspirowany strumieniami HTTP/1.0, z podobnym nagłówkiem i wykorzystaniem CRLF jako ograniczników, dzięki czemu bardzo sprzyja implementacjom robotów indeksujących.

WARC, wprowadzony po raz pierwszy w 2008 roku, jest obecnie uznawany przez większość narodowych systemów bibliotecznych za standard archiwizacji internetowej.

Oprogramowanie

Linki zewnętrzne