Archiwum internetowe
Rozszerzenie nazwy pliku |
Warc
|
---|---|
Rodzaj mediów internetowych |
aplikacja/warc
|
Przedłużony od | ŁUK |
Standard | ISO 28500:2017 |
Otwarty format ? | Tak |
Strona internetowa |
Format archiwum Web ARChive (WARC) określa metodę łączenia wielu zasobów cyfrowych w zbiorczy plik archiwum wraz z powiązanymi informacjami. Format WARC jest wersją ARC_IA , który był tradycyjnie używany do przechowywania „ indeksowania sieci ” jako sekwencji bloków treści zebranych z sieci World Wide Web. . Format WARC uogólnia starszy format, aby lepiej wspierać zbieranie, dostęp i wymianę potrzeb organizacji zajmujących się archiwizacją. Oprócz aktualnie zarejestrowanej zawartości podstawowej, wersja uwzględnia powiązane treści drugorzędne, takie jak przypisane metadane , skrócone zdarzenia wykrywania duplikatów i późniejsze przekształcenia. Format WARC jest inspirowany strumieniami HTTP/1.0, z podobnym nagłówkiem i wykorzystaniem CRLF jako ograniczników, dzięki czemu bardzo sprzyja implementacjom robotów indeksujących.
WARC, wprowadzony po raz pierwszy w 2008 roku, jest obecnie uznawany przez większość narodowych systemów bibliotecznych za standard archiwizacji internetowej.
Oprogramowanie
- Archiwizator sieciowy Heritrix w Javie
- wget 1.x (od wersji 1.14)
- Rejestrator internetowy
- StormCrawler
- Apache Nutch
- libarchiczny