PADICAT

PADICAT
PADICAT BN.jpg
Adres URL http://www.padicat.cat/

PADICAT akronim dla Patrimoni Digital de Catalunya , w języku katalońskim ; lub Cyfrowe Dziedzictwo Katalonii , w języku angielskim, to Web Archive of Catalonia.

Utworzona w 2005 roku przez Biblioteca de Catalunya , publiczną instytucję odpowiedzialną za gromadzenie, ochronę i dystrybucję dziedzictwa bibliograficznego, a co za tym idzie, dziedzictwa cyfrowego. Ma współpracę technologiczną Centrum Usług Naukowych i Akademickich Katalonii (CESCA) w celu zachowania i udostępniania starych wersji stron internetowych opublikowanych w Internecie . Biblioteca de Catalunya, jako organ odpowiedzialny za PADICAT, jest członkiem Międzynarodowego Konsorcjum Ochrony Internetu (IIPC).

Historia

Strona PADICAT 2011

PADICAT narodził się w 2005 r. podążając za trendem innych bibliotek narodowych w zakresie tworzenia archiwów internetowych oraz jako odpowiedź na publikację wytycznych UNESCO w sprawie ochrony dziedzictwa cyfrowego . Działa wiele archiwów internetowych . Najsłynniejszy rozpoczął się w 1996 roku: szwedzki Kulturarw3; australijska Pandora i najpopularniejsze repozytorium, Internet Archive .

Analiza tych i innych projektów doprowadziła do zaplanowania projektu PADICAT, podążając za powszechnym na świecie trendem hybrydowego modelu funkcjonowania, uzupełniającego regularne przechwytywanie całej domeny geograficznej (w tym przypadku domeny .cat) , z selektywne działania i rozszerzyć te relacje na różne wydarzenia społeczne, które generują intensywną aktywność w sieci ( na przykład kampanie wyborcze ) lub pakiety tematyczne ( muzea Katalonii, kataloński folk-rock w Internecie itp.). PADICAT uzupełnia to wszystko wkładem użytkowników za pośrednictwem zalecanych stron internetowych.

W czerwcu 2005 roku Biblioteca de Catalunya rozpoczęła wstępną fazę planowania, w której przeprowadzono analizę projektów pod kątem istniejących zasobów, agentów zaangażowanych w tworzenie stron internetowych Katalonii oraz kwestii prawnych, które określają praktyki, które chcą zrobić.

W oparciu o parametry określone przez Biblioteca de Catalunya, 21 lipca 2006 r. rozpoczęto automatyczne gromadzenie stron internetowych, które prawdopodobnie będą częścią cyfrowego dziedzictwa Katalonii. 11 września 2006 r., zbiegając się z obchodami Dnia Narodowego Katalonii , udostępniono publicznie stronę internetową PADICAT, na której przechowywanych jest około trzydziestu stron internetowych.

Lata 2006–2008 to faza produkcyjna, pilotażowy plan projektu, faza operacyjna PADICAT: systematyczne przechwytywanie stron internetowych Katalonii.

W latach 2009-2011 Biblioteca de Catalunya powinna znajdować się w optymalnej sytuacji, w której ten system – pionier w Hiszpanii i wzorzec w Europie – będzie działał na pełnych obrotach. Ponadto osiągnęliśmy porozumienia o współpracy z ponad 450 instytucjami wszelkiego rodzaju i zagwarantowaliśmy otwarty dostęp online do wszystkich zbiorów. 11 września 2011 r., ponownie zbiegając się z Narodowym Świętem Katalonii i piątą rocznicą swojej strony internetowej, PADICAT otworzył nową wersję strony internetowej, aby uzyskać dostęp do wszystkich zdeponowanych treści.

W listopadzie 2012 r. PADICAT zachował 58 122 sieci, 249 609 indeksowań, 349 milionów plików i 13 TB miejsca na dysku. Wszystkie z nich są swobodnie dostępne.

Misja i funkcjonowanie

Misja i cele

Misją PADICAT jest gromadzenie, przetwarzanie i udostępnianie cyfrowego dziedzictwa Katalonii zrodzonego w Internecie. Jego cele to:

  • Ogromna kompilacja domeny .cat , dzięki umowie z Fundació puntCat .
  • Systematyczna archiwizacja produkcji stron internetowych katalońskich organizacji i firm.
  • Promuj kierunki badań poprzez tematyczną integrację zasobów cyfrowych związanych z konkretnymi wydarzeniami w katalońskim życiu publicznym, takimi jak kampanie polityczne w Internecie, zjawisko muzyki online lub muzea w Internecie.

Po fazie narodzin (2005-2006), wzrostu (2007-2008) i konsolidacji (2009-2011), od 2012 roku chce się usystematyzować jej zdolność do wzrostu, mając na celu włączenie 75.700 wersji około 32.000 stron internetowych rocznie, z:

  • Dwuletnia kompilacja z 30 000 zasobów domeny .cat.
  • Dwuletnia kompilacja z 550 zasobów z ponad 450 organizacji z umową o współpracy.
  • Dwuletnia kompilacja z zasobów polecanych przez użytkowników.
  • Codzienna kompilacja znacznej części 30 publikacji seryjnych online.

Ponadto istnieją cztery stałe obszary pracy:

  • Definiowanie strategii ochrony dziedzictwa cyfrowego zrodzonego w Internecie. PADICAT dostarcza okresowe raporty o katalońskich stronach internetowych; wykrywa, które formaty mają problemy z nieczytelnością; i identyfikuje najczęściej używane języki itp.
  • Promowanie kierunków badawczych poprzez tworzenie kolekcji monograficznych z udziałem ekspertów z każdej dziedziny.
  • Tworzenie i utrzymywanie cyfrowego archiwum seriali poprzez usystematyzowane przechwytywanie cyfrowych seriali z Internetu. Teraz składa się z reprezentatywnej próby o rodzaju i treści, wyselekcjonowanej spośród urodzonych cyfrowo, bez analogowego odpowiednika.
  • Współpraca z innymi archiwami internetowymi, bibliotekami, archiwami i muzeami w celu skutecznego reagowania na wyzwania związane z ochroną zasobów cyfrowych i dostępem do ich zasobów.

Funkcjonowanie

Oprogramowanie

Schemat przepływu pracy oprogramowania PADICAT

PADICAT to system oparty na implementacji kilku programów , które umożliwiają gromadzenie, przechowywanie, organizowanie, przechowywanie i stały dostęp do stron internetowych. Później do fazy analizy i testów oprogramowania ustalono, że zostanie użyte Heritrix , stosowane w większości projektów przechwytywania zasobów cyfrowych. Jest to opłata programowa za skompilowanie stron internetowych tak, jak widzi to użytkownik podczas surfowania po Internecie i przechowywanie ich w skompresowanych plikach z ARC lub WARC . Następnie oprogramowanie Heritrix jest uzupełniane przez NutchWax lub w połączeniu z Hadoop i Wayback , przeprowadzając proces indeksowania skompilowanych informacji, który pozwoli na użycie tych indeksów do lokalizacji zasobów kolekcji z interfejsów zapytań: Wera, która umożliwia wyszukiwanie od słów kluczowych do indeksów generowanych przez NutchWax; i Wayback, który pozwala sprawdzać adres URL w indeksach generowanych przez Hadoop i ten sam Wayback.

Zastosowano oprogramowanie Web Curator Tool, opracowane przez Bibliotekę Narodową Nowej Zelandii i Bibliotekę Brytyjską , jako system zarządzania dokumentami, który pozwala przyporządkować metadane do znacznej części zbiorów, aby w przyszłości zintegrować środki depozytowe do wyszukiwania w innych katalogi Biblioteca de Catalunya lub innych instytucji. Obecnie strony internetowe są katalogowane za pomocą CAT, oprogramowania specjalnie opracowanego przez techników CESCA na potrzeby projektu.

Sprzęt komputerowy

Serwery PADICAT na targach CESCA

Jeśli chodzi o sprzęt obsługujący system, jest sześć węzłów HP ProLiant DL360 G4p, odpowiedzialnych za zadania gromadzenia i indeksowania stron internetowych. Za wyszukiwanie i przeglądanie wyników w interfejsie sieciowym odpowiedzialny jest klaster Linux high-availability, z funkcjami równoważącymi obciążenia żądań i tolerancją błędów w przypadku awarii technicznej węzłów integrujących platformę. Kabina NetApp FAS3170 udostępnia tym węzłom 19 TB pojemności dysku przez NFS.

Węzły połączone są światłowodem z Storage Area Network (SAN) i uzupełnione o system zapisywania robota do backupu danych.

Oczekuje się, że zawartość zdeponowana w PADICAT to COFRE (COnservem per al Futur Recursos Electrònics), system przechowywania o wysokim poziomie bezpieczeństwa stworzony dla Biblioteca de Catalunya

Linki zewnętrzne