PADICAT
Adres URL | http://www.padicat.cat/ |
---|
PADICAT akronim dla Patrimoni Digital de Catalunya , w języku katalońskim ; lub Cyfrowe Dziedzictwo Katalonii , w języku angielskim, to Web Archive of Catalonia.
Utworzona w 2005 roku przez Biblioteca de Catalunya , publiczną instytucję odpowiedzialną za gromadzenie, ochronę i dystrybucję dziedzictwa bibliograficznego, a co za tym idzie, dziedzictwa cyfrowego. Ma współpracę technologiczną Centrum Usług Naukowych i Akademickich Katalonii (CESCA) w celu zachowania i udostępniania starych wersji stron internetowych opublikowanych w Internecie . Biblioteca de Catalunya, jako organ odpowiedzialny za PADICAT, jest członkiem Międzynarodowego Konsorcjum Ochrony Internetu (IIPC).
Historia
PADICAT narodził się w 2005 r. podążając za trendem innych bibliotek narodowych w zakresie tworzenia archiwów internetowych oraz jako odpowiedź na publikację wytycznych UNESCO w sprawie ochrony dziedzictwa cyfrowego . Działa wiele archiwów internetowych . Najsłynniejszy rozpoczął się w 1996 roku: szwedzki Kulturarw3; australijska Pandora i najpopularniejsze repozytorium, Internet Archive .
Analiza tych i innych projektów doprowadziła do zaplanowania projektu PADICAT, podążając za powszechnym na świecie trendem hybrydowego modelu funkcjonowania, uzupełniającego regularne przechwytywanie całej domeny geograficznej (w tym przypadku domeny .cat) , z selektywne działania i rozszerzyć te relacje na różne wydarzenia społeczne, które generują intensywną aktywność w sieci ( na przykład kampanie wyborcze ) lub pakiety tematyczne ( muzea Katalonii, kataloński folk-rock w Internecie itp.). PADICAT uzupełnia to wszystko wkładem użytkowników za pośrednictwem zalecanych stron internetowych.
W czerwcu 2005 roku Biblioteca de Catalunya rozpoczęła wstępną fazę planowania, w której przeprowadzono analizę projektów pod kątem istniejących zasobów, agentów zaangażowanych w tworzenie stron internetowych Katalonii oraz kwestii prawnych, które określają praktyki, które chcą zrobić.
W oparciu o parametry określone przez Biblioteca de Catalunya, 21 lipca 2006 r. rozpoczęto automatyczne gromadzenie stron internetowych, które prawdopodobnie będą częścią cyfrowego dziedzictwa Katalonii. 11 września 2006 r., zbiegając się z obchodami Dnia Narodowego Katalonii , udostępniono publicznie stronę internetową PADICAT, na której przechowywanych jest około trzydziestu stron internetowych.
Lata 2006–2008 to faza produkcyjna, pilotażowy plan projektu, faza operacyjna PADICAT: systematyczne przechwytywanie stron internetowych Katalonii.
W latach 2009-2011 Biblioteca de Catalunya powinna znajdować się w optymalnej sytuacji, w której ten system – pionier w Hiszpanii i wzorzec w Europie – będzie działał na pełnych obrotach. Ponadto osiągnęliśmy porozumienia o współpracy z ponad 450 instytucjami wszelkiego rodzaju i zagwarantowaliśmy otwarty dostęp online do wszystkich zbiorów. 11 września 2011 r., ponownie zbiegając się z Narodowym Świętem Katalonii i piątą rocznicą swojej strony internetowej, PADICAT otworzył nową wersję strony internetowej, aby uzyskać dostęp do wszystkich zdeponowanych treści.
W listopadzie 2012 r. PADICAT zachował 58 122 sieci, 249 609 indeksowań, 349 milionów plików i 13 TB miejsca na dysku. Wszystkie z nich są swobodnie dostępne.
Misja i funkcjonowanie
Misja i cele
Misją PADICAT jest gromadzenie, przetwarzanie i udostępnianie cyfrowego dziedzictwa Katalonii zrodzonego w Internecie. Jego cele to:
- Ogromna kompilacja domeny .cat , dzięki umowie z Fundació puntCat .
- Systematyczna archiwizacja produkcji stron internetowych katalońskich organizacji i firm.
- Promuj kierunki badań poprzez tematyczną integrację zasobów cyfrowych związanych z konkretnymi wydarzeniami w katalońskim życiu publicznym, takimi jak kampanie polityczne w Internecie, zjawisko muzyki online lub muzea w Internecie.
Po fazie narodzin (2005-2006), wzrostu (2007-2008) i konsolidacji (2009-2011), od 2012 roku chce się usystematyzować jej zdolność do wzrostu, mając na celu włączenie 75.700 wersji około 32.000 stron internetowych rocznie, z:
- Dwuletnia kompilacja z 30 000 zasobów domeny .cat.
- Dwuletnia kompilacja z 550 zasobów z ponad 450 organizacji z umową o współpracy.
- Dwuletnia kompilacja z zasobów polecanych przez użytkowników.
- Codzienna kompilacja znacznej części 30 publikacji seryjnych online.
Ponadto istnieją cztery stałe obszary pracy:
- Definiowanie strategii ochrony dziedzictwa cyfrowego zrodzonego w Internecie. PADICAT dostarcza okresowe raporty o katalońskich stronach internetowych; wykrywa, które formaty mają problemy z nieczytelnością; i identyfikuje najczęściej używane języki itp.
- Promowanie kierunków badawczych poprzez tworzenie kolekcji monograficznych z udziałem ekspertów z każdej dziedziny.
- Tworzenie i utrzymywanie cyfrowego archiwum seriali poprzez usystematyzowane przechwytywanie cyfrowych seriali z Internetu. Teraz składa się z reprezentatywnej próby o rodzaju i treści, wyselekcjonowanej spośród urodzonych cyfrowo, bez analogowego odpowiednika.
- Współpraca z innymi archiwami internetowymi, bibliotekami, archiwami i muzeami w celu skutecznego reagowania na wyzwania związane z ochroną zasobów cyfrowych i dostępem do ich zasobów.
Funkcjonowanie
Oprogramowanie
PADICAT to system oparty na implementacji kilku programów , które umożliwiają gromadzenie, przechowywanie, organizowanie, przechowywanie i stały dostęp do stron internetowych. Później do fazy analizy i testów oprogramowania ustalono, że zostanie użyte Heritrix , stosowane w większości projektów przechwytywania zasobów cyfrowych. Jest to opłata programowa za skompilowanie stron internetowych tak, jak widzi to użytkownik podczas surfowania po Internecie i przechowywanie ich w skompresowanych plikach z ARC lub WARC . Następnie oprogramowanie Heritrix jest uzupełniane przez NutchWax lub w połączeniu z Hadoop i Wayback , przeprowadzając proces indeksowania skompilowanych informacji, który pozwoli na użycie tych indeksów do lokalizacji zasobów kolekcji z interfejsów zapytań: Wera, która umożliwia wyszukiwanie od słów kluczowych do indeksów generowanych przez NutchWax; i Wayback, który pozwala sprawdzać adres URL w indeksach generowanych przez Hadoop i ten sam Wayback.
Zastosowano oprogramowanie Web Curator Tool, opracowane przez Bibliotekę Narodową Nowej Zelandii i Bibliotekę Brytyjską , jako system zarządzania dokumentami, który pozwala przyporządkować metadane do znacznej części zbiorów, aby w przyszłości zintegrować środki depozytowe do wyszukiwania w innych katalogi Biblioteca de Catalunya lub innych instytucji. Obecnie strony internetowe są katalogowane za pomocą CAT, oprogramowania specjalnie opracowanego przez techników CESCA na potrzeby projektu.
Sprzęt komputerowy
Jeśli chodzi o sprzęt obsługujący system, jest sześć węzłów HP ProLiant DL360 G4p, odpowiedzialnych za zadania gromadzenia i indeksowania stron internetowych. Za wyszukiwanie i przeglądanie wyników w interfejsie sieciowym odpowiedzialny jest klaster Linux high-availability, z funkcjami równoważącymi obciążenia żądań i tolerancją błędów w przypadku awarii technicznej węzłów integrujących platformę. Kabina NetApp FAS3170 udostępnia tym węzłom 19 TB pojemności dysku przez NFS.
Węzły połączone są światłowodem z Storage Area Network (SAN) i uzupełnione o system zapisywania robota do backupu danych.
Oczekuje się, że zawartość zdeponowana w PADICAT to COFRE (COnservem per al Futur Recursos Electrònics), system przechowywania o wysokim poziomie bezpieczeństwa stworzony dla Biblioteca de Catalunya