Archeologia danych

Istnieją dwie konceptualizacje archeologii danych, definicja techniczna i definicja nauk społecznych.

Archeologia danych (również archeologia danych) w sensie technicznym odnosi się do sztuki i nauki odzyskiwania danych komputerowych zakodowanych i/lub zaszyfrowanych w przestarzałych już nośnikach lub formatach . Archeologia danych może również odnosić się do odzyskiwania informacji z uszkodzonych elektronicznych po klęskach żywiołowych lub błędach ludzkich.

Obejmuje ratowanie i odzyskiwanie starych danych uwięzionych w przestarzałych, archaicznych lub przestarzałych formatach przechowywania, takich jak dyskietki, taśmy magnetyczne, karty perforowane oraz przekształcanie/przenoszenie tych danych do bardziej użytecznych formatów.

Archeologia danych w naukach społecznych zwykle obejmuje badanie źródła i historii zbiorów danych oraz budowę tych zbiorów danych. Obejmuje mapowanie całej linii danych, ich charakteru i cech, ich jakości i prawdziwości oraz ich wpływu na analizę i interpretację zbioru danych.

Wyniki przeprowadzania archeologii danych wpływają na poziom wiarygodności wniosków wyciągniętych z analizy danych.

Termin archeologia danych pojawił się pierwotnie w 1993 roku jako część projektu Global Oceanographic Data Archaeology and Rescue Project (GODAR). Pierwotny impuls dla archeologii danych wynikał z potrzeby odzyskania skomputeryzowanych zapisów warunków klimatycznych przechowywanych na starych taśmach komputerowych , które mogą dostarczyć cennych dowodów do testowania teorii zmian klimatycznych . Te podejścia umożliwiły rekonstrukcję obrazu Arktyki , który został przechwycony przez satelitę Nimbus 2 23 września 1966 r., w wyższej rozdzielczości niż kiedykolwiek wcześniej na podstawie tego typu danych.

NASA korzysta również z usług archeologów danych w celu odzyskania informacji przechowywanych na starych taśmach komputerowych z lat 60. XX wieku , czego przykładem jest Lunar Orbiter Image Recovery Project (LOIRP).

Powrót do zdrowia

Istnieje rozróżnienie między odzyskiwaniem danych a zrozumiałością danych. Ktoś może być w stanie odzyskać dane, ale ich nie rozumieć. Aby archeologia danych była skuteczna, dane muszą być zrozumiałe.

Terminem blisko związanym z archeologią danych jest rodowód danych . Pierwszym krokiem w przeprowadzaniu archeologii danych jest zbadanie ich rodowodu danych. Pochodzenie danych obejmuje historię danych, ich źródło oraz wszelkie zmiany lub przekształcenia, jakim zostały poddane. Pochodzenie danych można znaleźć w metadanych zbioru danych, paradanych zbioru danych lub wszelkich towarzyszących identyfikatorach (przewodnikach metodycznych itp.). Z archeologią danych wiąże się przejrzystość metodologiczna, czyli poziom, do którego użytkownik danych może uzyskać dostęp do historii danych. Dostępny poziom przejrzystości metodologicznej określa nie tylko, ile można odzyskać, ale pomaga w poznaniu danych. Badanie rodowodu danych obejmuje użyte instrumenty, kryteria wyboru, parametry pomiarowe i ramy próbkowania.

W sensie społeczno-politycznym archeologia danych obejmuje analizę zbiorów danych w celu ujawnienia ich dyskursywnych i materialnych elementów i aparatów socjotechnicznych. Ten rodzaj analizy może ujawnić politykę analizowanych danych, a tym samym politykę instytucji, która je wytwarza. Archeologia w tym sensie odnosi się do pochodzenia danych. Obejmuje mapowanie witryn, formatów i infrastruktur, przez które przepływają dane i które są zmieniane lub przekształcane w czasie. interesuje się życiem danych i polityką, która kształtuje obieg danych. Służy to ujawnieniu kluczowych aktorów, praktyk i praktyk w grze oraz ich ról. Można to zrealizować w dwóch krokach. Po pierwsze, dostęp i ocena stosu technicznego danych (dotyczy to infrastruktury i technologii materiałowych wykorzystywanych do tworzenia/gromadzenia danych) w celu zrozumienia fizycznej reprezentacji danych, a także. Po drugie, analiza kontekstowego stosu danych, który kształtuje sposób, w jaki dane są konstruowane, wykorzystywane i analizowane. Można tego dokonać za pomocą różnych procesów, wywiadów, analizy dokumentów technicznych i politycznych oraz badania wpływu danych na społeczność lub ramy instytucjonalne, finansowe, prawne i materialne. Można to osiągnąć, tworząc asamblaż danych

Archeologia danych przedstawia sposób, w jaki dane przemieszczają się w różnych witrynach, i czasami może napotkać tarcie danych.

Odzyskiwanie po awarii

Archeolodzy danych mogą również korzystać z odzyskiwania danych po klęskach żywiołowych, takich jak pożary, powodzie, trzęsienia ziemi , a nawet huragany . Na przykład w 1995 r. podczas huraganu Marilyn National Media Lab pomagało National Archives and Records Administration w odzyskiwaniu danych zagrożonych z powodu uszkodzonego sprzętu. Sprzęt został uszkodzony przez deszcz, słoną wodę i piasek, ale udało się wyczyścić niektóre dyski i założyć nowe obudowy, oszczędzając w ten sposób dane.

Techniki odzyskiwania

Two floppy disks on a desk
Dane przechowywane w przestarzałych formatach, takich jak dyskietki, muszą zostać przywrócone do nowszych formatów

Podejmując decyzję, czy spróbować odzyskać dane, należy wziąć pod uwagę koszt. Jeśli wystarczy czasu i pieniędzy, większość danych będzie można odzyskać. W przypadku nośników magnetycznych , które są najczęściej używanym typem do przechowywania danych, istnieją różne techniki odzyskiwania danych w zależności od rodzaju uszkodzenia.

Wilgoć może spowodować, że taśmy staną się bezużyteczne, ponieważ zaczną się psuć i staną się lepkie. W takim przypadku można zastosować obróbkę cieplną, aby rozwiązać ten problem, powodując ponowne wchłonięcie olejów i pozostałości przez taśmę lub odparowanie z powierzchni taśmy. Należy to jednak zrobić tylko w celu zapewnienia dostępu do danych, aby można je było wyodrębnić i skopiować na bardziej stabilny nośnik.

Utrata smaru jest kolejnym źródłem uszkodzeń taśm. Jest to najczęściej spowodowane intensywnym użytkowaniem, ale może być również wynikiem niewłaściwego przechowywania lub naturalnego parowania. W wyniku intensywnego użytkowania część smaru może pozostać na głowicach odczytująco-zapisujących, które następnie zbierają kurz i cząsteczki. Może to spowodować uszkodzenie taśmy. Utracie smarowania można zaradzić poprzez ponowne nasmarowanie taśm. Należy to robić ostrożnie, ponieważ nadmierne smarowanie może spowodować ślizganie się taśmy, co z kolei może prowadzić do błędnego odczytu nośnika i utraty danych.

Wystawienie na działanie wody z czasem uszkodzi taśmy. Często zdarza się to w sytuacji katastrofy. Jeśli nośnik znajduje się w słonej lub brudnej wodzie, należy go przepłukać w słodkiej wodzie. Proces czyszczenia, płukania i suszenia mokrych taśm należy przeprowadzać w temperaturze pokojowej, aby zapobiec uszkodzeniom cieplnym. Starsze taśmy należy odzyskać przed nowszymi, ponieważ są bardziej podatne na uszkodzenia spowodowane przez wodę.

Następnym krokiem (po zbadaniu pochodzenia danych) jest ustalenie, co liczy się jako dobre i złe dane, aby upewnić się, że tylko „dobre” dane zostaną zmigrowane do nowej hurtowni danych lub repozytorium. Dobrym przykładem złych danych są „dane testowe” w sensie danych technicznych, to dane testowe .

Zapobieganie

Aby zapobiec potrzebie archeologii danych, twórcy i posiadacze dokumentów cyfrowych powinni zadbać o ochronę cyfrową .

Servers in a rack
Przechowywanie danych na serwerze off-shore jest dobrym środkiem zapobiegawczym przed utratą danych

Innym skutecznym środkiem zapobiegawczym jest wykorzystanie morskich obiektów zapasowych, na które nie można mieć wpływu w przypadku wystąpienia katastrofy. Z tych serwerów kopii zapasowych można było łatwo odzyskać kopie utraconych danych. W celu optymalnego odzyskiwania danych, zwłaszcza w przypadku dużych zbiorów danych, zalecany jest plan dystrybucji danych obejmujący wiele lokalizacji i obejmujący wiele technik . Metoda TCP/IP , odzyskiwanie migawek, strony lustrzane i taśmy zabezpieczające dane w chmurze prywatnej to również dobre metody zapobiegawcze. Codzienne przesyłanie danych z ich witryn lustrzanych na serwery awaryjne.

Zobacz też

  1. ^ a b c Kitchin, Rob (2022). Rewolucja danych . Szałwia.
  2. ^ Techno-archeologia ratuje dane klimatyczne z wczesnych satelitów US National Snow and Ice Data Center (NSIDC), styczeń 2010
  3. ^ Przegląd LOIRP Witryna NASA 14 listopada 2008 r. Zarchiwizowana
  4. ^ a b c d e f [1] Badanie na stronie internetowej 23 października 2011 r
  5. ^   Bates Jo (2016). „Data Journeys: przechwytywanie społeczno-materialnej konstytucji obiektów danych i przepływów” . Big Data i społeczeństwo . 3 (2): 1–12. doi : 10.1177/2053951716654502 . S2CID 54719310 .
  6. ^   Chang, V (2015). „W kierunku odzyskiwania po awarii systemu Big Data w chmurze prywatnej” (PDF) . Sieci ad hoc . 5 : 65–82. doi : 10.1016/j.adhoc.2015.07.012 . S2CID 18230189 – przez Elsevier.
  • Światowe słowa: archeologia danych
  • O'Donnell, James Joseph. Awatary słowa: od papirusu do cyberprzestrzeni Harvard University Press, 1998.
  •   Ross, Seamus i Gow, Ann (1999). Archeologia cyfrowa: ratowanie zaniedbanych i uszkodzonych zasobów danych (PDF) . Studia programowe bibliotek elektronicznych. Londyn i Bristol: British Library i Joint Information Systems Committee. ISBN 1-90050-851-6 .
  • Kitchin, Rob. (2022.) Rewolucja danych: wydanie drugie. Publikacje Sage.
  • Dumit, J. i Nafus, D. (2018) „Pozostałe dziewięćdziesiąt procent: myślenie za pomocą nauki o danych, tworzenie badań danych”, w: Knox, H. i Nafus, D. (red.), Ethnography for a Data-Saturated World . Manchester University Press, Manchester, s. 252–274
  • Chang, V. (2015). „W kierunku przywracania systemu Big Data po awarii w chmurze prywatnej”. Sieci ad hoc, tom 5, s. 65–82. Elsevier.
  • „Bates, J., Lin, Y.-W. i Goodale, P. (2016) „Podróże danych: uchwycenie społeczno-materialnej konstytucji obiektów i przepływów danych”, Big Data & Society, 4(2): 1–12.”.