Plan zarządzania danymi
Plan zarządzania danymi lub DMP to formalny dokument określający sposób postępowania z danymi zarówno w trakcie projektu badawczego, jak i po jego zakończeniu. Celem planu zarządzania danymi jest rozważenie wielu aspektów zarządzania danymi , generowania metadanych , przechowywania danych i analizy przed rozpoczęciem projektu; może to prowadzić do dobrego zarządzania danymi w teraźniejszości [ potrzebne źródło ] i przygotowania do zachowania w przyszłości.
gromadzeniem i analizą danych projektów lotniczych i inżynieryjnych , a następnie rozszerzyły się na dyscypliny inżynieryjne i naukowe w latach 70. i 80. XX wieku. Aż do początku XXI wieku DMP były używane „w projektach o dużej złożoności technicznej oraz do ograniczonych celów gromadzenia i przetwarzania danych w połowie badania”. W 2000 roku i później, e-badania i polityka gospodarcza napędzały rozwój i absorpcję DMP.
Znaczenie
Przygotowanie planu zarządzania danymi przed ich zebraniem ma zapewnić, że dane mają właściwy format, są dobrze zorganizowane i lepiej opatrzone adnotacjami. Może to prawdopodobnie zaoszczędzić czas w dłuższej perspektywie, ponieważ nie ma potrzeby ponownego organizowania, ponownego formatowania ani prób zapamiętywania szczegółów dotyczących danych. Uważa się również, że zwiększa to efektywność badań, ponieważ zarówno osoba zbierająca dane, jak i inni badacze mogą być w stanie zrozumieć i wykorzystać dobrze opatrzone adnotacjami dane w przyszłości. Jednym z elementów planu zarządzania danymi jest archiwizacja i przechowywanie danych. Decydując się na archiwum z wyprzedzeniem, osoba gromadząca dane może sformatować dane podczas ich gromadzenia, aby ułatwić ich późniejsze przesłanie do bazy danych. Jeśli dane są zachowane, są bardziej przydatne, ponieważ mogą być ponownie wykorzystane przez innych badaczy. Umożliwia także zbieraczowi danych kierowanie żądań danych do bazy danych, a nie indywidualne adresowanie żądań. Częstym argumentem przemawiającym za konserwacją jest to, że zachowane dane mogą potencjalnie prowadzić do nowych, nieoczekiwanych odkryć i zapobiegają powielaniu już przeprowadzonych badań naukowych. Archiwizacja danych zapewnia również ubezpieczenie od utraty przez administratora danych.
W 2010 roku agencje finansujące coraz częściej wymagały planów zarządzania danymi w ramach procesu składania wniosków i oceny, pomimo niewielkich lub żadnych dowodów na ich skuteczność.
Główne komponenty
„Nie ma ogólnej i ostatecznej listy tematów, które powinny zostać uwzględnione w DMP dla projektu badawczego”, a naukowcy często są pozostawieni samym sobie, jak wypełnić DMP.
Informacje o danych i formacie danych
- Opis danych, które mają być generowane przez projekt. Może to obejmować (ale nie wyłącznie) dane, które są:
- Eksperymentalny
- Obserwacyjny
- Surowe lub pochodne
- Zbiory fizyczne
- modele
- Symulacje
- Materiały programowe
- Oprogramowanie
- Obrazy
- W jaki sposób dane będą pozyskiwane? Kiedy i gdzie zostaną nabyte?
- W jaki sposób dane będą przetwarzane po zebraniu? Dołącz informacje o
- Używane oprogramowanie
- Algorytmy
- Przepływy pracy naukowej
- Formaty plików, które będą używane, uzasadnij te formaty i opisz stosowane konwencje nazewnictwa.
- Zapewnienie jakości i środki kontroli jakości, które zostaną podjęte podczas pobierania, analizy i przetwarzania próbek.
- Jeśli wykorzystywane są istniejące dane, jakie są ich źródła? W jaki sposób zebrane dane zostaną połączone z istniejącymi danymi? Jaki jest związek między zebranymi danymi a istniejącymi danymi?
- Jak dane będą zarządzane w perspektywie krótkoterminowej? Rozważ następujące:
- Kontrola wersji dla plików
- Tworzenie kopii zapasowych danych i produktów danych
- Bezpieczeństwo i ochrona danych oraz produktów związanych z danymi
- Kto będzie odpowiedzialny za zarządzanie
Zawartość i format metadanych
Metadane to szczegóły kontekstowe, w tym wszelkie informacje ważne dla korzystania z danych. Może to obejmować opisy szczegółów czasowych i przestrzennych, instrumentów, parametrów, jednostek, plików itp. Metadane są powszechnie określane jako „dane o danych”. Kwestie do rozważenia obejmują:
- Jak szczegółowe muszą być metadane, aby były znaczące?
- W jaki sposób zostaną utworzone i/lub przechwycone metadane? Przykłady obejmują notatniki laboratoryjne, podręczne urządzenia GPS, automatycznie zapisywane pliki na instrumentach itp.
- W jakim formacie zostaną użyte metadane? Jakie są standardy metadanych w danej dyscyplinie naukowej? Wybrany format powinien zawierać uzasadnienie.
Zasady dostępu, udostępniania i ponownego wykorzystywania
- Proszę opisać wszelkie obowiązki dotyczące udostępniania zebranych danych. Mogą one obejmować zobowiązania agencji finansujących, instytucji, innych organizacji zawodowych oraz wymogi prawne.
- Dołącz informacje o tym, w jaki sposób dane będą udostępniane, w tym kiedy dane będą dostępne, jak długo dane będą dostępne, w jaki sposób można uzyskać dostęp oraz wszelkie prawa, które administrator danych zastrzega do korzystania z danych.
- Rozwiąż wszelkie problemy etyczne lub dotyczące prywatności związane z udostępnianiem danych
- Rozwiązywanie problemów związanych z własnością intelektualną i prawami autorskimi . Kto jest właścicielem praw autorskich? Jakie są zasady instytucji, wydawców i/lub agencji finansujących związane z własnością intelektualną? Czy istnieją embarga z powodów politycznych, handlowych lub patentowych?
- Opisz zamierzone przyszłe zastosowania/użytkowników danych
- Wskaż, w jaki sposób dane powinny być cytowane przez innych. Jak zostanie rozwiązany problem uporczywego cytowania? Na przykład, jeśli dane zostaną zdeponowane w publicznym archiwum, czy zestaw danych będzie miał przypisany cyfrowy identyfikator obiektu (DOI)?
Długoterminowe przechowywanie i zarządzanie danymi
- Badacze powinni określić odpowiednie archiwum do długoterminowego przechowywania swoich danych. Identyfikując archiwum na wczesnym etapie projektu, dane można odpowiednio sformatować, przekształcić i udokumentować, aby spełnić wymagania archiwum. Badacze powinni konsultować się z kolegami i stowarzyszeniami zawodowymi w swojej dyscyplinie, aby określić najbardziej odpowiednią bazę danych i uwzględnić archiwum kopii zapasowych w swoim planie zarządzania danymi na wypadek, gdyby ich pierwszy wybór przestał istnieć.
- Na wczesnym etapie projektu główny badacz powinien określić, jakie dane zostaną zachowane w archiwum. Zwykle pożądane jest zachowanie danych w ich najbardziej surowej postaci, chociaż można również zachować pochodne danych i produkty.
- Należy wskazać osobę fizyczną jako główną osobę kontaktową w sprawie zarchiwizowanych danych i zapewnić, aby dane kontaktowe były zawsze aktualne na wypadek, gdyby pojawiły się prośby o dane lub informacje o danych.
Budżet
Koszty zarządzania i przechowywania danych mogą być znaczne, w zależności od charakteru projektu. Przewidując koszty z wyprzedzeniem, badacze zapewniają, że dane będą odpowiednio zarządzane i archiwizowane. Potencjalne wydatki, które należy wziąć pod uwagę, to m.in
- Czas personelu na przygotowanie, zarządzanie, dokumentację i przechowywanie danych
- Sprzęt i/lub oprogramowanie potrzebne do zarządzania danymi, tworzenia kopii zapasowych, zabezpieczania, dokumentowania i przechowywania
- Koszty związane ze złożeniem danych do archiwum
Plan zarządzania danymi powinien zawierać sposób pokrywania tych kosztów.
Plan zarządzania danymi NSF
Wszystkie wnioski o dofinansowanie składane do NSF muszą zawierać plan zarządzania danymi, który ma nie więcej niż dwie strony. Jest to dodatek (nie jest częścią 15-stronicowej propozycji) i powinien opisywać, w jaki sposób propozycja będzie zgodna z zasadami Przewodnika dotyczącego przyznawania nagród i administracji (patrz poniżej). Może to obejmować:
- Rodzaje danych
- Standardy, które należy stosować w odniesieniu do formatu i treści danych i metadanych
- Zasady dostępu i udostępniania
- Polityki i przepisy dotyczące ponownego wykorzystania
- Plany archiwizacji danych
Podsumowanie zasad z Przewodnika NSF Award and Administration Guide, Sekcja 4 (Rozpowszechnianie i udostępnianie wyników badań):
- Niezwłocznie opublikuj z odpowiednim autorstwem
- Udostępniaj dane, próbki, zbiory fizyczne i materiały pomocnicze innym osobom w rozsądnych ramach czasowych
- Udostępniaj oprogramowanie i wynalazki
- Śledczy mogą zachować swoje prawa do własności intelektualnej, ale nadal muszą udostępniać wyniki, dane i zbiory innym osobom
- Zasady będą realizowane za pośrednictwem
- Przegląd propozycji
- Negocjacje i warunki przyznania nagrody
- Wsparcie/zachęty
Plan zarządzania danymi ESRC
Od 1995 r. brytyjska Rada ds. Badań Ekonomicznych i Społecznych (ESRC) wprowadziła politykę dotyczącą danych badawczych. Obecna Polityka Danych Badawczych ESRC stanowi, że dane badawcze powstałe w wyniku badań finansowanych przez ESRC powinny być otwarte dla społeczności naukowej w maksymalnym możliwym zakresie, poprzez długoterminowe przechowywanie i wysokiej jakości zarządzanie danymi.
ESRC wymaga planu zarządzania danymi dla wszystkich wniosków o przyznanie nagrody badawczej, w których tworzone są nowe dane. Takie plany mają na celu promowanie ustrukturyzowanego podejścia do zarządzania danymi w całym cyklu życia danych, co skutkuje lepszą jakością danych, które są gotowe do archiwizacji w celu udostępniania i ponownego wykorzystania. UK Data Service , sztandarowy serwis danych ESRC, zapewnia praktyczne wskazówki dotyczące planowania zarządzania danymi badawczymi, odpowiednie dla badaczy nauk społecznych w Wielkiej Brytanii i na całym świecie.
ESRC ma wieloletnią umowę z UK Data Archive z siedzibą na Uniwersytecie w Essex , jako miejsce przechowywania danych badawczych, a posiadacze nagród są zobowiązani do oferowania danych wynikających z ich grantów badawczych za pośrednictwem UK Data Service. Archiwum umożliwia ponowne wykorzystanie danych poprzez zachowanie danych i udostępnianie ich społecznościom naukowym i dydaktycznym.
Korzyści
Istnieją trzy główne tematy zidentyfikowane w literaturze pod względem korzyści płynących z DMP: korzyści zawodowe, korzyści ekonomiczne i korzyści instytucjonalne. Argumentowano, że DMP mogą stanowić katalizator dla naukowców w celu poprawy ich umiejętności korzystania z danych i praktyk zarządzania danymi, często wspomaganych przez bibliotekę.
W praktyce
W praktyce jednak DMP często nie osiągają wyznaczonych celów. Przegląd zasad DMP przeprowadzony w 2012 r. przez podmioty finansujące badania wykazał, że w zasadach brakuje kilku elementów na liście kryteriów DMP opracowanej przez Digital Curation Center . Naukowcy udostępnili tekst DMP. DMP są często uważane za „zadanie administracyjne, a nie integralną część” procesu badawczego i uznano, że DMP nie gwarantują dobrych praktyk zarządzania danymi . Większość podmiotów finansujących nie wymaga DMP po przyznaniu dotacji, pozbawiając w ten sposób interesariuszy potężnego narzędzia, jakim może być aktywny DMP. Najlepszą praktyką byłoby „wymaganie utrzymania planu zarządzania danymi po udzieleniu zamówienia i podczas aktywnej fazy badania”. Obecnie plany udostępniania danych są ważniejsze niż plany zarządzania danymi dla podmiotów finansujących.
Zobacz też
Dalsza lektura
Pryor, Graham (2014). Świadczenie usług zarządzania danymi badawczymi . Wydawnictwo Facet. ISBN 9781856049337 .
Linki zewnętrzne
- Data Stewardship Wizard : Twórz inteligentne plany zarządzania danymi dla FAIR Open Science
- DataONE
- DMPonline
- Centrum cyfrowej kuracji
- Wytyczne dotyczące propozycji dotacji NSF
- Blog LTER: Jak napisać plan zarządzania danymi
- UK Data Service : Przygotuj dane i zarządzaj nimi: wskazówki i narzędzia dla badaczy nauk społecznych
- Plan de Gestión de Datos PaGoDa : DMP Toolkit Konsorcjum Uniwersytetów Regionu Madrytu i UNED ds. Współpracy Bibliotecznej (Madroño - Hiszpania)