Brązowy pies NCSA
NCSA Brown Dog to projekt badawczy mający na celu opracowanie metody łatwego dostępu do historycznych danych badawczych przechowywanych w celu utrzymania długoterminowej żywotności dużych zbiorów badań naukowych. Jest wspierany przez National Center for Supercomputing Applications (NCSA), które jest finansowane przez National Science Foundation (NSF).
Historia
Brown Dog jest częścią programu partnerskiego DataNet , finansowanego przez NSF w 2008 roku. DataNet został stworzony w odpowiedzi na coraz bardziej cyfrowy i intensywnie wykorzystujący dane charakter nauki, inżynierii i edukacji. Brown Dog jest częścią kontynuacji projektu o nazwie Data Infrastructure Building Blocks (DIBB) , skupiającego się na tworzeniu oprogramowania obsługującego DataNet. Projekt został zaproponowany przez naukowców z NCSA i University of Illinois Urbana-Champaign , a także naukowców z Boston University i University of North Carolina w Chapel Hill .
Nieustrukturyzowane, niewyselekcjonowane dane z długim ogonem
Wiele danych naukowych jest mniejszych, nieustrukturyzowanych i niewyselekcjonowane, a zatem niełatwe do udostępnienia. Takie dane są czasami określane jako dane „długiego ogona”. Zapożycza to termin ze statystyk i odnosi się do ogona rozkładu wielkości projektów. W większości mniejszych projektów brakuje zasobów, aby właściwie zarządzać danymi, które generują. Te tak zwane dane z „długiego ogona”, zarówno przeszłe, jak i obecne, mogą potencjalnie stanowić podstawę przyszłych badań w wielu obszarach badawczych. Wiele z tych danych stało się niedostępnych z powodu przestarzałego oprogramowania i formatów plików. Wynikająca z tego niemożność przeglądu danych ze starszych badań zakłóca ogólny projekt badań naukowych.
Zbliżać się
Brown Dog określa się jako „super mutt” oprogramowania (stąd nazwa „Brown Dog”), służącego jako infrastruktura danych niskiego poziomu do łączenia cyfrowych treści danych w Internecie. Jej podejście polega na wykorzystaniu każdego możliwego źródła zautomatyzowanej pomocy (tj. oprogramowania) istniejącego w solidny i zachowujący pochodzenie sposób, aby stworzyć usługę, która może obsłużyć jak najwięcej tych danych. Projekt widzi szerszy wpływ swojej pracy w potencjale służenia ogółowi społeczeństwa jako swego rodzaju „DNS dla danych”, którego celem jest uczynienie wszystkich danych i wszystkich formatów plików tak dostępnymi, jak dzisiejsze strony internetowe.
Technologia
Brown Dog stara się rozwiązać problemy związane z korzystaniem z nieuporządkowanych i nieustrukturyzowanych zbiorów danych poprzez rozwój dwóch usług: Data Access Proxy (DAP), aby pomóc w konwersji formatów plików oraz Data Tilling Services (DTS) do automatycznego wyodrębniania metadane z zawartości pliku. Po opracowaniu badacze i zwykli użytkownicy będą mogli pobierać wtyczki do przeglądarek i inne narzędzia z katalogu narzędzi Brown Dog.
Usługa zbierania danych
Data Tilling Service (DTS) umożliwi użytkownikom przeszukiwanie kolekcji danych przy użyciu istniejącego pliku w celu odnalezienia innych podobnych plików w kolekcji. Pole wyszukiwania DTS zostanie dołączone do skonfigurowanych przeglądarek, w których można upuścić przykładowe pliki. To mówi DTS, aby przeszukał wszystkie pliki pod danym adresem URL dla plików podobnych do upuszczonego pliku. Na przykład podczas przeglądania kolekcji obrazów online użytkownik może upuścić obraz trzech osób w polu wyszukiwania, a DTS zwróci wszystkie obrazy w kolekcji, które również zawierają trzy osoby. Jeśli DTS napotka obcy format pliku, użyje DAP, aby udostępnić plik. DTS indeksuje również dane i wyodrębnia je oraz dołącza metadane do plików i kolekcji, umożliwiając użytkownikom zorientowanie się, z jakim rodzajem danych się spotykają.
Ta usługa działa na porcie 9443.
Pełnomocnik dostępu do danych
Data Access Proxy (DAP) umożliwia użytkownikom dostęp do plików danych, które w przeciwnym razie byłyby nieczytelne. Podobnie jak w przypadku bramy internetowej lub usługi nazw domen , konfiguracja DAP zostanie wprowadzona do komputera użytkownika i ustawień przeglądarki. Żądania danych przez HTTP byłyby najpierw sprawdzane przez DAP w celu określenia, czy natywny format pliku jest czytelny na urządzeniu klienckim. Jeśli nie, DAP konwertuje plik do najlepszego dostępnego formatu czytelnego dla komputera klienckiego. Alternatywnie użytkownik może sam określić żądany format.
Ta usługa działa na porcie 8184.
Przypadków użycia
Brown Dog koncentruje się na trzech przypadkach użycia zaproponowanych przez grupy w społecznościach badawczych EarthCube . Deweloperzy i badacze z tych społeczności będą wspólnie pracować nad przypadkami użycia obejmującymi nauki o Ziemi , inżynierię , biologię i nauki społeczne .
Dane o roślinności długiego ogona w ekologii i biologii zmian globalnych
Ten przypadek użycia jest prowadzony przez Michaela Dietze z Boston University
Dane dotyczące liczebności, składu gatunkowego i struktury wielkościowej roślinności mają kluczowe znaczenie dla szerokiego wachlarza subdyscyplin ekologii, ochrony przyrody, zarządzania zasobami naturalnymi i biologii zmian globalnych. Jednak rozwiązanie wielu palących pytań w tych dyscyplinach będzie wymagało, aby biosfera lądowa i modele hydrologiczne były w stanie przyswoić dużą ilość danych z długiego ogona, które istnieją, ale są w dużej mierze niedostępne. Zespół Brown Dog we współpracy z naukowcami z laboratorium Dietze ułatwi przechwycenie ogromnej liczby mniejszych zestawów danych o roślinności zorientowanych na badania, gromadzonych przez wiele dziesięcioleci oraz historycznych danych o roślinności osadzonych w danych Public Land Survey sięgających 1785 r. Dane te zostaną używane jako warunki początkowe dla modeli, aby nadać sens innym dużym zestawom danych oraz do kalibracji i walidacji modeli.
Projektowanie zielonej infrastruktury z uwzględnieniem wód opadowych i wymagań człowieka
Ten przypadek użycia jest prowadzony przez Barbarę Minsker z University of Illinois at Urbana-Champaign ; William Sullivan , Uniwersytet Illinois w Urbana-Champaign; Arthura Schmidta z University of Illinois w Urbana-Champaign
To studium przypadku obejmuje opracowanie nowych kryteriów i modeli projektowania zielonej infrastruktury , które integrują wymagania dotyczące zarządzania wodami burzowymi i ekosystemu oraz zdrowia i dobrego samopoczucia ludzi. Aby rozwiązać problemy naukowe i społeczne związane z projektowaniem terenów zielonych, głównym wyzwaniem jest dostępność i dostępność danych. Badanie to skupi się na zidentyfikowanych obszarach regionu Planowania Zielonego Zdrowego Sąsiedztwa w obrębie miasta Chicago, gdzie istniejąca lokalna wydajność kanalizacji jest najbardziej niedostateczna i gdzie zmiany w obszarze nieprzepuszczalnym poprzez zieloną infrastrukturę byłyby korzystne dla dzielnic o niedostatecznym zasięgu. Brown Dog zostanie wykorzystany do wyodrębnienia eksperymentalnych danych z długiego ogona na temat preferencji człowieka w zakresie krajobrazu i wpływu na zdrowie. Dane te zostaną wykorzystane do opracowania modelu wpływu na zdrowie człowieka, który następnie zostanie połączony z modelem biosfery lądowej i modelem wód burzowych przy użyciu technologii Brown Dog.
Opracowanie i zastosowanie do badań stref krytycznych
Ten przypadek użycia jest prowadzony przez Praveena Kumara z Uniwersytetu Illinois w Urbana-Champaign
Strefa krytyczna (CZ) to „skóra” ziemi, która rozciąga się od wierzchołków drzew do podłoża skalnego, która jest tworzona przez procesy życiowe działające na skalę od drobnoustrojów do biomów. Strefa Krytyczna obsługuje wszystkie ziemskie systemy życia. Jego górna część to bio-płaszcz. To tutaj żyją, rozmnażają się, zużywają i zużywają energię fauny i flory lądowe oraz gromadzą się i rozkładają ich odpady i szczątki. Obejmuje glebę, która działa jak geomembrana, przez którą woda i substancje rozpuszczone, energia, gazy, ciała stałe i organizmy oddziałują z atmosferą, biosferą, hydrosferą i litosferą. Różnorodne czynniki wpływają na tę strefę biodynamiczną, od klimatu i wylesiania po rolnictwo, wypas i rozwój człowieka. Zrozumienie i przewidywanie tych skutków ma kluczowe znaczenie dla zarządzania i utrzymywania funkcji życiowych usługi ekosystemowe, takie jak żyzność gleby, oczyszczanie wody i produkcja zasobów żywności oraz, na większą skalę, globalny obieg węgla i sekwestracja dwutlenku węgla . CZ zapewnia ujednolicone ramy do integracji ziemskich środowisk powierzchniowych i przypowierzchniowych oraz odzwierciedla skomplikowaną sieć procesów biologicznych i chemicznych oraz wpływów człowieka zachodzących w bardzo różnych skalach czasowych i przestrzennych. Charakter tych danych stwarza poważne wyzwania dla badań interdyscyplinarnych w Republice Czeskiej, ponieważ integracja różnorodności i liczby produktów i modeli danych stanowi barierę. Z drugiej strony dane CZ stanowią doskonałą okazję do definiowania, testowania i wdrażania technologii Brown Dog. W tym kontekście „nieustrukturyzowane” dane są ogólnie postrzegane jako składające się ze zbioru heterogenicznych danych w formatach odzwierciedlających spuściznę czasową i dyscyplinarną, danych z pojawiających się tanich czujników opartych na otwartym sprzęcie i wbudowanych sieciach czujników, którym brakuje dobrze zdefiniowanych metadanych i cech czujników, jak np. jak również dane, które są dostępne jako mapy, obrazy i tekst.
Nagroda NSF
CIF21 DIBBs: Brown Dog został przyznany zimą 2013 r. z datą rozpoczęcia 1 października 2013 r. Przewidywana data wygaśnięcia to 30 września 2018 r.
Kwota nagrody wyniosła 10 519 716,00 USD i była to największa nagroda DIBB. Głównym badaczem jest Kenton McHenry z NCSA na Uniwersytecie Illinois w Urbana-Champaign. Współprowadzącymi są Jong Lee NCSA/UIUC; Barbara Minsker, Inżynieria Lądowa i Środowiskowa, Uniwersytet Illinois w Urbana-Champaign; Praveen Kumar, Inżynieria Lądowa i Środowiskowa, Uniwersytet Illinois w Urbana-Champaign; Michael Dietze, Wydział Ziemi i Środowiska Uniwersytetu Bostońskiego.