Apache OODT
Deweloperzy | Fundacja oprogramowania Apache |
---|---|
Wersja stabilna | 1.9.1 / 3 października 2021 r
|
Magazyn | Repozytorium OODT |
Napisane w | Jawa |
System operacyjny | Międzyplatformowe |
Typ | API wyszukiwania i indeksowania |
Licencja | Licencja Apache 2.0 |
Strona internetowa |
Apache Object Oriented Data Technology (OODT) to struktura systemu zarządzania danymi typu open source , zarządzana przez Apache Software Foundation . OODT został pierwotnie opracowany w NASA Jet Propulsion Laboratory w celu wspierania przechwytywania, przetwarzania i udostępniania danych dla archiwów naukowych NASA.
Historia
Projekt rozpoczął się jako wewnętrzny projekt NASA Jet Propulsion Laboratory, zapoczątkowany przez Daniela J. Crichtona, Seana Kelly'ego i Steve'a Hughesa. Na początku wysiłki koncentrowały się na integracji informacji i wyszukiwaniu przy użyciu XML, jak opisano w artykule Crichtona i innych na spotkaniu CODATA w 2000 roku.
Po wdrożeniu OODT do Systemu Danych Planetarnych oraz do projektu EDRN lub Early Detection Research Network National Cancer Institute , OODT w 2005 r. wkroczył w erę przetwarzania i zarządzania danymi na dużą skalę za pośrednictwem projektu NASA Orbiting Carbon Observatory (OCO). Rola OODT w OCO polegała na wprowadzeniu nowej struktury zarządzania przetwarzaniem danych, która zamiast dziesiątek zadań dziennie i dziesiątek gigabajtów danych obsłużyłaby 10 000 zadań dziennie i setki terabajtów danych. Wymagało to przeglądu OODT w celu obsługi tych nowych wymagań. Dr Chris Mattmann z NASA JPL kierował zespołem 3-4 programistów w latach 2005-2009 i całkowicie przeprojektował OODT, aby spełniał te nowe wymagania.
Pod wpływem pojawiających się wysiłków w Apache Nutch i Hadoop , w których uczestniczył Mattmann, OODT został poddany przeglądowi, dzięki czemu jest bardziej podatny na projekty podobne do Apache Software Foundation. Ponadto Mattmann miał bliskie relacje z dr Justinem Erenkrantzem , który jako ówczesny prezes Apache Software Foundation, zrodził się pomysł wniesienia OODT do Apache Software Foundation. W 2009 roku Mattmann i jego zespół otrzymali zgodę NASA i JPL na wprowadzenie OODT do Apache, co czyni go pierwszym projektem NASA zarządzanym przez fundację. Siedem lat później projekt wydał wersję 1.0.
Cechy
OODT koncentruje się na dwóch kanonicznych przypadkach użycia: przetwarzaniu Big Data i integracji informacji . Oba zostały opisane w artykułach Mattmanna ICSE 2006 i SMC-IT 2009. Świadczy trzy podstawowe usługi.
Menedżer plików
Menedżer plików jest odpowiedzialny za śledzenie lokalizacji plików, ich metadanych oraz za przesyłanie plików z obszaru tymczasowego do magazynu z kontrolowanym dostępem.
Menedżer przepływu pracy
Menedżer przepływu pracy przechwytuje przepływ sterowania i przepływ danych dla złożonych procesów oraz pozwala na powtarzalność i budowę potoków naukowych.
Menedżer zasobów
Menedżer zasobów obsługuje przydzielanie zadań przepływu pracy i innych zadań do podstawowych zasobów, np. zadania Pythona trafiają do węzłów z zainstalowanym Pythonem; zadania wymagające dużego dysku lub procesora są prawidłowo wysyłane do tych węzłów, które spełniają te wymagania.
Oprócz trzech podstawowych usług OODT zapewnia trzy struktury zorientowane na klienta, które opierają się na tych usługach.
Przeszukiwacz plików
Przeszukiwacz plików automatycznie wyodrębnia metadane i używa Apache Tika do identyfikowania typów plików i pobierania powiązanych informacji do Menedżera plików.
Struktura przeszukiwania katalogów i archiwów
Framework Push/Pull pozyskuje zdalne pliki i udostępnia je systemowi.
Kierownik Generacji Produkcji Katalogów i Archiwów (CAS-PGE)
Warstwa algorytmu naukowego (nazywana CAS-PGE, od Catalog and Archive Service Production Generation Executive) hermetyzuje kody naukowe i pozwala na ich wykonywanie niezależnie od środowiska, jednocześnie rejestrując pochodzenie i ułatwiając integrację algorytmów z systemem produkcyjnym.
Usługi CAS RESTful
Zestaw interfejsów API RESTful, który eksponuje możliwości komponentów File Manager, Workflow Manager i Resource Manager.
Pulpit nawigacyjny monitora OPSUI
Aplikacja internetowa do udostępniania usług z bazowego produktu OODT / przepływu pracy / systemów zarządzania zasobami za pośrednictwem specyfikacji JAX-RS . Na tym etapie jest zbudowany z Apache Wicket .
Ogólna motywacja do przeprojektowania OODT została opisana w artykule w Nature (czasopismo) w 2013 roku autorstwa Mattmanna zatytułowanym A Vision for Data Science.
OODT jest napisany w Javie , a poprzez REST API jest używany w innych językach, w tym w Pythonie (język programowania) .
Godne uwagi zastosowania
OODT został ostatnio wyróżniony jako wkład w misje NASA, w tym Soil Moisture Active Passive i New Horizons . OODT pomaga również zasilać Square Kilometre Array , zwiększając zakres jego wykorzystania z nauk o Ziemi, nauk planetarnych, radioastronomii i innych sektorów. OODT jest również wykorzystywany w bioinformatyce i jest częścią platformy Knowledgent Big Data.