Apache OODT

Apache OODT
Deweloperzy Fundacja oprogramowania Apache
Wersja stabilna
1.9.1 / 3 października 2021 r . ; 16 miesięcy temu ( 03.10.2021 )
Magazyn Repozytorium OODT
Napisane w Jawa
System operacyjny Międzyplatformowe
Typ API wyszukiwania i indeksowania
Licencja Licencja Apache 2.0
Strona internetowa oodt .apache .org

Apache Object Oriented Data Technology (OODT) to struktura systemu zarządzania danymi typu open source , zarządzana przez Apache Software Foundation . OODT został pierwotnie opracowany w NASA Jet Propulsion Laboratory w celu wspierania przechwytywania, przetwarzania i udostępniania danych dla archiwów naukowych NASA.

Historia

Projekt rozpoczął się jako wewnętrzny projekt NASA Jet Propulsion Laboratory, zapoczątkowany przez Daniela J. Crichtona, Seana Kelly'ego i Steve'a Hughesa. Na początku wysiłki koncentrowały się na integracji informacji i wyszukiwaniu przy użyciu XML, jak opisano w artykule Crichtona i innych na spotkaniu CODATA w 2000 roku.

Po wdrożeniu OODT do Systemu Danych Planetarnych oraz do projektu EDRN lub Early Detection Research Network National Cancer Institute , OODT w 2005 r. wkroczył w erę przetwarzania i zarządzania danymi na dużą skalę za pośrednictwem projektu NASA Orbiting Carbon Observatory (OCO). Rola OODT w OCO polegała na wprowadzeniu nowej struktury zarządzania przetwarzaniem danych, która zamiast dziesiątek zadań dziennie i dziesiątek gigabajtów danych obsłużyłaby 10 000 zadań dziennie i setki terabajtów danych. Wymagało to przeglądu OODT w celu obsługi tych nowych wymagań. Dr Chris Mattmann z NASA JPL kierował zespołem 3-4 programistów w latach 2005-2009 i całkowicie przeprojektował OODT, aby spełniał te nowe wymagania.

Pod wpływem pojawiających się wysiłków w Apache Nutch i Hadoop , w których uczestniczył Mattmann, OODT został poddany przeglądowi, dzięki czemu jest bardziej podatny na projekty podobne do Apache Software Foundation. Ponadto Mattmann miał bliskie relacje z dr Justinem Erenkrantzem , który jako ówczesny prezes Apache Software Foundation, zrodził się pomysł wniesienia OODT do Apache Software Foundation. W 2009 roku Mattmann i jego zespół otrzymali zgodę NASA i JPL na wprowadzenie OODT do Apache, co czyni go pierwszym projektem NASA zarządzanym przez fundację. Siedem lat później projekt wydał wersję 1.0.

Cechy

OODT koncentruje się na dwóch kanonicznych przypadkach użycia: przetwarzaniu Big Data i integracji informacji . Oba zostały opisane w artykułach Mattmanna ICSE 2006 i SMC-IT 2009. Świadczy trzy podstawowe usługi.

Menedżer plików

Menedżer plików jest odpowiedzialny za śledzenie lokalizacji plików, ich metadanych oraz za przesyłanie plików z obszaru tymczasowego do magazynu z kontrolowanym dostępem.

Menedżer przepływu pracy

Menedżer przepływu pracy przechwytuje przepływ sterowania i przepływ danych dla złożonych procesów oraz pozwala na powtarzalność i budowę potoków naukowych.

Menedżer zasobów

Menedżer zasobów obsługuje przydzielanie zadań przepływu pracy i innych zadań do podstawowych zasobów, np. zadania Pythona trafiają do węzłów z zainstalowanym Pythonem; zadania wymagające dużego dysku lub procesora są prawidłowo wysyłane do tych węzłów, które spełniają te wymagania.

Oprócz trzech podstawowych usług OODT zapewnia trzy struktury zorientowane na klienta, które opierają się na tych usługach.

Przeszukiwacz plików

Przeszukiwacz plików automatycznie wyodrębnia metadane i używa Apache Tika do identyfikowania typów plików i pobierania powiązanych informacji do Menedżera plików.

Struktura przeszukiwania katalogów i archiwów

Framework Push/Pull pozyskuje zdalne pliki i udostępnia je systemowi.

Kierownik Generacji Produkcji Katalogów i Archiwów (CAS-PGE)

Warstwa algorytmu naukowego (nazywana CAS-PGE, od Catalog and Archive Service Production Generation Executive) hermetyzuje kody naukowe i pozwala na ich wykonywanie niezależnie od środowiska, jednocześnie rejestrując pochodzenie i ułatwiając integrację algorytmów z systemem produkcyjnym.

Usługi CAS RESTful

Zestaw interfejsów API RESTful, który eksponuje możliwości komponentów File Manager, Workflow Manager i Resource Manager.

Pulpit nawigacyjny monitora OPSUI

Aplikacja internetowa do udostępniania usług z bazowego produktu OODT / przepływu pracy / systemów zarządzania zasobami za pośrednictwem specyfikacji JAX-RS . Na tym etapie jest zbudowany z Apache Wicket .

Ogólna motywacja do przeprojektowania OODT została opisana w artykule w Nature (czasopismo) w 2013 roku autorstwa Mattmanna zatytułowanym A Vision for Data Science.

OODT jest napisany w Javie , a poprzez REST API jest używany w innych językach, w tym w Pythonie (język programowania) .

Godne uwagi zastosowania

OODT został ostatnio wyróżniony jako wkład w misje NASA, w tym Soil Moisture Active Passive i New Horizons . OODT pomaga również zasilać Square Kilometre Array , zwiększając zakres jego wykorzystania z nauk o Ziemi, nauk planetarnych, radioastronomii i innych sektorów. OODT jest również wykorzystywany w bioinformatyce i jest częścią platformy Knowledgent Big Data.

Linki zewnętrzne