HPCC
Deweloperzy | Systemy HPCC, rozwiązania ryzyka LexisNexis |
---|---|
Pierwsze wydanie | 15-06-2011 |
Wersja stabilna | 7.4.18-1 / 13-09-2019 |
Magazyn | https://github.com/hpcc-systems |
Napisane w | C++ , ECL |
System operacyjny | Linuks |
Licencja | Licencja Apache 2.0 |
Strona internetowa |
HPCC (High-Performance Computing Cluster), znany również jako DAS (Data Analytics Supercomputer), to platforma systemu obliczeniowego typu open source, intensywnie przetwarzająca dane, opracowana przez LexisNexis Risk Solutions . Platforma HPCC obejmuje architekturę oprogramowania zaimplementowaną w klastrach komputerowych, aby zapewnić wysokowydajne, równoległe przetwarzanie danych dla aplikacji wykorzystujących duże zbiory danych . Platforma HPCC obejmuje konfiguracje systemowe obsługujące zarówno równoległe przetwarzanie danych wsadowych (Thor), jak i wysokowydajne aplikacje do obsługi zapytań online wykorzystujące indeksowane pliki danych (Roxie). Platforma HPCC zawiera również zorientowany na dane deklaratywny język programowania do równoległego przetwarzania danych o nazwie ECL .
Publiczne wydanie HPCC zostało ogłoszone w 2011 roku, po dziesięciu latach wewnętrznego rozwoju (według LexisNexis). Jest alternatywą dla Hadoop i innych platform Big Data .
Architektura systemu
Architektura systemu HPCC obejmuje dwa różne klastrowe środowiska przetwarzania Thor i Roxie , z których każde można niezależnie optymalizować pod kątem celu równoległego przetwarzania danych.
Pierwsza z tych platform nosi nazwę Thor i jest rafinerią danych , której ogólnym celem jest ogólne przetwarzanie ogromnych ilości nieprzetworzonych danych dowolnego typu w dowolnym celu, ale zwykle używane do czyszczenia i higieny danych, przetwarzanie ETL ( wyodrębnianie, przekształcanie, ładowanie ) surowe dane, łączenie rekordów i rozwiązywanie jednostek, złożone analizy ad-hoc na dużą skalę oraz tworzenie danych z kluczami i indeksów w celu obsługi wysokowydajnych zapytań strukturalnych i aplikacji hurtowni danych. Nazwa rafinerii danych Thor jest odniesieniem do mitycznego nordyckiego boga piorunów z dużym młotem symbolizującym miażdżenie dużych ilości nieprzetworzonych danych w użyteczne informacje. Klaster Thor jest podobny pod względem funkcji, środowiska wykonawczego, systemu plików i możliwości do platform Google i Hadoop MapReduce .
Rysunek 2 przedstawia reprezentację fizycznego klastra przetwarzania Thor, który działa jako silnik wykonywania zadań wsadowych dla skalowalnych aplikacji obliczeniowych intensywnie korzystających z danych. Oprócz węzłów nadrzędnych i podrzędnych Thor, do wdrożenia kompletnego środowiska przetwarzania HPCC potrzebne są dodatkowe komponenty pomocnicze i wspólne.
Druga z równoległych platform przetwarzania danych nosi nazwę Roxie i działa jako silnik szybkiego dostarczania danych . Platforma ta została zaprojektowana jako wysokowydajna platforma ustrukturyzowanych zapytań i analiz online lub hurtownia danych, spełniająca wymagania przetwarzania równoległego dostępu do danych aplikacji online za pośrednictwem interfejsów usług sieciowych obsługujących tysiące jednoczesnych zapytań i użytkowników z czasami odpowiedzi poniżej sekundy. Roxie wykorzystuje rozproszony indeksowany system plików zapewnienie równoległego przetwarzania zapytań przy użyciu zoptymalizowanego środowiska wykonawczego i systemu plików w celu wydajnego przetwarzania online. Klaster Roxie jest podobny w swoich funkcjach i możliwościach do ElasticSearch i Hadoop z dodanymi możliwościami HBase i Hive i zapewnia przewidywalne opóźnienia zapytań w czasie zbliżonym do rzeczywistego. Zarówno klastry Thor, jak i Roxie wykorzystują język programowania ECL do wdrażania aplikacji, zwiększając ciągłość i produktywność programistów.
Rysunek 3 przedstawia reprezentację fizycznego klastra przetwarzania Roxie, który działa jako silnik wykonywania zapytań online dla wysokowydajnych aplikacji do obsługi zapytań i hurtowni danych. Klaster Roxie zawiera wiele węzłów z procesami serwera i procesu roboczego do przetwarzania zapytań; dodatkowy komponent pomocniczy zwany serwerem ESP, który zapewnia interfejsy umożliwiające dostęp klienta zewnętrznego do klastra; oraz dodatkowe wspólne komponenty, które są współdzielone z klastrem Thor w środowisku HPCC. Chociaż klaster przetwarzania Thor może być zaimplementowany i używany bez klastra Roxie, środowisko HPCC zawierające klaster Roxie powinno również zawierać klaster Thor. Klaster Thor służy do budowania rozproszonych plików indeksowych używanych przez klaster Roxie oraz do opracowywania zapytań online, które zostaną wdrożone wraz z plikami indeksowymi w klastrze Roxie.
Architektura oprogramowania
Architektura oprogramowania HPCC obejmuje klastry Thor i Roxie, a także wspólne komponenty oprogramowania pośredniczącego , zewnętrzną warstwę komunikacyjną, interfejsy klienckie, które zapewniają zarówno usługi dla użytkowników końcowych, jak i narzędzia do zarządzania systemem, a także komponenty pomocnicze wspierające monitorowanie oraz ułatwiające ładowanie i przechowywanie systemu plików dane ze źródeł zewnętrznych. Zwykle środowisko HPCC zawiera tylko klastry Thor lub zarówno klastry Thor, jak i Roxie, chociaż czasami Roxie jest używany do budowania własnych indeksów. Ogólną architekturę oprogramowania HPCC pokazano na rysunku 4.
Systemy HPCC
HPCC Systems (High Performance Computing Cluster) jest częścią LexisNexis Risk Solutions i została utworzona w celu promowania i sprzedaży oprogramowania HPCC. W czerwcu 2011 roku ogłosiła oferowanie oprogramowania w modelu podwójnej licencji open source.
HPCC Systems oferuje zarówno wersję Community, jak i wersję Enterprise. Wydanie Community można pobrać bezpłatnie, zawiera kod źródłowy i jest udostępniane na licencji Apache 2.0. Wersja Enterprise Edition jest dostępna na podstawie płatnej licencji komercyjnej i obejmuje szkolenia, wsparcie, odszkodowanie i dodatkowe moduły. W listopadzie 2011 r. firma HPCC Systems ogłosiła dostępność swojego klastra Thor Data Refinery w Amazon Web Services . W styczniu 2012 r. HPCC Systems ogłosiło rozproszone uczenia maszynowego .
Zobacz też
- Apache Hadoop
- Apache Spark
- Systemy Danych Aster
- ECL (język programowania zorientowany na dane)
- Wyszukiwanie elastyczne
- Sektor/Sfera
- Nauczanie maszynowe
- MapaZredukuj
Linki zewnętrzne
- Sandia widzi spiralę wyzwań związanych z zarządzaniem danymi
- Sandia National Laboratories wykorzystuje superkomputer do analizy danych (DAS) firmy LexisNexis Risk & Information Analytics Group, który oferuje przełomowe obliczenia o wysokiej wydajności w celu sprostania wyzwaniom związanym z zarządzaniem i analizą danych
- Modele programowania dla klastra obliczeniowego o wysokiej wydajności LexisNexis
- Superkomputer do analizy danych LexisNexis
- Systemy HPCC LexisNexis
- Odniesienie do terminu BORPS (miliardy rekordów na sekundę)
- LexisNexis przenosi swoją magię zarządzania danymi na dane naukowe
- Certyfikat High Performance Computing Clusters (HPCC) i Big Data Analytics — samodzielny
- FAU otrzymuje grant National Science Foundation na szybkie reagowanie na opracowanie innowacyjnego modelu komputerowego do rozprzestrzeniania się wirusa Ebola
- CPL Online zapewnia klientom wartość dodaną za pośrednictwem platformy Big Data
- Systemy HPCC