Ciągłe analizy

Ciągła analiza to proces nauki o danych , który porzuca ETL i złożone potoki danych wsadowych na rzecz paradygmatów natywnych dla chmury i mikrousług . Ciągłe przetwarzanie danych umożliwia interakcje w czasie rzeczywistym i natychmiastowy wgląd przy mniejszej liczbie zasobów.

Zdefiniowane

Analityka to zastosowanie matematyki i statystyki do dużych zbiorów danych. Analitycy danych piszą programy analityczne, aby szukać rozwiązań problemów biznesowych, takich jak prognozowanie popytu lub ustalanie optymalnej ceny. Podejście ciągłe uruchamia wiele silników bezstanowych, które jednocześnie wzbogacają, agregują, wnioskują i działają na danych. Analitycy danych, pulpity nawigacyjne i aplikacje klienckie uzyskują dostęp do tych samych surowych lub pochodnych danych w czasie rzeczywistym z odpowiednimi zabezpieczeniami opartymi na tożsamości, maskowaniem danych i wersjonowaniem w czasie rzeczywistym.

Tradycyjnie analitycy danych nie byli częścią zespołów programistów IT , tak jak zwykli programiści Java . Dzieje się tak, ponieważ ich umiejętności wyróżniają ich na własnym wydziale niezwiązanym na co dzień z IT, tj. matematyką, statystyką i nauką o danych. Logiczny jest więc wniosek, że ich podejście do pisania kodu oprogramowania nie zapewnia takiej samej wydajności jak tradycyjny zespół programistów. W szczególności tradycyjne programowanie przyjęło podejście Continuous Delivery do pisania kodu i metodykę zwinną . To uwalnia oprogramowanie w ciągłym kole, zwanym iteracjami .

Analiza ciągła jest zatem rozszerzeniem modelu opracowywania oprogramowania ciągłego dostarczania na zespół programistów zajmujący się analizą dużych zbiorów danych . Celem praktyka analityki ciągłej jest więc znalezienie sposobów na włączenie pisania kodu analitycznego i instalowania oprogramowania big data do zwinnego modelu rozwoju automatycznego uruchamiania testów jednostkowych i funkcjonalnych oraz budowania systemu środowiska za pomocą zautomatyzowanych narzędzi.

Sprawienie, by to zadziałało, oznacza nakłonienie analityków danych do napisania kodu w tym samym repozytorium kodu , z którego korzystają zwykli programiści, aby oprogramowanie mogło je stamtąd pobrać i przeprowadzić przez proces kompilacji. Oznacza to również zapisywanie konfiguracji klastra big data (zestawów maszyn wirtualnych ) w jakimś repozytorium. Ułatwia to wysyłanie kodu analitycznego oraz oprogramowania i obiektów do obsługi dużych zbiorów danych w taki sam zautomatyzowany sposób, jak w przypadku procesu ciągłej integracji.

Linki zewnętrzne