Przygotowywanie danych

Przygotowanie danych to czynność polegająca na manipulowaniu (lub wstępnym przetwarzaniu) surowych danych (które mogą pochodzić z różnych źródeł danych) do postaci, którą można łatwo i dokładnie przeanalizować, np. do celów biznesowych.

Przygotowanie danych jest pierwszym krokiem w projektach analizy danych i może obejmować wiele dyskretnych zadań, takich jak ładowanie lub pozyskiwanie danych, fuzja danych , czyszczenie danych , rozszerzanie danych i dostarczanie danych.

Kwestie, którymi należy się zająć, dzielą się na dwie główne kategorie:

  • błędy systematyczne obejmujące dużą liczbę rekordów danych, prawdopodobnie dlatego, że pochodzą one z różnych źródeł;
  • pojedyncze błędy wpływające na niewielką liczbę rekordów danych, prawdopodobnie spowodowane błędami w pierwotnym wprowadzeniu danych.

Specyfikacja danych

Pierwszym krokiem jest określenie pełnej i szczegółowej specyfikacji formatu każdego pola danych oraz znaczenia wpisów. Powinno to dokładnie uwzględniać:

  • przede wszystkim konsultacje z użytkownikami danych
  • wszelkie dostępne specyfikacje systemu, który wykorzysta dane do przeprowadzenia analizy
  • pełne zrozumienie dostępnych informacji i wszelkich luk w danych źródłowych.

Zobacz także specyfikację definicji danych .

Przykład

Załóżmy, że istnieje dwuznakowe pole alfabetyczne, które wskazuje położenie geograficzne. Możliwe, że w jednym źródle danych kod „EE” oznacza „Europa”, aw innym źródle danych ten sam kod oznacza „Estonię”. Należałoby opracować jednoznaczny zestaw kodów i odpowiednio zmienić kod w jednym zestawie rekordów.

Ponadto „obszar geograficzny” może odnosić się np. do adresu dostawy, adresu rozliczeniowego, adresu dostawy towarów, waluty rozliczeniowej lub obowiązujących przepisów krajowych. Wszystkie te kwestie muszą znaleźć się w specyfikacji.

W tym polu mogą znajdować się rekordy z „X” lub „555”. Oczywiście są to nieprawidłowe dane, ponieważ nie są zgodne ze specyfikacją. Jeśli jest tylko niewielka liczba takich rekordów, można je albo poprawić ręcznie, albo, jeśli precyzja nie jest ważna, po prostu usunąć te rekordy z akt. Inną możliwością byłoby utworzenie kategorii „nieznane”.

Inne przykłady niepoprawnych danych wymagających korekty

  • Numery telefonów mają prawidłowy format i prawidłowe wartości dla terytorium wskazanego w polu lokalizacji geograficznej. Kod kraju może być obecny w niektórych zapisach, aw innych nie: należy go usunąć lub wprowadzić (w zależności od położenia geograficznego) w zależności od specyfikacji danych. Podobnie formaty dat i jednostek miary (wag, długości) mogą być niespójne.
  • W niektórych przypadkach brakujące dane należy uzupełnić ze źródeł zewnętrznych (np. znalezienie kodu pocztowego adresu za pomocą zewnętrznego źródła danych)
  • Dane powinny być spójne między różnymi, ale powiązanymi rekordami danych (np. ta sama osoba może mieć różne daty urodzenia w różnych rekordach lub zbiorach danych).

Tam, gdzie jest to możliwe i ekonomiczne, dane powinny być weryfikowane z wiarygodnym źródłem (np. informacje biznesowe są porównywane z bazą danych D&B w celu zapewnienia dokładności).

Biorąc pod uwagę różnorodność źródeł danych (np. baz danych , aplikacji biznesowych ), które dostarczają danych i formatów , w których dane mogą napływać, przygotowanie danych może być dość czasochłonne i złożone. Istnieje wiele narzędzi i technologii wykorzystywanych do przygotowania danych. Koszt oczyszczenia danych powinien być zawsze zbilansowany z wartością zwiększonej dokładności.

Samoobsługowe przygotowywanie danych

Tradycyjne narzędzia i technologie, takie jak języki skryptowe lub narzędzia do wyodrębniania, przekształcania, ładowania (ETL) i jakości danych, nie są przeznaczone dla użytkowników biznesowych. Zazwyczaj wymagają umiejętności programistycznych lub informatycznych, których nie posiada większość użytkowników biznesowych. [ potrzebne źródło ]

Kilka firm, takich jak Paxata, Trifacta, Alteryx, Talend i Ataccama, zapewnia interfejsy wizualne, które wyświetlają dane i pozwalają użytkownikowi bezpośrednio eksplorować, porządkować, czyścić, rozszerzać i aktualizować przykładowe dane dostarczone przez użytkownika.

Po zakończeniu prac przygotowawczych podstawowe kroki można uruchomić na innych zestawach danych w celu wykonania tych samych operacji. To ponowne wykorzystanie zapewnia znaczny wzrost produktywności w porównaniu z bardziej tradycyjnymi ręcznymi i ręcznymi metodami przygotowywania danych.

Zobacz też