Edycja danych

Edycja danych jest definiowana jako proces polegający na przeglądzie i korekcie zebranych danych ankietowych . Edycja danych pomaga zdefiniować wytyczne, które zmniejszą potencjalne obciążenie i zapewnią spójne oszacowania prowadzące do jasnej analizy zestawu danych za pomocą poprawnych niespójnych danych przy użyciu metod przedstawionych w dalszej części tego artykułu. Celem jest kontrola jakości gromadzonych danych. Edycję danych można przeprowadzić ręcznie, przy pomocy komputera lub kombinacji obu.

Metody edycji

Metody edycji odnoszą się do szeregu procedur i procesów używanych do wykrywania i obsługi błędów w danych. Edycja danych ma na celu poprawę jakości tworzonych danych statystycznych. Te modyfikacje mogą znacznie poprawić jakość tworzonych analiz, których celem jest wykrywanie i korygowanie błędów. Przykłady różnych technik edycji danych, takich jak mikroedycja, makroedycja, edycja wybiórcza lub różne narzędzia stosowane do edycji danych, takie jak edycja graficzna i edycja interaktywna.

Edycja interaktywna

Termin edycja interaktywna jest powszechnie używany w odniesieniu do nowoczesnej edycji ręcznej wspomaganej komputerowo. Większość interaktywnych narzędzi do edycji danych stosowanych w urzędach statystycznych (USI) umożliwia sprawdzenie wprowadzonych zmian w trakcie lub po wprowadzeniu danych, aw razie potrzeby natychmiastowe poprawienie błędnych danych. Aby poprawić błędne dane, można zastosować kilka podejść:

  • Ponownie skontaktuj się z respondentem
  • Porównaj dane respondenta z jego danymi z poprzedniego roku
  • Porównaj dane respondenta z danymi od podobnych respondentów
  • Wykorzystaj wiedzę merytoryczną redaktora-człowieka

Edycja interaktywna to standardowy sposób edytowania danych. Można go używać do edycji zarówno danych jakościowych , jak i ciągłych . Edycja interaktywna skraca ramy czasowe potrzebne do zakończenia cyklicznego procesu przeglądu i dostosowania. Edycja interaktywna wymaga również zrozumienia zestawu danych i możliwych wyników, które mogą pochodzić z analizy danych.

Selektywna edycja

Edycja selektywna to ogólny termin określający kilka metod identyfikacji wpływowych błędów i wartości odstających . Techniki selektywnej edycji mają na celu zastosowanie interaktywnej edycji dobrze wybranego podzbioru akt, tak aby ograniczony czas i zasoby dostępne na interaktywną edycję zostały przydzielone do tych akt, w których ma to największy wpływ na jakość ostatecznych szacunków opublikowanych danych . Podczas edycji selektywnej dane są dzielone na dwa strumienie:

  • Krytyczny strumień
  • Strumień niekrytyczny

Strumień krytyczny składa się z rekordów, które z większym prawdopodobieństwem zawierają wpływowe błędy. Te krytyczne zapisy są redagowane w tradycyjny, interaktywny sposób. Rekordy w strumieniu niekrytycznym, które prawdopodobnie nie zawierają wpływowych błędów, nie są edytowane w sposób wspomagany komputerowo.

Techniki edycji danych

Edycja danych może odbywać się na wiele sposobów i zależy przede wszystkim od eksplorowanego zestawu danych.

Aktualność i kompletność danych

Ważność zbioru danych zależy od kompletności odpowiedzi udzielanych przez respondentów. Jedną z metod edycji danych jest upewnienie się, że wszystkie odpowiedzi są kompletne w polach wymagających odpowiedzi numerycznej lub nienumerycznej. Zobacz przykład poniżej.

W powyższej tabeli znajduje się przykład niepełnych i nieprawidłowych danych. Zobacz Kolumna 1, Wiersz 2: Odpowiedź jest alfanumeryczna, gdy reszta tabeli jest numeryczna. Patrz kolumna 3, wiersz 3: Odpowiedź jest niekompletna i brakuje danych.

Zduplikowane wprowadzanie danych

Weryfikacja, czy dane są unikalne, jest ważnym aspektem edycji danych, aby upewnić się, że wszystkie podane dane zostały wprowadzone tylko raz. Zmniejsza to możliwość powtarzających się danych, które mogłyby zniekształcić raporty analityczne . Zobacz przykład poniżej.

W powyższej tabeli znajduje się przykład danych ze zduplikowanymi wpisami. Patrz s. nr 1 i 4: Dane są powtarzane dla dwóch różnych wpisów z różnymi indeksami (nr indeksu).

Wartości odstające

W zestawach danych często można znaleźć wartości odstające, które, jak opisano wcześniej, są wartościami, które nie pasują dobrze do modelu danych. Te skrajne wartości można znaleźć na podstawie rozkładu punktów danych z poprzednich serii danych lub równoległych serii danych dla tego samego zestawu danych. Wartości można uznać za błędne i wymagają dalszej analizy w celu sprawdzenia i określenia ważności odpowiedzi. Zobacz przykład poniżej.

W powyższej tabeli znajduje się przykład wartości ekstremalnych w zbiorze danych znanym również jako wartości odstające. Zobacz Pracownicy 2 i 6: Dane różnią się od reszty tabeli.

Niespójności logiczne

Spójność logiczna to obecność logicznych relacji i współzależności między zmiennymi. Ta edycja wymaga pewnego zrozumienia zestawu danych i umiejętności identyfikowania błędów w danych na podstawie poprzednich raportów lub informacji. Ten typ edycji danych służy do uwzględniania różnic między polami danych lub zmiennymi. Zobacz przykład poniżej.

W powyższej tabeli znajduje się przykład logicznej niespójności w zbiorze danych. Zobacz wiersz 2: Wiek Salima jest udokumentowany jako 55 cm, co nie jest logiczne, a zatem jest błędem w zbiorze danych.

Edycja makr

Istnieją dwie metody edycji makr:

Metoda agregacji

Ta metoda jest stosowana w prawie każdym urzędzie statystycznym przed publikacją: sprawdzanie, czy dane, które mają zostać opublikowane, wydają się wiarygodne. Osiąga się to poprzez porównanie ilości w tabelach publikacji z tymi samymi ilościami w poprzednich publikacjach. W przypadku zaobserwowania nietypowej wartości, do poszczególnych rekordów i pól składających się na podejrzaną ilość stosowana jest procedura mikroedycji.

Metoda dystrybucji

Dostępne dane są wykorzystywane do scharakteryzowania rozkładu zmiennych . Następnie wszystkie poszczególne wartości są porównywane z rozkładem. Rekordy zawierające wartości, które można by uznać za rzadkie (biorąc pod uwagę rozkład), są kandydatami do dalszej kontroli i ewentualnie do edycji.

Automatyczna edycja

W automatycznej edycji rekordy są redagowane przez komputer bez ingerencji człowieka. Wcześniejszą wiedzę o wartościach pojedynczej zmiennej lub kombinacji zmiennych można sformułować jako zestaw reguł edycyjnych, które określają lub ograniczają dopuszczalne wartości

Determinanty edycji danych

Edycja danych ma swoje ograniczenia związane z możliwościami i zasobami danego badania. Determinanty te mogą mieć pozytywny lub negatywny wpływ na postanalizę zbioru danych. Poniżej przedstawiono kilka uwarunkowań edycji danych.

Dostępne zasoby:

  • Czas przeznaczony na projekt
  • Ograniczenia finansowe i budżetowe

Dostępne oprogramowanie:

  • Narzędzia używane do analizy danych
  • Dostępne narzędzia do identyfikowania błędów w zbiorze danych
  • Natychmiastowa dostępność oprogramowania w zależności od celów i celów danych

Źródło danych:

  • Ograniczenia respondentów w udzielaniu odpowiedzi zgodnie z oczekiwaniami
  • Brakujące informacje od respondentów, które nie są łatwo dostępne
  • Działania następcze są trudne do utrzymania w dużych pulach danych

Koordynacja procedury edycji danych:

  • Subiektywne poglądy na zbiór danych
  • Rozbieżności między ogólnymi celami danych
  • Metody stosowane do obsługi edycji danych

Zobacz też

Notatki