Edycja danych
Edycja danych jest definiowana jako proces polegający na przeglądzie i korekcie zebranych danych ankietowych . Edycja danych pomaga zdefiniować wytyczne, które zmniejszą potencjalne obciążenie i zapewnią spójne oszacowania prowadzące do jasnej analizy zestawu danych za pomocą poprawnych niespójnych danych przy użyciu metod przedstawionych w dalszej części tego artykułu. Celem jest kontrola jakości gromadzonych danych. Edycję danych można przeprowadzić ręcznie, przy pomocy komputera lub kombinacji obu.
Metody edycji
Metody edycji odnoszą się do szeregu procedur i procesów używanych do wykrywania i obsługi błędów w danych. Edycja danych ma na celu poprawę jakości tworzonych danych statystycznych. Te modyfikacje mogą znacznie poprawić jakość tworzonych analiz, których celem jest wykrywanie i korygowanie błędów. Przykłady różnych technik edycji danych, takich jak mikroedycja, makroedycja, edycja wybiórcza lub różne narzędzia stosowane do edycji danych, takie jak edycja graficzna i edycja interaktywna.
Edycja interaktywna
Termin edycja interaktywna jest powszechnie używany w odniesieniu do nowoczesnej edycji ręcznej wspomaganej komputerowo. Większość interaktywnych narzędzi do edycji danych stosowanych w urzędach statystycznych (USI) umożliwia sprawdzenie wprowadzonych zmian w trakcie lub po wprowadzeniu danych, aw razie potrzeby natychmiastowe poprawienie błędnych danych. Aby poprawić błędne dane, można zastosować kilka podejść:
- Ponownie skontaktuj się z respondentem
- Porównaj dane respondenta z jego danymi z poprzedniego roku
- Porównaj dane respondenta z danymi od podobnych respondentów
- Wykorzystaj wiedzę merytoryczną redaktora-człowieka
Edycja interaktywna to standardowy sposób edytowania danych. Można go używać do edycji zarówno danych jakościowych , jak i ciągłych . Edycja interaktywna skraca ramy czasowe potrzebne do zakończenia cyklicznego procesu przeglądu i dostosowania. Edycja interaktywna wymaga również zrozumienia zestawu danych i możliwych wyników, które mogą pochodzić z analizy danych.
Selektywna edycja
Edycja selektywna to ogólny termin określający kilka metod identyfikacji wpływowych błędów i wartości odstających . Techniki selektywnej edycji mają na celu zastosowanie interaktywnej edycji dobrze wybranego podzbioru akt, tak aby ograniczony czas i zasoby dostępne na interaktywną edycję zostały przydzielone do tych akt, w których ma to największy wpływ na jakość ostatecznych szacunków opublikowanych danych . Podczas edycji selektywnej dane są dzielone na dwa strumienie:
- Krytyczny strumień
- Strumień niekrytyczny
Strumień krytyczny składa się z rekordów, które z większym prawdopodobieństwem zawierają wpływowe błędy. Te krytyczne zapisy są redagowane w tradycyjny, interaktywny sposób. Rekordy w strumieniu niekrytycznym, które prawdopodobnie nie zawierają wpływowych błędów, nie są edytowane w sposób wspomagany komputerowo.
Techniki edycji danych
Edycja danych może odbywać się na wiele sposobów i zależy przede wszystkim od eksplorowanego zestawu danych.
Aktualność i kompletność danych
Ważność zbioru danych zależy od kompletności odpowiedzi udzielanych przez respondentów. Jedną z metod edycji danych jest upewnienie się, że wszystkie odpowiedzi są kompletne w polach wymagających odpowiedzi numerycznej lub nienumerycznej. Zobacz przykład poniżej.
Zduplikowane wprowadzanie danych
Weryfikacja, czy dane są unikalne, jest ważnym aspektem edycji danych, aby upewnić się, że wszystkie podane dane zostały wprowadzone tylko raz. Zmniejsza to możliwość powtarzających się danych, które mogłyby zniekształcić raporty analityczne . Zobacz przykład poniżej.
Wartości odstające
W zestawach danych często można znaleźć wartości odstające, które, jak opisano wcześniej, są wartościami, które nie pasują dobrze do modelu danych. Te skrajne wartości można znaleźć na podstawie rozkładu punktów danych z poprzednich serii danych lub równoległych serii danych dla tego samego zestawu danych. Wartości można uznać za błędne i wymagają dalszej analizy w celu sprawdzenia i określenia ważności odpowiedzi. Zobacz przykład poniżej.
Niespójności logiczne
Spójność logiczna to obecność logicznych relacji i współzależności między zmiennymi. Ta edycja wymaga pewnego zrozumienia zestawu danych i umiejętności identyfikowania błędów w danych na podstawie poprzednich raportów lub informacji. Ten typ edycji danych służy do uwzględniania różnic między polami danych lub zmiennymi. Zobacz przykład poniżej.
Edycja makr
Istnieją dwie metody edycji makr:
Metoda agregacji
Ta metoda jest stosowana w prawie każdym urzędzie statystycznym przed publikacją: sprawdzanie, czy dane, które mają zostać opublikowane, wydają się wiarygodne. Osiąga się to poprzez porównanie ilości w tabelach publikacji z tymi samymi ilościami w poprzednich publikacjach. W przypadku zaobserwowania nietypowej wartości, do poszczególnych rekordów i pól składających się na podejrzaną ilość stosowana jest procedura mikroedycji.
Metoda dystrybucji
Dostępne dane są wykorzystywane do scharakteryzowania rozkładu zmiennych . Następnie wszystkie poszczególne wartości są porównywane z rozkładem. Rekordy zawierające wartości, które można by uznać za rzadkie (biorąc pod uwagę rozkład), są kandydatami do dalszej kontroli i ewentualnie do edycji.
Automatyczna edycja
W automatycznej edycji rekordy są redagowane przez komputer bez ingerencji człowieka. Wcześniejszą wiedzę o wartościach pojedynczej zmiennej lub kombinacji zmiennych można sformułować jako zestaw reguł edycyjnych, które określają lub ograniczają dopuszczalne wartości
Determinanty edycji danych
Edycja danych ma swoje ograniczenia związane z możliwościami i zasobami danego badania. Determinanty te mogą mieć pozytywny lub negatywny wpływ na postanalizę zbioru danych. Poniżej przedstawiono kilka uwarunkowań edycji danych.
Dostępne zasoby:
- Czas przeznaczony na projekt
- Ograniczenia finansowe i budżetowe
Dostępne oprogramowanie:
- Narzędzia używane do analizy danych
- Dostępne narzędzia do identyfikowania błędów w zbiorze danych
- Natychmiastowa dostępność oprogramowania w zależności od celów i celów danych
Źródło danych:
- Ograniczenia respondentów w udzielaniu odpowiedzi zgodnie z oczekiwaniami
- Brakujące informacje od respondentów, które nie są łatwo dostępne
- Działania następcze są trudne do utrzymania w dużych pulach danych
Koordynacja procedury edycji danych:
- Subiektywne poglądy na zbiór danych
- Rozbieżności między ogólnymi celami danych
- Metody stosowane do obsługi edycji danych
Zobacz też
- Czyszczenie danych
- Wstępne przetwarzanie danych
- Przekształcanie danych
- Iteracyjne dopasowanie proporcjonalne
- Triangulacja (nauki społeczne)