Głośne dane
Zaszumione dane to dane, które są uszkodzone, zniekształcone lub mają niski stosunek sygnału do szumu . Niewłaściwe procedury (lub niewłaściwie udokumentowane procedury) mające na celu odjęcie szumu w danych mogą prowadzić do fałszywego poczucia dokładności lub fałszywych wniosków.
Zaszumione dane to dane zawierające dużą ilość dodatkowych bezsensownych informacji zwanych szumem. Obejmuje to uszkodzenie danych , a termin ten jest często używany jako synonim uszkodzonych danych. Obejmuje to również wszelkie dane, których system użytkownika nie może zrozumieć i poprawnie zinterpretować. Na przykład wiele systemów nie może używać tekstu nieustrukturyzowanego . Zaszumione dane mogą niekorzystnie wpłynąć na wyniki każdej analizy danych i zniekształcić wnioski, jeśli nie zostaną odpowiednio potraktowane. Analiza statystyczna jest czasami wykorzystywana do usuwania szumu z zaszumionych danych.
Źródła hałasu
Różnice w rzeczywistych zmierzonych danych od rzeczywistych wartości wynikają z wielu czynników wpływających na pomiar.
Losowy szum jest często dużym składnikiem szumu w danych. Losowy szum w sygnale jest mierzony jako stosunek sygnału do szumu . Losowy szum zawiera prawie równe ilości szerokiego zakresu częstotliwości i jest również nazywany szumem białym (ponieważ kolory światła łączą się, tworząc biel ). Przypadkowy hałas jest nieuniknionym problemem. Wpływa na procesy zbierania i przygotowywania danych, w których często występują błędy. Szum ma dwa główne źródła: błędy wprowadzane przez narzędzia pomiarowe i błędy losowe wprowadzane przez przetwarzanie lub przez ekspertów podczas gromadzenia danych.
Niewłaściwe filtrowanie może dodać szum, jeśli filtrowany sygnał jest traktowany tak, jakby był sygnałem bezpośrednio mierzonym. Na przykład filtry cyfrowe typu splotu , takie jak średnia ruchoma, mogą mieć skutki uboczne, takie jak opóźnienia lub obcinanie pików. Różnicujące filtry cyfrowe wzmacniają przypadkowy szum w oryginalnych danych.
odstające to dane, które wydają się nie należeć do zbioru danych. Może to być spowodowane błędem ludzkim, takim jak transpozycja cyfr, błędne oznakowanie, błędy programistyczne itp. Jeśli rzeczywiste wartości odstające nie zostaną usunięte ze zbioru danych, zniekształcą wyniki w małym lub dużym stopniu, w zależności od okoliczności. Jeśli prawidłowe dane zostaną zidentyfikowane jako wartości odstające i zostaną omyłkowo usunięte, spowoduje to również zafałszowanie wyników.
Oszustwo: osoby mogą celowo zniekształcać dane, aby wpłynąć na wyniki w kierunku pożądanego wniosku. Dane, które wyglądają dobrze z niewielką liczbą wartości odstających, dobrze odzwierciedlają osobę, która je zbiera, dlatego może istnieć zachęta do usunięcia większej liczby danych jako wartości odstających lub sprawienia, by dane wyglądały na bardziej płynne niż są.