Sortowanie danych

Podział danych , zwany także kategorią danych dyskretnych lub kategorią danych , jest techniką wstępnego przetwarzania danych stosowaną w celu ograniczenia skutków drobnych błędów obserwacji. Oryginalne wartości danych, które mieszczą się w danym małym przedziale, bin , są zastępowane wartością reprezentującą ten przedział, często wartością centralną ( średnią lub medianą ). Jest to związane z kwantyzacją : kategoryzacja danych działa na osi odciętych , podczas gdy kwantyzacja działa na osi rzędnych . Binning jest uogólnieniem zaokrąglania .

Binning danych statystycznych to sposób na grupowanie liczb mniej lub bardziej ciągłych wartości w mniejszą liczbę „przedziałów”. Na przykład, jeśli masz dane dotyczące grupy osób, możesz zechcieć uporządkować ich wiek w mniejszej liczbie przedziałów wiekowych (na przykład grupując razem co pięć lat). Może być również używany w statystykach wielowymiarowych , kategoryzując jednocześnie w kilku wymiarach.

W cyfrowym przetwarzaniu obrazu „binning” ma zupełnie inne znaczenie. Grupowanie pikseli to proces łączenia bloków sąsiednich pikseli w całym obrazie poprzez sumowanie lub uśrednianie ich wartości podczas lub po odczycie. Zmniejsza ilość danych; również względny poziom szumu w wyniku jest niższy.

Przykład użycia

Histogramy są przykładem kategoryzacji danych stosowanej w celu obserwacji leżących u podstaw rozkładów częstotliwości . Zwykle występują w przestrzeni jednowymiarowej iw równych odstępach czasu dla ułatwienia wizualizacji.

Binding danych może być stosowany, gdy małe instrumentalne przesunięcia w wymiarze widmowym z eksperymentów spektrometrii mas (MS) lub jądrowego rezonansu magnetycznego (NMR) zostaną fałszywie zinterpretowane jako reprezentujące różne składniki, gdy zbiór profili danych jest poddawany analizie rozpoznawania wzorców . Prostym sposobem na poradzenie sobie z tym problemem jest zastosowanie technik binowania, w których rozdzielczość widma jest zmniejszana w stopniu wystarczającym, aby zapewnić, że dany pik pozostanie w swoim przedziale pomimo niewielkich przesunięć widmowych między analizami. Na przykład w NMR przesunięcia chemicznego można zdyskretyzować i zgrubnie podzielić, aw MS dokładność widmową można zaokrąglić do całkowitych wartości jednostek masy atomowej . Ponadto kilka aparatów cyfrowych zawiera funkcję automatycznego łączenia pikseli w celu poprawy kontrastu obrazu.

Binning jest również używany w uczeniu maszynowym do przyspieszenia metody zwiększania drzew decyzyjnych dla nadzorowanej klasyfikacji i regresji w algorytmach, takich jak LightGBM firmy Microsoft i Gradient Boosting Classification Tree firmy scikit-learn opartej na histogramie .

Zobacz też