Dyskretyzacja cech ciągłych
W statystyce i uczeniu maszynowym dyskretyzacja odnosi się do procesu przekształcania lub partycjonowania ciągłych atrybutów , cech lub zmiennych na dyskretyzowane lub nominalne atrybuty/cechy/zmienne/ przedziały . Może to być przydatne przy tworzeniu prawdopodobieństwa funkcji masy – formalnie w estymacji gęstości . Jest to ogólnie forma dyskretyzacji , a także kategoryzacji , jak przy tworzeniu histogramu . Ilekroć ciągłe są dyskretyzowane, zawsze występuje pewien błąd dyskretyzacji . Celem jest zmniejszenie kwoty do poziomu uznawanego za nieistotny dla celów modelowania .
Zazwyczaj dane są dyskretyzowane na partycje K równych długości/szerokości (równe przedziały) lub K% wszystkich danych (równe częstotliwości).
Mechanizmy dyskretyzacji ciągłych danych obejmują metodę MDL firmy Fayyad & Irani, która wykorzystuje wzajemne informacje do rekurencyjnego definiowania najlepszych pojemników, CAIM, CACC, Ameva i wiele innych
Wiadomo, że wiele algorytmów uczenia maszynowego tworzy lepsze modele poprzez dyskretyzację ciągłych atrybutów.
Oprogramowanie
To jest częściowa lista oprogramowania, które implementuje algorytm MDL.
- narzędzie discretize4crf zaprojektowane do pracy z popularnymi implementacjami CRF ( C++ )
- mdlp w dyskretyzacji pakietu R
- Dyskretyzacja w pakiecie R RWeka
Zobacz też
- Bibliografia _ Barton, BA (2000). „Entropia i dyskretyzacja MDL zmiennych ciągłych dla bayesowskich sieci przekonań” (PDF) . Międzynarodowy Dziennik Systemów Inteligentnych . 15 : 61–92. doi : 10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O . Źródło 2008-07-10 .
- ^ Fayyad, Osama M.; Irani, Keki B. (1993) „Dyskretyzacja wieloprzedziałowa atrybutów o wartościach ciągłych do uczenia się klasyfikacyjnego” (PDF) . hdl : 2014/35171 . , Proc. 13. Int. Wspólna Konf. o sztucznej inteligencji (Q334 .I571 1993), s. 1022-1027
- Bibliografia _ Kohavi, R.; Sahami, M. (1995). „ Nadzorowana i nienadzorowana dyskretyzacja cech ciągłych ”. W A. Prieditis i SJ Russell, wyd. praca . Morgan Kaufmann, s. 194-202
- Bibliografia _ Kanellopoulos, D (2006). „Techniki dyskretyzacji: ostatnie badanie”. Międzynarodowe transakcje GETS dotyczące informatyki i inżynierii . 32 (1): 47–58. CiteSeerX 10.1.1.109.3084 .