Obliczenia granularne

Obliczenia granularne to wyłaniający się paradygmat obliczeniowy przetwarzania informacji , który dotyczy przetwarzania złożonych jednostek informacyjnych zwanych „ granulami informacyjnymi ”, które powstają w procesie abstrakcji danych i wyprowadzania wiedzy z informacji lub danych. Ogólnie rzecz biorąc, granulki informacji to zbiory jednostek, które zwykle powstają na poziomie liczbowym i są ułożone razem ze względu na ich podobieństwo , funkcjonalne lub fizyczne sąsiedztwo, nierozróżnialność, spójność itp.

Obecnie przetwarzanie granularne jest bardziej perspektywą teoretyczną niż spójnym zestawem metod lub zasad. Z perspektywy teoretycznej zachęca do podejścia do danych, które rozpoznaje i wykorzystuje wiedzę zawartą w danych na różnych poziomach rozdzielczości lub skalach. W tym sensie obejmuje wszystkie metody, które zapewniają elastyczność i zdolność adaptacji w rozdzielczości, w jakiej wiedza lub informacje są wydobywane i reprezentowane.

Rodzaje granulacji

Widok satelitarny cyklonu.
Widok satelitarny Manhattanu.

Jak wspomniano powyżej, przetwarzanie granularne nie jest algorytmem ani procesem; nie ma określonej metody, która nazywałaby się „przetwarzaniem granularnym”. Jest to raczej podejście do patrzenia na dane, które rozpoznaje, jak różne i interesujące regularności w danych mogą pojawiać się na różnych poziomach ziarnistości, podobnie jak różne cechy stają się widoczne na zdjęciach satelitarnych o większej lub mniejszej rozdzielczości . Na przykład na zdjęciu satelitarnym o niskiej rozdzielczości można zauważyć ciekawe wzory chmur reprezentujące cyklony lub inne wielkoskalowe zjawiska pogodowe, podczas gdy na obrazie o wyższej rozdzielczości można przegapić te wielkoskalowe zjawiska atmosferyczne, ale zamiast tego zauważa się zjawiska w mniejszej skali, takie jak interesujący wzór, jakim są ulice Manhattanu . To samo dotyczy wszystkich danych: przy różnych rozdzielczościach lub stopniach ziarnistości pojawiają się różne cechy i zależności. Celem przetwarzania granularnego jest próba wykorzystania tego faktu do projektowania bardziej efektywnych systemów uczenia maszynowego i wnioskowania.

Istnieje kilka rodzajów szczegółowości, które są często spotykane w eksploracji danych i uczeniu maszynowym . Omówimy je poniżej:

Granulacja wartości (dyskretyzacja/kwantyzacja)

Jednym z rodzajów granulacji jest kwantyzacja zmiennych. Bardzo często w aplikacjach do eksploracji danych lub uczenia maszynowego rozdzielczość zmiennych musi zostać zmniejszona , aby wyodrębnić znaczące prawidłowości. Przykładem tego może być zmienna, taka jak „temperatura zewnętrzna” ( temp ), która w danym zastosowaniu może być zapisana z dokładnością do kilku miejsc po przecinku (w zależności od aparatury czujnikowej). Jednak w celu wyodrębnienia zależności między „temperaturą zewnętrzną” a, powiedzmy, „liczbą zgłoszeń do klubów zdrowia” ( club ), na ogół korzystne będzie kwantowanie „temperatury zewnętrznej” w mniejszej liczbie przedziałów.

Motywacje

Istnieje kilka powiązanych ze sobą powodów granulacji zmiennych w ten sposób:

  • Na podstawie wcześniejszej wiedzy dziedzinowej nie oczekuje się, że niewielkie zmiany temperatury (np. różnica między 80–80,7 ° F (26,7–27,1 ° C)) mogą mieć wpływ na zachowania powodujące liczbę zgłoszeń do klubów zdrowia. Z tego powodu jakakolwiek „regularność”, którą nasze uczące się algorytmy mogłyby wykryć na tym poziomie rozdzielczości, musiałaby być fałszywa , jako artefakt nadmiernego dopasowania. Pogrubiając zmienną temperaturową w przedziały, różnicę między którymi robimy przewidywać (w oparciu o wcześniejszą wiedzę dziedzinową) może wpłynąć na liczbę zgłoszeń do klubów zdrowia, eliminujemy możliwość wykrycia tych fałszywych wzorców. Zatem w tym przypadku zmniejszenie rozdzielczości jest metodą kontrolowania nadmiernego dopasowania .
  • Zmniejszając liczbę przedziałów w zmiennej temperatury (tj. zwiększając jej wielkość ziarna ), zwiększamy ilość danych próbki indeksowanych przez oznaczenie każdego przedziału. W ten sposób, zmniejszając wielkość zmiennej, zwiększamy liczebność próby i uzyskujemy lepsze oszacowanie statystyczne. W tym sensie rosnąca ziarnistość stanowi antidotum na tak zwaną klątwę wymiarowości , która wiąże się z wykładniczym spadkiem mocy statystycznej wraz ze wzrostem liczby wymiarów lub liczności zmiennej.
  • Niezależnie od wcześniejszej wiedzy dziedzinowej, często zdarza się, że znaczące prawidłowości (tj. które mogą być wykryte przez daną metodologię uczenia się, język reprezentacji itp.) mogą istnieć na jednym poziomie rozdzielczości, a nie na innym.
Korzyści z granulacji wartości: Implikacje istnieją tutaj przy rozdzielczości które nie istnieją przy wyższej rozdzielczości w szczególności podczas gdy w tym samym czasie

Na przykład prosty system uczący się lub rozpoznawający wzorce może dążyć do wyodrębnienia regularności spełniających próg prawdopodobieństwa warunkowego , taki jak W szczególnym przypadku, w którym system rozpoznawania zasadniczo wykrywa logiczne implikacja postaci lub słownie „jeśli to ". Zdolność systemu do rozpoznania takich implikacji (lub ogólnie prawdopodobieństw warunkowych przekraczających wartość progową) jest częściowo uzależniona od rozdzielczości, z jaką system analizuje zmienne.

Jako przykład tego ostatniego punktu rozważmy przestrzeń cech pokazaną po prawej stronie. Każda ze zmiennych może być rozpatrywana w dwóch różnych rozdzielczościach. Zmienna przyjmuje cztery wartości. lub w niższej (binarnej) rozdzielczości, gdzie przyjmuje dwie wartości Podobnie zmienną można rozpatrywać w wysokiej (czwartorzędowej) lub w niższej (binarnej) rozdzielczości, gdzie przyjmuje wartości lub odpowiednio. wysokiej nie postaci _ jest powiązany z więcej niż jednym zatem dla Jednak przy niskiej (binarnej) zmiennej rozdzielczości można wykryć dwie dwustronne implikacje: i , ponieważ każdy występuje , jeśli i występuje , jeśli Zatem system rozpoznawania wzorców, skanujący tego rodzaju implikacje, znalazłby je przy rozdzielczości zmiennej binarnej, ale nie znalazłby ich przy rozdzielczości wyższej zmiennej czwartorzędowej.

Zagadnienia i metody

Nie jest możliwe wyczerpujące przetestowanie wszystkich możliwych rozdzielczości dyskretyzacji na wszystkich zmiennych, aby zobaczyć, która kombinacja rozdzielczości daje interesujące lub znaczące wyniki. Zamiast tego przestrzeń cech musi zostać wstępnie przetworzona (często za pomocą entropii ), aby można było udzielić pewnych wskazówek, jak powinien przebiegać proces dyskretyzacji. Co więcej, generalnie nie można osiągnąć dobrych wyników, naiwnie analizując i dyskretyzując każdą zmienną niezależnie, ponieważ może to zatrzeć te interakcje, które mieliśmy nadzieję odkryć.

Przykładowe artykuły dotyczące problemu dyskretyzacji zmiennych w ogólności, a dyskretyzacji wielu zmiennych w szczególności, to: Chiu, Wong & Cheung (1991) , Bay (2001) , Liu i in. (2002) , Wang i Liu (1998) , Zighed, Rabaseda i Rakotomalala (1998) , Catlett (1991) , Dougherty, Kohavi i Sahami (1995) , Monti i Cooper (1999) , Fayyad i Irani (1993) , Chiu, Cheung i Wong (1990) , Nguyen & Nguyen (1998) , Grzymala-Busse & Stefanowski (2001) , Ting (1994) , Ludl & Widmer (2000) , Pfahringer (1995) , An & Cercone (1999) , Chiu & Cheung (1989) , Chmielewski & Grzymala -Busse (1996) , Lee i Shin (1994) , Liu i Wellman (2002) , Liu i Wellman (2004) .

Zmienna granulacja (klastrowanie/agregacja/transformacja)

Zmienna granulacja to termin, który może opisywać różne techniki, z których większość ma na celu zmniejszenie wymiarowości, redundancji i wymagań dotyczących przechowywania. Krótko opisujemy tutaj niektóre z pomysłów i przedstawiamy wskazówki do literatury.

Zmienna transformacja

Szereg klasycznych metod, takich jak analiza składowych głównych , skalowanie wielowymiarowe , analiza czynnikowa i modelowanie równań strukturalnych , oraz ich pokrewne, należą do rodzaju „transformacji zmiennych”. Również w tej kategorii znajdują się bardziej nowoczesne obszary badań, takie jak redukcja wymiarowości , dążenie do projekcji i niezależna analiza komponentów . Wspólnym celem tych metod jest ogólnie znalezienie reprezentacji danych w postaci nowych zmiennych, które są liniową lub nieliniową transformacją pierwotnych zmiennych iw których pojawiają się ważne zależności statystyczne. Wynikowe zestawy zmiennych są prawie zawsze mniejsze niż oryginalny zestaw zmiennych, stąd też można luźno powiedzieć, że te metody nakładają granulację na przestrzeń cech. Wszystkie te metody redukcji wymiarowości są omówione w standardowych tekstach, takich jak Duda, Hart i Stork (2001) , Witten i Frank (2005) oraz Hastie, Tibshirani i Friedman (2001) .

Agregacja zmiennych

Inna klasa metod granulacji zmiennych wywodzi się bardziej z metodologii grupowania danych niż z teorii systemów liniowych, na której opierają się powyższe metody. Dość wcześnie zauważono, że można rozważać zmienne związane z „grupowaniem” w taki sam sposób, w jaki rozważa się dane związane z grupowaniem. W klastrowaniu danych identyfikuje się grupę podobnych podmiotów (za pomocą „ miary podobieństwa ” odpowiedniej dla dziedziny — Martino, Giuliani & Rizzi (2018) ), a następnie w pewnym sensie zastępuje te podmioty z jakimś prototypem. Prototypem może być prosta średnia danych w zidentyfikowanym klastrze lub inna reprezentatywna miara. Ale kluczową ideą jest to, że w kolejnych operacjach możemy być w stanie użyć pojedynczego prototypu dla klastra danych (wraz z być może modelem statystycznym opisującym, w jaki sposób modele są wyprowadzane z prototypu), aby zastąpić znacznie większy zestaw przykładów . Prototypy te są na ogół takie, że przechwytują większość interesujących informacji dotyczących podmiotów.

Drzewo aglomeracji zmiennych Watanabe-Kraskowa. Zmienne są aglomerowane (lub „jednostkowane”) od dołu do góry, przy czym każdy węzeł scalania reprezentuje (skonstruowaną) zmienną mającą entropię równą łącznej entropii aglomerujących zmiennych. Zatem aglomeracja dwóch m -arnych zmiennych entropie zwraca jedynkę m 2 -ary zmienna z entropią Kiedy są wysoce zależne ( tj. nadmiarowe) i mają dużą wzajemną informację następnie ponieważ i byłoby to uważane za oszczędną unityzację lub agregację.

Podobnie uzasadnione jest pytanie, czy duży zestaw zmiennych można zagregować w mniejszy zestaw zmiennych prototypowych , które wychwytują najistotniejsze relacje między zmiennymi. Chociaż zaproponowano metody grupowania zmiennych oparte na korelacji liniowej ( Duda, Hart & Stork 2001 ; Rencher 2002 ), bardziej rozbudowane metody grupowania zmiennych opierają się na wzajemnej informacji między zmiennymi. Watanabe wykazał ( Watanabe 1960 ; Watanabe 1969 ) że dla dowolnego zestawu zmiennych można skonstruować drzewo politomiczne (tj. n-argumentowe) reprezentujące szereg aglomeracji zmiennych, w którym ostateczna „całkowita” korelacja między pełnym zbiorem zmiennych jest sumą korelacji „częściowych” wykazywanych przez każdy aglomerujący podzbiór (patrz rysunek). Watanabe sugeruje, że obserwator mógłby dążyć do podzielenia systemu w taki sposób, aby zminimalizować współzależność między częściami „... tak jakby szukał naturalnego podziału lub ukrytego pęknięcia”.

Jednym z praktycznych podejść do budowy takiego drzewa jest sukcesywne wybieranie do aglomeracji dwóch zmiennych (albo zmiennych atomowych, albo zmiennych wcześniej aglomerowanych), które mają najwyższą wzajemną informację parami ( Kraskov i in. 2003 ). Produkt każdej aglomeracji jest nową (skonstruowaną) zmienną, która odzwierciedla lokalny łączny rozkład dwóch zmiennych aglomeracyjnych, a zatem posiada entropię równą ich łącznej entropii . (Z proceduralnego punktu widzenia ten etap aglomeracji obejmuje zastąpienie dwóch kolumn w tabeli atrybut-wartość — reprezentujących dwie zmienne aglomerujące — pojedynczą kolumną, która ma unikalną wartość dla każdej unikalnej kombinacji wartości w zastąpionych kolumnach (Kraskov i in . 2003 ). Taka operacja nie powoduje utraty żadnych informacji, jednak jeśli bada się dane pod kątem relacji między zmiennymi, generalnie nie byłoby pożądane łączenie w ten sposób zbędnych zmiennych, ponieważ w takim kontekście prawdopodobnie dokładnie redundancja lub zależność między zmiennymi, które są przedmiotem zainteresowania; a po połączeniu zbędnych zmiennych nie można już badać ich wzajemnych relacji.

Granulacja systemu (agregacja)

W systemach bazodanowych agregacje (patrz np. agregacja OLAP i systemy Business Intelligence ) skutkują przekształceniem oryginalnych tablic danych (często nazywanych systemami informatycznymi) w tablice o różnej semantyce wierszy i kolumn, przy czym wiersze odpowiadają grupom (granulom) oryginalnych krotki i kolumny wyrażają zagregowane informacje o oryginalnych wartościach w każdej z grup. Takie agregacje są zwykle oparte na języku SQL i jego rozszerzeniach. Otrzymane granulki zwykle odpowiadają grupom oryginalnych krotek o tych samych wartościach (lub zakresach) w niektórych wstępnie wybranych oryginalnych kolumnach.

Istnieją również inne podejścia, w których grupy są definiowane na podstawie np. fizycznego sąsiedztwa rzędów. Na przykład firma Inforight zaimplementowała silnik bazy danych, w którym dane zostały podzielone na przybliżone wiersze , z których każdy składa się z 64 000 fizycznie następujących po sobie (lub prawie następujących po sobie) wierszy. Zgrubne wiersze były automatycznie oznaczane etykietami zwartymi informacjami o ich wartościach w kolumnach danych, często obejmujących relacje wielokolumnowe i wielotabelowe. Doprowadziło to do powstania wyższej warstwy granulowanych informacji, gdzie obiekty odpowiadały przybliżonym wierszom i atrybutom - różnym aspektom przybliżonych informacji. Operacje bazodanowe mogłyby być skutecznie wspierane w takich nowych ramach, przy wciąż dostępnym dostępie do oryginalnych fragmentów danych ( Slezak et al. 2013 ).

Granulacja koncepcji (analiza składowa)

Początków ideologii obliczeń granularnych można szukać w literaturze dotyczącej zbiorów przybliżonych i zbiorów rozmytych . Jednym z kluczowych spostrzeżeń badań na zbiorach przybliżonych — choć w żadnym wypadku nie jest to dla nich unikalne — jest to, że generalnie wybór różnych zestawów cech lub zmiennych da różne granulacje koncepcji . Tutaj, podobnie jak w elementarnej teorii zbiorów przybliżonych, przez „pojęcie” rozumiemy zbiór bytów, które są nierozróżnialne lub nierozróżnialne dla obserwatora (tj. pojęcie proste) lub zbiór bytów, który składa się z takich prostych pojęć (tj. pojęcie złożone). Innymi słowy, rzutując zestaw danych ( system wartości i atrybutów ) na różne zestawy zmiennych, rozpoznajemy w danych alternatywne zestawy „pojęć” klasy równoważności, a te różne zestawy pojęć będą generalnie sprzyjać do wydobywania różnych zależności i prawidłowości.

Granulacja klas równoważności

Ilustrujemy przykładem. Rozważ poniższy system atrybut-wartość:

Przykładowy system informacyjny
Obiekt
1 2 0 1 1
1 2 0 1 1
2 0 0 1 0
0 0 1 2 1
2 1 0 2 1
0 0 1 2 2
2 0 0 1 0
0 1 2 2 1
2 1 0 2 2
2 0 0 1 0

Gdy pełny zestaw atrybutów , widzimy, że mamy siedem następujących klas równoważności lub pojęć pierwotnych (prostych):

obiekty w pierwszej klasie równoważności siebie na podstawie dostępnych trzy obiekty w drugiej klasie równoważności nie można odróżnić od siebie na podstawie dostępnych atrybutów. Pozostałe pięć obiektów można odróżnić od wszystkich innych obiektów. Wyobraźmy sobie teraz rzut systemu wartości atrybutów na sam atrybut reprezentowałby na przykład widok obserwatora, który jest w stanie wykryć tylko ten pojedynczy atrybut Otrzymujemy wtedy następującą, znacznie bardziej zgrubną strukturę klas równoważności.

To w pewnym sensie ta sama struktura, co poprzednio, ale z mniejszą rozdzielczością (większe ziarno). Podobnie jak w przypadku granulacji wartości (dyskretyzacji/kwantyzacji) , możliwe jest, że na jednym poziomie granulacji mogą pojawić się zależności (zależności), których nie ma na innym. Jako przykład tego możemy rozważyć wpływ granulacji pojęć na miarę znaną jako zależność atrybutów (prostsza krewna wzajemnej informacji ).

Aby ustalić to pojęcie zależności (patrz także zbiory przybliżone ), niech reprezentują określoną granulację koncepcji, gdzie każda jest klasą równoważności ze struktury pojęciowej indukowanej przez zestaw atrybutów Q . Na przykład, jeśli zestaw atrybutów Q składa się z samego atrybutu to struktura pojęciowa będzie się składać z

Zależność zestawu atrybutów Q od innego zestawu atrybutów jest określona wzorem P , \

Oznacza to, że dla każdej klasy równoważności [ sumujemy rozmiar jej „dolnego przybliżenia” (patrz przybliżone ) przez atrybuty w P , tj. Mówiąc prościej, to przybliżenie to liczba obiektów, które w zestawie atrybutów P można pozytywnie zidentyfikować jako należące do zestawu docelowego Dodany do wszystkich klas równoważności w powyższy licznik reprezentuje całkowitą liczbę obiektów, które - na podstawie zestawu atrybutów P - mogą być pozytywnie skategoryzowane zgodnie z klasyfikacją wywołaną przez atrybuty Q . Współczynnik zależności wyraża zatem proporcję (w całym wszechświecie) takich klasyfikowalnych obiektów, w pewnym sensie uchwycając „synchronizację” dwóch struktur pojęciowych i Zależność można interpretować jako proporcję takich obiektów w systemie informacyjnym, poznać wartości atrybutów w P , aby określić wartości atrybutów w Q ” (Ziarko i Shan 1995).

Mając już definicje na uboczu, możemy poczynić prostą obserwację, że wybór ziarnistości pojęcia (tj. wybór atrybutów) wpłynie na wykryte zależności między atrybutami. Rozważ ponownie powyższą tabelę wartości atrybutów:

Przykładowy system informacyjny
Obiekt
1 2 0 1 1
1 2 0 1 1
2 0 0 1 0
0 0 1 2 1
2 1 0 2 1
0 0 1 2 2
2 0 0 1 0
0 1 2 2 1
2 1 0 2 2
2 0 0 1 0

Rozważ zależność zestawu atrybutów od zestawu atrybutów P_ To znaczy, chcemy wiedzieć, jaki odsetek obiektów można poprawnie sklasyfikować w klasy na podstawie znajomości Pokazane są klasy równoważności i poniżej.

Obiekty, które można definitywnie sklasyfikować zgodnie ze strukturą pojęciową na podstawie to te w zbiorze , zależność Q od P , Można to uznać za interesującą zależność samo w sobie, ale być może w konkretnej aplikacji do eksploracji danych pożądane są tylko silniejsze zależności.

zależność mniejszego zestawu Przejście z do powoduje zgrubienie struktury klasowej jak wkrótce zobaczymy. Chcielibyśmy ponownie wiedzieć, jaki odsetek obiektów można poprawnie zaklasyfikować do (teraz ) klas na podstawie znajomości Klasy równoważności nowego i są pokazane poniżej.

Najwyraźniej większą Obiekty, które można teraz definitywnie sklasyfikować zgodnie ze strukturą pojęciową na podstawie stanowią kompletny wszechświat , a zatem zależność Q od P , że znajomość członkostwa zgodnie ze zbiorem kategorii jest wystarczająca do określenia członkostwa w kategorii z całkowitą pewnością; W tym przypadku możemy powiedzieć, że W ten sposób, zmniejszając strukturę pojęciową, byliśmy w stanie znaleźć silniejszą (deterministyczną) zależność. Jednak zauważamy również że klasy wywołane w wyniku zmniejszenia rozdzielczości niezbędnej nieliczne; w rezultacie zależność, którą znaleźliśmy, choć silna, może być dla nas mniej wartościowa niż słabsza zależność znaleziona wcześniej w widoku

Ogólnie rzecz biorąc, nie jest możliwe przetestowanie wszystkich zestawów atrybutów, aby zobaczyć, które indukowane struktury pojęciowe dają najsilniejsze zależności, a zatem poszukiwania te muszą być prowadzone z pewną inteligencją. Artykuły omawiające ten problem i inne dotyczące inteligentnego wykorzystania granulacji to prace YY Yao i Lotfi Zadeh wymienione w #References poniżej.

Granulacja składników

Inne spojrzenie na granulację pojęć można uzyskać z prac nad parametrycznymi modelami kategorii. Na przykład w pomocą modeli mieszanych zestaw danych jest wyjaśniany jako mieszanina odrębnych rozkładów Gaussa (lub innych). W ten sposób duża ilość danych jest „zastępowana” niewielką liczbą dystrybucji. Wybór liczby tych rozkładów i ich wielkości można ponownie postrzegać jako problem granulacji pojęć . Ogólnie rzecz biorąc, lepsze dopasowanie do danych uzyskuje się dzięki większej liczbie rozkładów lub parametrów, ale w celu wyodrębnienia sensownych wzorców konieczne jest ograniczenie liczby rozkładów, a tym samym celowe zgrubienie rozdzielczości koncepcji . Znalezienie „właściwego” rozwiązania koncepcji jest trudnym problemem, dla którego zaproponowano wiele metod (np. AIC , BIC , MDL , itp.), które są często rozpatrywane w rubryce „ regulacja modelu ”.

Różne interpretacje obliczeń granularnych

Obliczenia granularne można postrzegać jako ramy teorii, metodologii, technik i narzędzi, które wykorzystują granulki informacji w procesie rozwiązywania problemów. W tym sensie przetwarzanie granularne jest używane jako ogólny termin obejmujący tematy, które były badane w różnych dziedzinach w izolacji. Badając wszystkie te istniejące badania w świetle ujednoliconych ram obliczeń granularnych i wydobywając ich podobieństwa, możliwe może być opracowanie ogólnej teorii rozwiązywania problemów.

W bardziej filozoficznym sensie obliczenia granularne mogą opisywać sposób myślenia, który opiera się na ludzkiej zdolności postrzegania świata rzeczywistego na różnych poziomach ziarnistości (tj. przełączać się między różnymi ziarnistościami. Koncentrując się na różnych poziomach szczegółowości, można uzyskać różne poziomy wiedzy, a także lepsze zrozumienie wewnętrznej struktury wiedzy. Przetwarzanie granularne jest zatem niezbędne w rozwiązywaniu ludzkich problemów, a zatem ma bardzo znaczący wpływ na projektowanie i wdrażanie inteligentnych systemów.

Zobacz też

  •   An, Aijun; Cercone, Nick (1999), „Dyskretyzacja ciągłych atrybutów do uczenia się reguł klasyfikacji”, w: Ning Zhong; Lizhu Zhou (red.), Metodologie odkrywania wiedzy i eksploracji danych: Proceedings of the Third Pacific-Asia Conference, PAKDD-99 , Notatki z wykładów z informatyki, tom. 1574, Pekin, Chiny , s. 509–514, doi : 10.1007/3-540-48912-6_69 , ISBN 978-3-540-65866-5 .
  • Bargiela, A. i Pedrycz, W. (2003) Granular Computing. Wprowadzenie , Wydawnictwo Akademickie Kluwer
  •   Bay, Stephen D. (2001), „Dyskretyzacja wielowymiarowa dla eksploracji zbiorów”, Wiedza i systemy informacyjne , 3 (4): 491–512, CiteSeerX 10.1.1.217.921 , doi : 10.1007/PL00011680 .
  • Catlett, J. (1991), „O zmianie atrybutów ciągłych na uporządkowane atrybuty dyskretne” , w Y. Kodratoff (red.), Machine Learning — EWSL-91: European Working Session on Learning , Porto, Portugalia , s. 164–178 .
  • Chiu, David KY; Cheung, Benny (1989), "Hierarchiczna dyskretyzacja maksymalnej entropii", w: Ryszard Janicki; Waldemar W. Koczkodaj (red.), Computing and Information: Proceedings of the International Conference on Computing and Information (ICCI '89) , Toronto, Ontario , Kanada: Holandia Północna, s. 237–242 .
  • Chiu, David KY; Cheung, Benny; Wong, Andrew KC (1990), „Synteza informacji oparta na hierarchicznej dyskretyzacji maksymalnej entropii”, Journal of Experimental and Theoretical Artificial Intelligence , 2 (2): 117–129, doi : 10.1080/09528139008953718 .
  • Chiu, David KY; Wong, Andrew KC; Cheung, Benny (1991), „Odkrywanie informacji poprzez hierarchiczną dyskretyzację i syntezę maksymalnej entropii”, w: Gregory Piatetsky-Shapiro; William J. Frawley (red.), Odkrywanie wiedzy w bazach danych , Cambridge, MA : MIT Press, s. 126–140 .
  • Chmielewski, Michał R.; Grzymala-Busse, Jerzy W. (1996), „Globalna dyskretyzacja ciągłych atrybutów jako przetwarzanie wstępne dla uczenia maszynowego” (PDF) , International Journal of Approximate Reasoning , 15 (4): 319–331, doi : 10.1016/s0888-613x ( 96)00074-6 .
  • Dougherty, James; Kohavi, Ron; Sahami, Mehran (1995), „Nadzorowana i nienadzorowana dyskretyzacja cech ciągłych” , w: Armand Prieditis; Stuart Russell (red.), Machine Learning: Proceedings of the XII International Conference (ICML 1995) , Tahoe City, Kalifornia : Morgan Kaufmann, s. 194–202 .
  •   Duda, Ryszard O.; Hart, Peter E.; Bocian, David G. (2001), klasyfikacja wzorców (wyd. 2), Nowy Jork : John Wiley & Sons, ISBN 978-0-471-05669-0
  • Fayyad, Usama M.; Irani, Keki B. (1993), „Dyskretyzacja wieloprzedziałowa atrybutów o wartościach ciągłych do uczenia się klasyfikacji”, Proceedings of the Thirteenth International Joint Conference on Artificial Intelligence (IJCAI-93) , Chambéry, Francja , s. 1022–1027 .
  •   Grzymala-Busse, Jerzy W.; Stefanowski, Jerzy (2001), „Trzy metody dyskretyzacji dla indukcji reguł”, International Journal of Intelligent Systems , 16 (1): 29–38, CiteSeerX 10.1.1.330.2975 , doi : 10.1002/1098-111X(200101)16: 1<29::AID-INT4>3.0.CO;2-0 .
  •   Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2001), Elementy statystycznego uczenia się: eksploracja danych, wnioskowanie i przewidywanie , Nowy Jork : Springer, ISBN 978-0-387-84857-0
  • Kraskow, Aleksander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003), Hierarchiczne grupowanie oparte na wzajemnych informacjach , arXiv : q-bio/0311039 , Bibcode : 2003q.bio....11039K .
  • Lee, Changhwan; Shin, Dong-Guk (1994), „A kontekstowa dyskretyzacja atrybutów numerycznych do uczenia się klasyfikacji”, w AG Cohn (red.), Proceedings of the 11th European Conference on Artificial Intelligence (ECAI 94) , NL , s. 428 –432 .
  •   Liu, Chao-Lin; Wellman, Michael (2002), „Ocena sieci bayesowskich za pomocą elastycznych metod abstrakcji w przestrzeni stanów”, International Journal of Approximate Reasoning , 30 (1): 1–39, CiteSeerX 10.1.1.127.7040 , doi : 10.1016/S0888-613X (01)00067-6 .
  • Liu, Chao-Lin; Wellman, Michael (2004), „Ograniczanie relacji probabilistycznych w sieciach bayesowskich przy użyciu wpływów jakościowych: metody i zastosowania”, International Journal of Approximate Reasoning , 36 (1): 31–73, doi : 10.1016/j.ijar.2003.06.002 .
  • Liu, Huan; Hussain, Farhad; opalenizna, limonka do żucia; Dasii, Manoranjan (2002), „Dyskretyzacja: technika umożliwiająca”, Data Mining and Knowledge Discovery , 6 (4): 393–423, doi : 10.1023 / A: 1016304305535 .
  •   Ludl, Marcus-Christopher; Widmer, Gerhard (2000), „Względna dyskretyzacja bez nadzoru dla eksploracji reguł asocjacyjnych”, w: Djamel A. Zighed; Jana Komorowskiego; Jan Żytkow (red.), Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery (PKDD 2000) , Notatki z wykładów z informatyki, tom. 1910, Lyon, Francja , s. 148–158, doi : 10.1007/3-540-45372-5_15 , ISBN 978-3-540-41066-9 .
  • Monti, Stefano; Cooper, Gregory F. (1999), „Model utajonych zmiennych do dyskretyzacji wielowymiarowej” , Uncertainty 99: The 7th International Workshop on Artificial Intelligence and Statistics , Fort Lauderdale, Floryda .
  •   Martino, Alessio; Giuliani, Alessandro; Rizzi, Antonello (2018), „Granular Computing Techniques for Bioinformatics Pattern Recognition Problems in Non-metric Spaces”, w: Pedrycz W.; Chen SM. (red.), Computational Intelligence for Pattern Recognition , Studies in Computational Intelligence, tom. 777, Springer International Publishing, s. 53–81, doi : 10.1007/978-3-319-89629-8_3 , ISBN 978-3-319-89628-1 .
  • Nguyen, Zawieszony Syn; Nguyen, Sinh Hoa (1998), „Metody dyskretyzacji w eksploracji danych”, w: Lech Polkowski; Andrzej Skowron (red.), Zbiory przybliżone w odkrywaniu wiedzy 1: Metodologia i zastosowania , Heidelberg : Physica-Verlag, s. 451–482 .
  • Pfahringer, Bernhard (1995), „Dyskretyzacja ciągłych atrybutów oparta na kompresji” , w: Armand Prieditis; Stuart Russell (red.), Machine Learning: Proceedings of the XII International Conference (ICML 1995) , Tahoe City, Kalifornia : Morgan Kaufmann, s. 456–463 .
  • Rencher, Alvin C. (2002), Metody analizy wielowymiarowej , Nowy Jork : Wiley .
  • Szymon, Herbert A.; Ando, ​​Albert (1963), „Agregacja zmiennych w systemach dynamicznych”, w: Albert Ando; Franklina M. Fishera; Herbert A. Simon (red.), Essays on the Structure of Social Science Models , Cambridge, MA: MIT Press, s. 64–91
  • Simon, Herbert A. (1996), „Architektura złożoności: systemy hierarchiczne”, w: Herbert A. Simon (red.), The Sciences of the Artificial (wyd. 2), Cambridge, MA: MIT Press, s. 183 –216
  • Ślęzak, Dominik; Synak, Piotr; Wojna, Arkadiusz; Wroblewski, Jakub (2013), „Dwie interpretacje przybliżonych przybliżeń związane z bazą danych: organizacja danych i wykonywanie zapytań”, Fundamenta Informaticae , 127 (1–4): 445–459, doi : 10.3233 / FI-2013-920 .
  • Ting, Kai Ming (1994), Dyskretyzacja atrybutów o wartościach ciągłych i uczenie się oparte na instancjach (raport techniczny nr 491) , Sydney : Basser Department of Computer Science .
  • Wang, Ke; Liu, Bing (1998), „Jednoczesna dyskretyzacja wielu atrybutów” , w Springer (red.), Proceedings of the 5th Pacific Rim International Conference on Artificial Intelligence , Londyn : Springer-Verlag, s. 250–259 .
  • Watanabe, Satosi (1960), „Teoretyczna analiza informacji korelacji wielowymiarowej”, IBM Journal of Research and Development , 4 (1): 66–82, doi : 10.1147 / rd.41.0066 .
  • Watanabe, Satosi (1969), Wiedząc i zgadując: ilościowe badanie wnioskowania i informacji , Nowy Jork : Wiley .
  • Witten, Ian H.; Frank, Eibe (2005), Eksploracja danych: praktyczne narzędzia i techniki uczenia maszynowego (wyd. 2), Amsterdam : Morgan Kaufmann
  • Yao, YY (2004) „A Partition Model of Granular Computing”, Notatki z wykładów z informatyki (do ukazania się)
  • Yao, YY (2001). „O modelowaniu eksploracji danych za pomocą obliczeń granularnych” . Materiały z 25. dorocznej międzynarodowej konferencji dotyczącej oprogramowania i aplikacji komputerowych (COMPSAC 2001) . s. 638–643.
  • Yao, Yiyu (2006). „Przetwarzanie granularne do eksploracji danych” (PDF) . W Dasarathy, Belur V. (red.). Materiały z konferencji SPIE poświęconej eksploracji danych, wykrywaniu włamań, zapewnianiu informacji i bezpieczeństwu sieci danych . Zarchiwizowane od oryginału (PDF) w dniu 18.04.2007.
  • Yao, JT; Yao, YY (2002). „Indukcja reguł klasyfikacji przez obliczenia granularne” (PDF) . Materiały z trzeciej międzynarodowej konferencji na temat zbiorów przybliżonych i aktualnych trendów w informatyce (TSCTC'02) . Londyn, Wielka Brytania: Springer-Verlag. s. 331–338.
  • Zadeh, LA (1997) „W kierunku teorii granulacji informacji rozmytej i jej centralnej pozycji w rozumowaniu ludzkim i logice rozmytej” , zbiory i systemy rozmyte , 90:111-127
  • Zighed, DA; Rabaséda, S.; Rakotomalala, R. (1998), „FUSINTER: metoda dyskretyzacji ciągłych atrybutów” , International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems , 6 (3): 307–326, doi : 10.1142 / s0218488598000264 .