Przewidywanie konformalne
Predykcja konformalna (CP) to technika statystyczna służąca do tworzenia zestawów predykcyjnych bez założeń dotyczących algorytmu predykcyjnego (często systemu uczenia maszynowego ) i zakładająca jedynie wymienialność danych. CP działa na zasadzie obliczania miary niezgodności, często nazywanej funkcją punktową, na wcześniej oznaczonych danych i używania ich do tworzenia zestawów predykcyjnych dla nowego (nieoznakowanego) punktu danych testowych. Wersja CP została po raz pierwszy zaproponowana w 1998 roku przez Gammermana , Vovka i Vapnika i od tego czasu opracowano kilka wariantów przewidywania konforemnego o różnej złożoności obliczeniowej, gwarancjach formalnych i zastosowaniach praktycznych.
Przewidywanie zgodne wymaga określonego przez użytkownika poziomu istotności, dla którego algorytm powinien generować swoje prognozy. Ten poziom istotności ogranicza częstotliwość błędów, które algorytm może popełnić. Na przykład poziom istotności 0,1 oznacza, że algorytm może wykonać co najwyżej 10% błędnych prognoz. Aby spełnić to wymaganie, dane wyjściowe są przewidywaniami zestawów , a nie prognozami punktowymi tworzonymi przez standardowe nadzorowane modele uczenia maszynowego . W przypadku zadań klasyfikacyjnych oznacza to na przykład, że predykcje nie są pojedynczą klasą 'cat'
, ale zamiast tego zestaw jak {'cat', 'dog'}
. W zależności od tego, jak dobry jest model bazowy (jak dobrze rozróżnia koty, psy i inne zwierzęta) i określony poziom istotności, zbiory te mogą być mniejsze lub większe. W przypadku zadań regresji dane wyjściowe to przedziały predykcji, gdzie mniejszy poziom istotności (mniej dozwolonych błędów) daje szersze interwały, które są mniej szczegółowe, i odwrotnie – więcej dozwolonych błędów daje węższe przedziały predykcji.
Historia
Prognoza konforemna pojawiła się po raz pierwszy we współpracy między Gammermanem, Vovkiem i Vapnikiem w 1998 roku; ta początkowa wersja przewidywania konformalnego wykorzystywała wartości E, chociaż najbardziej znana obecnie wersja przewidywania konforemnego wykorzystuje wartości p i została zaproponowana rok później przez Saundersa i in. Vovk, Gammerman oraz ich uczniowie i współpracownicy, zwłaszcza Craig Saunders, Harris Papadopoulos i Kostas Proedrou, nadal rozwijali idee przewidywania konforemnego; główne osiągnięcia obejmują propozycję indukcyjnej prognozy konformalnej (inaczej podzielonej prognozy konforemnej) w 2002 r. Książka na ten temat została napisana przez Vovka i Shafera w 2005 r., a samouczek został opublikowany w 2008 r.
Teoria
Dane muszą spełniać pewne standardy, takie jak możliwość wymiany danych (nieco słabsze założenie niż standardowy IID narzucony w standardowym uczeniu maszynowym). W przypadku predykcji konforemnej mówi się, n % jest ważny , jeśli prawda występuje na wyjściu n % czasu. Wydajność to wielkość produkcji. W przypadku klasyfikacji ten rozmiar to liczba klas; dla regresji jest to szerokość przedziału.
W najczystszej postaci predykcja konforemna jest wykonywana dla sekcji online (transdukcyjnej). Oznacza to, że po przewidywaniu etykiety jej prawdziwa etykieta jest znana przed następną prognozą. W ten sposób bazowy model może zostać ponownie wyszkolony przy użyciu tego nowego punktu danych, a następna prognoza zostanie przeprowadzona na zbiorze kalibracyjnym zawierającym n + 1 punktów danych, podczas gdy poprzedni model miał n punktów danych.
Algorytmy klasyfikacji
Celem standardowych algorytmów klasyfikacji jest zaklasyfikowanie obiektu testowego do jednej z kilku dyskretnych klas. Zamiast tego klasyfikatory konformalne obliczają i wyprowadzają p dla każdej dostępnej klasy, przeprowadzając ranking miary niezgodności (wartość α) obiektu testowego w porównaniu z przykładami z zestawu danych szkoleniowych. Podobnie jak w przypadku standardowego testowania hipotez , wartość p wraz z progiem (nazywanym poziomem istotności w polu CP) służy do określenia, czy etykieta powinna znaleźć się w zbiorze predykcji. Na przykład dla poziomu istotności 0,1 wszystkie klasy o p 0,1 lub większej są dodawane do zbioru predykcji. Algorytmy transdukcyjne obliczają wynik niezgodności przy użyciu wszystkich dostępnych danych treningowych, podczas gdy algorytmy indukcyjne obliczają go na podzbiorze zbioru uczącego.
Indukcyjne przewidywanie konforemne (ICP)
Indukcyjne przewidywanie konformalne było początkowo znane jako indukcyjne maszyny pewności, ale później zostało ponownie wprowadzone jako ICP. Zyskał popularność w praktycznych ustawieniach, ponieważ model bazowy nie musi być ponownie szkolony dla każdego nowego przykładu testowego. To czyni go interesującym dla każdego modelu, który jest ciężki do nauczenia, takiego jak sieci neuronowe.
Indukcyjne przewidywanie konforemne Mondriana (MICP)
W MICP wartości alfa są zależne od klasy (Mondrian), a podstawowy model nie jest zgodny z oryginalnym ustawieniem online wprowadzonym w 2005 roku.
Algorytm szkolenia:
- Wytrenuj model uczenia maszynowego (MLM)
- Przeprowadź zestaw kalibracyjny przez MLM, zapisz dane wyjściowe z wybranego etapu
- W uczeniu głębokim często używane są wartości softmax
- Użyj funkcji niezgodności do obliczenia wartości α
- Punkt danych w zbiorze kalibracyjnym da w wyniku wartość α dla swojej prawdziwej klasy
Algorytm przewidywania:
- Dla testowego punktu danych wygeneruj nową wartość α
- Znajdź wartość p dla każdej klasy punktu danych
- Jeśli wartość p jest większa niż poziom istotności, uwzględnij klasę w wynikach
Algorytmy regresji
Predykcja konformalna została początkowo sformułowana do celów klasyfikacji, ale później została zmodyfikowana do celów regresji. W przeciwieństwie do klasyfikacji, która generuje p bez określonego poziomu istotności, regresja wymaga stałego poziomu istotności w czasie predykcji, aby wytworzyć przedziały predykcji dla nowego obiektu testowego. Dla klasycznej regresji konforemnej nie ma transdukcyjnego . Dzieje się tak, ponieważ niemożliwe jest postulowanie wszystkich możliwych etykiet dla nowego obiektu testowego, ponieważ przestrzeń etykiet jest ciągła. Wszystkie dostępne algorytmy są sformułowane w sposób indukcyjny ustawienie, które oblicza regułę przewidywania raz i stosuje ją do wszystkich przyszłych prognoz.
Indukcyjne przewidywanie konforemne (ICP)
Wszystkie algorytmy indukcyjne wymagają podzielenia dostępnych przykładów uczących na dwa rozłączne zbiory: jeden używany do trenowania modelu bazowego (właściwy zbiór uczący ) i drugi służący do kalibracji predykcji ( zbiór kalibracyjny ). W ICP ten podział jest wykonywany raz, w ten sposób trenując pojedynczy model ML. Jeżeli podział jest przeprowadzany losowo, a dane te można wymieniać, model ICP jest automatycznie sprawdzany (tj. poziom błędu odpowiada wymaganemu poziomowi istotności).
Algorytm szkolenia:
- Podziel dane treningowe na odpowiedni zestaw treningowy i zestaw kalibracyjny
- Wytrenuj bazowy model ML przy użyciu odpowiedniego zestawu szkoleniowego
- Przewiduj przykłady ze zbioru kalibracyjnego , używając pochodnego modelu ML → ŷ -wartości
- Opcjonalne: jeśli używana jest znormalizowana funkcja niezgodności
- Wytrenuj model normalizacji ML
- Przewiduj wyniki normalizacji → 𝜺 -wartości
- Oblicz miary niezgodności ( wartości α ) dla wszystkich przykładów kalibracji, używając wartości ŷ - i 𝜺
- Sortuj miarę niezgodności i generuj oceny niezgodności
- Zapisz bazowy model ML, normalizacyjny model ML (jeśli istnieje) i oceny niezgodności
Algorytm przewidywania:
Wymagane dane wejściowe: poziom istotności ( s )
- Przewiduj obiekt testowy za pomocą modelu ML → ŷ t
- Opcjonalnie: jeśli używasz znormalizowanej funkcji niezgodności
- Przewiduj obiekt testowy za pomocą modelu normalizacji → 𝜺 t
- Wybierz wynik niezgodności z listy wyników uzyskanych przez zestaw kalibracyjny w treningu, odpowiadający poziomowi istotności s → α s
- Oblicz szerokość połowy przedziału predykcji ( d ) z przekształcenia funkcji niezgodności i wprowadź α s (i opcjonalnie 𝜺) → d
- Przedział predykcji wyjściowej ( ŷ − d , ŷ + d ) dla zadanego poziomu istotności s
Podział przewidywania konforemnego (SCP)
SCP, często nazywany zagregowanym predyktorem konforemnym (ACP), można uznać za zespół ICP . SCP zwykle poprawia efektywność predykcji (tj. tworzy mniejsze interwały predykcji) w porównaniu z pojedynczym ICP, ale traci automatyczną ważność w generowanych predykcjach.
Powszechnym typem SCP jest predyktor krzyżowy (CCP), który wielokrotnie dzieli dane treningowe na odpowiednie zestawy treningowe i kalibracyjne w strategii podobnej do k -krotnej walidacji krzyżowej . Niezależnie od techniki podziału, algorytm wykonuje n podziałów i trenuje ICP dla każdego podziału. Podczas przewidywania nowego obiektu testowego wykorzystuje medianę ŷ i d z n ICP do utworzenia końcowego przedziału predykcji jako ( ŷ mediana − d mediana , ŷ mediana + d mediana ).
Aplikacje
Rodzaje modeli uczenia się
Kilka modeli uczenia maszynowego może być używanych w połączeniu z przewidywaniem konforemnym. Badania wykazały, że można go zastosować np. do konwolucyjnych sieci neuronowych , maszyn wektorów nośnych i innych.
Wykorzystane dane
Przewidywanie konformalne jest wykorzystywane w różnych dziedzinach i jest aktywnym obszarem badań. Na przykład w biotechnologii był używany do przewidywania niepewności w raku piersi i ryzyku udaru mózgu . W ramach technologii językowej na COPA rutynowo przedstawiane są konforemne prognozy.
Konferencje
Predykcja konformalna jest jednym z głównych tematów poruszanych corocznie na konferencji COPA. Liderzy w tej dziedzinie przedstawiają zarówno teorię, jak i zastosowania przewidywań konforemnych. Konferencja odbywa się od 2012 roku. Gościła w kilku różnych krajach Europy, m.in. w Grecji, Wielkiej Brytanii, Włoszech i Szwecji.
Zobacz też
- ^ a b Gammerman, Aleksander; Wowk, Włodzimierz; Wapnik, Władimir (1998). „Nauka przez transdukcję” . Niepewność w sztucznej inteligencji . 14 : 148–155.
- ^ Angelopoulos, Anastasios; Bates, Stephen (2021). „Łagodne wprowadzenie do przewidywania konformalnego i kwantyfikacji niepewności bez dystrybucji”. arXiv : 2107.07511 [ cs.LG ].
- ^ abc . ( Vovk, Vladimir 2005) Algorytmiczne uczenie się w losowym świecie . A. Gammerman, Glenn Shafer. Nowy Jork: Springer. ISBN 978-0-387-00152-4 . OCLC 209818494 .
- ^ abc Toccaceli , Paolo; Gammerman, Alexander (2019-03-01). „Kombinacja indukcyjnych predyktorów konforemnych Mondriana” . Uczenie maszynowe . 108 (3): 489–510. doi : 10.1007/s10994-018-5754-9 . ISSN 1573-0565 .
- ^ Norinder, Ulf; Carlsson, Lars; Boyer, Scott; Eklund, Martin (2014-06-23). „Wprowadzenie prognozy konformalnej do modelowania predykcyjnego. Przejrzysta i elastyczna alternatywa dla określania domeny stosowalności” . Journal of Chemical Information and Modeling . 54 (6): 1596-1603. doi : 10.1021/ci5001168 . ISSN 1549-9596 . PMID 24797111 .
- Bibliografia _ McShane, Staffan Arvidsson; Norinder, Ulf; Spjuth, Ola (2021-01-01). „Przewidywanie z pewnością: stosowanie prognoz konformalnych w wykrywaniu narkotyków” . Dziennik Nauk Farmaceutycznych . 110 (1): 42–49. doi : 10.1016/j.xphs.2020.09.055 . ISSN 0022-3549 . PMID 33075380 . S2CID 224809705 .
- Bibliografia _ Gammerman, Aleksander; Wowk, Włodzimierz (1999). „Transdukcja z pewnością i wiarygodnością” . Międzynarodowa wspólna konferencja na temat sztucznej inteligencji . 16 : 722–726.
- Bibliografia _ Proedrou, Kostas; Wowk, Wołodia; Gammerman, Aleksander (2022). „Indukcyjne maszyny ufności do regresji” . Europejska konferencja na temat uczenia maszynowego . Notatki z wykładów z informatyki. 13 : 345–356. doi : 10.1007/3-540-36755-1_29 . ISBN 978-3-540-44036-9 .
- ^ a b c Wowk, Włodzimierz; Shafer, Glenn (2008-08-03). „Samouczek dotyczący przewidywania konformalnego” (PDF) . Dziennik badań nad uczeniem maszynowym . 9 : 371–421.
- Bibliografia _ Proedrou, Kostas; Wowk, Wołodia; Gammerman, Alex (2002). Elomaa, Tapio; Mannila, Heikki; Toivonen, Hannu (red.). „Indukcyjne maszyny zaufania do regresji” . Uczenie maszynowe: ECML 2002 . Notatki z wykładów z informatyki. Berlin, Heidelberg: Springer. 2430 : 345–356. doi : 10.1007/3-540-36755-1_29 . ISBN 978-3-540-36755-0 .
- Bibliografia _ Haralambous, Haris (2010). Diamantaras, Konstantinos; Duch, Włodek; Iliadis, Lazaros S. (red.). „Indukcyjny konformalny predyktor regresji sieci neuronowych i jego zastosowanie do przewidywania całkowitej zawartości elektronów” . Sztuczne sieci neuronowe – ICANN 2010 . Notatki z wykładów z informatyki. Berlin, Heidelberg: Springer. 6352 : 32–41. doi : 10.1007/978-3-642-15819-3_4 . ISBN 978-3-642-15819-3 .
- Bibliografia _ Wowk, Wołodia; Gammerman, Alex (październik 2007). „Przewidywanie zgodne z sieciami neuronowymi” . 19 Międzynarodowa Konferencja IEEE na temat narzędzi wykorzystujących sztuczną inteligencję (ICTAI 2007) . 2 : 388–395. doi : 10.1109/ICTAI.2007.47 . ISBN 978-0-7695-3015-4 . S2CID 10164217 .
- Bibliografia _ Papadopoulos, H.; Gammerman, A. (listopad 2009). „Ewolucyjne prognozy konformalne w diagnostyce raka piersi” . 2009 IX Międzynarodowa Konferencja Technologii Informacyjnych i Zastosowań w Biomedycynie : 1–4. doi : 10.1109/ITAB.2009.5394447 . ISBN 978-1-4244-5379-5 . S2CID 15703490 .
- ^ Lambrou, Antonis; Papadopoulos, Harris; Kyriacou, Efthyvoulos; Pattichis, Constantinos S.; Pattichis, Marios S.; Gammerman, Aleksander; Nicolaides, Andrew (2010), Papadopoulos, Harris; Andreou, Andreas S.; Bramer, Max (red.), „Ocena ryzyka udaru mózgu na podstawie morfologicznej analizy obrazu ultrasonograficznego z przewidywaniem zgodności”, Zastosowania i innowacje sztucznej inteligencji , Berlin, Heidelberg: Springer Berlin Heidelberg, tom. 339, s. 146–153, doi : 10.1007/978-3-642-16239-8_21 , ISBN 978-3-642-16238-1 , S2CID 17515625
- ^ a b „10. sympozjum na temat przewidywania konformalnego i probabilistycznego z aplikacjami (COPA 2021)” . cml.rhul.ac.uk . Źródło 2021-09-15 .