Liniowa funkcja predykcyjna
W statystyce i uczeniu maszynowym liniowa funkcja predykcyjna jest funkcją liniową ( kombinacją liniową ) zestawu współczynników i zmiennych objaśniających ( zmiennych niezależnych ), których wartość jest używana do przewidywania wyniku zmiennej zależnej . Ten rodzaj funkcji zwykle występuje w regresji liniowej , gdzie współczynniki nazywane są współczynnikami regresji . Występują jednak również w różnego rodzaju klasyfikatorach liniowych (np regresja logistyczna , perceptrony , maszyny wektorów nośnych i liniowa analiza dyskryminacyjna ), a także w różnych innych modelach, takich jak analiza głównych składowych i analiza czynnikowa . W wielu z tych modeli współczynniki są określane jako „wagi”.
Definicja
Podstawowa postać funkcji predyktora liniowego punktu danych (składającego się z p zmiennych objaśniających ), dla i = 1, ..., n , to fa ( }
gdzie , dla k = 1, ..., p , jest wartością k -tej zmiennej objaśniającej dla punktu danych i i to współczynniki (współczynniki regresji, wagi itp.) wskazujące względny wpływ określonej zmiennej objaśniającej na wynik .
Notacje
Powszechne jest zapisywanie funkcji predykcyjnej w bardziej zwartej formie w następujący sposób:
- 0 Współczynniki β , β 1 , ..., β p są zgrupowane w pojedynczy wektor β o rozmiarze p + 1.
- 0 Dla każdego punktu danych i dodawana jest 0 dodatkowa objaśniająca pseudozmienna xi o stałej wartości 1, odpowiadającej współczynnikowi przecięcia β .
- Otrzymane zmienne objaśniające x i0 (= 1), x i 1 , ..., x ip są następnie grupowane w pojedynczy wektor x i o rozmiarze p + 1.
Notacja wektorowa
Umożliwia to zapisanie funkcji predyktora liniowego w następujący sposób:
używając notacji dla iloczynu skalarnego między dwoma wektorami.
Notacja macierzowa
Równoważna forma wykorzystująca notację macierzową jest następująca:
gdzie zakłada się, że i są to wektory kolumnowe (p + 1) -by-1 , i jest transpozycją macierzy β (więc wektorem wierszowym 1 na (p+1) ), a wskazuje mnożenie macierzy między wektorem wiersza 1 na (p + 1) a wektorem wiersza (p+1) wektor kolumnowy -x1, tworzący macierz 1x1, która jest skalarna .
Regresja liniowa
Przykładem zastosowania funkcji predyktora liniowego jest regresja liniowa , w której każdy punkt danych jest powiązany z ciągłym wynikiem yi , a zależność zapisana
gdzie zakłócającym lub zmienną błędu - nieobserwowaną zmienną losową do liniowej zależności między zmienną zależną a funkcją predykcyjną.
Układanie
W niektórych modelach (w szczególności standardowej regresji liniowej) równania dla każdego z punktów danych i = 1, ..., n są układane razem i zapisywane w postaci wektorowej jako
Gdzie
Macierz X jest znana jako macierz planu i koduje wszystkie znane informacje o zmiennych niezależnych . zmiennymi , które w standardowej regresji liniowej mają rozkład zgodnie ze standardowym rozkładem normalnym ; wyrażają wpływ jakichkolwiek nieznanych czynników na wynik.
Dzięki temu możliwe jest znalezienie optymalnych współczynników metodą najmniejszych kwadratów przy użyciu prostych operacji macierzowych. W szczególności optymalne współczynniki oszacowane metodą najmniejszych kwadratów można zapisać w następujący sposób:
Macierz znana jako pseudoodwrotność Moore'a-Penrose'a X. _ Użycie macierzy odwrotnej w tym wzorze wymaga, aby X był pełnego rzędu , tj. nie występuje doskonała współliniowość między różnymi zmiennymi objaśniającymi (tj. żadna zmienna objaśniająca nie może być doskonale przewidziana na podstawie innych). W takich przypadkach, rozkład na wartości osobliwe może być użyty do obliczenia pseudoodwrotności.
Zmienne objaśniające
Chociaż zakłada się, że przewidywane wyniki (zmienne zależne) są zmiennymi losowymi , zwykle nie zakłada się, że same zmienne objaśniające są losowe [ potrzebne źródło ] . Zamiast tego zakłada się, że są to wartości stałe, a wszelkie zmienne losowe (np. wyniki) są od nich uzależnione [ potrzebne źródło ] . W rezultacie analityk danych może dowolnie przekształcać zmienne objaśniające, w tym tworzyć wiele kopii danej zmiennej objaśniającej, z których każda jest przekształcana przy użyciu innej funkcji. Inne popularne techniki to tworzenie nowych zmiennych objaśniających w postaci zmiennych interakcji , biorąc iloczyny dwóch (lub czasami więcej) istniejących zmiennych objaśniających.
Gdy do przekształcenia wartości punktu danych używany jest ustalony zestaw funkcji nieliniowych, funkcje te nazywane są funkcjami bazowymi . Przykładem jest regresja wielomianowa , która wykorzystuje liniową funkcję predykcyjną do dopasowania zależności wielomianowej dowolnego stopnia (do określonego rzędu) między dwoma zestawami punktów danych (tj. pojedynczą zmienną objaśniającą o wartościach rzeczywistych i powiązaną zmienną zależną o wartościach rzeczywistych) , dodając wiele zmiennych objaśniających odpowiadających różnym potęgom istniejącej zmiennej objaśniającej. Matematycznie postać wygląda następująco:
W tym przypadku dla każdego punktu danych i tworzony jest zestaw zmiennych objaśniających w następujący sposób:
a następnie przeprowadzana jest standardowa regresja liniowa . Podstawowymi funkcjami w tym przykładzie byłyby
Ten przykład pokazuje, że predyktor liniowy może być w rzeczywistości znacznie potężniejszy, niż się na pierwszy rzut oka wydaje: tak naprawdę musi być liniowy tylko we współczynnikach . Wszystkie rodzaje nieliniowych funkcji zmiennych objaśniających mogą być dopasowane przez model.
Nie ma szczególnej potrzeby, aby dane wejściowe do funkcji bazowych były jednowymiarowe lub jednowymiarowe (lub ich wyjścia, jeśli o to chodzi, chociaż w takim przypadku K-wymiarowa wartość wyjściowa będzie prawdopodobnie traktowana jako K oddzielne wyjście skalarne funkcje bazowe). Przykładem tego są radialne funkcje bazowe (RBF), które obliczają pewną przekształconą wersję odległości do pewnego stałego punktu:
Przykładem jest Gaussa RBF, który ma taką samą postać funkcjonalną jak rozkład normalny :
która szybko spada wraz ze wzrostem odległości od c .
Możliwym zastosowaniem RBF jest utworzenie jednego dla każdego obserwowanego punktu danych. Oznacza to, że wynik RBF zastosowany do nowego punktu danych będzie bliski 0, chyba że nowy punkt znajduje się blisko punktu, wokół którego zastosowano RBF. Oznacza to, że zastosowanie radialnych funkcji bazowych wskaże najbliższy punkt, a jego współczynnik regresji będzie dominował. Rezultatem będzie forma interpolacji najbliższego sąsiada , w której prognozy są dokonywane po prostu przy użyciu prognozy najbliższego obserwowanego punktu danych, prawdopodobnie interpolując między wieloma pobliskimi punktami danych, gdy wszystkie są w podobnych odległościach. Ten typ Metoda najbliższego sąsiada do predykcji jest często uważana za diametralnie różną od typu predykcji stosowanego w standardowej regresji liniowej: w rzeczywistości jednak transformacje, które można zastosować do zmiennych objaśniających w funkcji predyktora liniowego, są tak potężne, że nawet metoda najbliższego sąsiedztwa może zostać zaimplementowane jako rodzaj regresji liniowej.
Możliwe jest nawet dopasowanie niektórych funkcji, które wydają się nieliniowe we współczynnikach, poprzez przekształcenie współczynników w nowe współczynniki, które wydają się liniowe. Na przykład funkcja postaci dla współczynników można przekształcić w odpowiednią funkcję liniową, stosując podstawienia prowadzące do za który jest liniowy. Można zastosować regresję liniową i podobne techniki, które często i tak pozwolą znaleźć optymalne współczynniki, ale ich oszacowania błędów i tym podobne będą błędne.
Zmienne objaśniające mogą być dowolnego typu : wartości rzeczywiste , binarne , kategoryczne itp. Główne rozróżnienie dotyczy zmiennych ciągłych (np. dochód, wiek, ciśnienie krwi itp.) i zmiennych dyskretnych (np. płeć, rasa, partia polityczna, itp.). Zmienne dyskretne odnoszące się do więcej niż dwóch możliwych wyborów są zazwyczaj kodowane przy użyciu zmiennych fikcyjnych (lub zmiennych wskaźnikowych ), tj. dla każdej możliwej wartości zmiennej dyskretnej tworzone są osobne zmienne objaśniające przyjmujące wartość 0 lub 1, gdzie 1 oznacza „zmienna ma zadaną wartość”, a 0 oznacza „zmienna nie ma podanej wartości”. Na przykład czterokierunkowa zmienna dyskretna grupy krwi z możliwymi wartościami „A, B, AB, O” zostałaby przekonwertowana na oddzielne dwukierunkowe zmienne fiktywne „is-A, is-B, is-AB, is -O", gdzie tylko jeden z nich ma wartość 1, a wszystkie pozostałe mają wartość 0. Pozwala to na dopasowanie oddzielnych współczynników regresji dla każdej możliwej wartości zmiennej dyskretnej.
Należy zauważyć, że w przypadku kategorii K nie wszystkie zmienne fikcyjne K są od siebie niezależne. Na przykład w powyższym przykładzie grupy krwi tylko trzy z czterech zmiennych fikcyjnych są niezależne, w tym sensie, że gdy znane są wartości trzech zmiennych, czwarta jest określana automatycznie. Zatem tak naprawdę wystarczy zakodować tylko trzy z czterech możliwości jako zmienne fikcyjne, a w rzeczywistości, jeśli wszystkie cztery możliwości zostaną zakodowane, ogólny model staje się nieidentyfikowalny . Powoduje to problemy w przypadku wielu metod, takich jak proste rozwiązanie w postaci zamkniętej stosowane w regresji liniowej. Rozwiązaniem jest uniknięcie takich przypadków poprzez wyeliminowanie jednej ze zmiennych fikcyjnych i/lub wprowadzenie regularyzacji (co wymaga mocniejszej, zazwyczaj iteracyjnej metody znajdowania optymalnych współczynników).