Suma najmniejszych kwadratów

Dwuwymiarowy (regresja Deminga) przypadek sumy najmniejszych kwadratów. Czerwone linie pokazują błąd zarówno w x , jak iw y . Różni się to od tradycyjnej metody najmniejszych kwadratów, która mierzy błąd równolegle do y . Przedstawiony przypadek z odchyleniami mierzonymi prostopadle pojawia się, gdy błędy x i y mają równe wariancje.

W statystyce stosowanej całkowita metoda najmniejszych kwadratów jest rodzajem regresji błędów w zmiennych , techniką modelowania danych metodą najmniejszych kwadratów , w której uwzględniane są błędy obserwacji zarówno zmiennych zależnych, jak i niezależnych. Jest to uogólnienie regresji Deminga , a także regresji ortogonalnej i może być stosowane zarówno do modeli liniowych, jak i nieliniowych.

Całkowite przybliżenie danych metodą najmniejszych kwadratów jest ogólnie równoważne najlepszemu, w normie Frobeniusa , przybliżeniu niskiego rzędu macierzy danych.

Model liniowy

Tło

W metodzie najmniejszych kwadratów modelowania danych funkcja celu , S ,

jest zminimalizowane, gdzie r jest wektorem reszt , a W jest macierzą wag. W liniowych metodach najmniejszych kwadratów model zawiera równania, które są liniowe pod względem parametrów występujących w wektorze parametrów , więc reszty są podane przez

Istnieje m obserwacji w parametrach y i n w β z m > n . X jest macierzą m × n , której elementami są albo stałe, albo funkcje zmiennych niezależnych, x . Idealnie macierz wag W jest odwrotnością macierzy wariancji-kowariancji obserwacji y { . Zakłada się, że zmienne niezależne są wolne od błędów. Oszacowania parametrów znajdują się poprzez ustawienie równań gradientu na zero, co skutkuje równaniami normalnymi

Dopuszczanie błędów obserwacji we wszystkich zmiennych

Załóżmy teraz, że zarówno x jak i y są obserwowane z błędem, z macierzami wariancji-kowariancji M odpowiednio. W tym przypadku funkcję celu można zapisać jako

gdzie odpowiednio w x i y . Najwyraźniej [ wymagane dalsze wyjaśnienie ] te reszty nie mogą być od siebie niezależne, ale muszą być ograniczone przez jakiś związek. Zapisywanie modelu jako , ograniczenia są wyrażone przez m równań warunków.

Zatem problem polega na zminimalizowaniu funkcji celu podlegającej m ograniczeniom. Rozwiązuje się to za pomocą mnożników Lagrange'a . Po kilku manipulacjach algebraicznych uzyskuje się wynik.

lub alternatywnie gdzie M jest macierzą wariancji-kowariancji względem zmiennych niezależnych i zależnych.

Przykład

Gdy błędy danych są nieskorelowane, wszystkie macierze M i W są diagonalne. Następnie weź przykład dopasowania w linii prostej.

w tym przypadku

pokazując, jak wariancja w i- tym punkcie jest określana przez wariancje zarówno zmiennych niezależnych, jak i zależnych oraz przez model używany do dopasowania danych. Wyrażenie można uogólnić, zauważając, że parametrem linii.

Wyrażenie tego typu jest używane do dopasowywania danych miareczkowania pH , gdzie mały błąd na x przekłada się na duży błąd na y, gdy nachylenie jest duże.

Algebraiczny punkt widzenia

Jak wykazali w 1980 roku Golub i Van Loan, problem TLS w ogólności nie ma rozwiązania. Poniżej rozważymy prosty przypadek, w którym istnieje unikalne rozwiązanie bez żadnych szczególnych założeń.

Obliczanie TLS przy użyciu rozkładu na wartości osobliwe (SVD) jest opisane w standardowych tekstach. Równanie możemy rozwiązać

dla B , gdzie X to m -by- n , a Y to m -by- k .

Oznacza to, że staramy się znaleźć B , które minimalizuje macierze błędów E i F odpowiednio dla X i Y. To jest,

gdzie jest macierzą z E i F obok normą Frobeniusa , pierwiastek kwadratowy z sumy kwadratów wszystkich wpisów w macierzy, a zatem równoważnie pierwiastek kwadratowy z sumy kwadratów długości wierszy lub kolumn macierzy.

Można to przepisać jako

gdzie macierzą tożsamości Celem które _ _ _ Zdefiniuj być rozkładem na wartości osobliwe macierzy rozszerzonej .

gdzie V jest podzielone na bloki odpowiadające kształtowi X i Y .

Korzystając z twierdzenia Eckarta-Younga , przybliżenie minimalizujące normę błędu jest takie, że macierze { niezmienione, podczas gdy najmniejsze wartości osobliwe są zastępowane zerami . To znaczy chcemy

więc przez liniowość,

Możemy wtedy usunąć bloki z macierzy U i Σ, upraszczając do

Zapewnia to E i F tak, że

Teraz, jeśli , że zachowanie TLS, gdy jeszcze dobrze poznane możemy następnie pomnożyć obie strony przez prawo, prawej macierzy do ujemnej

a więc

Naiwna implementacja GNU Octave to:

   

                  
                        
     0           
        funkcja  B  =  tls  (  X, Y  )  [  m  n  ]  =  rozmiar  (  X  );  % n to szerokość X (X to m na n)  Z  =  [  X  Y  ];  % Z to X powiększone o Y.  [  U  S  V  ]  =  svd  (  Z  ,  );  % znajdź SVD Z.  VXY  =  V  (  1  :  n  ,  1  +      
        
          

 n  :  koniec  );  % Weź blok V składający się z pierwszych n wierszy i n+1 do ostatniej kolumny  VYY  =  V  (  1  +  n  :  koniec  ,  1  +  n  :  koniec  );  % Weź prawy dolny blok V.  B  =  -  VXY  /  VYY  ;  koniec 

powyżej sposób rozwiązania problemu, który wymaga, aby macierz nieco rozszerzyć o tzw. algorytm TLS .

Obliczenie

Standardowa implementacja klasycznego algorytmu TLS jest dostępna za pośrednictwem Netlib , patrz także. Wszystkie nowoczesne implementacje rozwiązywaniu zwykłych problemów najmniejszych kwadratów przybliżają macierz oznaczaną w literaturze), wprowadzoną przez Huffela i Vandewalle'a. Warto zauważyć, że wielu przypadkach nie jest jednak rozwiązanie TLS .

Model nieliniowy

W przypadku systemów nieliniowych podobne rozumowanie pokazuje, że równania normalne dla cyklu iteracji można zapisać jako

gdzie jest macierzą .

Interpretacja geometryczna

Gdy zmienna niezależna jest wolna od błędów, reszta reprezentuje „pionową” odległość między obserwowanym punktem danych a dopasowaną krzywą (lub powierzchnią). W sumie, metodą najmniejszych kwadratów, reszta reprezentuje odległość między punktem danych a dopasowaną krzywą mierzoną wzdłuż pewnego kierunku. W rzeczywistości, jeśli obie zmienne są mierzone w tych samych jednostkach, a błędy obu zmiennych są takie same, to reszta reprezentuje najkrótszą odległość między punktem danych a dopasowaną krzywą , to znaczy wektor resztkowy jest prostopadły do ​​stycznej krzywa. Z tego powodu ten typ regresji jest czasami nazywany dwuwymiarowa regresja euklidesowa (Stein, 1983) lub regresja ortogonalna .

Skaluj metody niezmienne

Poważna trudność pojawia się, gdy zmienne nie są mierzone w tych samych jednostkach. Najpierw rozważ pomiar odległości między punktem danych a linią: jakie są jednostki miary dla tej odległości? Jeśli weźmiemy pod uwagę pomiar odległości na podstawie twierdzenia Pitagorasa, to jasne jest, że będziemy dodawać wielkości mierzone w różnych jednostkach, co jest bezsensowne. Po drugie, jeśli przeskalujemy jedną ze zmiennych, np. mierząc w gramach, a nie w kilogramach, otrzymamy inne wyniki (inna linia). Aby uniknąć tych problemów, czasami sugeruje się konwersję na zmienne bezwymiarowe — można to nazwać normalizacją lub standaryzacją. Istnieją jednak różne sposoby na zrobienie tego, co prowadzi do dopasowanych modeli, które nie są ze sobą równoważne. Jednym podejściem jest normalizacja przez znaną (lub szacowaną) precyzję pomiaru, minimalizując w ten sposób Odległość Mahalanobisa od punktów do linii, zapewniająca rozwiązanie o największej wiarygodności ; [ potrzebne źródło ] nieznane precyzje można znaleźć poprzez analizę wariancji .

Krótko mówiąc, suma najmniejszych kwadratów nie ma właściwości niezmienniczości jednostek, tj. nie jest niezmiennikiem skali . Dla sensownego modelu wymagamy, aby ta właściwość była zachowana. Rozwiązaniem jest uświadomienie sobie, że reszty (odległości) mierzone w różnych jednostkach można łączyć, jeśli zamiast dodawania stosuje się mnożenie. Rozważ dopasowanie linii: dla każdego punktu danych iloczyn resztek pionowych i poziomych jest równy dwukrotności pola trójkąta utworzonego przez linie resztkowe i dopasowaną linię. Wybieramy linię, która minimalizuje sumę tych pól. laureata Nagrody Nobla Paula Samuelsona udowodnił w 1942 r., że w dwóch wymiarach jest to jedyna linia wyrażalna wyłącznie za pomocą stosunków odchyleń standardowych i współczynnika korelacji, która (1) pasuje do prawidłowego równania, gdy obserwacje przypadają na linię prostą, (2) wykazuje skalę niezmienniczości, a (3) wykazuje niezmienniczość przy wymianie zmiennych. To rozwiązanie zostało ponownie odkryte w różnych dyscyplinach i jest różnie znane jako standaryzowana oś wielka (Ricker 1975, Warton i in., 2006), zredukowana oś wielka , geometryczna średnia funkcjonalna (Draper i Smith, 1998), regresja najmniejszych produktów , regresja diagonalna , linia korelacji organicznej i linia najmniejszych obszarów (Tofallis, 2002). Tofallis (2015) rozszerzył to podejście na wiele zmiennych.

Zobacz też

Notatki

Inni

  • I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš i S. Van Huffel , Całkowity problem najmniejszych kwadratów w AX ≈ B. Nowa klasyfikacja w odniesieniu do dzieł klasycznych. SIMAX cz. 32 zeszyt 3 (2011), s. 748–770. Dostępny jako preprint .
  • M. Plešinger, Problem sumy najmniejszych kwadratów i redukcja danych w AX ≈ B. Praca doktorska, TU Liberec i Instytut Informatyki, AS CR Praga, 2008. Ph.D. Praca dyplomowa
  • CC Paige, Z. Strakoš, Podstawowe problemy w liniowych systemach algebraicznych. SIAM J. Matrix Anal. Aplikacja 27, 2006, s. 861–875. doi : 10.1137/040616991
  • S. Van Huffel i P. Lemmerling, Modelowanie całkowitych najmniejszych kwadratów i błędów w zmiennych: analiza, algorytmy i aplikacje . Dordrecht, Holandia: Kluwer Academic Publishers, 2002.
  • S. Jo i SW Kim, Konsekwentne znormalizowane filtrowanie najmniejszych średnich kwadratów z zaszumioną macierzą danych. IEEE Trans. Proces sygnału., tom. 53, nr. 6, s. 2112–2123, czerwiec 2005.
  • RD DeGroat i EM Dowling, Problem najmniejszych kwadratów danych i wyrównanie kanałów. IEEE Trans. Proces sygnału., tom. 41, nr. 1, s. 407–411, styczeń 1993.
  • S. Van Huffel i J. Vandewalle, Całkowite problemy najmniejszych kwadratów: aspekty obliczeniowe i analiza. SIAM Publications, Filadelfia PA, 1991. doi : 10.1137/1.9781611971002
  • T. Abatzoglou i J. Mendel, Ograniczona całkowita liczba najmniejszych kwadratów , w Proc. IEEE Int. konf. Akus., Mowa, Przetwarzanie sygnału. (ICASSP'87), kwiecień 1987, tom. 12, s. 1485–1488.
  • P. de Groen Wprowadzenie do sumy najmniejszych kwadratów , w Nieuw Archief voor Wiskunde, Vierde serie, deel 14, 1996, s. 237–253 arxiv.org .
  • GH Golub i CF Van Loan, Analiza całkowitego problemu najmniejszych kwadratów. SIAM J. na Numer. Anal., 17, 1980, s. 883–893. doi : 10.1137/0717073
  • Regresja prostopadła linii na MathPages
  • AR Amiri-Simkooei i S. Jazaeri Ważona suma najmniejszych kwadratów sformułowana na podstawie standardowej teorii najmniejszych kwadratów , w Journal of Geodetic Science, 2 (2): 113–124, 2012 [1] .