Uogólniony algorytm Hebbiana
Uogólniony algorytm Hebbiana ( GHA ), znany również w literaturze jako reguła Sangera , jest liniowym modelem sieci neuronowej ze sprzężeniem zwrotnym do uczenia nienadzorowanego z zastosowaniami głównie w analizie głównych składowych . Po raz pierwszy zdefiniowana w 1989 roku, jest podobna do reguły Oja w swoim sformułowaniu i stabilności, z wyjątkiem tego, że można ją zastosować do sieci z wieloma wyjściami. Nazwa pochodzi od podobieństwa algorytmu do hipotezy Donalda Hebba dotyczącej sposobu, w jaki siły synaptyczne w mózgu są modyfikowane w odpowiedzi na doświadczenie, tj. że zmiany są proporcjonalne do korelacji między pobudzeniami przed i neurony postsynaptyczne .
Teoria
GHA łączy regułę Oja z procesem Grama-Schmidta, aby stworzyć regułę uczenia się formy
- ,
gdzie w ij określa wagę synaptyczną lub siłę połączenia między j- tym neuronem wejściowym a i- tym neuronem wyjściowym, x i y są odpowiednio wektorami wejściowym i wyjściowym, a η jest parametrem szybkości uczenia się .
Pochodzenie
Regułę Oja można zapisać w postaci macierzowej
- ,
a algorytm Grama-Schmidta jest
- ,
gdzie w ( t ) to dowolna macierz, w tym przypadku reprezentująca wagi synaptyczne, Q = η x x T to macierz autokorelacji, po prostu zewnętrzny iloczyn danych wejściowych, diag to funkcja diagonalizująca macierz, a lower to funkcja ustawiająca wszystkie elementy macierzy na przekątnej lub powyżej przekątnej są równe 0. Możemy połączyć te równania, aby uzyskać pierwotną regułę w postaci macierzowej,
- ,
gdzie funkcja LT ustawia wszystkie elementy macierzy powyżej przekątnej na 0 i zauważ, że nasze wyjście y ( t ) = w ( t ) x ( t ) jest neuronem liniowym.
Stabilność i PCA
Aplikacje
GHA jest używany w aplikacjach, w których konieczna jest samoorganizująca się mapa lub gdzie można zastosować analizę cech lub głównych składników . Przykładami takich przypadków są sztuczna inteligencja oraz przetwarzanie mowy i obrazu.
Jego znaczenie wynika z faktu, że uczenie się jest procesem jednowarstwowym - to znaczy, że waga synaptyczna zmienia się tylko w zależności od odpowiedzi wejść i wyjść tej warstwy, unikając w ten sposób wielowarstwowej zależności związanej z algorytmem wstecznej propagacji . Ma również prosty i przewidywalny kompromis między szybkością uczenia się a dokładnością konwergencji, zgodnie z parametrem szybkości uczenia się η .