Funkcjonalna analiza danych

Funkcjonalna analiza danych (FDA) to gałąź statystyki , która analizuje dane dostarczające informacji o krzywych, powierzchniach lub czymkolwiek innym zmieniającym się w kontinuum. W swojej najbardziej ogólnej formie, w ramach FDA, każdy przykładowy element danych funkcjonalnych jest uważany za funkcję losową. Fizycznym kontinuum, w którym te funkcje są definiowane, jest często czas, ale może to być również lokalizacja przestrzenna, długość fali, prawdopodobieństwo itp. Wewnętrznie dane funkcjonalne są nieskończenie wymiarowe. Wysoka wewnętrzna wymiarowość tych danych stwarza wyzwania zarówno dla teorii, jak i obliczeń, gdzie wyzwania te różnią się w zależności od sposobu próbkowania danych funkcjonalnych. Jednak wielowymiarowa lub nieskończona struktura wymiarowa danych jest bogatym źródłem informacji i istnieje wiele interesujących wyzwań dla badań i analizy danych.

Historia

Funkcjonalna analiza danych ma swoje korzenie w pracy Grenandera i Karhunena w latach czterdziestych i pięćdziesiątych XX wieku. Rozważali rozkład całkowalnego z kwadratem procesu stochastycznego w czasie ciągłym na składowe własne, obecnie znany jako rozkład Karhunena-Loève'a . Rygorystyczną analizę analizy głównych składowych funkcjonalnych przeprowadzili w latach 70. XX wieku Kleffe, Dauxois i Pousse, w tym wyniki dotyczące asymptotycznego rozkładu wartości własnych. Niedawno, w latach 90. i 2000., dziedzina ta skupiła się bardziej na zastosowaniach i zrozumieniu skutków gęstych i rzadkich schematów obserwacji. Termin „Analiza danych funkcjonalnych” został ukuty przez Jamesa O. Ramsaya .

Formalizm matematyczny

Funkcje losowe można postrzegać jako losowe elementy przyjmujące wartości w przestrzeni Hilberta lub jako proces stochastyczny . To pierwsze jest wygodniejsze z matematycznego punktu widzenia, podczas gdy drugie jest nieco bardziej odpowiednie z perspektywy stosowanej. Te dwa podejścia pokrywają się, jeśli funkcje losowe są ciągłe i spełniony jest warunek zwany ciągłością średniokwadratową .

Hilbertowskie zmienne losowe

Z punktu widzenia przestrzeni Hilberta rozważa się element losowy wartościach Hilberta , gdzie taką jak przestrzeń całkowalnych do kwadratu . mi zdefiniować średnią z jako unikalny element satysfakcjonujący

To sformułowanie jest całką Pettisa , ale średnią można również zdefiniować jako całkę Bochnera . warunkiem całkowalności operator X Displaystyle jest liniowym, który jest jednoznacznie zdefiniowany przez relację do

lub w postaci tensorowej . Twierdzenie spektralne pozwala rozłożyć rozkład -Loève'a

gdzie są wektorami własnymi , odpowiadającymi nieujemnym wartościom własnym , ja nierosnący porządek. Skrócenie tego nieskończonego szeregu do skończonego porządku stanowi podstawę funkcjonalnej analizy składowych głównych .

Procesy stochastyczne

Hilbertowski punkt widzenia jest matematycznie wygodny, ale abstrakcyjny; powyższe rozważania niekoniecznie w ogóle postrzegają jako funkcję, ponieważ powszechne wybory, jak i przestrzenie Sobolewa składają się z klas równoważności, a nie funkcji. Perspektywa procesu stochastycznego postrzega jako zbiór zmiennych losowych

indeksowane według przedziału jednostkowego (lub bardziej ogólnie przedziału . Funkcje średniej i kowariancji definiuje się punktowo jako

(jeśli dla wszystkich ).

Pod ciągłością średniokwadratową i a następnie funkcja kowariancji definiuje operator kowariancji podane b

 

 

 

 

()

Twierdzenie widmowe zastosowanie do , dając pary własne więc w notacja iloczynu tensorowego do

ponieważ dla , _ Następnie stwierdza to twierdzenie Mercera

Wreszcie, przy dodatkowym założeniu, że ma ciągłe ścieżki próbkowania, a mianowicie z prawdopodobieństwem jeden, funkcja losowa jest ciągłe, powyższe rozwinięcie Karhunena-Loève'a zachodzi dla i można później zastosować maszynerię kosmiczną Hilberta. Ciągłość ścieżek próbki można pokazać za pomocą twierdzenia o ciągłości Kołmogorowa .

Funkcjonalne projekty danych

za realizacje procesu stochastycznego. 0,1 proces na ograniczonym i zamkniętym przedziale ze średnią funkcją i funkcja kowariancji . Realizacje procesu dla i-tego przedmiotu to składa się . Harmonogram pobierania próbek może różnić się w zależności od osobnika, co oznacza i-tego przedmiotu. Odpowiednia i-ta obserwacja jest oznaczona jako jot . Ponadto zakłada się , że pomiar ma losowy szum z i , które są niezależne w poprzek jot .

1. W pełni obserwowane funkcje bez szumu przy dowolnie gęstej siatce

dostępne dla wszystkich

Często nierealne, ale matematycznie wygodne.

Przykład z życia wzięty: Dane spektralne Tecatora.

2. Gęsto próbkowane funkcje z zaszumionymi pomiarami (konstrukcja gęsta)

Pomiary , gdzie są rejestrowane na regularnej siatce,

i dotyczy typowych dane funkcjonalne.

Przykład z życia: Berkeley Growth Study Data i dane giełdowe

3. Rzadko próbkowane funkcje z zaszumionymi pomiarami (dane podłużne)

Pomiary , gdzie to losowe czasy, a ich liczba losowa i skończona.

Przykład z życia wzięty: dane dotyczące liczby komórek CD4 u pacjentów z AIDS.

Funkcjonalna analiza składowych głównych

Funkcjonalna analiza głównych składowych (FPCA) jest najbardziej rozpowszechnionym narzędziem w FDA, częściowo dlatego, że FPCA ułatwia redukcję wymiarów z natury nieskończenie wymiarowych danych funkcjonalnych do skończenie wymiarowego losowego wektora wyników. Mówiąc dokładniej, wymiarów się poprzez rozszerzenie podstawowych obserwowanych losowych trajektorii podstawie się z funkcji własnych operatora Rozważmy operatora kowariancji jak w ( 1 ), który jest operatorem zwartym w przestrzeni Hilberta .

Zgodnie z twierdzeniem Mercera jądro funkcji ma rozkład widmowy , gdzie zbieżność szeregu jest bezwzględna i jednolita, a są nieujemnymi wartościami własnymi o wartościach rzeczywistych w porządku malejącym z odpowiednimi ortonormalnymi funkcjami własnymi . Zgodnie z twierdzeniem Karhunena-Loève'a rozszerzenie FPCA podstawowej losowej trajektorii wynosi gdzie to funkcjonalne główne składniki (FPC), czasami określane jako wyniki. Rozwinięcie Karhunena-Loève'a ułatwia redukcję wymiarów w tym sensie, że suma częściowa jest zbieżna jednostajnie, tj. jak a zatem suma częściowa z wystarczająco dużym daje dobre przybliżenie sumy nieskończonej. W ten sposób informacja w jest zredukowana z nieskończonego wymiaru do ZA z procesem przybliżonym:

 

 

 

 

()

Inne popularne bazy to splajn , szereg Fouriera i bazy falkowe. Do ważnych zastosowań FPCA należą tryby zmienności i regresja głównych składowych funkcjonalnych.

Funkcjonalne modele regresji liniowej

Funkcjonalne modele liniowe można postrzegać jako rozszerzenie tradycyjnych wielowymiarowych modeli liniowych , które łączą odpowiedzi wektorów ze współzmiennymi wektorów. Tradycyjny model liniowy z odpowiedzią skalarną współzmienną wektorową można wyrazić jako

 

 

 

 

()

gdzie oznacza iloczyn wewnętrzny w przestrzeni euklidesowej i { \ Displaystyle \ beta oznaczają współczynniki regresji, a jest zerowym średnim losowym o skończonej wariancji (szum). Funkcjonalne modele liniowe można podzielić na dwa typy w oparciu o odpowiedzi.

Funkcjonalne modele regresji z odpowiedzią skalarną

Zastąpienie współzmiennej wektora wektora współczynników ( 3 przez wyśrodkowaną współzmienną funkcjonalną i funkcja współczynnika dla i zastępując iloczyn wewnętrzny w przestrzeni euklidesowej przez iloczyn w przestrzeni Hilberta , dochodzi się do funkcjonalnego modelu liniowego

 

 

 

 

()

Prosty funkcjonalny model liniowy ( rozszerzyć na wiele również , gdzie } przez

 

 

 

 

()

gdzie jest współczynnikiem regresji dla , dziedziną jest , współzmienną funkcjonalną określoną przez _ { funkcja współczynnika dla , dla \ Displaystyle j = 1 Modele ( 4 ) i ( 5 ) były szeroko badane.

Modele regresji funkcjonalnej z odpowiedzią funkcjonalną

Rozważ odpowiedź funkcjonalną [ wiele współzmiennych funkcjonalnych , , . W tej konfiguracji rozważono dwa główne modele. Jeden z tych dwóch modeli, ogólnie określany jako funkcjonalny model liniowy (FLM), można zapisać jako:

 

 

 

 

()

gdzie jest funkcjonalnym punktem przecięcia, dla , funkcjonalną na , to odpowiednie nachylenia funkcjonalne o tej samej domenie, odpowiednio, i jest zwykle procesem losowym ze średnią zerową i skończoną wariancją. W tym przypadku dowolnym momencie wartość tj. zależy od całych trajektorii . Model ( 6 ) był szeroko badany.

Regresja funkcji na skalerze

W szczególności przyjęcie jako stałej funkcji daje szczególny przypadek modelu ( 6 ) }

który jest funkcjonalnym modelem liniowym z odpowiedziami funkcjonalnymi i współzmiennymi skalarnymi.

Współbieżne modele regresji

Ten model jest podany przez,

 

 

 

 

()

gdzie na β funkcjami współczynników zdefiniowanymi w tym samym przedziale i zwykle przyjmuje się, że jest procesem losowym ze średnią zerową i skończoną wariancją. Model ten zakłada, ​​wartość zależy od bieżącej wartości tylko, a nie historia lub wartość przyszła. Dlatego jest to „model regresji współbieżnej”, który jest również określany jako model „zmiennego współczynnika”. Ponadto zaproponowano różne metody szacowania.

Funkcjonalne modele regresji nieliniowej

Bezpośrednie nieliniowe rozszerzenia klasycznych funkcjonalnych modeli regresji liniowej (FLM) nadal obejmują predyktor liniowy, ale łączą go z nieliniową funkcją łączenia, analogicznie do idei uogólnionego modelu liniowego z konwencjonalnego modelu liniowego. Rozwój w kierunku w pełni nieparametrycznych modeli regresji danych funkcjonalnych napotyka problemy, takie jak przekleństwo wymiarowości . Aby ominąć „przekleństwo” i problem wyboru metryki, jesteśmy zmotywowani do rozważenia nieliniowych modeli regresji funkcjonalnej, które podlegają pewnym ograniczeniom strukturalnym, ale nie naruszają nadmiernie elastyczności. Pożądane są modele, które zachowują wielomianowe współczynniki zbieżności, a jednocześnie są bardziej elastyczne niż, powiedzmy, funkcjonalne modele liniowe. Modele takie są szczególnie przydatne, gdy diagnostyka funkcjonalnego modelu liniowego wskazuje na brak dopasowania, z którym często spotykamy się w rzeczywistych sytuacjach. W szczególności funkcjonalne modele wielomianowe, funkcjonalne modele z jednym i wieloma indeksami oraz funkcjonalne modele addytywne to trzy szczególne przypadki funkcjonalnych modeli regresji nieliniowej.

Funkcjonalne modele regresji wielomianowej

Funkcjonalne modele regresji wielomianowej można postrzegać jako naturalne rozszerzenie funkcjonalnych modeli liniowych (FLM) z odpowiedziami skalarnymi, analogicznie do rozszerzania modelu regresji liniowej na model regresji wielomianowej . Dla odpowiedzi skalarnej funkcjonalnej współzmiennej z domeną i odpowiednimi wyśrodkowanymi procesami predykcyjnymi , najprostszym i najbardziej widocznym członkiem rodziny modeli regresji wielomianów funkcyjnych jest kwadratowa regresja funkcyjna podana w następujący sposób:

gdzie jest wyśrodkowaną współzmienną funkcjonalną, jest współczynnikiem skalarnym, ( są funkcjami współczynników z dziedzinami odpowiednio i . Oprócz funkcji parametru β, którą powyższy funkcjonalny model regresji kwadratowej dzieli z FLM, posiada on również powierzchnię parametru γ. Analogicznie do FLM z odpowiedziami skalarnymi, oszacowanie modeli wielomianów funkcyjnych można uzyskać poprzez rozwinięcie zarówno wyśrodkowanej współzmiennej, współczynników i w bazie ortonormalnej.

Funkcjonalne modele z jednym i wieloma indeksami

Funkcjonalny model wielu indeksów podano poniżej, z symbolami mającymi swoje zwykłe znaczenie, jak opisano wcześniej,

Tutaj g reprezentuje (nieznaną) ogólną funkcję gładką zdefiniowaną w domenie p-wymiarowej. Przypadek { . Jednak dla problematyczny ze względu przekleństwo . Przy estymator podany w tym modelu często ma dużą

Funkcjonalne modele addytywne (FAM)

Dla danej podstawy ortonormalnej na , możemy rozwinąć w domenie .

Funkcjonalny model liniowy z odpowiedziami skalarnymi (patrz ( 3 )) można zatem zapisać w następujący sposób:

funkcji liniowej wyrażeniu (tj. przez gładka funkcja , analogiczna do rozszerzenia modeli regresji liniowej wielokrotnej na modele addytywne i jest wyrażona jako: fa
gdzie spełnia mi dla . To ograniczenie ogólnych funkcji gładkich { . Inną formą FAM jest model ciągłego dodawania, wyrażony jako:
gładkiej _ dla wszystkich , aby zapewnić identyfikowalność.

Uogólniony funkcjonalny model liniowy

Oczywistym i bezpośrednim rozszerzeniem FLM o odpowiedzi skalarne (patrz ( 3 )) jest dodanie funkcji łączącej prowadzącej do uogólnionego funkcjonalnego modelu liniowego (GFLM) analogicznie do uogólnionego modelu liniowego (GLM). Trzy składniki GFLM to:

  1. do ; [składnik systematyczny]
  2. Funkcja wariancji , gdzie to średnia warunkowa ; [składnik losowy]
  3. Funkcja łączenia średnią warunkową predyktor liniowy do \ [składnik systematyczny]

Grupowanie i klasyfikacja danych funkcjonalnych

W przypadku danych wielowymiarowych o wartościach wektorowych metody partycjonowania k-średnich i hierarchiczne grupowanie to dwa główne podejścia. Te klasyczne koncepcje grupowania danych wielowymiarowych o wartościach wektorowych zostały rozszerzone na dane funkcjonalne. W przypadku grupowania danych funkcjonalnych metody grupowania k-średnich są bardziej popularne niż hierarchiczne metody grupowania. W przypadku grupowania k-średnich na danych funkcjonalnych, średnie funkcje są zwykle uważane za centra klastrów. Uwzględniono również struktury kowariancji. Oprócz grupowania typu k-średnich, grupowanie funkcjonalne oparte na modelach mieszanych jest również szeroko stosowane w grupowaniu danych wielowymiarowych o wartościach wektorowych i zostało rozszerzone na funkcjonalne grupowanie danych. Co więcej, klastry hierarchiczne Bayesa również odgrywają ważną rolę w rozwoju grupowania funkcjonalnego opartego na modelach.

Klasyfikacja funkcjonalna przypisuje przynależność do grupy do nowego obiektu danych na podstawie regresji funkcjonalnej lub funkcjonalnej analizy dyskryminacyjnej. Metody klasyfikacji danych funkcjonalnych oparte na modelach regresji funkcjonalnej wykorzystują poziomy klas jako odpowiedzi oraz obserwowane dane funkcjonalne i inne współzmienne jako predyktory. W przypadku funkcjonalnych modeli klasyfikacji opartych na regresji powszechnie stosowane są funkcjonalne uogólnione modele liniowe, a dokładniej funkcjonalna regresja binarna, taka jak funkcjonalna regresja logistyczna dla odpowiedzi binarnych. stosowany jest uogólniony funkcjonalny model regresji liniowej oparty na podejściu FPCA . Funkcjonalna liniowa analiza dyskryminacyjna (FLDA) została również uznana za metodę klasyfikacji danych funkcjonalnych. Zaproponowano również funkcjonalną klasyfikację danych obejmującą stosunki gęstości. Badanie asymptotycznego zachowania proponowanych klasyfikatorów w limicie dużej próby pokazuje, że w pewnych warunkach wskaźnik błędnej klasyfikacji zbiega się do zera, zjawisko to określa się mianem „klasyfikacji doskonałej”.

Zakrzywienie czasu

Motywacje

Illustration of the motivation of time warping in the sense of capturing cross-sectional mean.
Struktury w przekroju poprzecznym są średnio zniszczone, jeśli pominie się zmienność czasową. Wręcz przeciwnie, struktury w średniej przekroju poprzecznego są dobrze uchwycone po przywróceniu zmienności czasowej.

Oprócz zmienności amplitudy można również założyć, że w danych funkcjonalnych występuje zmienność w czasie. Zmienność czasowa występuje, gdy specyficzny dla przedmiotu czas wystąpienia pewnych interesujących wydarzeń jest różny dla różnych przedmiotów. Jednym z klasycznych przykładów są Berkeley Growth Study Data , gdzie zmienność amplitudy to tempo wzrostu, a zmienność w czasie wyjaśnia różnicę w wieku biologicznym dzieci, w których nastąpił okres dojrzewania i przed okresem dojrzewania. W obecności zmian w czasie, przekrojowa funkcja średnia może nie być efektywnym oszacowaniem, ponieważ szczyty i dołki są rozmieszczone losowo, a zatem znaczące sygnały mogą być zniekształcone lub ukryte.

Dopasowywanie czasu, znane również jako rejestracja krzywej, wyrównanie krzywej lub synchronizacja czasu, ma na celu identyfikację i oddzielenie zmian amplitudy i zmian czasu. Jeśli obecne są zarówno zmiany czasu obserwowane dane funkcjonalne modelować jako gdzie jest ukrytą funkcją amplitudy i jest ukrytą funkcją dopasowania czasu, która odpowiada skumulowanej funkcji rozkładu. funkcje dopasowania czasu są odwracalne i spełniają mi .

rodziny funkcji wypaczających określających zmianę fazy jest która podstawowa funkcja szablonu przez przesunięcie i skalę specyficzną dla podmiotu. Bardziej ogólna klasa funkcji wypaczających obejmuje dyfeomorfizmy domeny do samej siebie, to znaczy, mówiąc luźno, klasę funkcji odwracalnych, które odwzorowują domenę zwartą na siebie tak, że zarówno funkcja, jak i jej odwrotność są gładkie. Zbiór transformacji liniowych zawiera się w zbiorze dyfeomorfizmów . Jednym z wyzwań związanych z dopasowaniem czasu jest identyfikowalność zmienności amplitudy i fazy. Aby przełamać tę nieidentyfikowalność, wymagane są określone założenia.

Metody

Wcześniejsze podejścia obejmowały dynamiczne dopasowanie czasu (DTW) używane w aplikacjach takich jak rozpoznawanie mowy . Inną tradycyjną metodą zakrzywiania czasu jest rejestracja punktów orientacyjnych, która wyrównuje specjalne cechy, takie jak lokalizacje szczytów, z lokalizacją średnią. , rejestrację przy użyciu odległości i wypaczanie elastyczne

Dynamiczne zakrzywianie czasu

Funkcja szablonu jest określana w procesie iteracji, zaczynając od średniej przekroju, wykonując rejestrację i ponownie obliczając średnią przekroju dla wypaczonych krzywych, oczekując zbieżności po kilku iteracjach. DTW minimalizuje funkcję kosztu poprzez programowanie dynamiczne. Problemy niepłynnych różniczkowalnych wypaczeń lub zachłannych obliczeń w DTW można rozwiązać, dodając składnik regularyzujący do funkcji kosztu.

Rejestracja punktu orientacyjnego

Rejestracja punktu orientacyjnego (lub wyrównanie cech) zakłada, że ​​wszystkie krzywe próbki zawierają dobrze wyrażone cechy i wykorzystuje lokalizację takich cech jako złoty standard. Funkcje specjalne, takie jak lokalizacje szczytów i dolin w funkcjach lub pochodnych, są wyrównane do ich średnich lokalizacji w funkcji szablonu. Następnie funkcja wypaczenia jest wprowadzana poprzez płynne przekształcenie z lokalizacji średniej do lokalizacji tematycznych. Problem z rejestracją punktów orientacyjnych polega na tym, że cechy mogą być niedostępne lub trudne do zidentyfikowania z powodu szumu w danych.

Rozszerzenia

Do tej pory rozważaliśmy proces stochastyczny o wartościach skalarnych, zdefiniowany w jednowymiarowej dziedzinie czasu .

Wielowymiarowa domena

Dziedziną może być przykład

Wielowymiarowy proces stochastyczny

Zestaw zakresów procesu stochastycznego można rozszerzyć od do i dalej do rozmaitości nieliniowych, przestrzeni Hilberta i ostatecznie do przestrzeni metrycznych

Pakiety Pythona

Istnieją pakiety Pythona do pracy z danymi funkcjonalnymi i ich reprezentacją, wykonywania analiz eksploracyjnych lub przetwarzania wstępnego, a także innych zadań, takich jak wnioskowanie, klasyfikacja, regresja lub grupowanie danych funkcjonalnych.

Pakiety R

Niektóre pakiety mogą obsługiwać dane funkcjonalne zarówno w projektach gęstych, jak i podłużnych.

Zobacz też

Dalsza lektura

  •   Ramsay, JO i Silverman, BW (2005) Funkcjonalna analiza danych , wyd. 2, Nowy Jork: Springer, ISBN 0-387-40080-X
  •   Horvath, L. i Kokoszka, P. (2012) Wnioskowanie dla danych funkcjonalnych z aplikacjami , Nowy Jork: Springer, ISBN 978-1-4614-3654-6
  •   Hsing, T. and Eubank, R. (2015) Theoretical Foundations of Functional Data Analysis, with an Introduction to Linear Operators , szereg Wileya w prawdopodobieństwie i statystyce, John Wiley & Sons, Ltd, ISBN 978-0-470-01691-6
  • Morris, J. (2015) Regresja funkcjonalna, Roczny przegląd statystyk i ich zastosowanie, tom. 2, 321 - 359, https://doi.org/10.1146/annurev-statistics-010814-020413
  • Wang i in. (2016) Funkcjonalna analiza danych, roczny przegląd statystyk i ich zastosowanie, tom. 3, 257-295, https://doi.org/10.1146/annurev-statistics-041715-033624

Kategoria: Analiza regresji