Identyfikowalność

W statystyce identyfikowalność jest właściwością, którą musi spełniać model , aby możliwe było precyzyjne wnioskowanie . Model jest identyfikowalny , jeśli teoretycznie możliwe jest poznanie prawdziwych wartości podstawowych parametrów tego modelu po uzyskaniu z niego nieskończonej liczby obserwacji. Z matematycznego punktu widzenia jest to równoznaczne ze stwierdzeniem, że różne wartości parametrów muszą generować różne rozkłady prawdopodobieństwa obserwowalnych zmiennych. Zwykle model jest możliwy do zidentyfikowania tylko przy pewnych ograniczeniach technicznych, w którym to przypadku zestaw tych wymagań nazywa się warunki identyfikacji .

O modelu, którego nie można zidentyfikować, mówi się, że jest nieidentyfikowalny lub niezidentyfikowalny : dwie lub więcej parametryzacji są obserwacyjnie równoważne . W niektórych przypadkach, nawet jeśli model jest nieidentyfikowalny, nadal możliwe jest poznanie prawdziwych wartości pewnego podzbioru parametrów modelu. W tym przypadku mówimy, że model jest częściowo identyfikowalny . W innych przypadkach może być możliwe poznanie położenia prawdziwego parametru aż do pewnego skończonego obszaru przestrzeni parametrów, w którym to przypadku model jest ustawiany jako identyfikowalny .

Poza czysto teoretyczną eksploracją właściwości modelu, identyfikowalność można odnieść w szerszym zakresie, gdy model jest testowany z eksperymentalnymi zbiorami danych, z wykorzystaniem analizy identyfikowalności .

Definicja

Niech ${\ Displaystyle {\ mathcal {P}} = \ {P _ {\ theta}: \ theta \ in \ Theta \}} będzie modelem$ statystycznym z przestrzenią parametrów ${\ displaystyle \Theta}$ . Mówimy, że $\ displaystyle {\ mathcal {$ identyfikowalny , odwzorowanie jest jeden do jednego : $P}$

{\ Displaystyle P _ {\ theta _ {1}} = P _ {\ theta _ {2}} \ quad \ Strzałka w prawo \ quad \ theta _ {1} = \ theta _ {2} \ quad \ {\ tekst {dla wszystkich }}\theta _{1},\theta_{2}\w \Theta .}

Definicja ta oznacza, że różnym wartościom θ powinny odpowiadać różne rozkłady prawdopodobieństwa: jeśli θ ₁ ≠ θ ₂ , to także P _{θ ₁} ≠ P _{θ ₂} . Jeśli rozkłady są zdefiniowane za pomocą funkcji gęstości prawdopodobieństwa (pdf), to dwa pliki pdf należy uznać za odrębne tylko wtedy, gdy różnią się one zbiorem niezerowej miary (na przykład dwie funkcje ƒ ₁ ( x ) = 1 _{0 ≤ x < 1} i ƒ ₂ ( x ) = 1 _{0 ≤ x ≤ 1} różnią się tylko w jednym punkcie x = 1 — zbiorze miary zero — i dlatego nie można ich uważać za odrębne pliki PDF).

Identyfikowalność modelu w sensie odwracalności mapy $w$ z możliwością poznania prawdziwego parametru modelu, jeśli model można obserwować Rzeczywiście, jeśli { X _t } ⊆ S jest ciągiem obserwacji z modelu, to zgodnie z silnym prawem wielkich liczb ,

{\ Displaystyle {\ Frac {1} {T}} \ suma _ {t = 1} ^ {T} \ mathbf {1} _ {\{X_{t}\in A\}}\ {\xrightarrow {\text{as}}}\ \Pr[X_{t}\in A],}

₀₀ dla każdego zbioru mierzalnego A ⊆ S (tutaj 1 _{...} jest funkcją wskaźnika ). Zatem przy nieskończonej liczbie obserwacji będziemy w stanie znaleźć prawdziwy rozkład prawdopodobieństwa P w modelu, a ponieważ powyższy warunek identyfikowalności wymaga, aby mapa ${\ Displaystyle \ theta \ mapsto P _ {\ theta}}$ będzie odwracalny, będziemy mogli również znaleźć prawdziwą wartość parametru, który wygenerował dany rozkład P .

Przykłady

Przykład 1

Niech będzie normalną rodziną w skali lokalizacji : ${\ displaystyle {\ mathcal {P}}}$

{\ Displaystyle {\ mathcal {P}} = {\ duży \ {} \ f _ {\ theta} (x) = {\ tfrac {1} {{\ sqrt {2 \ pi}} \ sigma}} e ^ { -{\frac {1}{2\sigma ^{2}}}(x-\mu)^{2}}\ {\Big |}\ \theta =(\mu,\sigma):\mu \in \mathbb {R} ,\,\sigma \!>0\ {\Duży \}}.}

Następnie

{\ Displaystyle {\ rozpocząć {wyrównane} & f _ {\ theta _ {1}} = f _ {\ theta _ {2}} \\ [6pt] \ Longleftrightarrow {} & {\ Frac {1} {{\ sqrt {2 \pi }}\sigma _{1}}}\exp \left(-{\frac {1}{2\sigma _{1}^{2}}}(x-\mu _{1})^{ 2}\right)={\frac {1}{{\sqrt {2\pi}}\sigma _{2}}}\exp \left(-{\frac {1}{2\sigma _{2} ^{2}}}(x-\mu _{2})^{2}\right)\\[6pt]\Longleftrightarrow {}&{\frac {1}{\sigma _{1}^{2} }}(x-\mu _{1})^{2}+\ln \sigma _{1}={\frac {1}{\sigma _{2}^{2}}}(x-\mu _{2})^{2}+\ln \sigma _{2}\\[6pt]\Longleftrightarrow {}&x^{2}\left({\frac {1}{\sigma _{1}^{ 2}}}-{\frac {1}{\sigma _{2}^{2}}}\right)-2x\left({\frac {\mu _{1}}{\sigma _{1} ^{2}}}-{\frac {\mu _{2}}{\sigma _{2}^{2}}}\right)+\left({\frac {\mu _{1}^{ 2}}{\sigma _{1}^{2}}}-{\frac {\mu _{2}^{2}}{\sigma _{2}^{2}}}+\ln \sigma _{1}-\ln \sigma _{2}\right)=0\end{wyrównane}}}

To wyrażenie jest równe zeru dla prawie wszystkich x tylko wtedy, gdy wszystkie jego współczynniki są równe zeru, co jest możliwe tylko wtedy, gdy | σ ₁ | = | σ ₂ | i μ ₁ = μ ₂ . Ponieważ w skali parametr σ jest ograniczony do wartości większej od zera, wnioskujemy, że model jest identyfikowalny: ƒ _{θ ₁} = ƒ _{θ ₂} ⇔ θ ₁ = θ ₂ .

Przykład 2

Niech będzie standardowym modelem regresji liniowej : ${\ displaystyle {\ mathcal {P}}}$

{\ Displaystyle y = \ beta 'x + \ varepsilon, \ quad \ operatorname {E} [\, \ varepsilon \ środkowy x \,] = 0}

(gdzie ′ oznacza transpozycję macierzy ). $identyfikowalny$ parametr β wtedy i tylko wtedy, odwracalna Jest to zatem warunek identyfikacji w modelu.

Przykład 3

Załóżmy, że jest klasycznym liniowym modelem błędów w zmiennych : ${\ displaystyle {\ mathcal {P}}}$

{\ Displaystyle {\ rozpocząć {przypadki} y = \ beta x ^ {*} + \ varepsilon, \\ x = x ^ {*} + \ eta ,\koniec {przypadków}}}

gdzie ( ε , η , x* ) są łącznie normalnymi niezależnymi zmiennymi losowymi o zerowej wartości oczekiwanej i nieznanych wariancjach, a obserwowane są tylko zmienne ( x , y ). Wtedy ten model nie jest identyfikowalny, tylko iloczyn βσ² _∗ jest (gdzie σ² _∗ jest wariancją latentnego regresora x* ). Jest to również przykład zestawu identyfikowalnego modelu: chociaż nie można poznać dokładnej wartości β , możemy zagwarantować, że musi ona leżeć gdzieś w przedziale ( β _yx , 1÷ β _xy ), gdzie β _yx jest współczynnikiem w regresji OLS y na x , a β _xy jest współczynnikiem w regresji OLS x na y .

Jeśli odrzucimy założenie o normalności i założymy, że x* nie miały rozkładu normalnego, zachowując jedynie warunek niezależności ε ⊥ η ⊥ x* , to model stanie się identyfikowalny.

Zobacz też

Cytaty

Źródła

Casella, George ; Berger, Roger L. (2002), wnioskowanie statystyczne (wyd. 2), ISBN 0-534-24312-6 , LCCN 2001025794
Hsiao, Cheng (1983), Identyfikacja , Podręcznik ekonometrii, tom. 1, Ch.4, North-Holland Publishing Company
Lehmann, El ; Casella, G. (1998), Theory of Point Estimation (wyd. 2), Springer, ISBN 0-387-98502-6
Reiersøl, Olav (1950), „Identyfikowalność liniowej relacji między zmiennymi podlegającymi błędom”, Econometrica , 18 (4): 375–389, doi : 10,2307/1907835 , JSTOR 1907835
van der Vaart, AW (1998), Asymptotic Statistics , Cambridge University Press , ISBN 978-0-521-49603-2 {{ cytat }} : CS1 maint: ref duplikaty domyślne ( link )

Dalsza lektura

Walter, E. ; Pronzato, L. (1997), Identyfikacja modeli parametrycznych na podstawie danych eksperymentalnych , Springer

Ekonometria

Lewbel, Arthur (2019-12-01). „Zoo identyfikacji: znaczenie identyfikacji w ekonometrii” . Dziennik Literatury Ekonomicznej . Amerykańskie Stowarzyszenie Ekonomiczne. 57 (4): 835–903. doi : 10.1257/jel.20181361 . ISSN 0022-0515 . S2CID 125792293 .
Matzkin, Rosa L. (2013). „Identyfikacja nieparametryczna w strukturalnych modelach ekonomicznych”. Roczny przegląd ekonomii . 5 (1): 457–486. doi : 10.1146/annurev-economics-082912-110231 .
Rothenberg, Thomas J. (1971). „Identyfikacja w modelach parametrycznych”. Ekonometria . 39 (3): 577–591. doi : 10.2307/1913267 . ISSN 0012-9682 . JSTOR 1913267 .