Regresja binarna

W statystyce , szczególnie w analizie regresji , regresja binarna szacuje związek między jedną lub większą liczbą zmiennych objaśniających a pojedynczą wyjściową zmienną binarną . Ogólnie rzecz biorąc, modelowane jest prawdopodobieństwo dwóch alternatyw, zamiast po prostu wyprowadzać pojedynczą wartość, jak w przypadku regresji liniowej .

Regresja binarna jest zwykle analizowana jako szczególny przypadek regresji dwumianowej z jednym wynikiem ( ” i kodowanych jako 1: wartość to liczba sukcesów w 1 próbie, 0 lub 1. Najbardziej powszechnymi modelami regresji binarnej są model logitowy ( regresja logistyczna ) i model probitowy ( regresja probitowa ).

Aplikacje

Regresja binarna jest stosowana głównie do przewidywania ( klasyfikacja binarna ) lub do szacowania związku między zmiennymi objaśniającymi a wynikiem. W ekonomii regresje binarne są używane do modelowania wyboru binarnego .

Interpretacje

Modele regresji binarnej można interpretować jako modele zmiennych ukrytych wraz z modelem pomiarowym; lub jako modele probabilistyczne, bezpośrednio modelujące prawdopodobieństwo.

Ukryty model zmiennych

Interpretacja zmiennej ukrytej była tradycyjnie stosowana w testach biologicznych , dając model probitowy , w którym zakłada się normalną wariancję i punkt odcięcia. Interpretacja zmiennej ukrytej jest również stosowana w teorii odpowiedzi na pozycje (IRT).

Formalnie interpretacja zmiennej ukrytej zakłada, że ​​wynik y jest powiązany z wektorem zmiennych objaśniających x przez

gdzie \ i β jest wektorem parametrów i G jest rozkładem prawdopodobieństwa .

Model ten można zastosować w wielu kontekstach ekonomicznych. Na wynikiem może być decyzja menedżera, czy zainwestować w program, jest oczekiwanym zdyskontowanym przepływem pieniężnym netto, x jest wektorem zmiennych, które mogą wpływać na przepływy ten program. Wtedy menedżer zainwestuje tylko wtedy, gdy spodziewa się, że zdyskontowane przepływy pieniężne netto będą dodatnie.

Często zakłada się, że błędu rozkład normalny zależny od zmiennych objaśniających x . To generuje standardowy model probitowy .

Model probabilistyczny

Najprostszym bezpośrednim modelem probabilistycznym jest model logitowy , który modeluje logarytm szans jako funkcję liniową zmiennej objaśniającej lub zmiennych objaśniających. Model logitowy jest „najprostszy” w sensie uogólnionych modeli liniowych (GLIM): logarytmiczne szanse są naturalnym parametrem wykładniczej rodziny rozkładu Bernoulliego, a zatem jest najprostszy w użyciu do obliczeń.

Innym bezpośrednim modelem probabilistycznym jest liniowy model prawdopodobieństwa , który modeluje samo prawdopodobieństwo jako funkcję liniową zmiennych objaśniających. Wadą liniowego modelu prawdopodobieństwa jest to, że dla niektórych wartości zmiennych objaśniających model przewiduje prawdopodobieństwa mniejsze od zera lub większe od jedności.

Zobacz też

  •   Długi, J. Scott; Freese, Jeremy (2006). „4. Modele wyników binarnych: 4.1 Model statystyczny” . Modele regresji dla jakościowych zmiennych zależnych z wykorzystaniem Stata, wydanie drugie . Prasa Statystyczna. s. 131–136. ISBN 978-1-59718011-5 .