Dopasowanie modeli logit oraz probit

 

Prostą metodą oceny stopnia dopasania modelu do danych empirycznych jest odsetek poprawnych klasyfikacji (znany w literaturze jako hit rate[1]). Klasyfikacja w najprostszej postaci przeprowadzona jest za pomocą odcięcia wartości prawdopodobieństwa na poziomie 0,5 (badacz ma jednak możliwość ustalenia innej wartości klasyfikującej, bazując na specyfice modelowanego problemu, swojej wiedzy lub innych przesłankach).

 

Statystyka ilorazu wiarygodności

 

Jednym z podstawowych wskaźników stosowanych w miarach dopasowania jest statystyka ilorazu wiarygodności (likelihood–ratio statistic). Log L nie może być stosowany jako samodzielny wskaźnik dopasowania ze względu na jego zależność od wielkości próby. Mniejsze wartości log L są związane z większą próbą.

 

Współczynnik determinacji

 

Powszechnie stosowanym miernikiem dopasowania modelu do danych empirycznych jest współczynnik determinacji R2. Nie można jednak w bezpośredni sposób na zasadzie analogii przenieść interpretacji R2 z klasycznego modelu regresji na wyniki R2 uzyskiwane w modelu logitowym. Pomimo tego w literaturze przedmiotu proponowany jest cały szereg współczynników R2 określanych jako przybliżenia R2. Mierniki te nie podają jednak faktycznego odsetka wyjaśnianej wariancji, będąc raczej próba pomiaru siły związku nazwanego przez Cramera intuicyjnym.

 

Podstawową cechą tej miary jest jej łatwość obliczeniowa. Znając wartości statystyki c oraz liczebność próby pseudo R2 jest łatwe w obliczeniu. Podobnie jak klasyczne R2 przyjmuje wartości z zakresu od 0 do 1 (niska wartość oznacza słabe dopasowanie modelu). Miara nie jest odporna na zwiększającą się liczbę zmiennych egzogenicznych.

 

Współczynnik wprowadzony Aldricha i Nelsona

 

Jego interpretacja jest zbliżona do interpretacji klasycznego współczynnika R2. Możliwe realizacje tego współczynnika są niższe od 1. Współczynnik ten ma zastosowanie zarówno dla modelu binarnej regresji logit jak i dla modelu logit klasy multinominalnej.

 

Autorzy Ci zastosowali analogię pomiędzy probitem a liniową regresją. Analizując nieobserwowalną zmienną Y*. Jak wiadomo Y*, jeśli byłaby obserwowalna, może zostać wyrażona poprzez kombinację zmiennych egzogenicznych.

 

Hipotetyczna zmienna Y* powstaje wskutek transformacji logitowej (lub skumulowanego rozkładu normalnego w modelu probit). Możliwe jest za pomocą jednej z tych transformacji wyznaczenie szacunku parametrów oraz ich błędów (wariancji). Probit po transformacji jest zmienną znormalizowaną z odchyleniem standardowym (wariancją) na poziomie równym 1. podsumowując wszystkie N przypadków wariacja reszt przyjmuje wartość N. W modelu regresji wariancja wyjaśniona oraz wariancja reszt są niezależne całkowita wariancja stanowi sumę wariancji reszt oraz wariancji wyjaśnionej.


[1] Cramer J.S. “Logit models from economics and other fields” Cambridge University Press 2003, str. 66