Informacja o wersji: Kod dla tej strony został przetestowany w Stata 12.
Regresja probitowa, zwana również modelem probitowym, jest używana do modelowania dychotomicznych lub binarnych zmiennych wynikowych. W modelu probitowym, odwrotność standardowego rozkładu normalnego prawdopodobieństwa jest modelowana jako liniowa kombinacja predyktorów.
Uwaga: Celem tej strony jest pokazanie jak używać różnych poleceń do analizy danych.Nie obejmuje ona wszystkich aspektów procesu badawczego, których oczekuje się od badaczy. W szczególności, nie obejmuje czyszczenia i sprawdzania danych, weryfikacji założeń, diagnostyki modelu i potencjalnych dalszych analiz.
Przykłady regresji probitowej
Przykład 1: Załóżmy, że jesteśmy zainteresowani czynnikami, które wpływają na to, czy kandydat polityczny wygrywa wybory. Zmienna wyniku (odpowiedzi) jest binarna (0/1); wygrana lub przegrana. Zmiennymi predykcyjnymi są: ilość pieniędzy wydanych na kampanię, ilość czasu poświęconego na kampanię w sposób negatywny oraz to, czy kandydat jest osobą urzędującą.
Przykład 2: Badacz jest zainteresowany tym, w jaki sposób zmienne, takie jak GRE (wyniki egzaminu Graduate Record Exam), GPA (średnia ocen) i prestiż instytucji licencjackiej, wpływają na przyjęcie do szkoły wyższej. Zmienna odpowiedzi, przyznaj się/nie przyznaj się, jest zmienną binarną.
Opis danych
Dla naszej analizy danych poniżej, zamierzamy rozwinąć przykład 2 dotyczący dostania się do szkoły wyższej. Wygenerowaliśmy hipotetyczne dane, które można uzyskać z naszej strony internetowej.
use https://stats.idre.ucla.edu/stat/stata/dae/binary.dta, clear
Ten zbiór danych posiada binarną zmienną odpowiedzi (wynik, zależną) o nazwie admit.
Istnieją trzy zmienne predykcyjne
: gre, gpa i rank. Zmienne gre i gpa będziemy traktować jako ciągłe. Zmienna rangi jest porządkowa, przyjmuje wartości od 1 do 4. Instytucje o randze 1 mają najwyższy prestiż, natomiast te o randze 4 – najniższy. Będziemy traktować rangę jako kategoryczną.
summarize gre gpa Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- gre | 400 587.7 115.5165 220 800 gpa | 400 3.3899 .3805668 2.26 4tab rank rank | Freq. Percent Cum.------------+----------------------------------- 1 | 61 15.25 15.25 2 | 151 37.75 53.00 3 | 121 30.25 83.25 4 | 67 16.75 100.00------------+----------------------------------- Total | 400 100.00tab admit admit | Freq. Percent Cum.------------+----------------------------------- 0 | 273 68.25 68.25 1 | 127 31.75 100.00------------+----------------------------------- Total | 400 100.00tab admit rank | rank admit | 1 2 3 4 | Total-----------+--------------------------------------------+---------- 0 | 28 97 93 55 | 273 1 | 33 54 28 12 | 127 -----------+--------------------------------------------+---------- Total | 61 151 121 67 | 400
Metody analizy, które możesz rozważyć
Poniżej znajduje się lista niektórych metod analizy, z którymi mogłeś się spotkać. Niektóre z wymienionych metod są całkiem rozsądne, podczas gdy inne albo wypadły z łask, albo mają ograniczenia.
- Regresja logitowa, główny temat tej strony.
- Regresja logistyczna. Model logitowy będzie dawał wyniki podobne do regresji probitowej. Wybór między probitem a logitem zależy w dużej mierze od
indywidualnych preferencji.
- RegresjaOLS. W przypadku użycia z binarną zmienną odpowiedzi, model ten jest znany jako liniowy model prawdopodobieństwa i może być stosowany jako sposób
opisania prawdopodobieństw warunkowych. Jednak błędy (tj. reszty) z liniowego modelu prawdopodobieństwa naruszają założenia homoskedastyczności i
normalności błędów regresji OLS, co skutkuje nieważnymi błędami standardowymi i testami hipotez. For
a more thorough discussion of these and other problems with the linear
probability model, see Long (1997, p. 38-40).
- Two-group discriminant function analysis. Metoda wielowymiarowa dla dychotomicznych zmiennych wynikowych.
- T2 Hotellinga. Wynik 0/1 jest przekształcany w zmienną
grupującą, a poprzednie predyktory są przekształcane w zmienne
wynikowe. To da ogólny test istotności, ale nie da
indywidualnych współczynników dla każdej zmiennej, i nie jest jasne, w jakim stopniu
każdy „predyktor” jest dostosowany do wpływu innych
„predyktorów”.”
Regresja probitowa
Poniżej używamy polecenia probit do oszacowania modelu regresji probitowej. Znak i. przed rangą wskazuje, że ranga jest zmienną czynnikową (tj. zmienną kategoryczną) i że powinna być włączona do modelu jako seria zmiennych wskaźnikowych. Zauważ, że ta składnia została wprowadzona w Stata 11.
probit admit gre gpa i.rank Iteration 0: log likelihood = -249.98826 Iteration 1: log likelihood = -229.29667 Iteration 2: log likelihood = -229.20659 Iteration 3: log likelihood = -229.20658 Probit regression Number of obs = 400 LR chi2(5) = 41.56 Prob > chi2 = 0.0000Log likelihood = -229.20658 Pseudo R2 = 0.0831------------------------------------------------------------------------------ admit | Coef. Std. Err. z P>|z| -------------+---------------------------------------------------------------- gre | .0013756 .0006489 2.12 0.034 .0001038 .0026473 gpa | .4777302 .1954625 2.44 0.015 .0946308 .8608297 | rank | 2 | -.4153992 .1953769 -2.13 0.033 -.7983308 -.0324675 3 | -.812138 .2085956 -3.89 0.000 -1.220978 -.4032981 4 | -.935899 .2456339 -3.81 0.000 -1.417333 -.4544654 | _cons | -2.386838 .6740879 -3.54 0.000 -3.708026 -1.065649------------------------------------------------------------------------------
- W powyższych danych wyjściowych widzimy najpierw log iteracji, wskazujący jak szybko model się zrównał. Log likelihood (-229.20658) może być użyty
w porównaniach modeli zagnieżdżonych, ale nie pokażemy tutaj tego przykładu.
- Na górze danych wyjściowych widzimy, że wszystkie 400 obserwacji w naszym zestawie danych
zostało wykorzystanych w analizie (mniej obserwacji zostałoby wykorzystanych, gdyby
któreś z naszych zmiennych miały brakujące wartości).
- Równowaga prawdopodobieństwa chi-square wynosząca 41.56 przy p-value równym 0.0001 mówi nam, że nasz model jako całość jest statystycznie istotny, to znaczy, że pasuje znacząco lepiej niż model bez predyktorów.
- W tabeli widzimy współczynniki, ich błędy standardowe, statystykę z, związane z nią p-wartości oraz 95% przedział ufności współczynników. Zarówno gre, gpa, jak i trzy zmienne wskaźnikowe dla rangi są statystycznie istotne. Współczynniki regresji probitowej dają zmianę w z-score lub indeksie probitowym dla jednej jednostki zmiany w predyktorze.
- Dla jednego jednostkowego wzrostu gre, z-score wzrasta o 0.001.
- Dla każdego jednostkowego wzrostu gpa, z-score wzrasta o 0.478.
- Zmienne wskaźnikowe dla rangi mają nieco inną interpretację. Na przykład, uczęszczanie na studia w instytucji o randze 2, w porównaniu do instytucji o randze 1 (grupa referencyjna), obniża z-score o 0.415.
Możemy przetestować ogólny efekt rangi używając polecenia test. Poniżej widzimy, że ogólny efekt rangi jest istotny statystycznie.
test 2.rank 3.rank 4.rank ( 1) 2.rank = 0 ( 2) 3.rank = 0 ( 3) 4.rank = 0 chi2( 3) = 21.32 Prob > chi2 = 0.0001
Możemy również przetestować dodatkowe hipotezy dotyczące różnic we współczynnikach dla różnych poziomów rangi. Poniżej testujemy, że współczynnik dla rangi=2 jest równy współczynnikowi dla rangi=3.
test 2.rank = 3.rank ( 1) 2.rank - 3.rank = 0 chi2( 1) = 5.60 Prob > chi2 = 0.0179
Można również użyć przewidywanych prawdopodobieństw, aby pomóc w zrozumieniu modelu. Możesz obliczyć przewidywane prawdopodobieństwa używając polecenia margins, które zostało wprowadzone w Stata 11. Poniżej używamy polecenia margins, aby obliczyć przewidywane prawdopodobieństwo przyjęcia na każdym poziomie rangi, przy zachowaniu wszystkich innych zmiennych w modelu na poziomie ich średnich. Aby uzyskać więcej informacji na temat używania polecenia margins do obliczania przewidywanych prawdopodobieństw, zobacz naszą stronęUżywanie margins dla przewidywanych prawdopodobieństw.
margins rank, atmeansAdjusted predictions Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()at : gre = 587.7 (mean) gpa = 3.3899 (mean) 1.rank = .1525 (mean) 2.rank = .3775 (mean) 3.rank = .3025 (mean) 4.rank = .1675 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- rank | 1 | .5163741 .0656201 7.87 0.000 .3877611 .6449871 2 | .3540742 .0394725 8.97 0.000 .2767096 .4314388 3 | .2203289 .0383674 5.74 0.000 .1451302 .2955277 4 | .1854353 .0487112 3.81 0.000 .0899631 .2809075------------------------------------------------------------------------------
W powyższych danych wyjściowych widzimy, że przewidywane prawdopodobieństwo przyjęcia na studia wynosi 0.52 dla najbardziej prestiżowych instytucji licencjackich (ranga=1), oraz 0.19 dla najniższych instytucji (ranga=4), utrzymując gre i gpa na poziomie ich średnich.
Poniżej generujemy przewidywane prawdopodobieństwa dla wartości gre od 200 do 800 w krokach co 100. Ponieważ nie określiliśmy ani atmeans, ani nie użyliśmy at(…) do określenia wartości, przy których utrzymywane są inne zmienne predykcyjne, wartości w tabeli są średnimi przewidywanymi prawdopodobieństwami obliczonymi przy użyciu przykładowych wartości innych zmiennych predykcyjnych. Na przykład, aby obliczyć średnie przewidywane prawdopodobieństwo, gdy gre = 200, przewidywane prawdopodobieństwo zostało obliczone dla każdego przypadku, używając wartości rangi i gpa tego przypadku i ustawiając gre na 200.
margins , at(gre=(200(100)800)) vsquishPredictive margins Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()1._at : gre = 2002._at : gre = 3003._at : gre = 4004._at : gre = 5005._at : gre = 6006._at : gre = 7007._at : gre = 800------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- _at | 1 | .1621325 .0621895 2.61 0.009 .0402434 .2840216 2 | .1956415 .053758 3.64 0.000 .0902777 .3010054 3 | .2330607 .0422138 5.52 0.000 .1503231 .3157983 4 | .2741667 .0293439 9.34 0.000 .2166537 .3316797 5 | .3185876 .0226349 14.08 0.000 .2742239 .3629512 6 | .365808 .0333436 10.97 0.000 .3004557 .4311603 7 | .4151847 .0541532 7.67 0.000 .3090463 .5213231------------------------------------------------------------------------------
W powyższej tabeli widzimy, że średnie przewidywane prawdopodobieństwo przyjęcia wynosi tylko 0.16 jeśli czyjś wynik GRE wynosi 200 i wzrasta do 0,42 jeśli czyjś wynik GRE wynosi 800 (uśredniając w całej próbie wartości gpa i rangi).
Pomocne może być również użycie wykresów przewidywanych prawdopodobieństw, aby zrozumieć i/lub przedstawić model.
Możemy również chcieć zobaczyć miary tego, jak dobrze nasz model pasuje. Może to być szczególnie przydatne przy porównywaniu konkurujących ze sobą modeli. Napisane przez użytkownika polecenie fitstat tworzy różne statystyki dopasowania. Więcej informacji na temat fitstat można znaleźć wpisując poleceniesearch fitstat (zobacz Jak mogę użyć polecenia search, aby wyszukać programy i uzyskać dodatkową pomoc?, aby uzyskać więcej informacji na temat używania polecenia search).
fitstatMeasures of Fit for probit of admitLog-Lik Intercept Only: -249.988 Log-Lik Full Model: -229.207D(393): 458.413 LR(5): 41.563 Prob > LR: 0.000McFadden's R2: 0.083 McFadden's Adj R2: 0.055ML (Cox-Snell) R2: 0.099 Cragg-Uhler(Nagelkerke) R2: 0.138McKelvey & Zavoina's R2: 0.165 Efron's R2: 0.101Variance of y*: 1.197 Variance of error: 1.000Count R2: 0.710 Adj Count R2: 0.087AIC: 1.181 AIC*n: 472.413BIC: -1896.232 BIC': -11.606BIC used by Stata: 494.362 AIC used by Stata: 470.413
Rzeczy do rozważenia
- Puste komórki lub małe komórki: Należy sprawdzić puste lub małe
komórki, wykonując tabelę krzyżową między predyktorami kategorycznymi a zmienną wynikową. Jeśli komórka ma bardzo mało przypadków (mała komórka), model może stać się niestabilny lub może w ogóle nie działać.
- Separacja lub quasi-separacja (zwana również predykcją doskonałą), stan, w którym wynik nie zmienia się na niektórych poziomach zmiennych niezależnych. Zobacz naszą stronę FAQ: Co to jest całkowita lub quasi-całkowita separacja w regresji logistycznej/probitowej i jak sobie z nimi radzimy? aby uzyskać informacje na temat modeli z doskonałą predykcją.
- Rozmiar próby: Zarówno modele probitowe, jak i logitowe wymagają większej liczby przypadków niż regresja OLS, ponieważ wykorzystują techniki estymacji z maksymalną prawdopodobieństwem. Czasami możliwe jest oszacowanie modeli dla wyników binarnych w zbiorach danych z niewielką liczbą przypadków przy użyciu dokładnej regresji logistycznej (używając polecenia exlogistic). Aby uzyskać więcej informacji, zobacz nasz przykład analizy danych dla dokładnej regresji logistycznej. Ważne jest również, aby pamiętać, że gdy wynik jest rzadki, nawet jeśli ogólny zbiór danych jest duży, może być trudno oszacować model probitowy.
- Pseudo-R-squared: Istnieje wiele różnych miar psuedo-R-squared. Wszystkie one próbują dostarczyć informacji podobnych do tych dostarczanych przez R-squared w regresji OLS; jednakże, żadna z nich nie może być interpretowana dokładnie tak, jak interpretuje się R-squared w regresji OLS. W celu omówienia różnych pseudo-R-kwadratów zobacz Long i Freese (2006) lub naszą stronę FAQ Czym są pseudo-R-kwadraty?
- W Stacie, wartości 0 są traktowane jako jeden poziom zmiennej wynikowej,
a wszystkie inne niepuste wartości są traktowane jako drugi poziom wynikowy.
- Diagnostyka: Diagnostyka dla regresji probitowej jest inna niż dla regresji OLS. Diagnostyka dla modeli probitowych jest podobna do diagnostyki dla modeli logitowych. W celu omówienia diagnostyki modelu dla regresji logistycznej, zobacz Hosmer i Lemeshow (2000, rozdział 5).
Zobacz także
- Stata help for probit
- Opisane dane wyjściowe dla polecenia probit
- Stat Books for Loan, Logistic Regression and Limited Dependent Variables