Probit Regression | Stata Data Analysis Examples

Versie-info: De code voor deze pagina is getest in Stata 12.

Probitregressie, ook wel probitmodel genoemd, wordt gebruikt om dichotome of binaire uitkomstvariabelen te modelleren. In het probit-model wordt de inverse standaardnormale verdeling van de kans gemodelleerd als een lineaire combinatie van de voorspellers.

Let op: het doel van deze pagina is te laten zien hoe je verschillende data-analysecommando’s kunt gebruiken.Het behandelt niet alle aspecten van het onderzoeksproces die onderzoekers geacht worden te doen. In het bijzonder wordt niet ingegaan op het opschonen en controleren van gegevens, het verifiëren van aannames, modeldiagnostiek en mogelijke vervolganalyses.

Voorbeelden van probit regressie

Voorbeeld 1: Stel dat we geïnteresseerd zijn in de factoren die van invloed zijn op de vraag of een politieke kandidaat een verkiezing wint. De uitkomst (respons)-variabele is binair (0/1); winnen of verliezen. De voorspellende variabelen die van belang zijn, zijn de hoeveelheid geld die aan de campagne wordt besteed, de tijd die aan campagne voeren wordt besteed en of de kandidaat een zittende politicus is.

Voorbeeld 2: Een onderzoeker is geïnteresseerd in de vraag hoe variabelen als GRE-scores (Graduate Record Exam), GPA-scores (grade point average) en het prestige van de universiteit van invloed zijn op de toelating tot een graduate school. De responsvariabele, toelating/niet-toelating, is een binaire variabele.

Beschrijving van de gegevens

Voor onze gegevensanalyse hieronder gaan we verder in op voorbeeld 2 over toelating tot de graduate school. We hebben hypothetische gegevens gegenereerd, die op onze website kunnen worden opgevraagd.

use https://stats.idre.ucla.edu/stat/stata/dae/binary.dta, clear

Deze dataset heeft een binaire respons (uitkomst, afhankelijke) variabele, genaamd toelating.

Er zijn drie voorspellende

variabelen: gre, gpa en rang. We zullen de variabelen gre en gpa als continu behandelen. De variabele rang is ordinaal, en neemt de waarden 1 tot en met 4 aan. Instellingen met rang 1 hebben het hoogste prestige, terwijl instellingen met rang 4 het laagste prestige hebben. We behandelen rang als categorisch.

summarize gre gpa Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- gre | 400 587.7 115.5165 220 800 gpa | 400 3.3899 .3805668 2.26 4tab rank rank | Freq. Percent Cum.------------+----------------------------------- 1 | 61 15.25 15.25 2 | 151 37.75 53.00 3 | 121 30.25 83.25 4 | 67 16.75 100.00------------+----------------------------------- Total | 400 100.00tab admit admit | Freq. Percent Cum.------------+----------------------------------- 0 | 273 68.25 68.25 1 | 127 31.75 100.00------------+----------------------------------- Total | 400 100.00tab admit rank | rank admit | 1 2 3 4 | Total-----------+--------------------------------------------+---------- 0 | 28 97 93 55 | 273 1 | 33 54 28 12 | 127 -----------+--------------------------------------------+---------- Total | 61 151 121 67 | 400 

Analysemethoden die je zou kunnen overwegen

Hieronder vind je een lijst met enkele analysemethoden die je misschien al bent tegengekomen. Sommige van de genoemde methoden zijn heel redelijk, terwijl andere ofwel uit de gratie zijn geraakt ofwel beperkingen hebben.

  • Probit regressie, de focus van deze pagina.
  • Logistische regressie. Een logit-model zal soortgelijke resultaten

    probit-regressie> opleveren. De keuze tussen probit en logit hangt grotendeels af van

    individuele voorkeuren.

  • OLS-regressie. Wanneer dit model wordt gebruikt met een binaire responsvariabele, staat het bekend als een lineair waarschijnlijkheidsmodel en kan het worden gebruikt als een manier om

    voorwaardelijke waarschijnlijkheden te beschrijven. De fouten (d.w.z. residuen) van het lineaire waarschijnlijkheidsmodel zijn echter in strijd met de aannamen van homoskedasticiteit en

    normaliteit van fouten van OLS

    regressie, hetgeen resulteert in ongeldige standaardfouten en hypothesetoetsen. Voor

    een grondiger bespreking van deze en andere problemen met het lineaire

    probabiliteitsmodel, zie Long (1997, p. 38-40).

  • Twee-groepsdiscriminantfunctieanalyse. Een multivariate methode voor dichotome uitkomstvariabelen.
  • Hotelling’s T2. De 0/1 uitkomst wordt de

    groepsvariabele, en de vroegere voorspellers worden de uitkomst

    variabelen. Dit levert een algemene significantietest op, maar

    geeft geen individuele coëfficiënten voor elke variabele, en het is onduidelijk

    in hoeverre elke “voorspeller” is gecorrigeerd voor de invloed van de andere

    “voorspellers.”

Probit regressie

Hieronder gebruiken we het probit-commando om een probit-regressiemodel te schatten. De i. voor rang geeft aan dat rang een factorvariabele is (d.w.z. categorische variabele), en dat deze in het model moet worden opgenomen als een reeks indicatorvariabelen. Merk op dat deze syntaxis werd geïntroduceerd in Stata 11.

probit admit gre gpa i.rank Iteration 0: log likelihood = -249.98826 Iteration 1: log likelihood = -229.29667 Iteration 2: log likelihood = -229.20659 Iteration 3: log likelihood = -229.20658 Probit regression Number of obs = 400 LR chi2(5) = 41.56 Prob > chi2 = 0.0000Log likelihood = -229.20658 Pseudo R2 = 0.0831------------------------------------------------------------------------------ admit | Coef. Std. Err. z P>|z| -------------+---------------------------------------------------------------- gre | .0013756 .0006489 2.12 0.034 .0001038 .0026473 gpa | .4777302 .1954625 2.44 0.015 .0946308 .8608297 | rank | 2 | -.4153992 .1953769 -2.13 0.033 -.7983308 -.0324675 3 | -.812138 .2085956 -3.89 0.000 -1.220978 -.4032981 4 | -.935899 .2456339 -3.81 0.000 -1.417333 -.4544654 | _cons | -2.386838 .6740879 -3.54 0.000 -3.708026 -1.065649------------------------------------------------------------------------------

  • In de bovenstaande uitvoer zien we eerst de iteratielog, die aangeeft hoe snel het model convergeerde. De log likelihood (-229,20658) kan worden gebruikt

    bij vergelijkingen van geneste modellen, maar daar laten we hier geen voorbeeld van zien.

  • Ook zien we bovenaan de uitvoer dat alle 400 waarnemingen in onze gegevensverzameling

    in de analyse zijn gebruikt (er zouden minder waarnemingen zijn gebruikt als

    van onze variabelen missing values hadden).

  • De likelihood ratio chi-kwadraat van 41,56 met een p-waarde van 0,0001 vertelt ons dat ons model als geheel statistisch significant is, dat wil zeggen dat het significant beter past dan een model zonder voorspellers.
  • In de tabel zien we de coëfficiënten, hun standaardfouten, de z-statistiek, bijbehorende p-waarden, en het 95%-betrouwbaarheidsinterval van de coëfficiënten. Zowel gre, gpa, als de drie indicatorvariabelen voor rang zijn statistisch significant. De probit regressiecoëfficiënten geven de verandering in de z-score of probit index voor een verandering van één eenheid in de voorspeller.
    • Voor een toename van één eenheid in gre, neemt de z-score toe met 0,001.
    • Voor elke toename van één eenheid in gpa, neemt de z-score toe met 0,478.
    • De indicatorvariabelen voor rang hebben een enigszins andere interpretatie. Als je bijvoorbeeld in een instelling met rang 2 hebt gezeten, tegenover een instelling met rang 1 (de referentiegroep), daalt de z-score met 0,415.

We kunnen met het testcommando nagaan of rang een algemeen effect heeft. Hieronder zien we dat het totale effect van rang statistisch significant is.

test 2.rank 3.rank 4.rank ( 1) 2.rank = 0 ( 2) 3.rank = 0 ( 3) 4.rank = 0 chi2( 3) = 21.32 Prob > chi2 = 0.0001

We kunnen ook aanvullende hypotheses testen over de verschillen in de coëfficiënten voor verschillende rangniveaus. Hieronder testen we dat de coëfficiënt voor rang=2 gelijk is aan de coëfficiënt voor rang=3.

test 2.rank = 3.rank ( 1) 2.rank - 3.rank = 0 chi2( 1) = 5.60 Prob > chi2 = 0.0179

U kunt ook voorspelde waarschijnlijkheden gebruiken om u te helpen het model te begrijpen. U kunt voorspelde kansen berekenen met het margins commando, dat werd geïntroduceerd in Stata 11. Hieronder gebruiken we het margins commando om de voorspelde kans op toelating te berekenen op elk rangniveau, waarbij alle andere variabelen in het model op hun gemiddelde worden gehouden. Voor meer informatie over het gebruik van het margins commando om voorspelde kansen te berekenen, zie onze paginaGebruik marges voor voorspelde kansen.

margins rank, atmeansAdjusted predictions Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()at : gre = 587.7 (mean) gpa = 3.3899 (mean) 1.rank = .1525 (mean) 2.rank = .3775 (mean) 3.rank = .3025 (mean) 4.rank = .1675 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- rank | 1 | .5163741 .0656201 7.87 0.000 .3877611 .6449871 2 | .3540742 .0394725 8.97 0.000 .2767096 .4314388 3 | .2203289 .0383674 5.74 0.000 .1451302 .2955277 4 | .1854353 .0487112 3.81 0.000 .0899631 .2809075------------------------------------------------------------------------------

In de bovenstaande uitvoer zien we dat de voorspelde kans om toegelaten te worden tot een graduate programma 0.52 is voor de meest prestigieuze undergraded studenten.52 is voor de hoogst genoteerde instellingen (rang 1), en 0,19 voor de laagst genoteerde instellingen (rang 4), waarbij Gre en Gpa op hun gemiddelde worden gehouden.

Hieronder genereren we de voorspelde kansen voor waarden van gre van 200 tot 800 in stappen van 100. Omdat we noch atmeans hebben gespecificeerd, noch at(…) hebben gebruikt om aan te geven op welke waarden de andere voorspellende variabelen worden gehouden, zijn de waarden in de tabel gemiddelde voorspelde kansen die zijn berekend met behulp van de steekproefwaarden van de andere voorspellende variabelen. Bijvoorbeeld, om de gemiddelde voorspelde kans te berekenen wanneer gre = 200, werd de voorspelde kans berekend voor elk geval, met de waarde van de rang en de gpa van dat geval, en gre op 200 gezet.

margins , at(gre=(200(100)800)) vsquishPredictive margins Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()1._at : gre = 2002._at : gre = 3003._at : gre = 4004._at : gre = 5005._at : gre = 6006._at : gre = 7007._at : gre = 800------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- _at | 1 | .1621325 .0621895 2.61 0.009 .0402434 .2840216 2 | .1956415 .053758 3.64 0.000 .0902777 .3010054 3 | .2330607 .0422138 5.52 0.000 .1503231 .3157983 4 | .2741667 .0293439 9.34 0.000 .2166537 .3316797 5 | .3185876 .0226349 14.08 0.000 .2742239 .3629512 6 | .365808 .0333436 10.97 0.000 .3004557 .4311603 7 | .4151847 .0541532 7.67 0.000 .3090463 .5213231------------------------------------------------------------------------------

In bovenstaande tabel kunnen we zien dat de gemiddelde voorspelde kans om aangenomen te worden slechts 0.16 is als iemands GRE-score 200 is en stijgt tot 0,42 als iemands GRE-score 800 is (gemiddelde over de steekproefwaarden van gpa en rang).

Het kan ook nuttig zijn om grafieken van voorspelde kansen te gebruiken om het model te begrijpen en/of te presenteren.

We willen misschien ook zien hoe goed ons model past. Dit kan vooral nuttig zijn bij het vergelijken van concurrerende modellen. Het door de gebruiker geschreven commando fitstat produceert een verscheidenheid aan fit-statistieken. U kunt meer informatie over fitstat vinden door te typensearch fitstat (zie Hoe kan ik het commando search gebruiken om naar programma’s te zoeken en extra hulp te krijgen? voor meer informatie over het gebruik van search).

fitstatMeasures of Fit for probit of admitLog-Lik Intercept Only: -249.988 Log-Lik Full Model: -229.207D(393): 458.413 LR(5): 41.563 Prob > LR: 0.000McFadden's R2: 0.083 McFadden's Adj R2: 0.055ML (Cox-Snell) R2: 0.099 Cragg-Uhler(Nagelkerke) R2: 0.138McKelvey & Zavoina's R2: 0.165 Efron's R2: 0.101Variance of y*: 1.197 Variance of error: 1.000Count R2: 0.710 Adj Count R2: 0.087AIC: 1.181 AIC*n: 472.413BIC: -1896.232 BIC': -11.606BIC used by Stata: 494.362 AIC used by Stata: 470.413

Dingen om rekening mee te houden

  • Lege cellen of kleine cellen: U moet controleren of er lege of kleine

    cellen zijn door een kruistabel te maken tussen categorische voorspellers en de uitkomstvariabele. Als een cel zeer weinig gevallen bevat (een kleine cel), kan het model instabiel worden of zelfs helemaal niet werken.

  • Scheiding of quasi-scheiding (ook wel perfecte voorspelling genoemd), een toestand waarin de uitkomst niet varieert op sommige niveaus van de onafhankelijke variabelen. Zie onze pagina FAQ: Wat is volledige of quasi-volledige scheiding in logistische/probit regressie en hoe gaan we ermee om? voor informatie over modellen met perfecte voorspelling.
  • Samplegrootte: Zowel probit- als logit-modellen vereisen meer gevallen dan OLS-regressie, omdat ze gebruikmaken van maximum likelihood-schattingstechnieken. Het is soms mogelijk om modellen voor binaire uitkomsten te schatten in datasets met slechts een klein aantal gevallen met behulp van exacte logistische regressie (met het commando exlogistic). Zie voor meer informatie ons voorbeeld van gegevensanalyse voor exacte logistische regressie. Het is ook belangrijk om in gedachten te houden dat wanneer de uitkomst zeldzaam is, zelfs als de totale dataset groot is, het moeilijk kan zijn om een probit-model te schatten.
  • Pseudo-R-kwadraat: Er bestaan veel verschillende maatstaven voor psuedo-R-kwadraat. Zij trachten alle informatie te verschaffen die vergelijkbaar is met die welke door R-kwadraat in OLS-regressie wordt verschaft; geen van hen kan echter precies zo worden geïnterpreteerd als R-kwadraat in OLS-regressie wordt geïnterpreteerd. Voor een bespreking van de verschillende pseudo-R-kwadraten, zie Long en Freese (2006) of onze FAQ-paginaWat zijn pseudo-R-kwadraten?
  • In Stata worden waarden van 0 behandeld als één niveau van de uitkomstvariabele,

    en alle andere niet-ontbrekende waarden worden behandeld als het tweede niveau van de uitkomst.

  • Diagnostiek: De diagnostiek voor probit-regressie is anders dan die voor OLS-regressie. De diagnostiek voor probit-modellen is vergelijkbaar met die voor logit-modellen. Voor een bespreking van de modeldiagnostiek voor logistische regressie, zie Hosmer en Lemeshow (2000, hoofdstuk 5).

Zie ook

  • Stata help voor probit
  • Geannoteerde uitvoer voor het probit commando
  • Stat Books for Loan, Logistic Regression and Limited Dependent Variables

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *