Informazioni sulla versione: Il codice di questa pagina è stato testato in Stata 12.
La regressione probit, chiamata anche modello probit, è usata per modellare variabili di risultato dicotomiche o binarie. Nel modello probit, la distribuzione normale standard inversa della probabilità è modellata come una combinazione lineare dei predittori.
Nota: Lo scopo di questa pagina è di mostrare come usare vari comandi di analisi dei dati e non copre tutti gli aspetti del processo di ricerca che i ricercatori devono fare. In particolare, non copre la pulizia e il controllo dei dati, la verifica delle ipotesi, la diagnostica dei modelli e le potenziali analisi di follow-up.
Esempi di regressione probit
Esempio 1: Supponiamo di essere interessati ai fattori che influenzano la vittoria di un candidato politico alle elezioni. La variabile di risultato (risposta) è binaria (0/1); vincere o perdere. Le variabili predittive di interesse sono la quantità di denaro speso per la campagna, la quantità di tempo speso negativamente per la campagna e se il candidato è in carica.
Esempio 2: Un ricercatore è interessato a come le variabili, come il GRE (Graduate Record Exam score), il GPA (grade point average) e il prestigio dell’istituzione universitaria, influenzino l’ammissione alla scuola di specializzazione. La variabile di risposta, ammettere/non ammettere, è una variabile binaria.
Descrizione dei dati
Per la nostra analisi dei dati qui sotto, ci espanderemo sull’esempio 2 sull’ammissione alla scuola di specializzazione. Abbiamo generato dei dati ipotetici, che possono essere ottenuti dal nostro sito web.
use https://stats.idre.ucla.edu/stat/stata/dae/binary.dta, clear
Questa serie di dati ha una variabile di risposta binaria (risultato, dipendente) chiamata ammissione.
Ci sono tre predittori
variabili: gre, gpa e rank. Tratteremo le variabili gre e gpa come continue. La variabile rank è ordinale, assume i valori da 1 a 4. Le istituzioni con un rango di 1 hanno il più alto prestigio, mentre quelle con un rango di 4 hanno il più basso. Tratteremo il rango come categorico.
summarize gre gpa Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- gre | 400 587.7 115.5165 220 800 gpa | 400 3.3899 .3805668 2.26 4tab rank rank | Freq. Percent Cum.------------+----------------------------------- 1 | 61 15.25 15.25 2 | 151 37.75 53.00 3 | 121 30.25 83.25 4 | 67 16.75 100.00------------+----------------------------------- Total | 400 100.00tab admit admit | Freq. Percent Cum.------------+----------------------------------- 0 | 273 68.25 68.25 1 | 127 31.75 100.00------------+----------------------------------- Total | 400 100.00tab admit rank | rank admit | 1 2 3 4 | Total-----------+--------------------------------------------+---------- 0 | 28 97 93 55 | 273 1 | 33 54 28 12 | 127 -----------+--------------------------------------------+---------- Total | 61 151 121 67 | 400
Metodi di analisi che potresti considerare
Di seguito una lista di alcuni metodi di analisi che potresti aver incontrato. Alcuni dei metodi elencati sono abbastanza ragionevoli, mentre altri sono caduti in disgrazia o hanno delle limitazioni.
- La regressione probit, l’obiettivo di questa pagina.
- La regressione logistica. Un modello logit produrrà risultati simili
alla regressione probit. La scelta del probit rispetto al logit dipende in gran parte dalle preferenze
individuali.
- RegressioneOLS. Quando viene usato con una variabile di risposta binaria, questo modello è conosciuto
come un modello di probabilità lineare e può essere usato come un modo per
descrivere le probabilità condizionali. Tuttavia, gli errori (cioè i residui) del modello di probabilità lineare violano le ipotesi di omoskedasticità e
normalità degli errori della regressione OLS
, dando luogo a errori standard e test di ipotesi non validi. Per
una discussione più approfondita di questi e altri problemi con il modello di
probabilità lineare, vedere Long (1997, p. 38-40).
- Analisi della funzione discriminante a due gruppi. Un metodo multivariato per variabili di risultato dicotomiche.
- T2 di Hotelling. L’esito 0/1 viene trasformato nella variabile di
gruppo, e i predittori precedenti vengono trasformati in variabili di esito
. Questo produrrà un test complessivo di significatività ma non
darà coefficienti individuali per ogni variabile, e non è chiaro in che misura
in cui ogni “predittore” è aggiustato per l’impatto degli altri
“predittori”.
Regressione probit
Di seguito usiamo il comando probit per stimare un modello di regressione probit. La i. prima di rank indica che il rank è una variabile fattore (cioè, una variabile categorica), e che dovrebbe essere inclusa nel modello come una serie di variabili indicatrici. Si noti che questa sintassi è stata introdotta in Stata 11.
probit admit gre gpa i.rank Iteration 0: log likelihood = -249.98826 Iteration 1: log likelihood = -229.29667 Iteration 2: log likelihood = -229.20659 Iteration 3: log likelihood = -229.20658 Probit regression Number of obs = 400 LR chi2(5) = 41.56 Prob > chi2 = 0.0000Log likelihood = -229.20658 Pseudo R2 = 0.0831------------------------------------------------------------------------------ admit | Coef. Std. Err. z P>|z| -------------+---------------------------------------------------------------- gre | .0013756 .0006489 2.12 0.034 .0001038 .0026473 gpa | .4777302 .1954625 2.44 0.015 .0946308 .8608297 | rank | 2 | -.4153992 .1953769 -2.13 0.033 -.7983308 -.0324675 3 | -.812138 .2085956 -3.89 0.000 -1.220978 -.4032981 4 | -.935899 .2456339 -3.81 0.000 -1.417333 -.4544654 | _cons | -2.386838 .6740879 -3.54 0.000 -3.708026 -1.065649------------------------------------------------------------------------------
- Nell’output sopra, vediamo prima il log di iterazione, che indica quanto velocemente il modello converge. Il log della verosimiglianza (-229.20658) può essere usato
nei confronti dei modelli annidati, ma non ne mostreremo un esempio qui.
- Anche in cima all’output vediamo che tutte le 400 osservazioni del nostro set di dati
sono state usate nell’analisi (meno osservazioni sarebbero state usate se qualcuna
delle nostre variabili avesse valori mancanti).
- Il likelihood ratio chi-square di 41.56 con un p-value di 0.0001 ci dice che il nostro modello nel suo complesso è statisticamente significativo, cioè si adatta significativamente meglio di un modello senza predittori.
- Nella tabella vediamo i coefficienti, i loro errori standard, la statistica z, i p-valori associati e l’intervallo di confidenza al 95% dei coefficienti. Sia il gre, il gpa, e le tre variabili indicatrici del rank sono statisticamente significative. I coefficienti di regressione probit danno il cambiamento nello z-score o nell’indice probit per un cambiamento di una unità nel predittore.
- Per un aumento di una unità nel gre, lo z-score aumenta di 0,001.
- Per ogni aumento di una unità nella gpa, lo z-score aumenta di 0,478.
- Le variabili indicatore per il rango hanno un’interpretazione leggermente diversa. Per esempio, aver frequentato un istituto universitario di grado 2, rispetto a un istituto di grado 1 (il gruppo di riferimento), diminuisce lo z-score di 0,415.
Possiamo verificare un effetto complessivo del grado usando il comando test. Qui sotto vediamo che l’effetto complessivo del rango è statisticamente significativo.
test 2.rank 3.rank 4.rank ( 1) 2.rank = 0 ( 2) 3.rank = 0 ( 3) 4.rank = 0 chi2( 3) = 21.32 Prob > chi2 = 0.0001
Possiamo anche testare ulteriori ipotesi sulle differenze nei coefficienti per diversi livelli di rango. Di seguito testiamo che il coefficiente per rank=2 è uguale al coefficiente per rank=3.
test 2.rank = 3.rank ( 1) 2.rank - 3.rank = 0 chi2( 1) = 5.60 Prob > chi2 = 0.0179
Potete anche utilizzare le probabilità previste per aiutarvi a capire il modello. Potete calcolare le probabilità previste usando il comando margini, che è stato introdotto in Stata 11. Di seguito usiamo il comando margini per calcolare la probabilità prevista di ammissione ad ogni livello di rango, mantenendo tutte le altre variabili nel modello alle loro medie. Per maggiori informazioni sull’uso del comando margini per calcolare le probabilità previste, vedere la nostra paginaUsing margins for predicted probabilities.
margins rank, atmeansAdjusted predictions Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()at : gre = 587.7 (mean) gpa = 3.3899 (mean) 1.rank = .1525 (mean) 2.rank = .3775 (mean) 3.rank = .3025 (mean) 4.rank = .1675 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- rank | 1 | .5163741 .0656201 7.87 0.000 .3877611 .6449871 2 | .3540742 .0394725 8.97 0.000 .2767096 .4314388 3 | .2203289 .0383674 5.74 0.000 .1451302 .2955277 4 | .1854353 .0487112 3.81 0.000 .0899631 .2809075------------------------------------------------------------------------------
Nell’output precedente vediamo che la probabilità prevista di essere accettati in un programma di laurea è 0.52 per le istituzioni universitarie di maggior prestigio (rank=1), e 0.19 per le istituzioni di rango più basso (rank=4), tenendo gre e gpa alle loro medie.
Di seguito generiamo le probabilità previste per valori di gre da 200 a 800 in incrementi di 100. Poiché non abbiamo specificato né atmeans né abbiamo usato at(…) per specificare i valori a cui sono tenute le altre variabili predittrici, i valori nella tabella sono probabilità medie predette calcolate usando i valori campione delle altre variabili predittrici. Per esempio, per calcolare la probabilità media prevista quando gre = 200, la probabilità prevista è stata calcolata per ogni caso, usando il valore di rank e gpa di quel caso, e impostando gre a 200.
margins , at(gre=(200(100)800)) vsquishPredictive margins Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()1._at : gre = 2002._at : gre = 3003._at : gre = 4004._at : gre = 5005._at : gre = 6006._at : gre = 7007._at : gre = 800------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- _at | 1 | .1621325 .0621895 2.61 0.009 .0402434 .2840216 2 | .1956415 .053758 3.64 0.000 .0902777 .3010054 3 | .2330607 .0422138 5.52 0.000 .1503231 .3157983 4 | .2741667 .0293439 9.34 0.000 .2166537 .3316797 5 | .3185876 .0226349 14.08 0.000 .2742239 .3629512 6 | .365808 .0333436 10.97 0.000 .3004557 .4311603 7 | .4151847 .0541532 7.67 0.000 .3090463 .5213231------------------------------------------------------------------------------
Nella tabella sopra possiamo vedere che la probabilità media prevista di essere accettati è solo 0.16 se il punteggio GRE è 200 e aumenta a 0,42 se il punteggio GRE è 800 (facendo la media tra i valori del campione di gpa e rank).
Può anche essere utile usare i grafici delle probabilità previste per capire e/o presentare il modello.
Possiamo anche voler vedere le misure di quanto bene il nostro modello si adatti. Questo può essere particolarmente utile quando si confrontano modelli concorrenti. Il comando scritto dall’utente fitstat produce una varietà di statistiche di adattamento. Potete trovare maggiori informazioni su fitstat digitandosearch fitstat (si veda Come posso usare il comando search per cercare programmi e ottenere ulteriore aiuto? per maggiori informazioni sull’uso di search).
fitstatMeasures of Fit for probit of admitLog-Lik Intercept Only: -249.988 Log-Lik Full Model: -229.207D(393): 458.413 LR(5): 41.563 Prob > LR: 0.000McFadden's R2: 0.083 McFadden's Adj R2: 0.055ML (Cox-Snell) R2: 0.099 Cragg-Uhler(Nagelkerke) R2: 0.138McKelvey & Zavoina's R2: 0.165 Efron's R2: 0.101Variance of y*: 1.197 Variance of error: 1.000Count R2: 0.710 Adj Count R2: 0.087AIC: 1.181 AIC*n: 472.413BIC: -1896.232 BIC': -11.606BIC used by Stata: 494.362 AIC used by Stata: 470.413
Cose da considerare
- Celle vuote o piccole: Dovreste controllare se ci sono celle vuote o piccole
facendo una tabella incrociata tra i predittori categorici e la variabile di risultato. Se una cella ha pochi casi (una cella piccola), il modello potrebbe diventare instabile o non funzionare affatto.
- Separazione o quasi-separazione (chiamata anche predizione perfetta), una condizione in cui il risultato non varia ad alcuni livelli delle variabili indipendenti. Vedi la nostra pagina FAQ: Cos’è la separazione completa o quasi completa nella regressione logistica/probit e come la gestiamo? per informazioni sui modelli con previsione perfetta.
- Dimensione del campione: Sia i modelli probit che logit richiedono più casi rispetto alla regressione OLS perché utilizzano tecniche di stima della massima verosimiglianza. A volte è possibile stimare modelli per risultati binari in serie di dati con solo un piccolo numero di casi usando la regressione logistica esatta (usando il comando exlogistic). Per maggiori informazioni vedi il nostro esempio di analisi dei dati per la regressione logistica esatta. E’ anche importante tenere a mente che quando il risultato è raro, anche se il dataset complessivo è grande, può essere difficile stimare un modello probit.
- Pseudo-R-squared: Esistono molte misure diverse di psuedo-R-squared. Tutte tentano di fornire informazioni simili a quelle fornite dall’R-quadro nella regressione OLS; tuttavia, nessuna di esse può essere interpretata esattamente come viene interpretato l’R-quadro nella regressione OLS. Per una discussione dei vari pseudo-quadri R si veda Long e Freese (2006) o la nostra pagina FAQChe cosa sono gli pseudo-quadri R?
- In Stata, i valori di 0 sono trattati come un livello della variabile di risultato,
e tutti gli altri valori non mancanti sono trattati come il secondo livello del risultato.
- Diagnostica: La diagnostica della regressione probit è diversa da quella della regressione OLS. La diagnostica dei modelli probit è simile a quella dei modelli logit. Per una discussione sulla diagnostica dei modelli di regressione logistica, vedere Hosmer e Lemeshow (2000, capitolo 5).
Vedi anche
- Aiuto diStata per probit
- Output commentato per il comando probit
- Libri statici per prestito, regressione logistica e variabili dipendenti limitate