Regressão de Probit | Exemplos de análise de dados estatísticos

Version info: O código para esta página foi testado em Stata 12.

Regressão de Probit, também chamado modelo probit, é usado para modelar variáveis dicotómicas ou de resultados binários. No modelo probit, a distribuição normal inversa da probabilidade é modelada como uma combinação linear dos preditores.

P>Por favor note: O objectivo desta página é mostrar como usar vários comandos de análise de dados. Não cobre todos os aspectos do processo de investigação que se espera que os investigadores façam. Em particular, não cobre a limpeza e verificação de dados, verificação de pressupostos, diagnóstico de modelos e potenciais análises de seguimento.

Exemplos de regressão de probit

Exemplo 1: Suponha que estamos interessados nos factores que influenciam se um candidato político ganha uma eleição. A variável resultado (resposta) é binária (0/1); ganhar ou perder. As variáveis preditoras de interesse são a quantidade de dinheiro gasto na campanha, a quantidade de tempo gasto na campanha negativamente e se o candidato é um titular.

Exemplo 2: Um investigador está interessado em como variáveis, tais como o GRE (Graduate Record Examscore Score), GPA (grade point average) e o prestígio da instituição de graduação, afectam a admissão na escola de pós-graduação. A variável de resposta, admitir/não admitir, é uma variável binária.

Descrição dos dados

Para a nossa análise de dados abaixo, vamos expandir no Exemplo 2 sobre a entrada na escola de pós-graduação. Gerámos dados hipotéticos, que podem ser obtidos a partir do nosso website.

use https://stats.idre.ucla.edu/stat/stata/dae/binary.dta, clear

Este conjunto de dados tem uma variável de resposta binária (resultado, dependente) chamada admit.

Existem três preditores

variáveis: gre, gpa e rank. Vamos tratar as variáveis gre e gpa como contínuas. A classificação da variável é ordinal, assume os valores de 1 a 4. As instituições com uma classificação de 1 têm o maior prestígio, enquanto que as com uma classificação de 4 têm a mais baixa. Trataremos a classificação como categórica.

summarize gre gpa Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- gre | 400 587.7 115.5165 220 800 gpa | 400 3.3899 .3805668 2.26 4tab rank rank | Freq. Percent Cum.------------+----------------------------------- 1 | 61 15.25 15.25 2 | 151 37.75 53.00 3 | 121 30.25 83.25 4 | 67 16.75 100.00------------+----------------------------------- Total | 400 100.00tab admit admit | Freq. Percent Cum.------------+----------------------------------- 0 | 273 68.25 68.25 1 | 127 31.75 100.00------------+----------------------------------- Total | 400 100.00tab admit rank | rank admit | 1 2 3 4 | Total-----------+--------------------------------------------+---------- 0 | 28 97 93 55 | 273 1 | 33 54 28 12 | 127 -----------+--------------------------------------------+---------- Total | 61 151 121 67 | 400 

Métodos de análise que poderá considerar

Below é uma lista de alguns métodos de análise que poderá ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros ou caíram em desuso ou têm limitações.

  • Regressão de bits, o foco desta página.
  • Regressão logística. Um modelo logit produzirá resultados semelhantes

    regressão de bits. A escolha de probit versus logit depende largamente de

    preferências individuais.

  • regressão de LS. Quando usado com uma variável de resposta binária, este modelo é conhecido

    como um modelo de probabilidade linear e pode ser usado como uma forma de

    descrever probabilidades condicionais. Contudo, os erros (ou seja, resíduos) do modelo de probabilidade linear violam a homosquasticidade e

    normalidade dos pressupostos de erros de OLS

    regressão, resultando em erros padrão inválidos e testes de hipóteses. Para

    uma discussão mais aprofundada destes e de outros problemas com o modelo de probabilidade linear

    probabilidade, ver Long (1997, p. 38-40).

  • análise da função discriminante de dois grupos. Um método multivariado para variáveis de resultados dicotómicas.
  • Hotelling’s T2. O resultado 0/1 é transformado na variável de grupo

    , e os primeiros preditores são transformados em resultado

    variáveis. Isto produzirá um teste global de significância, mas não

    dará coeficientes individuais para cada variável, e não é claro até que ponto

    p> a que cada “preditor” é ajustado para o impacto do outro

    “preditores”

Regessão de probit

Below usamos o comando probit para estimar um modelo de regressão de probit. A i. antes da classificação indica que a classificação é uma variável factor (ou seja, variável categórica), e que deve ser incluída no modelo como uma série de variáveis indicadoras. Note-se que esta sintaxe foi introduzida no Stata 11.

probit admit gre gpa i.rank Iteration 0: log likelihood = -249.98826 Iteration 1: log likelihood = -229.29667 Iteration 2: log likelihood = -229.20659 Iteration 3: log likelihood = -229.20658 Probit regression Number of obs = 400 LR chi2(5) = 41.56 Prob > chi2 = 0.0000Log likelihood = -229.20658 Pseudo R2 = 0.0831------------------------------------------------------------------------------ admit | Coef. Std. Err. z P>|z| -------------+---------------------------------------------------------------- gre | .0013756 .0006489 2.12 0.034 .0001038 .0026473 gpa | .4777302 .1954625 2.44 0.015 .0946308 .8608297 | rank | 2 | -.4153992 .1953769 -2.13 0.033 -.7983308 -.0324675 3 | -.812138 .2085956 -3.89 0.000 -1.220978 -.4032981 4 | -.935899 .2456339 -3.81 0.000 -1.417333 -.4544654 | _cons | -2.386838 .6740879 -3.54 0.000 -3.708026 -1.065649------------------------------------------------------------------------------

  • Na saída acima, vemos primeiro o registo de iteração, indicando a rapidez com que o modelo convergiu. A probabilidade de log (-229.20658) pode ser utilizada

    nas comparações de modelos aninhados, mas não mostraremos um exemplo disso aqui.

  • também no topo do output vemos que todas as 400 observações do nosso conjunto de dados

    foram utilizadas na análise (menos observações teriam sido utilizadas se alguma

    das nossas variáveis tivesse valores em falta).

  • O rácio de probabilidade qui-quadrado de 41,56 com um valor p de 0,0001 diz-nos que o nosso modelo como um todo é estatisticamente significativo, ou seja, encaixa significativamente melhor do que um modelo sem preditores.
  • Na tabela vemos os coeficientes, os seus erros-padrão, os valores p associados a z-estatísticos, e o intervalo de confiança de 95% dos coeficientes. Tanto o gre, o gpa, como as três variáveis indicadoras para a classificação são estatisticamente significativas. Os coeficientes de regressão probit dão a alteração do z-score ou índice probit para uma alteração de uma unidade no preditor.
    • Para um aumento de uma unidade no gre, o z-score aumenta em 0,001,
    • Para cada aumento de uma unidade no gpa, o z-score aumenta em 0,478,
    • As variáveis indicadoras para a classificação têm uma interpretação ligeiramente diferente. Por exemplo, tendo frequentado uma instituição de graduação de grau 2, versus uma instituição com grau 1 (o grupo de referência), diminui o z-score em 0,415.

Podemos testar um efeito global de grau usando o comando de teste. Abaixo vemos que o efeito global da classificação é estatisticamente significativo.

test 2.rank 3.rank 4.rank ( 1) 2.rank = 0 ( 2) 3.rank = 0 ( 3) 4.rank = 0 chi2( 3) = 21.32 Prob > chi2 = 0.0001

Podemos também testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de classificação. Abaixo testamos que o coeficiente para rank=2 é igual ao coeficiente para rank=3.

test 2.rank = 3.rank ( 1) 2.rank - 3.rank = 0 chi2( 1) = 5.60 Prob > chi2 = 0.0179

Também podemos usar probabilidades previstas para ajudar a compreender o modelo. Pode calcular as probabilidades previstas usando o comando de margens, que foi introduzido no Stata 11. Abaixo usamos o comando de margens para calcular a probabilidade prevista de admissão em cada nível de classificação, mantendo todas as outras variáveis do modelo nas suas médias. Para mais informações sobre o uso do comando margens para calcular probabilidades previstas, ver a nossa páginaUsar margens para probabilidades previstas.

margins rank, atmeansAdjusted predictions Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()at : gre = 587.7 (mean) gpa = 3.3899 (mean) 1.rank = .1525 (mean) 2.rank = .3775 (mean) 3.rank = .3025 (mean) 4.rank = .1675 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- rank | 1 | .5163741 .0656201 7.87 0.000 .3877611 .6449871 2 | .3540742 .0394725 8.97 0.000 .2767096 .4314388 3 | .2203289 .0383674 5.74 0.000 .1451302 .2955277 4 | .1854353 .0487112 3.81 0.000 .0899631 .2809075------------------------------------------------------------------------------

Na saída acima vemos que a probabilidade prevista de ser aceite num programa de pós-graduação é 0.52 para as instituições de graduação de maior prestígio (rank=1), e 0,19 para as instituições de graduação de menor prestígio (rank=4), mantendo o gre e o gpa às suas posses.

Below geramos as probabilidades previstas para valores de gre de 200 a 800 em incrementos de 100. Uma vez que não especificámos nem os meios nem utilizámos em(…) para especificar os valores em que as outras variáveis preditoras são mantidas, os valores na tabela são probabilidades previstas médias calculadas utilizando os valores da amostra das outras variáveis preditoras. Por exemplo, para calcular a probabilidade média prevista quando gre = 200, a probabilidade prevista foi calculada para cada caso, usando o valor de rank e gpa desse caso, e definindo gre para 200.

margins , at(gre=(200(100)800)) vsquishPredictive margins Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()1._at : gre = 2002._at : gre = 3003._at : gre = 4004._at : gre = 5005._at : gre = 6006._at : gre = 7007._at : gre = 800------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- _at | 1 | .1621325 .0621895 2.61 0.009 .0402434 .2840216 2 | .1956415 .053758 3.64 0.000 .0902777 .3010054 3 | .2330607 .0422138 5.52 0.000 .1503231 .3157983 4 | .2741667 .0293439 9.34 0.000 .2166537 .3316797 5 | .3185876 .0226349 14.08 0.000 .2742239 .3629512 6 | .365808 .0333436 10.97 0.000 .3004557 .4311603 7 | .4151847 .0541532 7.67 0.000 .3090463 .5213231------------------------------------------------------------------------------

Na tabela acima podemos ver que a probabilidade média prevista de ser aceite é apenas 0.16 se a pontuação GRE de alguém for 200 e aumenta para 0,42 se a pontuação GRE de alguém for 800 (média entre os valores da amostra de gpa e classificação).

Também pode ser útil utilizar gráficos de probabilidades previstas para compreender e/ou apresentar o modelo.

Também podemos desejar ver medidas de quão bem o nosso modelo se encaixa. Isto pode ser particularmente útil na comparação de modelos concorrentes. O comando fitstat escrito pelo utilizador produz uma variedade de estatísticas de ajuste. Pode encontrar mais informação sobre fitstat escrevendo fitstat (ver Como posso usar o comando de pesquisa para procurar programas e obter ajuda adicional? para mais informação sobre a utilização da pesquisa).

fitstatMeasures of Fit for probit of admitLog-Lik Intercept Only: -249.988 Log-Lik Full Model: -229.207D(393): 458.413 LR(5): 41.563 Prob > LR: 0.000McFadden's R2: 0.083 McFadden's Adj R2: 0.055ML (Cox-Snell) R2: 0.099 Cragg-Uhler(Nagelkerke) R2: 0.138McKelvey & Zavoina's R2: 0.165 Efron's R2: 0.101Variance of y*: 1.197 Variance of error: 1.000Count R2: 0.710 Adj Count R2: 0.087AIC: 1.181 AIC*n: 472.413BIC: -1896.232 BIC': -11.606BIC used by Stata: 494.362 AIC used by Stata: 470.413

Coisas a considerar

  • Células grandes ou pequenas células: Deve verificar se há células vazias ou pequenas

    células, fazendo uma tabulação cruzada entre os preditores categóricos e a variável de resultado. Se uma célula tiver muito poucos casos (uma pequena célula), o modelo pode tornar-se instável ou pode não funcionar de todo.

  • Separação ou quase-separação (também chamada previsão perfeita), condição em que o resultado não varia em alguns níveis das variáveis independentes. Ver a nossa página FAQ: O que é separação completa ou quase completa na regressão logística/probit e como lidamos com eles? para informações sobre modelos com previsão perfeita.
  • Tamanho da amostra: Tanto os modelos probit como os logit requerem mais casos do que a regressão OLS porque utilizam técnicas de estimativa da máxima verosimilhança. É por vezes possível estimar modelos para resultados binários em conjuntos de dados com apenas um pequeno número de casos usando a regressão logística exacta (usando o comando exlogístico). Para mais informações, ver o nosso exemplo de análise de dados para uma regressão logística exacta. É também importante ter em mente que quando o resultado é raro, mesmo que o conjunto global de dados seja grande, pode ser difícil estimar um modelo probit.
  • Pseudo-R-quadrado: Existem muitas medidas diferentes de psuedo-R-quadrado. Todas elas tentam fornecer informações semelhantes às fornecidas pelo psuedo-R-quadrado na regressão OLS; contudo, nenhuma delas pode ser interpretada exactamente como R-quadrado na regressão OLS é interpretada. Para uma discussão de vários pseudo-R-quadrados ver Long e Freese (2006) ou a nossa página de perguntas frequentesO que são pseudo-R-quadrados?
  • Em Stata, valores de 0 são tratados como um nível da variável de resultado,

    e todos os outros valores não omissos são tratados como o segundo nível do resultado.

  • Diagnósticos: Os diagnósticos para a regressão probit são diferentes dos diagnósticos para a regressão OLS. Os diagnósticos para os modelos probit são semelhantes aos dos modelos logit. Para uma discussão do diagnóstico de modelos para regressão logística, ver Hosmer e Lemeshow (2000, Capítulo 5).

Veja também

  • Ajuda para probit
  • Saída anotada para o comando probit
  • Livros de estatísticas para empréstimo, regressão logística e variáveis dependentes limitadas

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *