Regresión Probit | Ejemplos de análisis de datos en Stata

Información de la versión: El código de esta página fue probado en Stata 12.

La regresión probit, también llamada modelo probit, se utiliza para modelar variables de resultado dicotómicas o binarias. En el modelo probit, la distribución normal inversa de la probabilidad se modela como una combinación lineal de los predictores.

Nota: El propósito de esta página es mostrar cómo utilizar varios comandos de análisis de datos.No cubre todos los aspectos del proceso de investigación que se espera que los investigadores hagan. En particular, no cubre la limpieza y comprobación de los datos, la verificación de los supuestos, los diagnósticos del modelo y los posibles análisis de seguimiento.

Ejemplos de regresión probit

Ejemplo 1: Supongamos que estamos interesados en los factores que influyen en que un candidato político gane unas elecciones. La variable de resultado (respuesta) es binaria (0/1); ganar o perder. Las variables predictoras de interés son la cantidad de dinero gastado en la campaña, la cantidad de tiempo dedicado a la campaña negativamente y si el candidato es un titular.

Ejemplo 2: Un investigador está interesado en cómo las variables, como las puntuaciones del GRE (Graduate Record Exam), el GPA (promedio de notas) y el prestigio de la institución de pregrado, afectan a la admisión en la escuela de posgrado. La variable de respuesta, admitir/no admitir, es una variable binaria.

Descripción de los datos

Para nuestro análisis de datos a continuación, vamos a ampliar el Ejemplo 2 sobre la admisión en la escuela de posgrado. Hemos generado datos hipotéticos, que se pueden obtener en nuestra página web.

use https://stats.idre.ucla.edu/stat/stata/dae/binary.dta, clear

Este conjunto de datos tiene una variable de respuesta binaria (resultado, dependiente) llamada admitir.

Hay tres variables predictoras

: gre, gpa y rango. Trataremos las variables gre y gpa como continuas. La variable rango es ordinal, toma los valores de 1 a 4. Las instituciones con un rango de 1 tienen el mayor prestigio, mientras que las que tienen un rango de 4 tienen el menor. Trataremos el rango como categórico.

summarize gre gpa Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- gre | 400 587.7 115.5165 220 800 gpa | 400 3.3899 .3805668 2.26 4tab rank rank | Freq. Percent Cum.------------+----------------------------------- 1 | 61 15.25 15.25 2 | 151 37.75 53.00 3 | 121 30.25 83.25 4 | 67 16.75 100.00------------+----------------------------------- Total | 400 100.00tab admit admit | Freq. Percent Cum.------------+----------------------------------- 0 | 273 68.25 68.25 1 | 127 31.75 100.00------------+----------------------------------- Total | 400 100.00tab admit rank | rank admit | 1 2 3 4 | Total-----------+--------------------------------------------+---------- 0 | 28 97 93 55 | 273 1 | 33 54 28 12 | 127 -----------+--------------------------------------------+---------- Total | 61 151 121 67 | 400 

Métodos de análisis que puede considerar

A continuación se presenta una lista de algunos métodos de análisis que puede encontrar. Algunos de los métodos enumerados son bastante razonables mientras que otros han caído en desgracia o tienen limitaciones.

  • Regresión Probit, el enfoque de esta página.
  • Regresión Logística. Un modelo logit producirá resultados similares

    a la regresión probit. La elección de probit frente a logit depende en gran medida de las preferencias

    individuales.

  • Regresión OLS. Cuando se utiliza con una variable de respuesta binaria, este modelo se conoce

    como un modelo de probabilidad lineal y puede utilizarse como una forma de

    describir las probabilidades condicionales. Sin embargo, los errores (es decir, los residuos) del modelo de probabilidad lineal violan los supuestos de homocedasticidad y

    normalidad de los errores de la

    regresión OLS

    , lo que da lugar a errores estándar y pruebas de hipótesis no válidos. Para

    una discusión más profunda de estos y otros problemas con el modelo de

    probabilidad lineal, véase Long (1997, p. 38-40).

  • Análisis de función discriminante de dos grupos. Un método multivariante para variables de resultado dicotómicas.
  • La T2 de Hotelling. El resultado 0/1 se convierte en la

    variable de agrupación, y los predictores anteriores se convierten en variables de resultado

    . Esto producirá una prueba global de significación pero no

    dará coeficientes individuales para cada variable, y no está claro hasta qué punto

    se ajusta cada «predictor» por el impacto de los otros

    «predictores».

  • Regresión probit

    A continuación utilizamos el comando probit para estimar un modelo de regresión probit. La i. antes de rango indica que el rango es una variable factorial (es decir, categórica), y que debe incluirse en el modelo como una serie de variables indicadoras. Tenga en cuenta que esta sintaxis se introdujo en Stata 11.

    probit admit gre gpa i.rank Iteration 0: log likelihood = -249.98826 Iteration 1: log likelihood = -229.29667 Iteration 2: log likelihood = -229.20659 Iteration 3: log likelihood = -229.20658 Probit regression Number of obs = 400 LR chi2(5) = 41.56 Prob > chi2 = 0.0000Log likelihood = -229.20658 Pseudo R2 = 0.0831------------------------------------------------------------------------------ admit | Coef. Std. Err. z P>|z| -------------+---------------------------------------------------------------- gre | .0013756 .0006489 2.12 0.034 .0001038 .0026473 gpa | .4777302 .1954625 2.44 0.015 .0946308 .8608297 | rank | 2 | -.4153992 .1953769 -2.13 0.033 -.7983308 -.0324675 3 | -.812138 .2085956 -3.89 0.000 -1.220978 -.4032981 4 | -.935899 .2456339 -3.81 0.000 -1.417333 -.4544654 | _cons | -2.386838 .6740879 -3.54 0.000 -3.708026 -1.065649------------------------------------------------------------------------------
    • En la salida anterior, primero vemos el registro de iteración, que indica la rapidez con la que el modelo converge. El log de verosimilitud (-229,20658) puede utilizarse

      en comparaciones de modelos anidados, pero no mostraremos un ejemplo de ello aquí.

    • También en la parte superior de la salida vemos que las 400 observaciones de nuestro conjunto de datos

      se utilizaron en el análisis (se habrían utilizado menos observaciones si alguna

      de nuestras variables tuviera valores perdidos).

    • La razón de verosimilitud chi-cuadrado de 41,56 con un valor p de 0,0001 nos dice que nuestro modelo en su conjunto es estadísticamente significativo, es decir, se ajusta significativamente mejor que un modelo sin predictores.
    • En la tabla vemos los coeficientes, sus errores estándar, el estadístico z, los valores p asociados y el intervalo de confianza del 95% de los coeficientes. Tanto el gre como el gpa y las tres variables indicadoras del rango son estadísticamente significativas. Los coeficientes de regresión probit dan el cambio en la puntuación z o índice probit para un cambio de una unidad en el predictor.
      • Por un aumento de una unidad en gre, la puntuación z aumenta en 0,001.
      • Por cada aumento de una unidad en gpa, la puntuación z aumenta en 0,478.
      • Las variables indicadoras de rango tienen una interpretación ligeramente diferente. Por ejemplo, haber asistido a una institución de pregrado de rango 2, frente a una institución de rango 1 (el grupo de referencia), disminuye la puntuación z en 0,415.
      • Podemos probar un efecto global del rango utilizando el comando test. A continuación vemos que el efecto global del rango es estadísticamente significativo.

        test 2.rank 3.rank 4.rank ( 1) 2.rank = 0 ( 2) 3.rank = 0 ( 3) 4.rank = 0 chi2( 3) = 21.32 Prob > chi2 = 0.0001

        También podemos probar hipótesis adicionales sobre las diferencias en los coeficientes para diferentes niveles de rango. A continuación probamos que el coeficiente para el rango=2 es igual al coeficiente para el rango=3.

        test 2.rank = 3.rank ( 1) 2.rank - 3.rank = 0 chi2( 1) = 5.60 Prob > chi2 = 0.0179

        También puedes utilizar las probabilidades predichas para ayudarte a entender el modelo. Puede calcular las probabilidades predichas utilizando el comando márgenes, que se introdujo en Stata 11. A continuación utilizamos el comando de márgenes para calcular la probabilidad predicha de admisión en cada nivel de rango, manteniendo todas las demás variables del modelo en sus medias. Para obtener más información sobre el uso del comando margins para calcular las probabilidades predichas, consulte nuestra páginaUsing margins for predicted probabilities.

        margins rank, atmeansAdjusted predictions Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()at : gre = 587.7 (mean) gpa = 3.3899 (mean) 1.rank = .1525 (mean) 2.rank = .3775 (mean) 3.rank = .3025 (mean) 4.rank = .1675 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- rank | 1 | .5163741 .0656201 7.87 0.000 .3877611 .6449871 2 | .3540742 .0394725 8.97 0.000 .2767096 .4314388 3 | .2203289 .0383674 5.74 0.000 .1451302 .2955277 4 | .1854353 .0487112 3.81 0.000 .0899631 .2809075------------------------------------------------------------------------------

        En la salida anterior vemos que la probabilidad predicha de ser aceptado en un programa de posgrado es de 0.52 para las instituciones de pregrado de mayor prestigio (rango=1), y 0,19 para las instituciones de menor rango (rango=4), manteniendo el gre y el gpa en sus medias.

        A continuación generamos las probabilidades previstas para valores de gre de 200 a 800 en incrementos de 100. Dado que no hemos especificado atmeans ni hemos utilizado at(…) para especificar los valores a los que se mantienen las otras variables predictoras, los valores de la tabla son probabilidades predichas medias calculadas utilizando los valores de muestra de las otras variables predictoras. Por ejemplo, para calcular la probabilidad media predicha cuando gre = 200, se calculó la probabilidad predicha para cada caso, utilizando el valor de rango y gpa de ese caso, y estableciendo gre en 200.

        margins , at(gre=(200(100)800)) vsquishPredictive margins Number of obs = 400Model VCE : OIMExpression : Pr(admit), predict()1._at : gre = 2002._at : gre = 3003._at : gre = 4004._at : gre = 5005._at : gre = 6006._at : gre = 7007._at : gre = 800------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- _at | 1 | .1621325 .0621895 2.61 0.009 .0402434 .2840216 2 | .1956415 .053758 3.64 0.000 .0902777 .3010054 3 | .2330607 .0422138 5.52 0.000 .1503231 .3157983 4 | .2741667 .0293439 9.34 0.000 .2166537 .3316797 5 | .3185876 .0226349 14.08 0.000 .2742239 .3629512 6 | .365808 .0333436 10.97 0.000 .3004557 .4311603 7 | .4151847 .0541532 7.67 0.000 .3090463 .5213231------------------------------------------------------------------------------

        En la tabla anterior podemos ver que la probabilidad media predicha de ser aceptado es sólo de 0.16 si la puntuación del GRE es de 200 y aumenta a 0,42 si la puntuación del GRE es de 800 (promediando los valores de la muestra de gpa y rango).

        También puede ser útil utilizar gráficos de probabilidades predichas para entender y/o presentar el modelo.

        También podemos querer ver medidas de lo bien que se ajusta nuestro modelo. Esto puede ser especialmente útil cuando se comparan modelos que compiten entre sí. El comando escrito por el usuario fitstat produce una variedad de estadísticas de ajuste. Puede encontrar más información sobre fitstat escribiendo search fitstat (consulte ¿Cómo puedo utilizar el comando search para buscar programas y obtener ayuda adicional? para obtener más información sobre el uso de search).

        fitstatMeasures of Fit for probit of admitLog-Lik Intercept Only: -249.988 Log-Lik Full Model: -229.207D(393): 458.413 LR(5): 41.563 Prob > LR: 0.000McFadden's R2: 0.083 McFadden's Adj R2: 0.055ML (Cox-Snell) R2: 0.099 Cragg-Uhler(Nagelkerke) R2: 0.138McKelvey & Zavoina's R2: 0.165 Efron's R2: 0.101Variance of y*: 1.197 Variance of error: 1.000Count R2: 0.710 Adj Count R2: 0.087AIC: 1.181 AIC*n: 472.413BIC: -1896.232 BIC': -11.606BIC used by Stata: 494.362 AIC used by Stata: 470.413

        Cosas a tener en cuenta

        • Celdas vacías o pequeñas: Debe comprobar si hay celdas vacías o pequeñas

          haciendo una tabulación cruzada entre los predictores categóricos y la variable de resultado. Si una celda tiene muy pocos casos (una celda pequeña), el modelo puede volverse inestable o podría no ejecutarse en absoluto.

        • Separación o cuasi-separación (también llamada predicción perfecta), una condición en la que el resultado no varía en algunos niveles de las variables independientes. Consulte nuestra página de preguntas frecuentes: ¿Qué es la separación completa o cuasi-completa en la regresión logística/probit y cómo las tratamos? para obtener información sobre los modelos con predicción perfecta.
        • Tamaño de la muestra: Tanto los modelos probit como logit requieren más casos que la regresión OLS porque utilizan técnicas de estimación de máxima verosimilitud. A veces es posible estimar modelos para resultados binarios en conjuntos de datos con sólo un pequeño número de casos utilizando la regresión logística exacta (utilizando el comando exlogistic). Para más información, consulte nuestro ejemplo de análisis de datos para la regresión logística exacta. También es importante tener en cuenta que cuando el resultado es raro, incluso si el conjunto de datos global es grande, puede ser difícil estimar un modelo probit.
        • Pseudo-R-cuadrado: Existen muchas medidas diferentes de psuedo-R-cuadrado. Todas ellas intentan proporcionar información similar a la proporcionada por R-cuadrado en la regresión OLS; sin embargo, ninguna de ellas puede interpretarse exactamente como se interpreta R-cuadrado en la regresión OLS. Para un análisis de varias pseudo R-cuadradas, véase Long y Freese (2006) o nuestra página de preguntas frecuentes¿Qué son las pseudo R-cuadradas?
        • En Stata, los valores de 0 se tratan como un nivel de la variable de resultado,

          y todos los demás valores no ausentes se tratan como el segundo nivel del resultado.

        • Diagnósticos: Los diagnósticos para la regresión probit son diferentes a los de la regresión OLS. Los diagnósticos para los modelos probit son similares a los de los modelos logit. Para una discusión de los diagnósticos del modelo para la regresión logística, véase Hosmer y Lemeshow (2000, Capítulo 5).

        Vea también

        • Ayuda de Stata para probit
        • Salida anotada para el comando probit
        • Libros de estadísticas para Préstamo, Regresión Logística y Variables Dependientes Limitadas

        .

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *