El MBI ha informado de gran parte del discurso actual de la política de salud de EE.UU. en torno a la crisis del burnout de los médicos y sigue siendo la evaluación de resultados más utilizada para supervisar la prevalencia del burnout de los médicos a nivel organizativo y nacional. Sin embargo, hasta donde sabemos, ningún estudio ha utilizado la TRI para mejorar lo que se sabe sobre sus propiedades psicométricas en una muestra nacional de médicos. En este estudio, utilizamos la TRI para comprender mejor el significado y la precisión de las puntuaciones de las subescalas del MBI en los médicos estadounidenses. Después de calibrar cada subescala del MBI, describimos la gravedad de los síntomas de burnout representada por cada ítem de la subescala; creamos perfiles de respuesta que describen la probabilidad de que un médico de EE.UU. apoye cada ítem con una frecuencia de una vez a la semana o más a través de las puntuaciones estandarizadas de la subescala basada en la TRI; y asignamos las puntuaciones de la subescala basada en la TRI a las puntuaciones brutas de la subescala del MBI. Como ejemplo de su utilidad, utilizamos los cruces y los perfiles de respuesta para interpretar el significado de las puntuaciones medias y los puntos de corte comúnmente utilizados para definir los resultados dicotómicos de EE, DP y PA. Estos cruces también se pueden utilizar para comparar las puntuaciones de los grupos (y para la subescala de EE, de los individuos) en cada métrica en relación con el nivel medio de cada constructo en una población de referencia de médicos de EE.UU.
Este análisis reveló varios hallazgos importantes con respecto a la carga de síntomas de burnout experimentada por el médico medio de EE y representada por los puntos de corte comúnmente utilizados. Es probable que el médico estadounidense promedio experimente varios síntomas de EE una vez por semana o más, incluyendo el sentirse emocionalmente agotado, usado, frustrado y trabajando demasiado debido al trabajo; es poco probable que experimente algún síntoma de DP una vez por semana o más; y es probable que experimente todos los indicadores de PA una vez por semana o más. En los respectivos puntos de corte de EE, DP y PA de 27, 10 y 33, es probable que un médico respalde los mismos síntomas de EE que experimenta un médico con una puntuación media y es poco probable que informe de que se siente quemado por el trabajo una vez por semana o más; es poco probable que experimente cualquier síntoma de DP una vez por semana o más (o incluso «unas cuantas veces al mes» o más); y es probable que experimente la mayoría de los indicadores de PA (incluyendo el sentirse realizado) una vez por semana o más. Si la aprobación de un médico de los síntomas particulares en cada subescala es fundamental para las definiciones de los resultados dicotómicos de EE, DP y AF, entonces nuestros perfiles de respuesta se pueden utilizar para definir los puntos de corte de la puntuación bruta en la que los médicos probablemente informan de una EE particular, DP y baja carga de AF. Por ejemplo, si sentirse «quemado por el trabajo», sentir ≥ 1 síntoma de DP, y no sentirse realizado profesionalmente al menos una vez a la semana son fundamentales para las definiciones de los resultados dicotómicos de EE, DP, y PA, respectivamente, entonces nuestros resultados sugieren que los puntos de corte de puntuación bruta de ≥ 31, ≥ 14, y ≤ 29 deben ser utilizados en las respectivas subescalas de EE, DP, y PA. Estos puntos de corte se corresponden con la puntuación en la que un médico tendría > 50% de posibilidades de refrendar que se siente quemado y ≥ 1 síntoma de DP y < 50% de posibilidades de refrendar que se siente realizado en el trabajo una vez por semana o más. Estos puntos de corte también se corresponden con niveles de EE, DP y PA que están 0,27 DE por encima, 0,78 DE por encima y – 1,22 DE por debajo de la media de los médicos estadounidenses, respectivamente. Es importante destacar que, utilizando una definición de puntuaciones altas en las subescalas de EE y/o DP para definir el burnout, el uso de estos puntos de corte referidos al contenido reduciría la prevalencia nacional de burnout de los médicos del 54,4% a aproximadamente el 43,3% (2709/6474) en 2014 .
Nuestros análisis de los anchos de banda de precisión del MBI demostraron que cada subescala evalúa la mayoría de las puntuaciones de los médicos con una fiabilidad ≥ 0,70. Sin embargo, las subescalas de EE y DP carecen de la precisión adecuada para evaluar las puntuaciones de los médicos que informan de los niveles más altos de EE y DP en cada métrica. El análisis de la escala de AF también reveló que esta escala es más precisa para evaluar los niveles de AF por debajo de la media (posiblemente donde la precisión es más importante dado que la baja AF es un síntoma de agotamiento) y carece de precisión para evaluar los niveles de AF por encima de la media. Además, mientras que los investigadores han declarado que el MBI puede ser utilizado para la medición de resultados a nivel individual, sólo la subescala de EE mostró una fiabilidad adecuada para la medición a nivel individual. Estos resultados ponen de manifiesto que cada métrica no mide las puntuaciones de todos los médicos con la misma precisión – fuera del rango de puntuación que posee una fiabilidad ≥ 0,70 y ≥ 0,90, estas escalas tienen una precisión inadecuada para evaluar las diferencias entre grupos y dentro de los individuos, respectivamente. La adición de ítems a cada subescala podría mejorar su fiabilidad.
Fortalezas y limitaciones
Este es el primer estudio, hasta donde sabemos, que calibra el MBI en una muestra nacional de médicos estadounidenses y crea perfiles de respuesta basados en la TRI asignados a las puntuaciones brutas. El punto fuerte de este estudio es que permite a los investigadores clasificar las puntuaciones de los médicos en grupos discretos de resultados de burnout en relación con 1) si su puntuación ha alcanzado o superado una carga de síntomas concreta representada por los ítems y 2) en relación con la puntuación media de una muestra de referencia de médicos estadounidenses. Esto es especialmente importante en ausencia de un criterio de referencia para el burnout. También es importante dado que los puntos de corte originales para definir los resultados dicotómicos en cada subescala (examinados aquí) se seleccionaron identificando la puntuación correspondiente al tercer tercil en una gran muestra ocupacional. Como han señalado los creadores de la escala y otros, un enfoque distributivo como éste puede dar lugar a puntos de corte algo arbitrarios. El uso de las interpretaciones de las puntuaciones referidas al contenido como complemento de las interpretaciones referidas a la norma, tal y como se ha hecho posible a través de este estudio, aborda esta deficiencia.
Este estudio tiene varias limitaciones. Los síntomas de burnout evaluados por el MBI son constructos continuos, y es importante tratar las puntuaciones como tales siempre que sea posible. No obstante, su uso en la investigación para clasificar a los médicos en grupos de quemados frente a los no quemados sigue influyendo en la política y la práctica sanitaria . Por lo tanto, la identificación de la carga sintomática asociada a varios puntos de corte tiene valor. Este estudio no tiene como objetivo definir nuevos puntos de corte, sino dilucidar el significado de los puntos de corte utilizados para definir los resultados del agotamiento de los médicos en las subescalas del MBI, de manera que cuando los informes declaren que «X%» de los médicos están «quemados» tengamos una mejor comprensión (probabilística) de qué nivel de carga de síntomas significa.
La selección de los puntos de corte apropiados es una decisión de múltiples atributos que depende críticamente de factores tales como el propósito previsto de la evaluación, el perfil de los síntomas de burnout que son más probables en los puntos de corte, y el consenso entre los investigadores con respecto a qué carga de síntomas importa para el propósito (s) de la evaluación. Esto incluye responder a preguntas como: ¿qué síntomas y frecuencias de síntomas definen el burnout en cada subescala? y ¿qué criterio de probabilidad de respuesta debe utilizarse para definir si es probable o improbable que un médico informe del síntoma de burnout? Nuestros perfiles de respuesta indican la probabilidad de aprobación de los ítems con una frecuencia de una vez por semana o más, basándose en su uso previo para definir el burnout en estudios nacionales, pero puede ser que interese una frecuencia de síntomas diferente. En este caso, los investigadores pueden utilizar las estimaciones de los parámetros de los ítems (Tabla 2) para identificar las respuestas probables a diferentes frecuencias (véase también el Apéndice Suplementario 4 para ver las curvas de probabilidad acumulativa que describen la probabilidad de que un médico apruebe cada ítem de la subescala con una frecuencia de varias veces al mes o más a través de las puntuaciones z de la TRI). Además, utilizamos un criterio de probabilidad de respuesta de > 0,50 para definir si es probable que un médico apruebe cada ítem; sin embargo, puede ser que se desee un criterio de probabilidad más alto (por ejemplo, ≥ 0,67).
Las definiciones de qué carga de síntomas importa también deberían considerar la relación de un punto de corte particular con criterios externos. Es decir, ¿cuál es la sensibilidad y especificidad de un punto de corte particular con respecto a los resultados importantes de salud y rendimiento del médico? Hasta donde sabemos, esto aún no se ha evaluado. Los puntos de corte derivados únicamente de los enfoques referidos al contenido y a las normas pueden no ser los puntos de corte en los que la sensibilidad y la especificidad se maximizan para un resultado concreto. El punto de corte óptimo debe seleccionarse basándose en una evaluación de los costes y beneficios de las decisiones resultantes de su uso para clasificar a los médicos en grupos de resultados (una propiedad del contexto, no de las propias subescalas) . Por ejemplo, los costes y beneficios de determinados puntos de corte de las subescalas para definir la prevalencia nacional del burnout médico pueden diferir sustancialmente de los asociados a la identificación de los médicos que deben recibir una intervención. Aunque los puntos de corte pueden variar dependiendo del contexto, es necesario que haya consistencia en los puntos de corte utilizados en todos los estudios cuando el propósito de la evaluación es estimar la prevalencia del burnout. Nuestros hallazgos pueden ser utilizados para informar sobre los estándares de consenso para definir las categorías de resultados (por ejemplo, quemado vs. no quemado; síntomas bajos, moderados, altos) en cada subescala para este propósito. Sin embargo, este estudio no aborda qué subescalas importan en la definición (por ejemplo, EE y/o DP frente a EE, DP y PA, etc.) , lo que también ha contribuido a la amplia variación en las estimaciones de prevalencia.
Cuando se utiliza nuestro crossswalk para interpretar la puntuación de un individuo/grupo en relación con su distancia de la media, debe tenerse en cuenta que las comparaciones serán relativas a los niveles medios de EE, DP y PA reportados en esta muestra. Mientras que los análisis de respuesta temprana y tardía de Shanafelt et al. apoyan la representatividad demográfica de la muestra, es posible que los niveles medios de EE, AD y AF en esta muestra de calibración no sean representativos de los de la población. Los hallazgos de este estudio tampoco pueden asumirse como generalizables a otras poblaciones no médicas (por ejemplo, las enfermeras). Es decir, no se puede asumir que la carga de síntomas representada por los puntos de corte en este estudio tenga el mismo significado en una muestra no médica sin más investigación. Se necesitaría más investigación para colocar las respuestas de los ítems de ambos grupos en la misma métrica y determinar que los ítems funcionan de forma invariable en los trabajadores médicos y no médicos antes de que se pueda asumir que las puntuaciones brutas representan la misma carga de síntomas en todos los grupos.
Debe tenerse en cuenta que la precisión de cada subescala del MBI tal y como se desprende de los cruces (Tabla 3) difiere ligeramente de la precisión de cada métrica informada por cada TIF (Fig. 1) debido a las diferencias en la estimación del error estándar (desviación estándar de la distribución posterior y raíz cuadrada del valor de información esperado inverso de Fisher, respectivamente). El uso de cada cruce requiere respuestas completas en cada subescala del MBI. Por último, en el estudio original, el ítem DP2 se revisó ligeramente a partir del ítem original del MBI (por lo que se eliminó «desde que acepté este trabajo» del ítem original: «Me he vuelto más insensible hacia la gente desde que acepté este trabajo»).