Le MBI a informé une grande partie du discours actuel sur la politique de santé américaine entourant la crise de l’épuisement professionnel des médecins et continue d’être l’évaluation des résultats la plus largement utilisée pour surveiller la prévalence de l’épuisement professionnel des médecins aux niveaux organisationnel et national . Cependant, à notre connaissance, aucune étude n’a utilisé l’IRT pour améliorer ce que l’on sait de ses propriétés psychométriques dans un échantillon national de médecins. Dans cette étude, nous avons utilisé l’IRT pour mieux comprendre la signification et la précision des scores des sous-échelles du MBI chez les médecins américains. Après avoir calibré chaque sous-échelle du MBI, nous avons décrit la sévérité des symptômes de burnout représentés par chaque item de la sous-échelle ; nous avons créé des profils de réponse décrivant la probabilité qu’un médecin américain endosse chaque item à une fréquence d’une fois par semaine ou plus à travers les scores standardisés des sous-échelles basées sur l’IRT ; et nous avons mis en correspondance les scores des sous-échelles basées sur l’IRT avec les scores bruts des sous-échelles du MBI. Pour illustrer leur utilité, nous avons utilisé les tableaux croisés et les profils de réponse pour interpréter la signification des scores moyens et des seuils couramment utilisés pour définir les résultats dichotomiques EE, DP et PA. Ces tableaux croisés peuvent également être utilisés pour comparer les scores des groupes (et pour la sous-échelle EE, des individus) sur chaque métrique par rapport au niveau moyen de chaque construction dans une population de référence de médecins américains.
Cette analyse a révélé plusieurs résultats importants concernant le fardeau des symptômes de burnout vécu par le médecin américain moyen et représenté par les points de coupe couramment utilisés. Le médecin américain moyen est susceptible de ressentir plusieurs symptômes d’EE une fois par semaine ou plus, y compris se sentir émotionnellement épuisé, usé, frustré et travailler trop dur en raison du travail ; il est peu probable qu’il ressente des symptômes de DP une fois par semaine ou plus ; et il est probable qu’il ressente tous les indicateurs de PA une fois par semaine ou plus. Aux seuils respectifs d’EE, de DP et d’AP de 27, 10 et 33, un médecin est susceptible d’approuver les mêmes symptômes d’EE que ceux ressentis par un médecin ayant un score moyen et il est peu probable qu’il se sente épuisé par son travail une fois par semaine ou plus ; il est peu probable qu’il ressente des symptômes de DP une fois par semaine ou plus (ou même « quelques fois par mois » ou plus) ; et il est susceptible de ressentir la plupart des indicateurs d’AP (y compris le sentiment d’accomplissement) une fois par semaine ou plus. Si l’approbation d’un médecin pour des symptômes particuliers sur chaque sous-échelle est centrale pour les définitions des résultats dichotomiques de l’EE, de la DP et de l’AP, alors nos profils de réponse peuvent être utilisés pour définir les seuils de score brut auxquels les médecins sont susceptibles de rapporter un EE particulier, une DP et une faible charge d’AP. Par exemple, si le fait de se sentir » épuisé par le travail « , de ressentir ≥ 1 symptôme de DP et de ne pas se sentir accompli professionnellement au moins une fois par semaine est au cœur des définitions des résultats dichotomiques d’EE, de DP et d’AP, respectivement, alors nos résultats suggèrent que des points de coupure du score brut de ≥ 31, ≥ 14 et ≤ 29 devraient être utilisés sur les sous-échelles respectives d’EE, de DP et d’AP. Ces points de coupure correspondent au score auquel un médecin aurait > 50% de chances d’endosser le sentiment d’épuisement et ≥ 1 symptôme de DP et < 50% de chances d’endosser le sentiment d’accomplissement au travail une fois par semaine ou plus. Ces points de coupure correspondent également à des niveaux d’EE, de DP et d’AP qui sont respectivement 0,27 ET au-dessus, 0,78 ET au-dessus et – 1,22 ET en dessous de la moyenne des médecins américains. Fait important, en utilisant une définition des scores élevés sur les sous-échelles EE et/ou DP pour définir le burnout, l’utilisation de ces points de coupure référencés par le contenu abaisserait la prévalence nationale du burnout des médecins de 54,4 % à environ 43,3 % (2709/6474) en 2014 .
Nos analyses des largeurs de bande de précision du MBI ont démontré que chaque sous-échelle évalue la majorité des scores des médecins avec une fiabilité ≥ 0,70. Cependant, les sous-échelles EE et DP manquent de précision pour évaluer les scores des médecins rapportant les niveaux d’EE et de DP les plus élevés pour chaque métrique. L’analyse de l’échelle PA a également révélé que cette échelle est plus précise pour évaluer les niveaux de PA inférieurs à la moyenne (sans doute là où la précision est la plus importante étant donné qu’une PA faible est un symptôme d’épuisement professionnel) et manque de précision pour évaluer les niveaux de PA supérieurs à la moyenne. De plus, alors que les chercheurs ont déclaré que le MBI peut être utilisé pour mesurer les résultats au niveau individuel, seule la sous-échelle EE a montré une fiabilité adéquate pour une mesure au niveau individuel. Ces résultats soulignent que chaque métrique ne mesure pas les scores de tous les médecins avec une précision égale – en dehors de la plage de score possédant une fiabilité ≥ 0,70 et ≥ 0,90, ces échelles ont une précision inadéquate pour évaluer les différences entre les groupes et au sein d’un même individu, respectivement. L’ajout d’items à chaque sous-échelle pourrait améliorer leur fiabilité.
Forts et limites
Il s’agit de la première étude à notre connaissance à calibrer le MBI dans un échantillon national de médecins américains et à créer des profils de réponse basés sur l’IRT mis en correspondance avec les scores bruts. La force de cette étude est qu’elle permet aux enquêteurs de classer les scores des médecins dans des groupes de résultats de burnout discrets par rapport 1) au fait que leur score a atteint ou dépassé une charge de symptômes particulière représentée par les items et 2) par rapport au score moyen d’un échantillon de référence de médecins américains. Ceci est particulièrement important en l’absence d’un critère de référence pour le burnout. Il est également important étant donné que les points de coupure originaux pour définir les résultats dichotomiques sur chaque sous-échelle (examinés ici) ont été sélectionnés en identifiant le score correspondant au troisième tercile dans un grand échantillon professionnel. Comme l’ont fait remarquer les concepteurs de l’échelle et d’autres personnes, une approche distributive comme celle-ci peut donner lieu à des points de coupure quelque peu arbitraires. L’utilisation d’interprétations de score référencées par le contenu en complément des interprétations référencées par la norme, comme cela a été rendu possible par cette étude, permet de remédier à cette lacune.
Cette étude présente plusieurs limites. Les symptômes de burnout évalués par le MBI sont des constructions continues, et il est important de traiter les scores comme tels lorsque cela est possible. Nonobstant, son utilisation dans la recherche pour classer les médecins dans des groupes épuisés par rapport à des groupes non épuisés continue d’influencer la politique et la pratique des soins de santé . Par conséquent, l’identification du fardeau des symptômes associé à divers points de coupure est utile. Cette étude ne vise pas à définir de nouveaux points de coupure, mais plutôt à élucider la signification des points de coupure utilisés pour définir les résultats de l’épuisement des médecins sur les sous-échelles du MBI, de sorte que lorsque les rapports indiquent que « X% » des médecins sont « épuisés », nous avons une meilleure compréhension (probabiliste) du niveau de charge de symptômes que cela signifie.
La sélection de points de coupure appropriés est une décision à attributs multiples qui dépend de manière critique de facteurs tels que l’objectif prévu de l’évaluation, le profil des symptômes d’épuisement professionnel qui sont les plus probables aux points de coupure, et le consensus entre les enquêteurs concernant la charge de symptômes qui importe pour le ou les objectifs de l’évaluation. Cela implique de répondre à des questions telles que : quels symptômes et quelles fréquences de symptômes définissent le burnout sur chaque sous-échelle ; et quel critère de probabilité de réponse devrait être utilisé pour définir si un médecin est susceptible ou non de rapporter le symptôme de burnout ? Nos profils de réponse indiquent la probabilité d’endossement des items à une fréquence d’une fois par semaine ou plus, sur la base de son utilisation antérieure pour définir le burnout dans des études nationales, mais il se peut qu’une fréquence de symptôme différente soit intéressante. Dans ce cas, les enquêteurs peuvent utiliser les estimations des paramètres des items (tableau 2) pour identifier les réponses probables à différentes fréquences (voir également l’annexe supplémentaire 4 pour les courbes de probabilité cumulative tracées décrivant la probabilité qu’un médecin approuve chaque item de la sous-échelle à une fréquence de quelques fois par mois ou plus pour les scores z de l’IRT). De plus, nous utilisons un critère de probabilité de réponse de > 0,50 pour définir si un médecin est susceptible d’endosser chaque item ; cependant, il se peut qu’un critère de probabilité plus élevé (par exemple, ≥ 0,67) soit souhaité.
Les définitions de ce que le fardeau des symptômes importe devraient également tenir compte de la relation d’un point de coupure particulier avec des critères externes. Autrement dit, quelles sont la sensibilité et la spécificité d’un point de coupure particulier par rapport à des résultats importants en matière de santé et de performance des médecins ? À notre connaissance, cela n’a pas encore été évalué. Les points de coupure dérivés uniquement des approches référencées par le contenu et les normes peuvent ne pas être les points de coupure pour lesquels la sensibilité et la spécificité sont maximisées pour un résultat particulier. Le point de coupure optimal doit être sélectionné sur la base d’une évaluation des coûts et des avantages des décisions résultant de son utilisation pour classer les médecins dans des groupes de résultats (une propriété du contexte, et non des sous-échelles elles-mêmes). Par exemple, les coûts et les avantages de certains seuils de sous-échelle pour définir la prévalence nationale du burnout des médecins peuvent différer considérablement de ceux associés à l’identification des médecins devant bénéficier d’une intervention. Bien que les points de coupure puissent varier selon le contexte, il est nécessaire d’avoir une cohérence dans les points de coupure utilisés dans les études lorsque le but de l’évaluation est d’estimer la prévalence du burnout . Nos résultats peuvent être utilisés pour informer les normes de consensus pour définir les catégories de résultats (par exemple, épuisement professionnel vs. non épuisement professionnel ; symptômes faibles, modérés, élevés) sur chaque sous-échelle à cette fin. Cependant, cette étude ne traite pas des sous-échelles qui importent dans la définition (par exemple, EE et/ou DP par rapport à EE, DP et PA, etc.) , ce qui a également contribué à la grande variation des estimations de prévalence .
Lorsque l’on utilise notre tableau croisé pour interpréter le score d’un individu/groupe par rapport à sa distance par rapport à la moyenne, il convient de noter que les comparaisons seront relatives aux niveaux moyens d’EE, DP et PA rapportés dans cet échantillon. Bien que les analyses des répondants précoces et tardifs effectuées par Shanafelt et al. confirment la représentativité démographique de l’échantillon, il est possible que les niveaux moyens d’EE, de DP et d’AP de cet échantillon d’étalonnage ne soient pas représentatifs de ceux de la population. Les résultats de cette étude ne peuvent pas non plus être généralisés à d’autres populations non médicales (par exemple, les infirmières). En d’autres termes, on ne peut pas supposer que le fardeau des symptômes représenté par les points de coupure dans cette étude a la même signification dans un échantillon de non-médecins sans une recherche plus approfondie. Des recherches supplémentaires seraient nécessaires pour placer les réponses des items des deux groupes sur la même métrique et déterminer que les items fonctionnent de manière invariable entre les travailleurs médecins et non médecins avant que les scores bruts puissent être supposés représenter le même fardeau de symptômes entre les groupes.
Il convient de noter que la précision de chaque sous-échelle MBI telle qu’impliquée par les tableaux croisés (tableau 3) diffère légèrement de la précision de chaque métrique rapportée par chaque TIF (figure 1) en raison des différences dans l’estimation de l’erreur standard (écart-type de la distribution postérieure et racine carrée de la valeur d’information attendue inverse de Fisher, respectivement). L’utilisation de chaque tableau croisé nécessite des réponses complètes sur chaque sous-échelle du MBI. Enfin, dans l’étude originale, l’item DP2 a été légèrement révisé par rapport à l’item original du MBI (par lequel « depuis que j’ai pris cet emploi » a été retiré de l’item original : » Je suis devenu plus insensible envers les gens depuis que j’ai pris ce travail « ).