De MBI heeft een groot deel van het huidige Amerikaanse gezondheidsbeleidsdiscours rond de burnoutcrisis bij artsen beïnvloed en is nog steeds de meest gebruikte uitkomstbeoordeling om de prevalentie van burnout bij artsen op organisatorisch en nationaal niveau te monitoren. Echter, voor zover wij weten, hebben geen studies gebruik gemaakt van IRT om wat bekend is over de psychometrische eigenschappen ervan te verbeteren in een nationale steekproef van artsen. In deze studie hebben we IRT gebruikt om de betekenis en precisie van MBI subscale scores bij Amerikaanse artsen beter te begrijpen. Na het kalibreren van elke MBI subschaal, beschreven we de ernst van de burnout symptomen vertegenwoordigd door elk subschaal item; creëerden respons profielen die de waarschijnlijkheid beschrijven dat een Amerikaanse arts elk item onderschrijft met een frequentie van eenmaal per week of meer over gestandaardiseerde, IRT-gebaseerde subschaal scores; en brachten IRT-gebaseerde subschaal scores in kaart met ruwe MBI subschaal scores. Als voorbeeld van hun bruikbaarheid gebruikten we de crosswalks en antwoordprofielen om de betekenis van gemiddelde scores en veelgebruikte cut-points voor het definiëren van dichotome EE, DP, en PA uitkomsten te interpreteren. Deze crosswalks kunnen ook worden gebruikt om de scores van groepen (en voor de EE-subschaal, individuen) op elke metriek te vergelijken met het gemiddelde niveau van elk construct in een Amerikaanse artsenreferentiepopulatie.
Deze analyse onthulde verschillende belangrijke bevindingen met betrekking tot de burn-out symptoomlast die wordt ervaren door de gemiddelde Amerikaanse arts en die wordt weergegeven door veelgebruikte cut-points. De gemiddelde Amerikaanse arts ervaart waarschijnlijk meerdere EE-symptomen eenmaal per week of meer, waaronder het gevoel emotioneel uitgeput te zijn, opgebruikt te zijn, gefrustreerd te zijn, en te hard te werken vanwege het werk; ervaart waarschijnlijk geen symptomen van DP eenmaal per week of meer; en ervaart waarschijnlijk alle indicatoren van PA eenmaal per week of meer. Bij de respectievelijke EE-, DP- en PA-afkappunten van 27, 10 en 33 zal een arts waarschijnlijk dezelfde EE-symptomen onderschrijven als een arts met een gemiddelde score en zal hij of zij waarschijnlijk niet melden dat hij of zij zich wekelijks of vaker opgebrand voelt van het werk; hij of zij zal waarschijnlijk niet wekelijks of vaker DP-symptomen ervaren (of zelfs “een paar keer per maand” of meer); en hij of zij ervaart waarschijnlijk de meeste PA-indicatoren (inclusief het gevoel voldaan te zijn) eenmaal per week of vaker. Als de bevestiging door een arts van bepaalde symptomen op elke subschaal centraal staat in de definities van dichotome EE, DP en PA-uitkomsten, dan kunnen onze antwoordprofielen worden gebruikt om de grenswaarden voor ruwe scores te bepalen waarop artsen waarschijnlijk een bepaalde EE, DP en lage PA-last rapporteren. Bijvoorbeeld, als het gevoel “opgebrand te zijn van het werk”, het gevoel ≥ 1 symptoom van DP, en het zich niet ten minste eenmaal per week professioneel vervuld voelen centraal staan in de definities van respectievelijk dichotome EE, DP, en PA uitkomsten, dan suggereren onze bevindingen dat ruwe score cut-points van ≥ 31, ≥ 14, en ≤ 29 gebruikt zouden moeten worden op de respectievelijke EE, DP, en PA subschalen. Deze cut-points komen overeen met de score waarbij een arts > 50% kans zou hebben op het onderschrijven van een burn-out gevoel en ≥ 1 symptoom van DP en < 50% kans zou hebben op het onderschrijven van een gevoel van volbrachtheid op het werk eenmaal per week of meer. Deze cut-points komen ook overeen met EE-, DP- en PA-niveaus die respectievelijk 0,27 SD boven, 0,78 SD boven en – 1,22 SD onder het gemiddelde van Amerikaanse artsen liggen. Belangrijk is dat het gebruik van een definitie van hoge scores op EE- en/of DP-subschalen om burnout te definiëren, de nationale prevalentie van burnout onder artsen zou verlagen van 54,4% naar ongeveer 43,3% (2709/6474) in 2014.
Onze analyses van de precisiebandbreedtes van de MBI toonden aan dat elke subschaal de meerderheid van de scores van artsen beoordeelt met een betrouwbaarheid van ≥ 0,70. De EE- en DP-subschalen hebben echter onvoldoende precisie om de scores te beoordelen van artsen die de allerhoogste EE- en DP-niveaus op elke metric rapporteren. Analyse van de PA-schaal bracht ook aan het licht dat deze schaal het nauwkeurigst is bij het beoordelen van benedengemiddelde PA-niveaus (waarschijnlijk waar de nauwkeurigheid het belangrijkst is aangezien lage PA een symptoom van burnout is) en onvoldoende nauwkeurig is bij het beoordelen van bovengemiddelde PA-niveaus. Verder, terwijl onderzoekers hebben verklaard dat de MBI kan worden gebruikt voor uitkomstmeting op individueel niveau, toonde alleen de EE subschaal een adequate betrouwbaarheid voor meting op individueel niveau. Deze bevindingen benadrukken dat niet elke metric de scores van alle artsen met gelijke precisie meet – buiten het scorebereik met een betrouwbaarheid van ≥ 0,70 en ≥ 0,90 hebben deze schalen onvoldoende precisie om respectievelijk verschillen tussen groepen en binnen individuen te beoordelen.
Sterkten en beperkingen
Voor zover wij weten is dit de eerste studie waarin de MBI is gekalibreerd in een nationale steekproef van Amerikaanse artsen en waarin IRT-gebaseerde antwoordprofielen zijn gemaakt die zijn gekoppeld aan ruwe scores. De kracht van deze studie is dat het onderzoekers in staat stelt om de scores van artsen te classificeren in discrete burnout uitkomstgroepen relatief aan 1) of hun score een bepaalde symptoomlast vertegenwoordigd door de items heeft gehaald of overschreden en 2) relatief aan de gemiddelde score van een Amerikaanse artsen referentie steekproef. Dit is vooral belangrijk omdat er geen gouden standaard voor burnout bestaat. Het is ook belangrijk omdat de oorspronkelijke cut-points voor het bepalen van dichotome uitkomsten op elke subschaal (hierin onderzocht) werden geselecteerd door de score te identificeren die overeenkomt met het derde terciel in een grote beroepssteekproef. Zoals de ontwikkelaars van de schaal en anderen hebben opgemerkt, kan een dergelijke distributieve benadering alleen resulteren in enigszins arbitraire drempelwaarden. Het gebruik van inhoudsgerichte score-interpretaties als aanvulling op de normgerichte interpretaties, zoals mogelijk gemaakt door deze studie, pakt deze tekortkoming aan.
Deze studie heeft verschillende beperkingen. De burn-out symptomen die door de MBI worden beoordeeld zijn continue constructen, en het is belangrijk om de scores waar mogelijk als zodanig te behandelen. Desondanks blijft het gebruik ervan in onderzoek om artsen in te delen in groepen met en zonder burn-out het beleid en de praktijk in de gezondheidszorg beïnvloeden. Daarom heeft het identificeren van de symptoomlast geassocieerd met verschillende cut-points waarde. Het doel van deze studie is niet om nieuwe drempelwaarden te definiëren, maar om de betekenis te verduidelijken van de drempelwaarden die worden gebruikt om burnout bij artsen te definiëren op MBI-subschalen, zodat wanneer rapporten vermelden dat “X%” van de artsen “burnout” is, we een beter begrip hebben (probabilistisch) van het niveau van symptoomlast dat dat betekent.
De selectie van geschikte cut-points is een multi-attribuut beslissing die kritisch afhangt van factoren zoals het beoogde doel van de beoordeling, het profiel van burn-out symptomen die het meest waarschijnlijk zijn bij de cut-points, en consensus onder onderzoekers over welke symptoomlast van belang is voor het doel (de doelen) van de beoordeling. Dit omvat het beantwoorden van vragen zoals: welke symptomen en symptoomfrequenties definiëren burnout op elke subschaal; en welk criterium voor de waarschijnlijkheid van respons moet worden gebruikt om te bepalen of een arts al dan niet waarschijnlijk het burnout-symptoom zal rapporteren? Onze antwoordprofielen geven de waarschijnlijkheid aan van itemonderschrijvingen bij een frequentie van één keer per week of meer, gebaseerd op het eerdere gebruik ervan om burn-out in nationale studies te definiëren, maar het kan zijn dat een andere symptoomfrequentie van belang is. In dat geval kunnen onderzoekers de itemparameterschattingen (Tabel 2) gebruiken om waarschijnlijke responsen bij verschillende frequenties te identificeren (zie ook Aanvullend Appendix 4 voor uitgezette cumulatieve waarschijnlijkheidscurven die de waarschijnlijkheid beschrijven dat een arts elk subschaal-item onderschrijft bij een frequentie van een paar keer per maand of meer over de IRT z-scores). Verder gebruiken we een responskanscriterium van > 0.50 om te bepalen of een arts waarschijnlijk elk item zal onderschrijven; het kan echter zijn dat een hoger waarschijnlijkheidscriterium (bijv. ≥ 0.67) gewenst is.
Definities van welke symptoomlast van belang is, moeten ook rekening houden met de relatie van een bepaalde cut-point met externe criteria. Dat wil zeggen, wat is de gevoeligheid en specificiteit van een bepaalde cut-point met betrekking tot belangrijke arts gezondheid en prestaties uitkomsten? Voor zover wij weten, is dit nog niet geëvalueerd. Afkappunten die uitsluitend zijn afgeleid van inhoudelijke en normgerelateerde benaderingen zijn mogelijk niet de afkappunten waarbij de gevoeligheid en specificiteit voor een bepaald resultaat worden gemaximaliseerd. De optimale drempelwaarde moet worden gekozen op basis van een evaluatie van de kosten en baten van beslissingen die voortvloeien uit het gebruik ervan om artsen in uitkomstgroepen in te delen (een eigenschap van de context, niet van de subschalen zelf). Zo kunnen de kosten en baten van bepaalde subschalen voor het bepalen van de prevalentie van burn-out bij artsen aanzienlijk verschillen van die voor het bepalen van welke artsen een interventie moeten krijgen. Hoewel de afkappunten afhankelijk van de context kunnen variëren, is er behoefte aan consistentie in de afkappunten die in verschillende studies worden gebruikt wanneer het doel van de beoordeling het schatten van de burn-out prevalentie is. Onze bevindingen kunnen worden gebruikt om consensusnormen te bepalen voor het definiëren van uitkomstcategorieën (b.v. burn-out vs. niet burn-out; lage, gemiddelde, hoge symptomen) op elke subschaal voor dit doel. Deze studie gaat echter niet in op welke subschalen van belang zijn bij de definitie (bijv. EE en/of DP versus EE, DP en PA, enz.), wat ook heeft bijgedragen aan de grote variatie in prevalentieschattingen.
Bij het gebruik van onze crosswalk om de score van een individu/groep te interpreteren ten opzichte van de afstand tot het gemiddelde, moet worden opgemerkt dat vergelijkingen relatief zullen zijn ten opzichte van de gemiddelde EE-, DP- en PA-niveaus die in deze steekproef zijn gemeld. Hoewel analyses van vroege en late responders door Shanafelt et al. de demografische representativiteit van de steekproef ondersteunen, is het mogelijk dat de gemiddelde EE-, DP- en PA-niveaus in deze kalibratiesteekproef niet representatief zijn voor die in de bevolking. De bevindingen van deze studie kunnen ook niet worden verondersteld te generaliseren naar andere niet-artsenpopulaties (b.v. verpleegkundigen). Dat wil zeggen, zonder verder onderzoek kan niet worden aangenomen dat de symptoomlast die de cut-points in deze studie vertegenwoordigen dezelfde betekenis hebben in een steekproef van niet-fysici. Verder onderzoek zou nodig zijn om itemresponsen van beide groepen op dezelfde metriek te plaatsen en vast te stellen of items invariant functioneren bij artsen en niet-artsen, voordat kan worden aangenomen dat ruwe scores dezelfde symptoomlast bij alle groepen vertegenwoordigen.
Opgemerkt moet worden dat de precisie van elke MBI-subschaal zoals geïmpliceerd door de crosswalks (Tabel 3) enigszins verschilt van de precisie van elke metriek gerapporteerd door elke TIF (Fig. 1) als gevolg van verschillen in het schatten van de standaardfout (standaardafwijking van posterior verdeling en vierkantswortel van inverse Fisher verwachte informatiewaarde, respectievelijk). Het gebruik van elke crosswalk vereist volledige antwoorden op elke MBI-subschaal. Ten slotte werd item DP2 in de oorspronkelijke studie lichtjes herzien ten opzichte van het oorspronkelijke MBI-item (waarbij “sinds ik deze baan heb aangenomen” uit het oorspronkelijke item werd verwijderd: “Ik ben harder geworden tegenover mensen sinds ik deze baan heb”).