L’MBI ha informato gran parte dell’attuale discorso di politica sanitaria statunitense che circonda la crisi del burnout dei medici e continua ad essere la valutazione di risultato più utilizzata per monitorare la prevalenza del burnout dei medici a livello organizzativo e nazionale. Tuttavia, a nostra conoscenza, nessuno studio ha utilizzato l’IRT per migliorare ciò che è noto sulle sue proprietà psicometriche in un campione nazionale di medici. In questo studio, abbiamo usato l’IRT per comprendere meglio il significato e la precisione dei punteggi della subscala MBI nei medici statunitensi. Dopo aver calibrato ogni subscala MBI, abbiamo descritto la gravità del sintomo del burnout rappresentato da ogni voce della subscala; abbiamo creato profili di risposta che descrivono la probabilità che un medico statunitense approvi ogni voce con una frequenza di una volta alla settimana o più attraverso punteggi di subscala standardizzati e basati sull’IRT; e abbiamo mappato i punteggi della subscala basati sull’IRT ai punteggi grezzi della subscala MBI. Come esempio della loro utilità, abbiamo usato i crosswalk e i profili di risposta per interpretare il significato dei punteggi medi e i cut-point comunemente usati per definire i risultati dicotomici EE, DP e PA. Questi incroci possono anche essere usati per confrontare i punteggi dei gruppi (e per la subscala EE, gli individui) su ogni metrica rispetto al livello medio di ogni costrutto in una popolazione di riferimento di medici statunitensi.
Questa analisi ha rivelato diversi risultati importanti riguardanti il carico di sintomi del burnout sperimentato dal medico medio statunitense e rappresentato dai cut-point comunemente usati. È probabile che il medico medio statunitense sperimenti diversi sintomi di EE una volta alla settimana o più, tra cui sentirsi emotivamente prosciugato, esaurito, frustrato e lavorare troppo a causa del lavoro; è improbabile che sperimenti qualsiasi sintomo di DP una volta alla settimana o più; ed è probabile che sperimenti tutti gli indicatori di PA una volta alla settimana o più. Ai rispettivi cut-point di EE, DP e PA di 27, 10 e 33, è probabile che un medico sostenga gli stessi sintomi di EE sperimentati da un medico con un punteggio medio ed è improbabile che riferisca di sentirsi esaurito dal lavoro una volta alla settimana o più; è improbabile che sperimenti sintomi di DP una volta alla settimana o più (o anche “alcune volte al mese” o più); ed è probabile che sperimenti la maggior parte degli indicatori di PA (compreso il sentirsi realizzato) una volta alla settimana o più. Se l’approvazione da parte di un medico di particolari sintomi su ogni subscala è centrale per le definizioni dei risultati dicotomici di EE, DP e PA, allora i nostri profili di risposta possono essere utilizzati per definire i punti di taglio del punteggio grezzo ai quali è probabile che i medici riportino una particolare EE, DP e un basso carico di PA. Per esempio, se sentirsi “esauriti dal lavoro”, sentire ≥ 1 sintomo di DP, e non sentirsi professionalmente realizzati almeno una volta alla settimana sono centrali per le definizioni dei risultati dicotomici di EE, DP e PA, rispettivamente, allora i nostri risultati suggeriscono che i punti di taglio del punteggio grezzo di ≥ 31, ≥ 14, e ≤ 29 dovrebbero essere utilizzati sulle rispettive sottoscale EE, DP e PA. Questi cut-points corrispondono al punteggio al quale un medico avrebbe > il 50% di possibilità di avallare la sensazione di esaurimento e ≥ 1 sintomo di DP e < il 50% di possibilità di avallare la sensazione di realizzazione sul lavoro una volta alla settimana o più. Questi cut-point corrispondono anche a livelli di EE, DP e PA che sono rispettivamente 0,27 SD sopra, 0,78 SD sopra e – 1,22 SD sotto la media dei medici statunitensi. È importante notare che, utilizzando una definizione di punteggi elevati sulle sottoscale EE e/o DP per definire il burnout, l’uso di questi cut-point riferiti al contenuto abbasserebbe la prevalenza nazionale del burnout dei medici dal 54,4% a circa il 43,3% (2709/6474) nel 2014.
Le nostre analisi delle bande di precisione dell’MBI hanno dimostrato che ogni sottoscala valuta la maggior parte dei punteggi dei medici con un’affidabilità ≥ 0,70. Tuttavia, le sottoscale EE e DP mancano di una precisione adeguata per valutare i punteggi dei medici che riportano i livelli EE e DP molto alti su ciascuna metrica. L’analisi della scala PA ha anche rivelato che questa scala è più precisa nel valutare i livelli di PA inferiori alla media (probabilmente dove la precisione è più importante, dato che la PA bassa è un sintomo di burnout) e manca di precisione nel valutare i livelli di PA superiori alla media. Inoltre, mentre i ricercatori hanno dichiarato che l’MBI può essere utilizzato per la misurazione dei risultati a livello individuale, solo la subscala EE ha mostrato un’adeguata affidabilità per la misurazione a livello individuale. Questi risultati evidenziano che ogni metrica non misura i punteggi di tutti i medici con la stessa precisione – al di fuori dell’intervallo di punteggio che possiede un’affidabilità ≥ 0,70 e ≥ 0,90, queste scale hanno una precisione inadeguata per valutare le differenze tra gruppi e all’interno degli individui, rispettivamente. L’aggiunta di elementi ad ogni subscala potrebbe migliorare la loro affidabilità.
Punti di forza e limiti
Questo è il primo studio a nostra conoscenza per calibrare l’MBI in un campione nazionale di medici statunitensi e creare profili di risposta basati su IRT mappati sui punteggi grezzi. La forza di questo studio è che permette ai ricercatori di classificare i punteggi dei medici in gruppi discreti di burnout relativi a 1) se il loro punteggio ha soddisfatto o superato un particolare carico di sintomi rappresentato dagli item e 2) rispetto al punteggio medio di un campione di riferimento di medici americani. Questo è particolarmente importante in assenza di un criterio gold-standard per il burnout. È anche importante dato che i cut-point originali per definire i risultati dicotomici su ogni subscala (esaminati qui) sono stati selezionati identificando il punteggio corrispondente al terzo terzile in un grande campione occupazionale. Come gli sviluppatori della scala e altri hanno notato, un approccio distributivo come questo da solo può risultare in cut-point piuttosto arbitrari. L’uso di interpretazioni dei punteggi riferiti al contenuto come complemento alle interpretazioni riferite alle norme, come reso possibile da questo studio, affronta questa lacuna.
Questo studio ha diverse limitazioni. I sintomi del burnout valutati dall’MBI sono costrutti continui, ed è importante trattare i punteggi come tali quando possibile. Ciononostante, il suo uso nella ricerca per classificare i medici in gruppi di burnout e non burnout continua a influenzare la politica e la pratica sanitaria. Pertanto, identificare il carico di sintomi associato a vari cut-point ha valore. Questo studio non mira a definire nuovi cut-point, ma piuttosto a chiarire il significato dei cut-point utilizzati per definire i risultati del burnout dei medici sulle subscale MBI, in modo che quando i rapporti dichiarano che “X%” dei medici sono “burned out” abbiamo una migliore comprensione (probabilisticamente) del livello di carico dei sintomi che significa.
La selezione di cut-points appropriati è una decisione multi-attributo che dipende criticamente da fattori come lo scopo della valutazione, il profilo dei sintomi del burnout che sono più probabili ai cut-points, e il consenso tra gli investigatori riguardo a quale carico di sintomi conta per lo scopo (o gli scopi) della valutazione. Questo include rispondere a domande come: quali sintomi e frequenze dei sintomi definiscono il burnout su ogni subscala; e quale criterio di probabilità di risposta dovrebbe essere usato per definire se un medico è probabile o meno che riporti il sintomo del burnout? I nostri profili di risposta indicano la probabilità di approvazione dell’elemento con una frequenza di una volta alla settimana o più, sulla base del suo precedente utilizzo per definire il burnout in studi nazionali, ma può essere che una diversa frequenza dei sintomi sia di interesse. In questo caso, i ricercatori possono usare le stime dei parametri degli item (Tabella 2) per identificare le probabili risposte a frequenze diverse (vedi anche l’Appendice supplementare 4 per le curve di probabilità cumulativa tracciate che descrivono la probabilità che un medico approvi ogni item della subscala con una frequenza di alcune volte al mese o più attraverso i punteggi IRT z). Inoltre, usiamo un criterio di probabilità di risposta di > 0,50 per definire se è probabile che un medico approvi ogni item; tuttavia, può essere che un criterio di probabilità più alto (ad esempio, ≥ 0,67) sia desiderato.
Le definizioni di ciò che conta il carico dei sintomi dovrebbero anche considerare la relazione di un particolare cut-point con criteri esterni. Cioè, quali sono la sensibilità e la specificità di un particolare cut-point rispetto a importanti risultati di salute e performance dei medici? A nostra conoscenza, questo deve ancora essere valutato. I cut-point derivati esclusivamente da approcci basati su contenuti e norme potrebbero non essere i cut-point a cui la sensibilità e la specificità sono massimizzate per un particolare risultato. Il cut-point ottimale dovrebbe essere selezionato sulla base di una valutazione dei costi e dei benefici delle decisioni risultanti dal suo utilizzo per classificare i medici in gruppi di risultati (una proprietà del contesto, non le sottoscale stesse). Per esempio, i costi e i benefici di particolari cut-point della subscala per definire la prevalenza nazionale del burnout dei medici possono differire sostanzialmente da quelli associati all’identificazione di quali medici dovrebbero ricevere un intervento. Mentre i cut-point possono variare a seconda del contesto, c’è bisogno di coerenza nei cut-point utilizzati tra gli studi quando lo scopo della valutazione è la stima della prevalenza del burnout. I nostri risultati possono essere utilizzati per informare gli standard di consenso per definire le categorie di risultato (ad esempio, burnout vs. non burnout; sintomi bassi, moderati, alti) su ogni subscala per questo scopo. Tuttavia, questo studio non affronta quali subscale sono importanti nella definizione (ad esempio, EE e/o DP rispetto a EE, DP e PA, ecc.), il che ha anche contribuito a un’ampia variazione nelle stime di prevalenza.
Quando si usa il nostro incrocio per interpretare il punteggio di un individuo/gruppo rispetto alla sua distanza dalla media, va notato che i confronti saranno relativi ai livelli medi di EE, DP e PA riportati in questo campione. Mentre le analisi dei risponditori precoci e tardivi di Shanafelt et al. sostengono la rappresentatività demografica del campione, è possibile che i livelli medi di EE, DP e PA in questo campione di calibrazione non siano rappresentativi di quelli della popolazione. I risultati di questo studio non possono essere generalizzati ad altre popolazioni non mediche (ad esempio, gli infermieri). Cioè, non si può assumere che il carico dei sintomi rappresentato dai cut-point in questo studio abbia lo stesso significato in un campione non medico senza ulteriori ricerche. Sarebbero necessarie ulteriori ricerche per collocare le risposte degli item di entrambi i gruppi sulla stessa metrica e determinare che gli item funzionano in modo invariante tra lavoratori medici e non medici prima di poter assumere che i punteggi grezzi rappresentino lo stesso carico di sintomi tra i gruppi.
Si deve notare che la precisione di ogni subscala MBI come implicita nei crosswalk (Tabella 3) differisce leggermente dalla precisione di ogni metrica riportata da ogni TIF (Fig. 1) a causa delle differenze nella stima dell’errore standard (deviazione standard della distribuzione posteriore e radice quadrata del valore informativo atteso inverso di Fisher, rispettivamente). L’uso di ogni crosswalk richiede risposte complete su ogni subscala MBI. Infine, nello studio originale, l’item DP2 è stato leggermente rivisto dall’item MBI originale (per cui “da quando ho accettato questo lavoro” è stato rimosso dall’item originale: “Sono diventato più insensibile verso le persone da quando ho accettato questo lavoro”).