Kappa de Cohen

Tests d’hypothèses et intervalles de confianceEdit

La valeur de p pour le kappa est rarement rapportée, probablement parce que même des valeurs relativement faibles de kappa peuvent néanmoins être significativement différentes de zéro mais pas d’une ampleur suffisante pour satisfaire les enquêteurs.:66Mais son erreur standard a été décriteet est calculée par divers programmes informatiques.

Les intervalles de confiance pour Kappa peuvent être construits, pour les valeurs de Kappa attendues si nous avions un nombre infini d’éléments vérifiés, en utilisant la formule suivante:

C I : κ ± Z 1 – α / 2 S E κ {\displaystyle CI:\kappa \pm Z_{1-\alpha /2}SE_{\kappa }}.

{{displaystyle CI:\kappa \pm Z_{1-\alpha /2}SE_{\kappa }}

Où Z 1 – α / 2 = 1.965{displaystyle Z_{1-\alpha /2}=1.965}

{\displaystyle Z_{1-\alpha /2}=1.965}

est le percentile normal standard lorsque α = 5 % {\displaystyle \alpha =5\%}.

{\displaystyle \alpha =5\%}

, et S E κ = p o ( 1 – p o ) N ( 1 – p e ) 2 {\displaystyle SE_{\kappa }={\sqrt {{p_{o}(1-p_{o})} \over {N(1-p_{e})^{2}}}}}

{\displaystyle SE_{\kappa }={\sqrt {{p_{o}(1-p_{o})} \over {N(1-p_{e})^{2}}}}}

On le calcule en ignorant que pe est estimé à partir des données, et en traitant po comme une probabilité estimée d’une distribution binomiale tout en utilisant la normalité asymptotique (c’est-à-dire : en supposant que le nombre d’éléments est grand et que po n’est pas proche de 0 ou 1). S E κ {\displaystyle SE_{\kappa }}

{\displaystyle SE_{\kappa }}

(et l’IC en général) peuvent également être estimés par des méthodes bootstrap.

Interprétation de magnitudeEdit

Kappa (axe vertical) et Précision (axe horizontal) calculés à partir des mêmes données binaires simulées. Chaque point du graphique est calculé à partir de paires de juges évaluant au hasard 10 sujets pour avoir un diagnostic de X ou non. Notez que dans cet exemple, un Kappa=0 est approximativement équivalent à une précision=0,5

Si la signification statistique n’est pas un guide utile, quelle magnitude de kappa reflète un accord adéquat ? Des lignes directrices seraient utiles, mais des facteurs autres que l’accord peuvent influencer sa magnitude, ce qui rend l’interprétation d’une magnitude donnée problématique. Comme l’ont noté Sim et Wright, deux facteurs importants sont la prévalence (les codes sont-ils équiprobables ou leurs probabilités varient-elles) et le biais (les probabilités marginales des deux observateurs sont-elles similaires ou différentes). Toutes choses étant égales par ailleurs, les kappas sont plus élevés lorsque les codes sont équiprobables. En revanche, les kappas sont plus élevés lorsque les codes sont distribués de manière asymétrique par les deux observateurs. Contrairement aux variations de probabilité, l’effet du biais est plus important lorsque le kappa est petit que lorsqu’il est grand.:261-262

Un autre facteur est le nombre de codes. Plus le nombre de codes augmente, plus les kappas sont élevés. Sur la base d’une étude de simulation, Bakeman et ses collègues ont conclu que pour les observateurs faillibles, les valeurs de kappa étaient plus faibles lorsque les codes étaient moins nombreux. Et, en accord avec la déclaration de Sim & Wrights concernant la prévalence, les kappas étaient plus élevés lorsque les codes étaient à peu près équiprobables. Bakeman et al. ont donc conclu qu' »aucune valeur de kappa ne peut être considérée comme universellement acceptable »:357 Ils fournissent également un programme informatique qui permet aux utilisateurs de calculer les valeurs de kappa en spécifiant le nombre de codes, leur probabilité et la précision de l’observateur. Par exemple, étant donné des codes équiprobables et des observateurs qui sont précis à 85%, la valeur de kappa est de 0,49, 0,60, 0,66 et 0,69 lorsque le nombre de codes est de 2, 3, 5 et 10, respectivement.

Néanmoins, des directives d’amplitude sont apparues dans la littérature. La première est peut-être celle de Landis et Koch,qui ont caractérisé les valeurs < 0 comme indiquant l’absence d’accord et 0-0,20 comme léger, 0,21-0,40 comme passable, 0,41-0,60 comme modéré, 0,61-0,80 comme substantiel et 0,81-1 comme accord presque parfait. Cet ensemble de lignes directrices n’est cependant pas universellement accepté ; Landis et Koch n’ont fourni aucune preuve à l’appui, se basant plutôt sur leur opinion personnelle. Il a été noté que ces directives peuvent être plus nuisibles qu’utiles. Les directives tout aussi arbitraires de Fleiss:218 caractérisent les kappas supérieurs à 0,75 comme excellents, de 0,40 à 0,75 comme moyens à bons, et inférieurs à 0,40 comme médiocres.

Kappa maximumEdit

Kappa prend sa valeur maximale théorique de 1 uniquement lorsque les deux observateurs distribuent les codes de la même manière, c’est-à-dire lorsque les sommes des lignes et des colonnes correspondantes sont identiques. Toute valeur inférieure correspond à un accord moins que parfait. Néanmoins, la valeur maximale que kappa pourrait atteindre compte tenu de distributions inégales aide à interpréter la valeur de kappa effectivement obtenue. L’équation de κ maximum est:

κ max = P max – P exp 1 – P exp {\displaystyle \kappa _{\max }={\frac {P_{\max }-P_{\exp }}{1-P_{\exp }}}}

\kappa _{\max }}={\frac {P_{\max }}-P_{\exp }}{1-P_{\exp }}}}

où P exp = ∑ i = 1 k P i + P + i {\displaystyle P_{\exp }=\sum _{i=1}^{k}P_{i+}P_{+i}}

P_{{\exp }}=\sum _{i=1}}^{k}P_{{+}}P_{{+i}}

, comme d’habitude, P max = ∑ i = 1 k min ( P i + , P + i ) {\displaystyle P_{\max }=\sum _{i=1}^{k}\min(P_{i+},P_{+i})}

P_{{\max }}=\sum _{{i=1}}^{k}\min(P_{{i+}},P_{{+i}})

,

k = nombre de codes, P i + {\displaystyle P_{i+}}

P_{i+}}

sont les probabilités de ligne, et P + i {\displaystyle P_{+i}}.

P_{{+i}}

sont les probabilités de colonne.

LimitesModification

Kappa est un indice qui considère l’accord observé par rapport à un accord de base. Cependant, les enquêteurs doivent examiner attentivement si l’accord de base de Kappa est pertinent pour la question de recherche particulière. La ligne de base de Kappa est souvent décrite comme l’accord dû au hasard, ce qui n’est que partiellement correct. L’accord de base de Kappa est l’accord qui serait attendu en raison d’une allocation aléatoire, étant donné les quantités spécifiées par les totaux marginaux du tableau de contingence carré. Ainsi, Kappa = 0 lorsque l’allocation observée est apparemment aléatoire, quel que soit le désaccord sur la quantité tel que contraint par les totaux marginaux. Cependant, pour de nombreuses applications, les enquêteurs devraient être plus intéressés par le désaccord de quantité dans les totaux marginaux que par le désaccord d’allocation tel que décrit par les informations supplémentaires sur la diagonale du tableau de contingence carré. Ainsi, pour de nombreuses applications, la ligne de base de Kappa est plus distrayante qu’éclairante. Considérons l’exemple suivant :

Exemple de Kappa

.

.

Comparaison 1
Référence
G R
Comparaison G 1 14
R 0 1

La proportion de désaccord est de 14/16 soit 0.875. Le désaccord est dû à la quantité car la répartition est optimale. Le kappa est de 0,01.


Comparaison 2
. colspan= »2″ rowspan= »2″> Référence
G R
Comparaison G 0 1 R 1 14

La proportion de désaccord est de 2/16 soit 0.125. Le désaccord est dû à la répartition car les quantités sont identiques. Le Kappa est de -0,07.

Ici, signaler le désaccord de quantité et d’allocation est informatif alors que le Kappa masque l’information. De plus, le Kappa introduit quelques difficultés de calcul et d’interprétation car le Kappa est un ratio. Il est possible que le ratio de Kappa renvoie une valeur indéfinie en raison du zéro dans le dénominateur. En outre, un ratio ne révèle ni son numérateur ni son dénominateur. Il est plus informatif pour les chercheurs de signaler le désaccord dans deux composantes, la quantité et la répartition. Ces deux composantes décrivent la relation entre les catégories plus clairement qu’une seule statistique sommaire. Lorsque la précision prédictive est l’objectif, les chercheurs peuvent plus facilement commencer à réfléchir aux moyens d’améliorer une prédiction en utilisant deux composantes de quantité et d’allocation, plutôt qu’un seul rapport de Kappa.

Pour une mesure de la différence entre deux variables continues, voir Erreur absolue moyenne.

Certains chercheurs ont exprimé des inquiétudes quant à la tendance de κ à prendre les fréquences des catégories observées comme données, ce qui peut le rendre peu fiable pour mesurer l’accord dans des situations telles que le diagnostic de maladies rares. Dans ces situations, κ a tendance à sous-estimer l’accord sur la catégorie rare. Pour cette raison, le κ est considéré comme une mesure trop conservatrice de l’accord. D’autres contestent l’affirmation selon laquelle le kappa « tient compte » de l’accord aléatoire. Pour le faire efficacement, il faudrait un modèle explicite de la façon dont le hasard affecte les décisions des évaluateurs. Le soi-disant ajustement aléatoire des statistiques kappa suppose que, lorsqu’ils ne sont pas complètement certains, les évaluateurs se contentent de deviner – un scénario très peu réaliste.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *