Beurteilerübereinstimmung

Niveau	Beispiele	Verfügbare Maße
Nominal	Diagnose ja/nein, Kategorie A/B/C	Cohen's κ, Fleiss' κ, Krippendorff α, Gwet AC1
Ordinal	Likert 1–5, Schweregrad 1–4	κ (gewichtet), Fleiss' κ, Krippendorff α, Kendall's W, Gwet AC2
Intervall	Reaktionszeit, Rating 0–100	Krippendorff α, ICC(1/2/3), Bland-Altman

Maß	Wann
Cohen's κ	Genau 2 Beurteiler, nominal oder ordinal (ungewichtet)
Cohen's κ (gewichtet)	2 Beurteiler, ordinal — lin. Gewicht bestraft größere Abweichungen stärker
Fleiss' κ	3 oder mehr Beurteiler, nominal oder ordinal
Krippendorff's α	Beliebig viele Beurteiler, alle Skalenniveaus; toleriert fehlende Werte
Gwet's AC1	Nominal, beliebig viele Rater; robuster als κ bei ungleichen Kategoriehäufigkeiten (kein Kappa-Paradox)
Gwet's AC2	Ordinal, lin./quad. gewichtet; Zufallskorrektur basiert auf gleicher Kategorieverteilung, nicht auf Marginalien
ICC(1,x)	Jeder Reiz von anderen zufällig gewählten Ratern bewertet
ICC(2,x)	Dieselben Rater, als Zufallsstichprobe gedacht — Agreement (konservativ)
ICC(3,x)	Dieselben fixen Rater — Consistency (Bias wird rausgepartiellt)

Wert κ / α	Interpretation (Landis & Koch 1977)
≥ .80	Sehr gut
.60 – .79	Gut
.40 – .59	Moderat
< .40	Schwach / ungenügend

ICC-Wert	Interpretation (Koo & Mae 2016)
≥ .90	Ausgezeichnet
.75 – .89	Gut
.50 – .74	Moderat
< .50	Schlecht

Durchgehendes Beispiel

Reize (n)80 Patientenvideos aus einer Ambulanz — jedes Video zeigt eine Erstvorstellung Beurteiler (k)3 klinische Psychologen — beurteilen jedes Video unabhängig Dimension 1Depressionsschwere (PHQ-Kategorie: keine / leicht / moderat / schwer) Dimension 2Risikoeinstufung (0 = kein Risiko … 4 = akut) Format3 CSV-Dateien (je 80 Zeilen × 2 Spalten) — eine pro Beurteiler

Wie gut stimmen die drei Psychologen überein — und macht es einen Unterschied, ob wir Zufallsübereinstimmung korrigieren (κ, α), den Rater-Bias herausrechnen (ICC) oder robuste Korrekturen nutzen (Gwet AC)?

Beurteiler-Dateien hochladen, Skalenniveau und Methode wählen,
dann Berechnen klicken.

① Globale Übereinstimmung

② Dimensionsweise Übereinstimmung

③ Pro-Reiz-Übereinstimmung

Gesamtmaß — alle Rater

      Box-Whisker-Plot: Verteilung des Übereinstimmungsmaßes über alle Reize. Raute = Mittelwert, Strich = Median.
    

      Histogramm der Reiz-spezifischen Übereinstimmungswerte mit überlagerter Normalverteilung (blau) und Mittelwertlinie.
    

      Verlaufsplot: Übereinstimmungswert pro Reiz in Reihenfolge des Datensatzes. LOESS-Trendlinie zeigt lokale Schwankungen; Orientierungslinien (grün = gut ≥ .80, orange = moderat ≥ .60, rot = schwach < .40).
    

Paarweise Vergleiche

      Box-Whisker-Plots der paarweisen Ähnlichkeit (Hamming) bzw. mittleren absoluten Differenz (MAD) pro Reiz für jedes Rater-Paar.
    

      KDE-Dichteplots der paarweisen Verteilungen (farbige Linien) und aller Rater kombiniert (fett, Akzentfarbe).
    

▶ Kendall's W — Rangkonkordanz

Kendall's W

Misst die Konkordanz aller Beurteiler gleichzeitig auf Basis von Rängen. W = 0: keine Übereinstimmung; W = 1: alle Beurteiler ranken identisch.
Wird per Dimension berechnet; χ²-Test prüft ob W > 0 (df = n_Reize − 1).

▶ ICC — Intraklassen-Korrelation

ICC(x,1) und ICC(x,k)

ICC(x,1): Reliabilität einer Einzelmessung (1 Rater pro Person).
ICC(x,k): Reliabilität des Mittelwerts aller k Rater (Spearman-Brown-korrigiert).

Referenzwerte (Koo & Mae 2016):
< .50 schlecht · .50–.74 moderat · .75–.89 gut · ≥ .90 ausgezeichnet

▶ Heatmap — Dimension × Beurteiler

Heatmap

Zeigt den paarweisen Übereinstimmungswert (gewählte Methode) für jedes Beurteiler-Paar (Zeile) und jede Dimension (Spalte).
Rot = geringe Übereinstimmung; Grün = hohe Übereinstimmung.

        Rote Zellen zeigen, auf welchen Dimensionen zwei Beurteiler besonders wenig übereinstimmen; grüne Zellen signalisieren gute paarweise Übereinstimmung.
      

▶ Bland-Altman-Plot

Bland-Altman

Zeigt für jedes Rater-Paar: x-Achse = Mittelwert beider Werte, y-Achse = Differenz.
Bias = mittlere Differenz. LoA = Bias ± 1.96 SD.
Punkte außerhalb der LoA = systematische Diskrepanz zwischen Rater-Paar.