Beurteilerübereinstimmung

© Dr. Rainer Düsing · Diagnostik-Kurs · Universität Osnabrück · Interactive Tools by Claude
Durchgehendes Beispiel
Reize (n)80 Patientenvideos aus einer Ambulanz — jedes Video zeigt eine Erstvorstellung Beurteiler (k)3 klinische Psychologen — beurteilen jedes Video unabhängig Dimension 1Depressionsschwere (PHQ-Kategorie: keine / leicht / moderat / schwer) Dimension 2Risikoeinstufung (0 = kein Risiko … 4 = akut) Format3 CSV-Dateien (je 80 Zeilen × 2 Spalten) — eine pro Beurteiler
Wie gut stimmen die drei Psychologen überein — und macht es einen Unterschied, ob wir Zufallsübereinstimmung korrigieren (κ, α), den Rater-Bias herausrechnen (ICC) oder robuste Korrekturen nutzen (Gwet AC)?
Beurteiler-Dateien hochladen, Skalenniveau und Methode wählen,
dann Berechnen klicken.
① Globale Übereinstimmung
② Dimensionsweise Übereinstimmung
③ Pro-Reiz-Übereinstimmung
Gesamtmaß — alle Rater
Box-Whisker-Plot: Verteilung des Übereinstimmungsmaßes über alle Reize. Raute = Mittelwert, Strich = Median.
Histogramm der Reiz-spezifischen Übereinstimmungswerte mit überlagerter Normalverteilung (blau) und Mittelwertlinie.
Verlaufsplot: Übereinstimmungswert pro Reiz in Reihenfolge des Datensatzes. LOESS-Trendlinie zeigt lokale Schwankungen; Orientierungslinien (grün = gut ≥ .80, orange = moderat ≥ .60, rot = schwach < .40).
Paarweise Vergleiche
Box-Whisker-Plots der paarweisen Ähnlichkeit (Hamming) bzw. mittleren absoluten Differenz (MAD) pro Reiz für jedes Rater-Paar.
KDE-Dichteplots der paarweisen Verteilungen (farbige Linien) und aller Rater kombiniert (fett, Akzentfarbe).
Kendall's W — Rangkonkordanz
Kendall's W
Misst die Konkordanz aller Beurteiler gleichzeitig auf Basis von Rängen. W = 0: keine Übereinstimmung; W = 1: alle Beurteiler ranken identisch.
Wird per Dimension berechnet; χ²-Test prüft ob W > 0 (df = n_Reize − 1).
ICC — Intraklassen-Korrelation
ICC(x,1) und ICC(x,k)
ICC(x,1): Reliabilität einer Einzelmessung (1 Rater pro Person).
ICC(x,k): Reliabilität des Mittelwerts aller k Rater (Spearman-Brown-korrigiert).

Referenzwerte (Koo & Mae 2016):
< .50 schlecht · .50–.74 moderat · .75–.89 gut · ≥ .90 ausgezeichnet
Heatmap — Dimension × Beurteiler
Heatmap
Zeigt den paarweisen Übereinstimmungswert (gewählte Methode) für jedes Beurteiler-Paar (Zeile) und jede Dimension (Spalte).
Rot = geringe Übereinstimmung; Grün = hohe Übereinstimmung.
Rote Zellen zeigen, auf welchen Dimensionen zwei Beurteiler besonders wenig übereinstimmen; grüne Zellen signalisieren gute paarweise Übereinstimmung.
Bland-Altman-Plot
Bland-Altman
Zeigt für jedes Rater-Paar: x-Achse = Mittelwert beider Werte, y-Achse = Differenz.
Bias = mittlere Differenz. LoA = Bias ± 1.96 SD.
Punkte außerhalb der LoA = systematische Diskrepanz zwischen Rater-Paar.