Durchgehendes Beispiel
Reize (n)80 Patientenvideos aus einer Ambulanz — jedes Video zeigt eine Erstvorstellung
Beurteiler (k)3 klinische Psychologen — beurteilen jedes Video unabhängig
Dimension 1Depressionsschwere (PHQ-Kategorie: keine / leicht / moderat / schwer)
Dimension 2Risikoeinstufung (0 = kein Risiko … 4 = akut)
Format3 CSV-Dateien (je 80 Zeilen × 2 Spalten) — eine pro Beurteiler
Wie gut stimmen die drei Psychologen überein — und macht es einen Unterschied, ob wir Zufallsübereinstimmung korrigieren (κ, α), den Rater-Bias herausrechnen (ICC) oder robuste Korrekturen nutzen (Gwet AC)?
Beurteiler-Dateien hochladen, Skalenniveau und Methode wählen,
dann Berechnen klicken.
dann Berechnen klicken.
① Globale Übereinstimmung
② Dimensionsweise Übereinstimmung
③ Pro-Reiz-Übereinstimmung
Gesamtmaß — alle Rater
Box-Whisker-Plot: Verteilung des Übereinstimmungsmaßes über alle Reize. Raute = Mittelwert, Strich = Median.
Histogramm der Reiz-spezifischen Übereinstimmungswerte mit überlagerter Normalverteilung (blau) und Mittelwertlinie.
Verlaufsplot: Übereinstimmungswert pro Reiz in Reihenfolge des Datensatzes. LOESS-Trendlinie zeigt lokale Schwankungen; Orientierungslinien (grün = gut ≥ .80, orange = moderat ≥ .60, rot = schwach < .40).
Paarweise Vergleiche
Box-Whisker-Plots der paarweisen Ähnlichkeit (Hamming) bzw. mittleren absoluten Differenz (MAD) pro Reiz für jedes Rater-Paar.
KDE-Dichteplots der paarweisen Verteilungen (farbige Linien) und aller Rater kombiniert (fett, Akzentfarbe).
Kendall's W — Rangkonkordanz
Kendall's W
Misst die Konkordanz aller Beurteiler gleichzeitig auf Basis von Rängen.
W = 0: keine Übereinstimmung; W = 1: alle Beurteiler ranken identisch.Wird per Dimension berechnet; χ²-Test prüft ob W > 0 (df = n_Reize − 1).
ICC — Intraklassen-Korrelation
ICC(x,1) und ICC(x,k)
ICC(x,1): Reliabilität einer Einzelmessung (1 Rater pro Person).ICC(x,k): Reliabilität des Mittelwerts aller k Rater (Spearman-Brown-korrigiert).
Referenzwerte (Koo & Mae 2016):
< .50 schlecht · .50–.74 moderat · .75–.89 gut · ≥ .90 ausgezeichnet
Heatmap — Dimension × Beurteiler
Heatmap
Zeigt den paarweisen Übereinstimmungswert (gewählte Methode) für jedes Beurteiler-Paar (Zeile) und jede Dimension (Spalte).Rot = geringe Übereinstimmung; Grün = hohe Übereinstimmung.
Rote Zellen zeigen, auf welchen Dimensionen zwei Beurteiler besonders wenig übereinstimmen; grüne Zellen signalisieren gute paarweise Übereinstimmung.
Bland-Altman-Plot
Bland-Altman
Zeigt für jedes Rater-Paar: x-Achse = Mittelwert beider Werte, y-Achse = Differenz.Bias = mittlere Differenz. LoA = Bias ± 1.96 SD.
Punkte außerhalb der LoA = systematische Diskrepanz zwischen Rater-Paar.