ICC Lab — Intraklassenkorrelation interaktiv

Dr. R. Düsing · Universität Osnabrück
Durchgehendes Beispiel
n10 Patienten (Objekte) — z. B. aufgenommene Therapiesitzungen k3 Therapeuten (Rater) — beurteilen jeden Patienten auf einer klinischen Skala σ²_BVarianz zwischen Patienten — der Anteil, den wir messen wollen σ²_RRater-Bias (Strenge/Milde) — systematischer, aber vermeidbarer Fehler σ²_EZufälliger Restfehler — nicht wegzuerklären
Wie zuverlässig ist die Beurteilung — und macht es einen Unterschied, ob wir den Rater-Bias als Fehler zählen (Agreement, ICC(2)) oder herauskorrigieren (Consistency, ICC(3))? Und steigt die Reliabilität, wenn wir mehrere Rater mitteln?
I Datenmuster — Rohdaten und Varianzquellen
Schaltet zwischen zwei Perspektiven: Objekte (wie streuen die Rater pro Objekt?) und Rater (wie konsistent bewertet jeder Rater?).
Jede Farbe = ein Rater · Gestrichelt = wahrer Wert (μi) · Vertikale Streuung pro Objekt zeigt σ²E + σ²R · Parallele Versetzung aller Punkte eines Raters = Rater-Bias (σ²R)
II ICC-Formeln mit aktuellen Werten
Alle sechs Formen nach Shrout & Fleiss (1979). Die Mittlere Quadratsummen aus der ANOVA-Tabelle (Sidebar) werden direkt in die Formeln eingesetzt. Zahlen aktualisieren sich live mit den Slidern.
ICC(1)
k unterschiedliche Rater
Agreement
ICC(2)
gleiche k Rater, Bias = Fehler
Agreement
ICC(3)
gleiche k Rater, Bias justiert
Consistency
Reliabilität des
mittleren Raters
(?,1)
Reliabilität der
gemittelten Ratings
(?,k)
III Schätzaufgabe — Intuition trainieren
Die Slider-Werte sind ausgeblendet. Schätze den angezeigten ICC anhand des Datenmuster-Plots allein. Versuche, die Varianzstruktur zu erkennen — wie breit streuen die Rater-Punkte pro Objekt? Wie unterschiedlich sind die Objekte voneinander?
Aufgabe 1 von 6
Schätze: Wie hoch ist ICC(?) für diesen Datensatz?
Meine Schätzung: 0.50
IV Konzepte — zum Mitnehmen
Was misst die ICC?
Die Intraklassenkorrelation ist eine Reliabilität als Varianzanteil: Welcher Teil der Gesamtvarianz geht auf echte Unterschiede zwischen den Objekten (σ²_B) zurück — und nicht auf Rater-Bias (σ²_R) oder Zufallsfehler (σ²_E)? ICC = 1 heißt perfekte Übereinstimmung, ICC = 0 heißt: die Beurteilung trägt keine Information über die Objekte.
Die drei Modelle (Shrout & Fleiss)
Modell 1: jedes Objekt wird von anderen, zufällig gewählten Ratern beurteilt. Modell 2: dieselben Rater beurteilen alle Objekte und gelten als Zufallsstichprobe aller möglichen Rater → Ergebnis ist verallgemeinerbar (Agreement). Modell 3: dieselben Rater sind die einzig interessierenden (fix) → nur Consistency. Die Modellwahl folgt dem Erhebungsdesign, nicht dem Wunschergebnis.
Agreement vs. Consistency
Zählt systematischer Rater-Bias (Strenge/Milde, σ²_R) als Fehler oder nicht? Agreement rechnet ihn als Fehler ein: ICC(2,1) = σ²_B / (σ²_B + σ²_R + σ²_E). Consistency korrigiert ihn heraus: ICC(3,1) = σ²_B / (σ²_B + σ²_E). Bei großem σ²_R fällt ICC(2) deutlich unter ICC(3). Faustregel: Geht es um absolute Werte (Diagnose-Cutoff), brauchst du Agreement; geht es nur um die Rangordnung, reicht Consistency.
Einzelrater vs. Mittelung (k)
ICC(_,1) beschreibt die Reliabilität eines Raters, ICC(_,k) die des Mittelwerts von k Ratern. Mitteln reduziert den Zufallsfehler → die Reliabilität steigt (gleiche Logik wie die Spearman-Brown-Testverlängerung): ICC(3,k) = k·σ²_B / (k·σ²_B + σ²_E). Mehr Rater erhöhen die Reliabilität also dadurch, dass sich der zufällige Fehler (σ²_E) beim Mitteln teilweise herausrechnet. Ein systematischer Rater-Bias (σ²_R) bleibt davon jedoch unberührt — er verschwindet durch Mittelung nicht und drückt die Agreement-ICC weiterhin.
Varianzkomponenten & ANOVA
Die ANOVA liefert die σ²-Komponenten nicht direkt, sondern über die Erwartungswerte der mittleren Quadratsummen (MQ): E[MQ_zw] = σ²_E + k·σ²_B, E[MQ_rat] = σ²_E + n·σ²_R, E[MQ_res] = σ²_E. Einsetzen und Auflösen ergibt die ICC-Formeln. Die Slider setzen die wahren σ²; jede Stichprobe weicht durch Stichprobenfehler ab und konvergiert erst bei großem n·k.
Einordnung & verwandte Tools
Die ICC ist die kontinuierliche Schwester der Beurteilerübereinstimmung: dort κ/Fleiss/Gwet für kategoriale Urteile, hier die Varianzzerlegung für metrische. Als Varianzanteil ist sie zugleich ein Reliabilitätskoeffizient im Sinne der Klassischen Testtheorie. → Beurteilerübereinstimmung · → KTT-Grundlagen
ICC Lab — Hintergrund & Notation
Beispiel

3 Therapeuten beurteilen 10 Patienten auf einer klinischen Skala. Jeder Therapeut hat eine leicht andere Strenge (σ²_R). Die eigentliche Variabilität zwischen Patienten ist σ²_B — das, was wir reliabel messen wollen. σ²_E ist reiner Zufall. Die ICC-Wahl entscheidet, wie viel davon als Fehler gilt.

Varianzkomponenten (σ²-Notation)

Das Tool steuert drei Populationsparameter. In den Formeln erscheinen sie als Mittlere Quadratsummen (MQ), da die ANOVA σ² nicht direkt liefert, sondern über Erwartungswerte der MQ.

σ²_B = Varianz zwischen Objekten (True-Score-Varianz). Im Beispiel: wie verschieden sind die Patienten wirklich? E[MQ_zw] = σ²_E + k·σ²_B

σ²_R = Rater-Haupteffekte (Strenge/Milde-Bias, systematisch). Im Beispiel: Therapeut A bewertet systematisch 5 Punkte strenger als B. E[MQ_rat] = σ²_E + n·σ²_R

σ²_E = Zufälliger Residualfehler. E[MQ_res] = σ²_E

Von σ² zu den ICC-Formeln

Setzt man die Erwartungswerte ein, vereinfachen sich die ICC-Formeln zu intuitiven Varianzanteilen:

ICC(3,1) = σ²_B / (σ²_B + σ²_E)   [Consistency: σ²_R wird herauskorrigiert] ICC(2,1) = σ²_B / (σ²_B + σ²_R + σ²_E)   [Agreement: σ²_R zählt als Fehler] ICC(3,k) = k·σ²_B / (k·σ²_B + σ²_E)   [k Rater gemittelt, Consistency]

Im Beispiel: Wenn σ²_R groß ist (Therapeuten sehr verschieden in Strenge), ist ICC(2) deutlich kleiner als ICC(3). ICC(3) ist nur dann gerechtfertigt, wenn die Rater-Strenge herausgemittelt werden kann (z. B. jeder Patient wird immer von denselben Ratern beurteilt).

Agreement vs. Consistency

Agreement (ICC(2)): Rater können die gleichen Objekte auf absolut unterschiedlichen Niveaus bewerten — das ist ein Fehler. Relevant wenn verschiedene Rater verschiedene Personen beurteilen und eine Vergleichbarkeit wichtig ist.

Consistency (ICC(3)): Nur die Rangordnung zählt, nicht das absolute Niveau. Relevant wenn alle Rater alle Objekte beurteilen und systematische Strenge-Unterschiede durch Mittelung verschwinden.

Im Beispiel: Will man die Therapeutenbeurteilung für eine Diagnoseentscheidung nutzen, ist Agreement relevant (ICC(2)). Für einen Forschungsindex, der immer von denselben 3 Therapeuten erhoben wird, reicht Consistency (ICC(3)).

Stichprobe vs. wahrer Wert

Die Slider setzen Populations-Parameter (σ²). Das Tool zieht eine zufällige Stichprobe (n × k). Stichproben-MQs weichen von Erwartungswerten ab — das ist Stichprobenfehler. Bei jedem Klick auf "Neue Daten" ändert sich die Stichprobe, nicht die wahren Parameter. Bei großem n/k konvergieren die Schätzer.

Referenz: Shrout, P. E., & Fleiss, J. L. (1979). Psychological Bulletin, 86(2), 420–428.