ICC Lab — Intraklassenkorrelation interaktiv

Durchgehendes Beispiel

n10 Patienten (Objekte) — z. B. aufgenommene Therapiesitzungen k3 Therapeuten (Rater) — beurteilen jeden Patienten auf einer klinischen Skala σ²_BVarianz zwischen Patienten — der Anteil, den wir messen wollen σ²_RRater-Bias (Strenge/Milde) — systematischer, aber vermeidbarer Fehler σ²_EZufälliger Restfehler — nicht wegzuerklären

Wie zuverlässig ist die Beurteilung — und macht es einen Unterschied, ob wir den Rater-Bias als Fehler zählen (Agreement, ICC(2)) oder herauskorrigieren (Consistency, ICC(3))? Und steigt die Reliabilität, wenn wir mehrere Rater mitteln?

I Datenmuster — Rohdaten und Varianzquellen

Schaltet zwischen zwei Perspektiven: Objekte (wie streuen die Rater pro Objekt?) und Rater (wie konsistent bewertet jeder Rater?).

    Jede Farbe = ein Rater · Gestrichelt = wahrer Wert (μi) ·
    Vertikale Streuung pro Objekt zeigt σ²E + σ²R ·
    Parallele Versetzung aller Punkte eines Raters = Rater-Bias (σ²R)
  

II ICC-Formeln mit aktuellen Werten

    Alle sechs Formen nach Shrout & Fleiss (1979). Die Mittlere Quadratsummen aus der ANOVA-Tabelle (Sidebar)
    werden direkt in die Formeln eingesetzt. Zahlen aktualisieren sich live mit den Slidern.
  

	ICC(1) k unterschiedliche Rater Agreement	ICC(2) gleiche k Rater, Bias = Fehler Agreement	ICC(3) gleiche k Rater, Bias justiert Consistency
Reliabilität des mittleren Raters (?,1)
Reliabilität der gemittelten Ratings (?,k)

III Schätzaufgabe — Intuition trainieren

    Die Slider-Werte sind ausgeblendet. Schätze den angezeigten ICC anhand des Datenmuster-Plots allein.
    Versuche, die Varianzstruktur zu erkennen — wie breit streuen die Rater-Punkte pro Objekt?
    Wie unterschiedlich sind die Objekte voneinander?
  

Aufgabe 1 von 6

Schätze: Wie hoch ist ICC(?) für diesen Datensatz?

Meine Schätzung: 0.50

IV Konzepte — zum Mitnehmen

Was misst die ICC?

Die Intraklassenkorrelation ist eine Reliabilität als Varianzanteil: Welcher Teil der Gesamtvarianz geht auf echte Unterschiede zwischen den Objekten (σ²_B) zurück — und nicht auf Rater-Bias (σ²_R) oder Zufallsfehler (σ²_E)? ICC = 1 heißt perfekte Übereinstimmung, ICC = 0 heißt: die Beurteilung trägt keine Information über die Objekte.

Die drei Modelle (Shrout & Fleiss)

Modell 1: jedes Objekt wird von anderen, zufällig gewählten Ratern beurteilt. Modell 2: dieselben Rater beurteilen alle Objekte und gelten als Zufallsstichprobe aller möglichen Rater → Ergebnis ist verallgemeinerbar (Agreement). Modell 3: dieselben Rater sind die einzig interessierenden (fix) → nur Consistency. Die Modellwahl folgt dem Erhebungsdesign, nicht dem Wunschergebnis.

Agreement vs. Consistency

Zählt systematischer Rater-Bias (Strenge/Milde, σ²_R) als Fehler oder nicht? Agreement rechnet ihn als Fehler ein: ICC(2,1) = σ²_B / (σ²_B + σ²_R + σ²_E). Consistency korrigiert ihn heraus: ICC(3,1) = σ²_B / (σ²_B + σ²_E). Bei großem σ²_R fällt ICC(2) deutlich unter ICC(3). Faustregel: Geht es um absolute Werte (Diagnose-Cutoff), brauchst du Agreement; geht es nur um die Rangordnung, reicht Consistency.

Einzelrater vs. Mittelung (k)

ICC(_,1) beschreibt die Reliabilität eines Raters, ICC(_,k) die des Mittelwerts von k Ratern. Mitteln reduziert den Zufallsfehler → die Reliabilität steigt (gleiche Logik wie die Spearman-Brown-Testverlängerung): ICC(3,k) = k·σ²_B / (k·σ²_B + σ²_E). Mehr Rater erhöhen die Reliabilität also dadurch, dass sich der zufällige Fehler (σ²_E) beim Mitteln teilweise herausrechnet. Ein systematischer Rater-Bias (σ²_R) bleibt davon jedoch unberührt — er verschwindet durch Mittelung nicht und drückt die Agreement-ICC weiterhin.

Varianzkomponenten & ANOVA

Die ANOVA liefert die σ²-Komponenten nicht direkt, sondern über die Erwartungswerte der mittleren Quadratsummen (MQ): E[MQ_zw] = σ²_E + k·σ²_B, E[MQ_rat] = σ²_E + n·σ²_R, E[MQ_res] = σ²_E. Einsetzen und Auflösen ergibt die ICC-Formeln. Die Slider setzen die wahren σ²; jede Stichprobe weicht durch Stichprobenfehler ab und konvergiert erst bei großem n·k.

Einordnung & verwandte Tools

Die ICC ist die kontinuierliche Schwester der Beurteilerübereinstimmung: dort κ/Fleiss/Gwet für kategoriale Urteile, hier die Varianzzerlegung für metrische. Als Varianzanteil ist sie zugleich ein Reliabilitätskoeffizient im Sinne der Klassischen Testtheorie. → Beurteilerübereinstimmung · → KTT-Grundlagen