Multilevel & Mixed Models

Dr. R. Düsing · Universität Osnabrück
J = 5 Klassen n_j = 10 Schüler / Klasse X = Lernzeit (h/Woche) Y = Klausurnote (0–100 Pkt.)
Seed: —
Warum Multilevel? — Complete, No & Partial Pooling
Vier Strategien im Vergleich: eine gemeinsame Gerade, gruppenspezifische Geraden (Interaktionsmodell), Partial Pooling mit gleicher oder variierender Steigung.
Daten nach Klasse & Regressionsgeraden
Szenarien
Pooling-Modus (de/aktivieren)
Varianzzerlegung
Zwischen 30%
Innerhalb 70%
ICC = τ₀ = · σ =
γ₀₀
γ₁₀ (Fixed Slope)
τ₀² (Between)
σ² (Within)
LMM — Random Intercepts
Yij = γ₀₀ + γ₁₀·Xij + u0j + εij
u0j ~ N(0,τ₀²)  ·  εij ~ N(0,σ²)
Tutorial — Warum Multilevel?

Aufgabe — klicken Sie sich durch
J=5 Schulklassen (Farben), n_j=10 Schüler, X = Lernzeit, Y = Klausurnote. Die Regressionsgeraden sind zunächst ausgeblendet. Aktivieren Sie die Pooling-Modi einzeln (Buttons links), um die Geraden einzublenden — zuerst einen allein, dann im Vergleich. Was fällt auf?

Complete Pooling (rot, gestrichelt) → aktivieren
Eine globale OLS-Gerade durch alle N=50 Datenpunkte. Gruppenstruktur wird vollständig ignoriert. Vorteil: einfach. Problem: Standard­fehler werden unterschätzt, weil Beobachtungen innerhalb einer Klasse nicht unabhängig sind.

No Pooling (Gruppen­farben, gepunktet) → aktivieren
Jede Klasse bekommt eine eigene Regressionsgerade. In der Praxis: ein Modell mit Gruppe × Prädiktor-Interaktion — bei J Gruppen entstehen so 2J Parameter (J Intercepts + J Slopes). Bei großem J wird das schnell unhandlich; kein Informationsaustausch zwischen Gruppen. Bei n_j=4 werden Schätzungen instabil.

Partial Pooling / LMM (Gruppen­farben, durchgezogen) → aktivieren
Die Gruppen-Intercepts werden zur Grand Mean geschrumpft, aber alle Gruppen teilen denselben Slope γ₁₀ (Random Intercepts). Die blaue gestrichelte Gerade zeigt den Fixed Effect (γ₀₀ + γ₁₀·X). Korrekte Standard­fehler, Informations­austausch zwischen Gruppen.

Random Slopes / LMM (Gruppen­farben, gestrichelt) → aktivieren
Erweiterung: auch die Steigungen variieren zwischen Gruppen und werden zu γ₁₀ geschrumpft. Die Geraden ähneln stärker dem No-Pooling-Muster als parallele RI-Linien — aber bleiben regularisiert. Nähe zu No Pooling ↑ wenn τ₁ groß, zu Partial Pooling ↑ wenn τ₁ klein.

Was beobachten?
· Hohe ICC: CP- und NP-Geraden liegen weit auseinander. PP/RS liegen dazwischen.
· Kleine Gruppen: NP-Geraden schwanken stark, PP/RS-Geraden bleiben stabil.
· Simpson: CP-Gerade zeigt negativen Trend, NP/PP zeigen positiven Within-Effekt. Modul ④ erklärt warum.

Der Partial-Pooling-Intercept der Gruppe j ist ein gewichtetes Mittel aus No-Pooling-Schätzwert und Grand Mean:
α̂_jPP = λ_j · α̂_jNP + (1–λ_j) · γ̂₀₀
wobei der Shrinkage-Faktor λ_j = τ₀² / (τ₀² + σ²/n_j).

λ → 1 (kein Shrinkage): große Gruppen (n_j↑) oder starke Zwischen-Varianz (τ₀²↑) — die Gruppe hat genug eigene Evidenz.
λ → 0 (starkes Shrinkage): kleine Gruppen oder dominante Within-Varianz — der Prior (Grand Mean) dominiert.
Shrinkage & ICC
Wie stark werden Gruppen-Intercepts zur Grand Mean gezogen? Schieben Sie τ₀ und σ und beobachten Sie den Effekt live.
Caterpillar-Plot — Gruppen-Intercepts (95% CI)
Shrinkage: No Pooling → Partial Pooling
Zwischen-SD τ₀ 8.0
Innerhalb-SD σ 8.0
Gruppen-Größe n_j 10
ICC = τ₀² / (τ₀² + σ²)
Zwischen 50%
Innerhalb 50%
ICC = λ̄ =
ICC
λ (Shrinkage-Faktor)
Max. Shrinkage
Ø |NP – PP|
Shrinkage-Formel
λ_j = τ₀² / (τ₀² + σ²/n_j)
α̂_jPP = λ_j·α̂_jNP + (1–λ_j)·γ̂₀₀
Tutorial — Shrinkage & ICC verstehen

Caterpillar-Plot (oben)
Jede Klasse hat einen Punkt (◆ = Partial Pooling, ○ = No Pooling) und ein 95%-KI. Die gestrichelte Linie ist γ̂₀₀ (Grand Mean). Beobachten Sie: PP-Punkte liegen immer näher an der gestrichelten Linie als NP-Punkte — das ist Shrinkage.

Shrinkage-Diagramm (unten)
Pfeile zeigen die Verschiebung NP → PP. Der Faktor λ steht am Pfeil: λ = 1.0 bedeutet kein Shrinkage (Klasse hat genug eigene Evidenz), λ = 0.2 bedeutet starkes Shrinkage (Grand Mean dominiert).

Schieber τ₀ (Zwischen-SD)
Erhöhen Sie τ₀: Klassen unterscheiden sich stärker → ICC steigt → λ steigt → weniger Shrinkage. Schätzer „vertrauen" der Gruppenstruktur.

Schieber σ (Within-SD)
Erhöhen Sie σ: mehr Rauschen innerhalb der Klassen → ICC sinkt → λ sinkt → mehr Shrinkage. Die gruppenspezifische Information ist weniger zuverlässig.

Schieber n_j
Große Gruppen (n_j = 30): λ ≈ 1, kein Shrinkage nötig. Kleine Gruppen (n_j = 3): λ klein, starkes Shrinkage. Ein Kernvorteil von LMM: Es passt sich automatisch an die verfügbare Datenmenge pro Gruppe an.

ICC-Daumenregeln
ICC < 0.05: Gruppenstruktur vernachlässigbar. · ICC 0.05–0.20: Moderate Cluster-Effekte, LMM empfohlen. · ICC > 0.20: Starke Effekte, LMM zwingend. Bildungskontext: typisch ICC ≈ 0.10–0.20.

Random Slopes — Effekt-Heterogenität zwischen Klassen
Hat Lernzeit in jeder Klasse denselben Effekt? τ₁ lässt Steigungen variieren, ρ kontrolliert die Intercept-Slope-Korrelation.
Gruppen-spezifische Steigungen (farbig = NP, grau = Fixed Slope γ₁₀)
Steigungsvar. τ₁ 1.5
Korrelation ρ 0.00
Fixed Slope γ₁₀ 3.0
γ₁₀ (Ø Steigung)
τ₁ (Slope-SD)
ρ(u₀,u₁)
Steigungsbereich
Random Intercepts + Slopes
Yij = (γ₀₀+u0j) + (γ₁₀+u1j)·X + ε
Σ = [[τ₀²,ρτ₀τ₁],[ρτ₀τ₁,τ₁²]]
Random Intercepts:
lmer(Y ~ X + (1 | Klasse), data=df)

Random Slopes (korreliert):
lmer(Y ~ X + (1 + X | Klasse), data=df)

Unkorreliert (||):
lmer(Y ~ X + (1 + X || Klasse), data=df)

Bayesianisch:
brm(Y ~ X + (1 + X | Klasse), family=gaussian(), data=df)
Tutorial — Random Slopes verstehen

Was Sie sehen
Farbige Geraden = gruppenspezifische NP-Geraden (eine pro Klasse). Graue gestrichelte Gerade = der gemeinsame Fixed Slope γ₁₀. Bei τ₁=0 sind alle farbigen Geraden parallel — nur die Intercepts unterscheiden sich (reines Random-Intercepts-Modell).

Schieber τ₁ (Steigungsvarianz)
τ₁=0: Alle Klassen profitieren gleich von Lernzeit — Random Intercepts genügt.
τ₁>0: Die Steigungen fächern auf (Fan-out oder -in). Inhaltliche Frage: Ist der Lernzeit-Effekt in manchen Klassen stärker als in anderen?

Schieber ρ (Intercept-Slope-Korrelation)
ρ>0 (Fan-out): Klassen mit hohem Ausgangsniveau zeigen auch stärkeren Lernzeit-Effekt. Reichere Klassen werden reicher — Matthäus-Prinzip.
ρ<0 (Kompensation): Klassen mit niedrigem Ausgangsniveau profitieren stärker von Lernzeit — der Unterricht gleicht aus.
ρ=0: Steigung und Intercept variieren unabhängig.

Wann brauche ich Random Slopes?
Theoretisch: wenn der Prädiktor-Effekt nicht für alle Gruppen gleich sein sollte.
Statistisch: Modellvergleich via LRT oder LOOIC. Aber: Random-Slope-Modelle brauchen mehr Daten (bes. große n_j) und können numerisch instabil sein. Im Zweifel: Random Intercepts as default.

Tipp: Uncorrelated RE (||)
Wenn ρ schwer identifizierbar ist (kleine J), können Sie Intercept- und Slope-Random-Effects entkoppeln. In lme4: (1 + X || Klasse). In brms: (1 | Klasse) + (0 + X | Klasse). Das reduziert Parameter und verbessert Konvergenz.

Simpson-Paradoxon — Der Aggregations-Fehler
Der gesamte OLS-Trend kann dem Within-Gruppen-Trend widersprechen — ein Klassiker der konfundierten Gruppenstruktur.
Within-Effekt (gepunktet) vs. OLS gesamt (gestrichelt)
Szenarien
Within-Effekt β_W 3.0
Between-Offset β_B −6.0
Gruppen-Abstand 7.0
β OLS gesamt
β Within (Ø)
Vorzeichen-Flip
Zerlegung des OLS-Koeffizienten
β_OLS = β_W·w_W + β_B·w_B
w_W = Anteil Within-Varianz in X
β_OLS = −: obwohl β_W > 0 !
UC-Berkeley (1973): Frauen hatten aggregiert niedrigere Aufnahmequoten. Stratifiziert nach Fach: in den meisten Fächern gleich oder besser. Frauen bewarben sich häufiger für kompetitive Fächer.

Nierenstein-Behandlung: Behandlung A sieht schlechter aus als B. Stratifiziert nach Steingröße: A ist in beiden Gruppen besser. B wurde für einfachere Fälle bevorzugt — Confounding by indication.
Tutorial — Simpson-Paradoxon & LMM-Lösung

Was Sie sehen
5 Klassen (Farben). Innerhalb jeder Klasse: positiver Trend (β_W > 0) — mehr Lernen, bessere Note. Zwischen den Klassen: negativer Trend (β_B < 0) — Klassen mit generell mehr Lernzeit haben schlechtere Ausgangsnoten. Die gestrichelte OLS-Linie sieht den negativen Between-Trend und schätzt β < 0.

Wie entsteht das Paradox?
OLS vermischt zwei verschiedene Effekte: den Within-Gruppen-Effekt (interessant!) und den Between-Gruppen-Effekt (konfundiert!). Wenn der Between-Effekt das Vorzeichen dominiert und Between-Varianz in X groß ist, kehrt sich das Vorzeichen um.

Wie löst LMM das Problem?
Der Fixed Slope γ₁₀ im LMM schätzt den Within-Effekt — kontrolliert für die Gruppen-Intercepts. Das ist genau der kausal relevante Effekt: „Wenn ein Schüler in derselben Klasse eine Stunde mehr lernt, was ändert sich dann?"

Schieber erkunden
· β_B → 0: Kein Between-Konfunding, OLS und Within stimmen überein.
· Gruppen-Abstand ↓: Klassen überlappen in X, Between-Varianz sinkt → weniger Simpson-Effekt.
· β_W → negativ: Auch der Within-Effekt negativ — kein Paradox mehr, nur schlechte Lernzeit-Wirkung.

Verbindung zu Fixed Effects
In der Ökonometrie: Fixed-Effects-Modell (within-group demeaning) schätzt ebenfalls nur Within-Effekte. LMM (Partial Pooling) liegt dazwischen: berücksichtigt Within-Effekte, erlaubt aber auch Level-2-Prädiktoren (Between-Effekte explizit modellieren).

Lernkarten — Multilevel & Mixed Models
① ICC — Intraklassen-Korrelation
Der ICC (Intraclass Correlation Coefficient) misst den Anteil der Gesamtvarianz, der zwischen den Gruppen liegt: ICC = τ₀² / (τ₀² + σ²). ICC = 0 bedeutet Gruppen sind nicht ähnlicher als Zufallsstichproben — OLS reicht. ICC > 0.10–0.20 bedeutet starke Clusterstruktur: Individuen innerhalb einer Gruppe sind einander ähnlicher. Dann führt OLS zu zu kleinen Standardfehlern und falschen Inferenzen. Faustregel: ab ICC > 0.05 LMM erwägen; ab ICC > 0.10 LMM zwingend.
② Complete · No · Partial Pooling
Complete Pooling ignoriert Gruppen — eine globale OLS-Gerade, SE unterschätzt. No Pooling modelliert als Gruppe × Prädiktor-Interaktion (2J Parameter) — stabil nur bei großen n_j und kleinem J, kein Informationsaustausch. Partial Pooling (LMM) ist der Kompromiss: Gruppen-Intercepts (Random Intercepts) oder auch Slopes (Random Slopes) werden zur Grand Mean geschrumpft (Empirical Bayes). Stärke des Shrinkage: λ = τ₀²/(τ₀²+σ²/n_j). Kleine Gruppen werden stärker angepasst. Ergebnis: regularisierter Schätzer mit besserer Out-of-Sample-Vorhersage und korrekten SE.
③ Shrinkage & Empirical Bayes
Partial Pooling ist äquivalent zu Empirical Bayes: Gruppen-Intercepts werden als zufällig aus N(0,τ₀²) gezogen betrachtet. Shrinkage-Faktor λ_j = τ₀²/(τ₀²+σ²/n_j). Bei τ₀² ↑ oder n_j ↑ gilt λ → 1 (wenig Shrinkage). Bei kleinen Gruppen oder kleinem τ₀² gilt λ → 0 (starkes Shrinkage). Der Caterpillar-Plot zeigt geschrumpfte Intercepts mit KI. Gruppen weit vom Grand Mean entfernt haben breitere KI und weniger Shrinkage — weil sie mehr eigene Evidenz mitbringen.
④ Random Slopes
Ein Random-Intercept-Modell nimmt an, dass alle Gruppen dieselbe Steigung haben. Random-Slope-Modelle erlauben, dass dieser Effekt variiert: τ₁ = SD der Steigungsverteilung. Der Korrelationsparameter ρ zwischen u₀j und u₁j ist inhaltlich wichtig: ρ > 0 (Fan-out) = hohe Gruppen profitieren mehr; ρ < 0 (Kompensation) = niedrige Gruppen profitieren mehr. In lme4: lmer(Y ~ X + (1 + X | Gruppe), data = df). Bei kleinem J und kleinem n_j kann ρ schlecht identifiziert sein → || Syntax testen.
⑤ Simpson-Paradoxon & Within/Between
Der aggregierte OLS-Schätzer mischt Within-Effekte (kausal interessant) mit Between-Effekten (oft konfundiert). Das Simpson-Paradoxon entsteht, wenn beide Effekte gegensätzliche Vorzeichen haben und Between-Varianz in X dominiert. LMM schätzt im Fixed Slope γ₁₀ den Within-Effekt, bereinigt von Gruppenunterschieden. Historische Beispiele: UC-Berkeley-Aufnahme (1973), Nierenstein-Behandlung. Wer nur OLS nutzt, zieht ggf. kausal falsche Schlüsse.
⑥ Modellformel & R-Syntax
Random Intercepts: lmer(Y ~ X + (1 | Gruppe), data = df).
Random Slopes: lmer(Y ~ X + (1 + X | Gruppe), data = df).
Bayesianisch (brms): brm(Y ~ X + (1 | Gruppe), family = gaussian(), data = df).
summary() zeigt Fixed Effects (γ₀₀, γ₁₀) und Random Effects (τ₀, σ). ICC mit performance::icc(model). Modellvergleich: anova(m_ri, m_rs) oder loo_compare(). Conditional R²: r2_nakagawa() aus dem performance-Paket.
? Hilfe — Multilevel & Mixed Models

Was zeigt dieses Tool?

Das Multilevel-Modell-Tool erklärt Linear Mixed Models (LMM) für hierarchisch strukturierte Daten. Beispiel: J=5 Schulklassen mit je n_j=10 Schülern, X=Lernzeit, Y=Klausurnote. Vier interaktive Module führen von der Pooling-Frage über Shrinkage und Random Slopes bis zum Simpson-Paradoxon.

Die vier Module

  • ① Pooling-Vergleich — Complete, No und Partial Pooling live vergleichen. ICC-Balken zeigt Varianzzerlegung. Szenarien auf Knopfdruck.
  • ② Shrinkage & ICC — Caterpillar-Plot + Shrinkage-Pfeildiagramm. Slider für τ₀, σ, n_j zeigen, wie λ den Shrinkage steuert.
  • ③ Random Slopes — τ₁ und ρ kontrollieren Steigungsvariabilität und Intercept-Slope-Korrelation. Fan-out / Kompensation live.
  • ④ Simpson-Paradoxon — Within- und Between-Effekte einstellen. Vorzeichen-Flip des OLS-Koeffizienten live erleben.

Begriffe

  • ICC: τ₀² / (τ₀² + σ²) — Anteil Zwischen-Varianz an Gesamtvarianz.
  • γ₀₀: Grand Intercept (Fixed Effect) — Gesamtmittelwert über alle Gruppen.
  • γ₁₀: Fixed Slope — gemeinsamer Within-Gruppen-Effekt von X auf Y.
  • u₀j: Random Intercept der Gruppe j — Abweichung vom Grand Mean.
  • u₁j: Random Slope der Gruppe j — Abweichung vom Fixed Slope.
  • τ₀ / τ₁: SD der Random-Intercept / -Slope-Verteilung zwischen Gruppen.
  • σ: Residual-SD (Within-Gruppen-Fehler).
  • λ: Shrinkage-Faktor = τ₀² / (τ₀² + σ²/n_j).
▸ Methoden-of-Moments Schätzer (für Interessierte)

Dieses Tool nutzt einfache Momentenschätzer (nicht REML / ML). Der Within-Slope γ₁₀ ist das nach Sxx gewichtete Mittel der gruppenspezifischen OLS-Steigungen. Die Residualvarianz σ² wird aus den Residuen zur gemeinsamen Steigung berechnet. τ₀² = max(0, Var(NP-Intercepts) − σ²/n_j). Diese Schätzer sind konsistent, aber weniger effizient als REML — für Lehrzwecke ausreichend.

Weiterführend