Multilevel & Mixed Models

Beispiel

J = 5 Klassen n_j = 10 Schüler / Klasse X = Lernzeit (h/Woche) Y = Klausurnote (0–100 Pkt.)

Seed: —

Warum Multilevel? — Complete, No & Partial Pooling

Vier Strategien im Vergleich: eine gemeinsame Gerade, gruppenspezifische Geraden (Interaktionsmodell), Partial Pooling mit gleicher oder variierender Steigung.

Daten nach Klasse & Regressionsgeraden

Szenarien

Pooling-Modus (de/aktivieren)

Varianzzerlegung

Zwischen 30%

Innerhalb 70%

ICC = — τ₀ = — · σ = —

γ₀₀

—

γ₁₀ (Fixed Slope)

—

τ₀² (Between)

—

σ² (Within)

—

LMM — Random Intercepts

Y_ij = γ₀₀ + γ₁₀·X_ij + u_0j + ε_ij

u_0j ~ N(0,τ₀²) · ε_ij ~ N(0,σ²)

Tutorial — Warum Multilevel?

Aufgabe — klicken Sie sich durch
J=5 Schulklassen (Farben), n_j=10 Schüler, X = Lernzeit, Y = Klausurnote. Die Regressionsgeraden sind zunächst ausgeblendet. Aktivieren Sie die Pooling-Modi einzeln (Buttons links), um die Geraden einzublenden — zuerst einen allein, dann im Vergleich. Was fällt auf?

Complete Pooling (rot, gestrichelt) → aktivieren
Eine globale OLS-Gerade durch alle N=50 Datenpunkte. Gruppenstruktur wird vollständig ignoriert. Vorteil: einfach. Problem: Standardfehler werden unterschätzt, weil Beobachtungen innerhalb einer Klasse nicht unabhängig sind.

No Pooling (Gruppenfarben, gepunktet) → aktivieren
Jede Klasse bekommt eine eigene Regressionsgerade. In der Praxis: ein Modell mit Gruppe × Prädiktor-Interaktion — bei J Gruppen entstehen so 2J Parameter (J Intercepts + J Slopes). Bei großem J wird das schnell unhandlich; kein Informationsaustausch zwischen Gruppen. Bei n_j=4 werden Schätzungen instabil.

Partial Pooling / LMM (Gruppenfarben, durchgezogen) → aktivieren
Die Gruppen-Intercepts werden zur Grand Mean geschrumpft, aber alle Gruppen teilen denselben Slope γ₁₀ (Random Intercepts). Die blaue gestrichelte Gerade zeigt den Fixed Effect (γ₀₀ + γ₁₀·X). Korrekte Standardfehler, Informationsaustausch zwischen Gruppen.

Random Slopes / LMM (Gruppenfarben, gestrichelt) → aktivieren
Erweiterung: auch die Steigungen variieren zwischen Gruppen und werden zu γ₁₀ geschrumpft. Die Geraden ähneln stärker dem No-Pooling-Muster als parallele RI-Linien — aber bleiben regularisiert. Nähe zu No Pooling ↑ wenn τ₁ groß, zu Partial Pooling ↑ wenn τ₁ klein.

Was beobachten?
· Hohe ICC: CP- und NP-Geraden liegen weit auseinander. PP/RS liegen dazwischen.
· Kleine Gruppen: NP-Geraden schwanken stark, PP/RS-Geraden bleiben stabil.
· Simpson: CP-Gerade zeigt negativen Trend, NP/PP zeigen positiven Within-Effekt. Modul ④ erklärt warum.

Der Partial-Pooling-Intercept der Gruppe j ist ein gewichtetes Mittel aus No-Pooling-Schätzwert und Grand Mean:
α̂_j^PP = λ_j · α̂_j^NP + (1–λ_j) · γ̂₀₀
wobei der Shrinkage-Faktor λ_j = τ₀² / (τ₀² + σ²/n_j).

λ → 1 (kein Shrinkage): große Gruppen (n_j↑) oder starke Zwischen-Varianz (τ₀²↑) — die Gruppe hat genug eigene Evidenz.
λ → 0 (starkes Shrinkage): kleine Gruppen oder dominante Within-Varianz — der Prior (Grand Mean) dominiert.

Shrinkage & ICC

Wie stark werden Gruppen-Intercepts zur Grand Mean gezogen? Schieben Sie τ₀ und σ und beobachten Sie den Effekt live.

Caterpillar-Plot — Gruppen-Intercepts (95% CI)

Shrinkage: No Pooling → Partial Pooling

Zwischen-SD τ₀ 8.0

Innerhalb-SD σ 8.0

Gruppen-Größe n_j 10

ICC = τ₀² / (τ₀² + σ²)

Zwischen 50%

Innerhalb 50%

ICC = — λ̄ = —

ICC

—

λ (Shrinkage-Faktor)

—

Max. Shrinkage

—

Ø |NP – PP|

—

Shrinkage-Formel

λ_j = τ₀² / (τ₀² + σ²/n_j)

α̂_j^PP = λ_j·α̂_j^NP + (1–λ_j)·γ̂₀₀

Tutorial — Shrinkage & ICC verstehen

Caterpillar-Plot (oben)
Jede Klasse hat einen Punkt (◆ = Partial Pooling, ○ = No Pooling) und ein 95%-KI. Die gestrichelte Linie ist γ̂₀₀ (Grand Mean). Beobachten Sie: PP-Punkte liegen immer näher an der gestrichelten Linie als NP-Punkte — das ist Shrinkage.

Shrinkage-Diagramm (unten)
Pfeile zeigen die Verschiebung NP → PP. Der Faktor λ steht am Pfeil: λ = 1.0 bedeutet kein Shrinkage (Klasse hat genug eigene Evidenz), λ = 0.2 bedeutet starkes Shrinkage (Grand Mean dominiert).

Schieber τ₀ (Zwischen-SD)
Erhöhen Sie τ₀: Klassen unterscheiden sich stärker → ICC steigt → λ steigt → weniger Shrinkage. Schätzer „vertrauen" der Gruppenstruktur.

Schieber σ (Within-SD)
Erhöhen Sie σ: mehr Rauschen innerhalb der Klassen → ICC sinkt → λ sinkt → mehr Shrinkage. Die gruppenspezifische Information ist weniger zuverlässig.

Schieber n_j
Große Gruppen (n_j = 30): λ ≈ 1, kein Shrinkage nötig. Kleine Gruppen (n_j = 3): λ klein, starkes Shrinkage. Ein Kernvorteil von LMM: Es passt sich automatisch an die verfügbare Datenmenge pro Gruppe an.

ICC-Daumenregeln
ICC < 0.05: Gruppenstruktur vernachlässigbar. · ICC 0.05–0.20: Moderate Cluster-Effekte, LMM empfohlen. · ICC > 0.20: Starke Effekte, LMM zwingend. Bildungskontext: typisch ICC ≈ 0.10–0.20.

Random Slopes — Effekt-Heterogenität zwischen Klassen

Hat Lernzeit in jeder Klasse denselben Effekt? τ₁ lässt Steigungen variieren, ρ kontrolliert die Intercept-Slope-Korrelation.

Gruppen-spezifische Steigungen (farbig = NP, grau = Fixed Slope γ₁₀)

Steigungsvar. τ₁ 1.5

Korrelation ρ 0.00

Fixed Slope γ₁₀ 3.0

γ₁₀ (Ø Steigung)

—

τ₁ (Slope-SD)

—

ρ(u₀,u₁)

—

Steigungsbereich

—

Random Intercepts + Slopes

Y_ij = (γ₀₀+u_0j) + (γ₁₀+u_1j)·X + ε

Σ = [[τ₀²,ρτ₀τ₁],[ρτ₀τ₁,τ₁²]]

Random Intercepts:
lmer(Y ~ X + (1 | Klasse), data=df)

Random Slopes (korreliert):
lmer(Y ~ X + (1 + X | Klasse), data=df)

Unkorreliert (||):
lmer(Y ~ X + (1 + X || Klasse), data=df)

Bayesianisch:
brm(Y ~ X + (1 + X | Klasse), family=gaussian(), data=df)

Tutorial — Random Slopes verstehen

Was Sie sehen
Farbige Geraden = gruppenspezifische NP-Geraden (eine pro Klasse). Graue gestrichelte Gerade = der gemeinsame Fixed Slope γ₁₀. Bei τ₁=0 sind alle farbigen Geraden parallel — nur die Intercepts unterscheiden sich (reines Random-Intercepts-Modell).

Schieber τ₁ (Steigungsvarianz)
τ₁=0: Alle Klassen profitieren gleich von Lernzeit — Random Intercepts genügt.
τ₁>0: Die Steigungen fächern auf (Fan-out oder -in). Inhaltliche Frage: Ist der Lernzeit-Effekt in manchen Klassen stärker als in anderen?

Schieber ρ (Intercept-Slope-Korrelation)
ρ>0 (Fan-out): Klassen mit hohem Ausgangsniveau zeigen auch stärkeren Lernzeit-Effekt. Reichere Klassen werden reicher — Matthäus-Prinzip.
ρ<0 (Kompensation): Klassen mit niedrigem Ausgangsniveau profitieren stärker von Lernzeit — der Unterricht gleicht aus.
ρ=0: Steigung und Intercept variieren unabhängig.

Wann brauche ich Random Slopes?
Theoretisch: wenn der Prädiktor-Effekt nicht für alle Gruppen gleich sein sollte.
Statistisch: Modellvergleich via LRT oder LOOIC. Aber: Random-Slope-Modelle brauchen mehr Daten (bes. große n_j) und können numerisch instabil sein. Im Zweifel: Random Intercepts as default.

Tipp: Uncorrelated RE (||)
Wenn ρ schwer identifizierbar ist (kleine J), können Sie Intercept- und Slope-Random-Effects entkoppeln. In lme4: (1 + X || Klasse). In brms: (1 | Klasse) + (0 + X | Klasse). Das reduziert Parameter und verbessert Konvergenz.

Simpson-Paradoxon — Der Aggregations-Fehler

Der gesamte OLS-Trend kann dem Within-Gruppen-Trend widersprechen — ein Klassiker der konfundierten Gruppenstruktur.

Within-Effekt (gepunktet) vs. OLS gesamt (gestrichelt)

Szenarien

Within-Effekt β_W 3.0

Between-Offset β_B −6.0

Gruppen-Abstand 7.0

β OLS gesamt

—

β Within (Ø)

—

Vorzeichen-Flip

—

Zerlegung des OLS-Koeffizienten

β_OLS = β_W·w_W + β_B·w_B

w_W = Anteil Within-Varianz in X

β_OLS = −: obwohl β_W > 0 !

UC-Berkeley (1973): Frauen hatten aggregiert niedrigere Aufnahmequoten. Stratifiziert nach Fach: in den meisten Fächern gleich oder besser. Frauen bewarben sich häufiger für kompetitive Fächer.

Nierenstein-Behandlung: Behandlung A sieht schlechter aus als B. Stratifiziert nach Steingröße: A ist in beiden Gruppen besser. B wurde für einfachere Fälle bevorzugt — Confounding by indication.

Tutorial — Simpson-Paradoxon & LMM-Lösung

Was Sie sehen
5 Klassen (Farben). Innerhalb jeder Klasse: positiver Trend (β_W > 0) — mehr Lernen, bessere Note. Zwischen den Klassen: negativer Trend (β_B < 0) — Klassen mit generell mehr Lernzeit haben schlechtere Ausgangsnoten. Die gestrichelte OLS-Linie sieht den negativen Between-Trend und schätzt β < 0.

Wie entsteht das Paradox?
OLS vermischt zwei verschiedene Effekte: den Within-Gruppen-Effekt (interessant!) und den Between-Gruppen-Effekt (konfundiert!). Wenn der Between-Effekt das Vorzeichen dominiert und Between-Varianz in X groß ist, kehrt sich das Vorzeichen um.

Wie löst LMM das Problem?
Der Fixed Slope γ₁₀ im LMM schätzt den Within-Effekt — kontrolliert für die Gruppen-Intercepts. Das ist genau der kausal relevante Effekt: „Wenn ein Schüler in derselben Klasse eine Stunde mehr lernt, was ändert sich dann?"

Schieber erkunden
· β_B → 0: Kein Between-Konfunding, OLS und Within stimmen überein.
· Gruppen-Abstand ↓: Klassen überlappen in X, Between-Varianz sinkt → weniger Simpson-Effekt.
· β_W → negativ: Auch der Within-Effekt negativ — kein Paradox mehr, nur schlechte Lernzeit-Wirkung.

Verbindung zu Fixed Effects
In der Ökonometrie: Fixed-Effects-Modell (within-group demeaning) schätzt ebenfalls nur Within-Effekte. LMM (Partial Pooling) liegt dazwischen: berücksichtigt Within-Effekte, erlaubt aber auch Level-2-Prädiktoren (Between-Effekte explizit modellieren).

Lernkarten — Multilevel & Mixed Models

① ICC — Intraklassen-Korrelation

Der ICC (Intraclass Correlation Coefficient) misst den Anteil der Gesamtvarianz, der zwischen den Gruppen liegt: ICC = τ₀² / (τ₀² + σ²). ICC = 0 bedeutet Gruppen sind nicht ähnlicher als Zufallsstichproben — OLS reicht. ICC > 0.10–0.20 bedeutet starke Clusterstruktur: Individuen innerhalb einer Gruppe sind einander ähnlicher. Dann führt OLS zu zu kleinen Standardfehlern und falschen Inferenzen. Faustregel: ab ICC > 0.05 LMM erwägen; ab ICC > 0.10 LMM zwingend.

② Complete · No · Partial Pooling

Complete Pooling ignoriert Gruppen — eine globale OLS-Gerade, SE unterschätzt. No Pooling modelliert als Gruppe × Prädiktor-Interaktion (2J Parameter) — stabil nur bei großen n_j und kleinem J, kein Informationsaustausch. Partial Pooling (LMM) ist der Kompromiss: Gruppen-Intercepts (Random Intercepts) oder auch Slopes (Random Slopes) werden zur Grand Mean geschrumpft (Empirical Bayes). Stärke des Shrinkage: λ = τ₀²/(τ₀²+σ²/n_j). Kleine Gruppen werden stärker angepasst. Ergebnis: regularisierter Schätzer mit besserer Out-of-Sample-Vorhersage und korrekten SE.

③ Shrinkage & Empirical Bayes

Partial Pooling ist äquivalent zu Empirical Bayes: Gruppen-Intercepts werden als zufällig aus N(0,τ₀²) gezogen betrachtet. Shrinkage-Faktor λ_j = τ₀²/(τ₀²+σ²/n_j). Bei τ₀² ↑ oder n_j ↑ gilt λ → 1 (wenig Shrinkage). Bei kleinen Gruppen oder kleinem τ₀² gilt λ → 0 (starkes Shrinkage). Der Caterpillar-Plot zeigt geschrumpfte Intercepts mit KI. Gruppen weit vom Grand Mean entfernt haben breitere KI und weniger Shrinkage — weil sie mehr eigene Evidenz mitbringen.

④ Random Slopes

Ein Random-Intercept-Modell nimmt an, dass alle Gruppen dieselbe Steigung haben. Random-Slope-Modelle erlauben, dass dieser Effekt variiert: τ₁ = SD der Steigungsverteilung. Der Korrelationsparameter ρ zwischen u₀j und u₁j ist inhaltlich wichtig: ρ > 0 (Fan-out) = hohe Gruppen profitieren mehr; ρ < 0 (Kompensation) = niedrige Gruppen profitieren mehr. In lme4: lmer(Y ~ X + (1 + X | Gruppe), data = df). Bei kleinem J und kleinem n_j kann ρ schlecht identifiziert sein → || Syntax testen.

⑤ Simpson-Paradoxon & Within/Between

Der aggregierte OLS-Schätzer mischt Within-Effekte (kausal interessant) mit Between-Effekten (oft konfundiert). Das Simpson-Paradoxon entsteht, wenn beide Effekte gegensätzliche Vorzeichen haben und Between-Varianz in X dominiert. LMM schätzt im Fixed Slope γ₁₀ den Within-Effekt, bereinigt von Gruppenunterschieden. Historische Beispiele: UC-Berkeley-Aufnahme (1973), Nierenstein-Behandlung. Wer nur OLS nutzt, zieht ggf. kausal falsche Schlüsse.

⑥ Modellformel & R-Syntax

Random Intercepts: lmer(Y ~ X + (1 | Gruppe), data = df).
Random Slopes: lmer(Y ~ X + (1 + X | Gruppe), data = df).
Bayesianisch (brms): brm(Y ~ X + (1 | Gruppe), family = gaussian(), data = df).
summary() zeigt Fixed Effects (γ₀₀, γ₁₀) und Random Effects (τ₀, σ). ICC mit performance::icc(model). Modellvergleich: anova(m_ri, m_rs) oder loo_compare(). Conditional R²: r2_nakagawa() aus dem performance-Paket.

Multilevel & Mixed Models

Was zeigt dieses Tool?

Die vier Module

Begriffe

Weiterführend