Aufgabe — klicken Sie sich durch
J=5 Schulklassen (Farben), n_j=10 Schüler, X = Lernzeit, Y = Klausurnote. Die Regressionsgeraden sind zunächst ausgeblendet. Aktivieren Sie die Pooling-Modi einzeln (Buttons links), um die Geraden einzublenden — zuerst einen allein, dann im Vergleich. Was fällt auf?
Complete Pooling (rot, gestrichelt) → aktivieren
Eine globale OLS-Gerade durch alle N=50 Datenpunkte. Gruppenstruktur wird vollständig ignoriert. Vorteil: einfach. Problem: Standardfehler werden unterschätzt, weil Beobachtungen innerhalb einer Klasse nicht unabhängig sind.
No Pooling (Gruppenfarben, gepunktet) → aktivieren
Jede Klasse bekommt eine eigene Regressionsgerade. In der Praxis: ein Modell mit Gruppe × Prädiktor-Interaktion — bei J Gruppen entstehen so 2J Parameter (J Intercepts + J Slopes). Bei großem J wird das schnell unhandlich; kein Informationsaustausch zwischen Gruppen. Bei n_j=4 werden Schätzungen instabil.
Partial Pooling / LMM (Gruppenfarben, durchgezogen) → aktivieren
Die Gruppen-Intercepts werden zur Grand Mean geschrumpft, aber alle Gruppen teilen denselben Slope γ₁₀ (Random Intercepts). Die blaue gestrichelte Gerade zeigt den Fixed Effect (γ₀₀ + γ₁₀·X). Korrekte Standardfehler, Informationsaustausch zwischen Gruppen.
Random Slopes / LMM (Gruppenfarben, gestrichelt) → aktivieren
Erweiterung: auch die Steigungen variieren zwischen Gruppen und werden zu γ₁₀ geschrumpft. Die Geraden ähneln stärker dem No-Pooling-Muster als parallele RI-Linien — aber bleiben regularisiert. Nähe zu No Pooling ↑ wenn τ₁ groß, zu Partial Pooling ↑ wenn τ₁ klein.
Was beobachten?
· Hohe ICC: CP- und NP-Geraden liegen weit auseinander. PP/RS liegen dazwischen.
· Kleine Gruppen: NP-Geraden schwanken stark, PP/RS-Geraden bleiben stabil.
· Simpson: CP-Gerade zeigt negativen Trend, NP/PP zeigen positiven Within-Effekt. Modul ④ erklärt warum.
Caterpillar-Plot (oben)
Jede Klasse hat einen Punkt (◆ = Partial Pooling, ○ = No Pooling) und ein 95%-KI. Die gestrichelte Linie ist γ̂₀₀ (Grand Mean). Beobachten Sie: PP-Punkte liegen immer näher an der gestrichelten Linie als NP-Punkte — das ist Shrinkage.
Shrinkage-Diagramm (unten)
Pfeile zeigen die Verschiebung NP → PP. Der Faktor λ steht am Pfeil: λ = 1.0 bedeutet kein Shrinkage (Klasse hat genug eigene Evidenz), λ = 0.2 bedeutet starkes Shrinkage (Grand Mean dominiert).
Schieber τ₀ (Zwischen-SD)
Erhöhen Sie τ₀: Klassen unterscheiden sich stärker → ICC steigt → λ steigt → weniger Shrinkage. Schätzer „vertrauen" der Gruppenstruktur.
Schieber σ (Within-SD)
Erhöhen Sie σ: mehr Rauschen innerhalb der Klassen → ICC sinkt → λ sinkt → mehr Shrinkage. Die gruppenspezifische Information ist weniger zuverlässig.
Schieber n_j
Große Gruppen (n_j = 30): λ ≈ 1, kein Shrinkage nötig. Kleine Gruppen (n_j = 3): λ klein, starkes Shrinkage. Ein Kernvorteil von LMM: Es passt sich automatisch an die verfügbare Datenmenge pro Gruppe an.
ICC-Daumenregeln
ICC < 0.05: Gruppenstruktur vernachlässigbar. · ICC 0.05–0.20: Moderate Cluster-Effekte, LMM empfohlen. · ICC > 0.20: Starke Effekte, LMM zwingend. Bildungskontext: typisch ICC ≈ 0.10–0.20.
lmer(Y ~ X + (1 | Klasse), data=df)lmer(Y ~ X + (1 + X | Klasse), data=df)||):lmer(Y ~ X + (1 + X || Klasse), data=df)brm(Y ~ X + (1 + X | Klasse), family=gaussian(), data=df)
Was Sie sehen
Farbige Geraden = gruppenspezifische NP-Geraden (eine pro Klasse). Graue gestrichelte Gerade = der gemeinsame Fixed Slope γ₁₀. Bei τ₁=0 sind alle farbigen Geraden parallel — nur die Intercepts unterscheiden sich (reines Random-Intercepts-Modell).
Schieber τ₁ (Steigungsvarianz)
τ₁=0: Alle Klassen profitieren gleich von Lernzeit — Random Intercepts genügt.
τ₁>0: Die Steigungen fächern auf (Fan-out oder -in). Inhaltliche Frage: Ist der Lernzeit-Effekt in manchen Klassen stärker als in anderen?
Schieber ρ (Intercept-Slope-Korrelation)
ρ>0 (Fan-out): Klassen mit hohem Ausgangsniveau zeigen auch stärkeren Lernzeit-Effekt. Reichere Klassen werden reicher — Matthäus-Prinzip.
ρ<0 (Kompensation): Klassen mit niedrigem Ausgangsniveau profitieren stärker von Lernzeit — der Unterricht gleicht aus.
ρ=0: Steigung und Intercept variieren unabhängig.
Wann brauche ich Random Slopes?
Theoretisch: wenn der Prädiktor-Effekt nicht für alle Gruppen gleich sein sollte.
Statistisch: Modellvergleich via LRT oder LOOIC. Aber: Random-Slope-Modelle brauchen mehr Daten (bes. große n_j) und können numerisch instabil sein. Im Zweifel: Random Intercepts as default.
Tipp: Uncorrelated RE (||)
Wenn ρ schwer identifizierbar ist (kleine J), können Sie Intercept- und Slope-Random-Effects entkoppeln. In lme4: (1 + X || Klasse). In brms: (1 | Klasse) + (0 + X | Klasse). Das reduziert Parameter und verbessert Konvergenz.
Was Sie sehen
5 Klassen (Farben). Innerhalb jeder Klasse: positiver Trend (β_W > 0) — mehr Lernen, bessere Note. Zwischen den Klassen: negativer Trend (β_B < 0) — Klassen mit generell mehr Lernzeit haben schlechtere Ausgangsnoten. Die gestrichelte OLS-Linie sieht den negativen Between-Trend und schätzt β < 0.
Wie entsteht das Paradox?
OLS vermischt zwei verschiedene Effekte: den Within-Gruppen-Effekt (interessant!) und den Between-Gruppen-Effekt (konfundiert!). Wenn der Between-Effekt das Vorzeichen dominiert und Between-Varianz in X groß ist, kehrt sich das Vorzeichen um.
Wie löst LMM das Problem?
Der Fixed Slope γ₁₀ im LMM schätzt den Within-Effekt — kontrolliert für die Gruppen-Intercepts. Das ist genau der kausal relevante Effekt: „Wenn ein Schüler in derselben Klasse eine Stunde mehr lernt, was ändert sich dann?"
Schieber erkunden
· β_B → 0: Kein Between-Konfunding, OLS und Within stimmen überein.
· Gruppen-Abstand ↓: Klassen überlappen in X, Between-Varianz sinkt → weniger Simpson-Effekt.
· β_W → negativ: Auch der Within-Effekt negativ — kein Paradox mehr, nur schlechte Lernzeit-Wirkung.
Verbindung zu Fixed Effects
In der Ökonometrie: Fixed-Effects-Modell (within-group demeaning) schätzt ebenfalls nur Within-Effekte. LMM (Partial Pooling) liegt dazwischen: berücksichtigt Within-Effekte, erlaubt aber auch Level-2-Prädiktoren (Between-Effekte explizit modellieren).
ICC = τ₀² / (τ₀² + σ²). ICC = 0 bedeutet Gruppen sind nicht ähnlicher als Zufallsstichproben — OLS reicht. ICC > 0.10–0.20 bedeutet starke Clusterstruktur: Individuen innerhalb einer Gruppe sind einander ähnlicher. Dann führt OLS zu zu kleinen Standardfehlern und falschen Inferenzen. Faustregel: ab ICC > 0.05 LMM erwägen; ab ICC > 0.10 LMM zwingend.
lmer(Y ~ X + (1 + X | Gruppe), data = df). Bei kleinem J und kleinem n_j kann ρ schlecht identifiziert sein → || Syntax testen.
lmer(Y ~ X + (1 | Gruppe), data = df).lmer(Y ~ X + (1 + X | Gruppe), data = df).brm(Y ~ X + (1 | Gruppe), family = gaussian(), data = df).summary() zeigt Fixed Effects (γ₀₀, γ₁₀) und Random Effects (τ₀, σ). ICC mit performance::icc(model). Modellvergleich: anova(m_ri, m_rs) oder loo_compare(). Conditional R²: r2_nakagawa() aus dem performance-Paket.
Das Multilevel-Modell-Tool erklärt Linear Mixed Models (LMM) für hierarchisch strukturierte Daten. Beispiel: J=5 Schulklassen mit je n_j=10 Schülern, X=Lernzeit, Y=Klausurnote. Vier interaktive Module führen von der Pooling-Frage über Shrinkage und Random Slopes bis zum Simpson-Paradoxon.
Dieses Tool nutzt einfache Momentenschätzer (nicht REML / ML). Der Within-Slope γ₁₀ ist das nach Sxx gewichtete Mittel der gruppenspezifischen OLS-Steigungen. Die Residualvarianz σ² wird aus den Residuen zur gemeinsamen Steigung berechnet. τ₀² = max(0, Var(NP-Intercepts) − σ²/n_j). Diese Schätzer sind konsistent, aber weniger effizient als REML — für Lehrzwecke ausreichend.