Ein Schuldistrikt führt ab Schuljahr 2 ein Förderungsprogramm (tägliches Tutoring) in einem Teil seiner Schulen ein — die Treatmentgruppe. Die restlichen Schulen dienen als Kontrollgruppe. Outcome Y: standardisierter Leistungstest. Ziel: Wie groß ist der kausale Effekt des Programms?
Naiver Vorher-Nachher-Vergleich scheitert: Die Schüler hätten sich auch ohne Programm verbessert (Reifung, allgemeiner Lehrplaneffekt). DiD löst das Problem mit einer Kontrollgruppe — sie zeigt, wie stark sich Schüler ohne Intervention entwickelt hätten.
Differenz der Differenzen: DiD = Δ_T − Δ_K = (β₁ + β₃) − β₁ = β₃
β₃ ist der Koeffizient des Interaktionsterms (Post × Treat). Er misst genau die zusätzliche Veränderung der Treatmentgruppe über den allgemeinen Zeittrend β₁ hinaus. Der Selektionsbias β₂ (zeitkonstanter Gruppenunterschied) fällt in der doppelten Differenz vollständig heraus — das ist die zentrale Stärke von DiD.
Was schätzt DiD — der ATT
Der DiD-Schätzer β̂₃ identifiziert den Average Treatment Effect on the Treated (ATT) — den kausalen Effekt des Programms für genau die Einheiten, die tatsächlich behandelt wurden (hier: die Treatmentschulen).
ATT ≠ ATE (Average Treatment Effect über alle Einheiten): Wenn sich Treatmentschulen von Kontrollschulen systematisch unterscheiden (Selektionsbias, β₂ ≠ 0), ist der Effekt womöglich nicht auf alle Schulen verallgemeinerbar — wohl aber valide für die behandelten Schulen selbst. Darin liegt die Stärke und zugleich die Grenze von DiD.
Kontrafaktisches Szenario — Was wäre gewesen, wenn?
Ein kontrafaktisches Szenario beantwortet eine gedankliche Frage: Wie hätte sich die Treatmentgruppe entwickelt, wenn sie nicht behandelt worden wäre? Diese Situation existiert per Definition nicht in den Daten — jede Schule war entweder im Programm oder nicht.
Im DiD-Plot ist die gestrichelte grüne Linie das kontrafaktische Szenario: Sie zeigt, wie die Treatmentschulen sich vermutlich entwickelt hätten — nämlich parallel zur Kontrollgruppe. Diese startet aber am selben Punkt wie die Treatmentgruppe und impliziert, wo diese gelandet wäre, wenn sie sich genauso wie die Kontrollgruppe verändert hätte. Der DiD-Effekt β̂₃ ist genau die Lücke zwischen dem tatsächlich beobachteten Nachher-Wert der Treatmentgruppe und diesem kontrafaktischen Wert.
Das Parallel-Trends-Argument macht die kontrafaktische Annahme explizit: Ohne Intervention hätten sich beide Gruppen gleich stark verändert. Ist das plausibel, ist das Kontrafaktual sinnvoll rekonstruiert — und β̂₃ kausal interpretierbar.
→ Das Causal Teaching Tool zeigt kontrafaktische Potenzielle Outcomes im Rubin-Framework (Y(0), Y(1)) und erklärt, warum man nie beides gleichzeitig beobachten kann — das fundamentale Problem kausaler Inferenz.
Selektionsbias — und warum DiD robust ist
β₂ misst den zeitkonstanten Unterschied zwischen Treatment- und Kontrollgruppe vor der Intervention. Wenn z. B. Schulen mit motivierteren Schülern am Programm teilnehmen (Selbstselektion), weichen ihre Ausgangswerte ab (β₂ ≠ 0).
DiD korrigiert dies automatisch: β₂ kürzt sich in der doppelten Differenz heraus — trotz großem β₂ ist β̂₃ unverzerrt. Das Szenario "Selektionsbias" und das Kombinations-Szenario illustrieren das.
① G1t1 − G0t1 (Querschnitt zum Nachher-Zeitpunkt): überschätzt den ATT, weil der Gruppenunterschied β₂ (Selektion, zeitkonstant) mit eingeht.
② G1t1 − G1t0 (Vorher-Nachher nur in der Treatmentgruppe): überschätzt den ATT, weil der allgemeine Zeittrend β₁ mit eingeht — die Gruppe hätte sich auch ohne Programm verbessert.
DiD korrigiert beide Verzerrungen gleichzeitig: β₂ kürzt sich in der doppelten Differenz heraus, β₁ ebenfalls. Beide orangen Pfeile ① ② im Plot zeigen, wie weit die naiven Vergleiche daneben liegen.
Parallel-Trends-Annahme
DiD setzt voraus, dass sich beide Gruppen ohne Intervention gleich stark verändert hätten. Diese Annahme ist nicht direkt testbar, aber indirekt durch Vorperioden-Vergleiche prüfbar (Placebo-Tests). Der PT-Verletzungs-Slider erlaubt manuelle Exploration dieser theoretischen Gefährdung.
Grenzen & Robustheit
Antizipationseffekte: Ändert die Treatmentgruppe ihr Verhalten schon vor dem Programm, ist die Vorher-Messung kontaminiert. Spillover: Wenn die Kontrollgruppe indirekt von der Intervention profitiert, wird β₃ unterschätzt. Event Study: In der Praxis schätzt man DiD für mehrere Vor- und Nachher-Perioden, um Parallel Trends zu prüfen und dynamische Effekte sichtbar zu machen.
Regressionskoeffizienten
β₁ · Post (Zeittrend)0.40
β₂ · Treat (Selektion t=0)0.00
β₃ · Post×Treat (DiD-Effekt)1.20
PT-Verletzung (Histor.)0.00
σ · Rauschen0.80
n · pro Zelle60
Szenarien
β₂ ≠ 0: Selektion — Gruppen unterscheiden sich schon vor der Intervention. DiD korrigiert β₂ automatisch.
① ②: Im Kombinations-Szenario sichtbar — naive Vergleiche überschätzen den ATT.
PT-Verletzung ≠ 0: Theoretische Gefährdung — externe Störgröße differenziell in Treatment. Nicht direkt testbar; Slider zur Exploration.
Durchgehendes Beispiel
PostZeitpunkt: 0 = Schuljahr vor dem Programm, 1 = Schuljahr danachTreatGruppe: 0 = Kontrollschulen, 1 = Treatmentschulen (Förderungsprogramm)YOutcome: standardisierter Leistungstest (z-standardisiert)β₁Allgemeiner Zeittrend — wie stark verbessern sich Schüler ohnehin?β₂Zeitkonstanter Gruppenunterschied (Selektionsbias) — von DiD korrigiertβ₃Interaktionsterm Post×Treat — genau der DiD-Schätzer, kausal interpretierbar
Welchen kausalen Effekt hat das Förderungsprogramm — und wie trennt DiD diesen Effekt von allgemeinem Lernzuwachs und Selektionsunterschieden?
DiD-Plot — Vorher / Nachher
Warum ist β₃ genau der DiD-Schätzer?Y = α + β₁·Post + β₂·Treat + β₃·(Post×Treat) + ε
Δ_Kontroll = β₁ · Δ_Treatment = β₁ + β₃ · DiD = Δ_T − Δ_K = β₃
β₁ (Zeittrend) und β₂ (Selektion) kürzen sich in der doppelten Differenz heraus. β₃ = Interaktionsterm = DiD = ATT — der kausale Effekt für die behandelten Einheiten.
2 × 2 — Zellmittelwerte
Gruppe
Vorher (Post=0)
Nachher (Post=1)
Δ (Nachher − Vorher)
Kontrollgruppe
—
—
—
Treatmentgruppe
—
—
—
DiD = Δ_T − Δ_K = β̂₃
—
—
—
Regressionsoutput — OLS
Koeffizient
Wahrer Wert
β̂
SE
t
p
α · Intercept
0.00
—
—
—
—
β₁ · Post
—
—
—
—
—
β₂ · Treat
—
—
—
—
—
β₃ · Post×Treat (DiD)
—
—
—
—
—
Konzepte
Was ist Difference-in-Differences?
DiD vergleicht die Veränderung (Vorher → Nachher) der Treatmentgruppe mit der Veränderung der Kontrollgruppe. Die doppelte Differenz isoliert den kausalen Effekt: Y = β₀ + β₁·Post + β₂·Treat + β₃·(Post×Treat). Der Interaktionskoeffizient β₃ ist der DiD-Schätzer.
Warum die doppelte Differenz funktioniert
In der doppelten Differenz kürzen sich der allgemeine Zeittrend β₁ (beide Gruppen verbessern sich ohnehin) und der zeitkonstante Gruppenunterschied β₂ (Selektion) heraus. Übrig bleibt nur β₃ — der Teil der Veränderung, der zusätzlich in der Treatmentgruppe auftrat.
Was DiD schätzt: der ATT
β₃ identifiziert den Average Treatment Effect on the Treated (ATT) — den kausalen Effekt für genau die behandelten Einheiten. Das ist nicht zwingend der ATE (Effekt über alle Einheiten): unterscheiden sich Treatment- und Kontrollgruppe systematisch (β₂ ≠ 0), gilt der Effekt valide für die Behandelten, aber nicht unbedingt verallgemeinerbar.
Parallel-Trends-Annahme
Die zentrale Identifikationsannahme: ohne Behandlung hätten sich beide Gruppen gleich stark verändert. Sie ist kontrafaktisch und nicht direkt prüfbar — aber über mehrere Vor-Perioden (Event Study) plausibilisierbar. Ist sie verletzt, enthält β₃ einen Bias und ist nicht mehr kausal interpretierbar.
Warum naive Vergleiche scheitern
① Nur Querschnitt nachher (Treatment − Kontrolle): überschätzt, weil der Selektionsunterschied β₂ mitgezählt wird. ② Nur Vorher-Nachher der Treatmentgruppe: überschätzt, weil der allgemeine Zeittrend β₁ mitgezählt wird — die Gruppe hätte sich auch ohne Programm verbessert. DiD korrigiert beide Verzerrungen zugleich.
Einordnung & verwandte Tools
DiD ist ein quasi-experimentelles Verfahren für Paneldaten: es nutzt eine Kontrollgruppe als Kontrafaktual, statt auf Variablen zu adjustieren. Verwandt: das Confounding-/Backdoor-Denken der kausalen Inferenz und andere Designs ohne Randomisierung. → Kausale Inferenz · → Regression Discontinuity · → Propensity Score Matching
Dasselbe wie eine Moderation
Mathematisch ist DiD nichts anderes als eine Moderationsanalyse: das Modell Y = β₀ + β₁·Post + β₂·Treat + β₃·(Post×Treat) ist exakt ein Interaktionsmodell Y = b₀ + b₁·X + b₂·W + b₃·(X·W) mit zwei binären Prädiktoren. Treat moderiert den Effekt der Zeit (und umgekehrt), und β₃ ist der Interaktions- = Moderationskoeffizient. Die beiden „Differenzen" sind die Simple Slopes der zwei Gruppen, ihre Differenz ist der DiD-Schätzer. Es ist dieselbe OLS-Regression — nur das Framing unterscheidet sich: die Ökonometrie nennt es DiD, die Psychologie Moderation. Wer das einmal sieht, muss die beiden nicht mehr getrennt denken. → Moderationsanalyse