Difference-in-Differences

Durchgehendes Beispiel

PostZeitpunkt: 0 = Schuljahr vor dem Programm, 1 = Schuljahr danach TreatGruppe: 0 = Kontrollschulen, 1 = Treatmentschulen (Förderungsprogramm) YOutcome: standardisierter Leistungstest (z-standardisiert) β₁Allgemeiner Zeittrend — wie stark verbessern sich Schüler ohnehin? β₂Zeitkonstanter Gruppenunterschied (Selektionsbias) — von DiD korrigiert β₃Interaktionsterm Post×Treat — genau der DiD-Schätzer, kausal interpretierbar

Welchen kausalen Effekt hat das Förderungsprogramm — und wie trennt DiD diesen Effekt von allgemeinem Lernzuwachs und Selektionsunterschieden?

Warum ist β₃ genau der DiD-Schätzer? Y = α + β₁·Post + β₂·Treat + β₃·(Post×Treat) + ε Δ_Kontroll = β₁ · Δ_Treatment = β₁ + β₃ · DiD = Δ_T − Δ_K = β₃
β₁ (Zeittrend) und β₂ (Selektion) kürzen sich in der doppelten Differenz heraus. β₃ = Interaktionsterm = DiD = ATT — der kausale Effekt für die behandelten Einheiten.

2 × 2 — Zellmittelwerte

Gruppe	Vorher (Post=0)	Nachher (Post=1)	Δ (Nachher − Vorher)
Kontrollgruppe	—	—	—
Treatmentgruppe	—	—	—
DiD = Δ_T − Δ_K = β̂₃	—	—	—

Regressionsoutput — OLS

Koeffizient	Wahrer Wert	β̂	SE	t	p
α · Intercept	0.00	—	—	—	—
β₁ · Post	—	—	—	—	—
β₂ · Treat	—	—	—	—	—
β₃ · Post×Treat (DiD)	—	—	—	—	—

Konzepte

Was ist Difference-in-Differences?

DiD vergleicht die Veränderung (Vorher → Nachher) der Treatmentgruppe mit der Veränderung der Kontrollgruppe. Die doppelte Differenz isoliert den kausalen Effekt: Y = β₀ + β₁·Post + β₂·Treat + β₃·(Post×Treat). Der Interaktionskoeffizient β₃ ist der DiD-Schätzer.

Warum die doppelte Differenz funktioniert

In der doppelten Differenz kürzen sich der allgemeine Zeittrend β₁ (beide Gruppen verbessern sich ohnehin) und der zeitkonstante Gruppenunterschied β₂ (Selektion) heraus. Übrig bleibt nur β₃ — der Teil der Veränderung, der zusätzlich in der Treatmentgruppe auftrat.

Was DiD schätzt: der ATT

β₃ identifiziert den Average Treatment Effect on the Treated (ATT) — den kausalen Effekt für genau die behandelten Einheiten. Das ist nicht zwingend der ATE (Effekt über alle Einheiten): unterscheiden sich Treatment- und Kontrollgruppe systematisch (β₂ ≠ 0), gilt der Effekt valide für die Behandelten, aber nicht unbedingt verallgemeinerbar.

Parallel-Trends-Annahme

Die zentrale Identifikationsannahme: ohne Behandlung hätten sich beide Gruppen gleich stark verändert. Sie ist kontrafaktisch und nicht direkt prüfbar — aber über mehrere Vor-Perioden (Event Study) plausibilisierbar. Ist sie verletzt, enthält β₃ einen Bias und ist nicht mehr kausal interpretierbar.

Warum naive Vergleiche scheitern

① Nur Querschnitt nachher (Treatment − Kontrolle): überschätzt, weil der Selektionsunterschied β₂ mitgezählt wird. ② Nur Vorher-Nachher der Treatmentgruppe: überschätzt, weil der allgemeine Zeittrend β₁ mitgezählt wird — die Gruppe hätte sich auch ohne Programm verbessert. DiD korrigiert beide Verzerrungen zugleich.

Einordnung & verwandte Tools

DiD ist ein quasi-experimentelles Verfahren für Paneldaten: es nutzt eine Kontrollgruppe als Kontrafaktual, statt auf Variablen zu adjustieren. Verwandt: das Confounding-/Backdoor-Denken der kausalen Inferenz und andere Designs ohne Randomisierung. → Kausale Inferenz · → Regression Discontinuity · → Propensity Score Matching

Dasselbe wie eine Moderation

Mathematisch ist DiD nichts anderes als eine Moderationsanalyse: das Modell Y = β₀ + β₁·Post + β₂·Treat + β₃·(Post×Treat) ist exakt ein Interaktionsmodell Y = b₀ + b₁·X + b₂·W + b₃·(X·W) mit zwei binären Prädiktoren. Treat moderiert den Effekt der Zeit (und umgekehrt), und β₃ ist der Interaktions- = Moderationskoeffizient. Die beiden „Differenzen" sind die Simple Slopes der zwei Gruppen, ihre Differenz ist der DiD-Schätzer. Es ist dieselbe OLS-Regression — nur das Framing unterscheidet sich: die Ökonometrie nennt es DiD, die Psychologie Moderation. Wer das einmal sieht, muss die beiden nicht mehr getrennt denken. → Moderationsanalyse