Difference-in-Differences

Dr. R. Düsing · Universität Osnabrück
Difference-in-Differences — Hilfe
Beispiel

Ein Schuldistrikt führt ab Schuljahr 2 ein Förderungsprogramm (tägliches Tutoring) in einem Teil seiner Schulen ein — die Treatmentgruppe. Die restlichen Schulen dienen als Kontrollgruppe. Outcome Y: standardisierter Leistungstest. Ziel: Wie groß ist der kausale Effekt des Programms?

Naiver Vorher-Nachher-Vergleich scheitert: Die Schüler hätten sich auch ohne Programm verbessert (Reifung, allgemeiner Lehrplaneffekt). DiD löst das Problem mit einer Kontrollgruppe — sie zeigt, wie stark sich Schüler ohne Intervention entwickelt hätten.

Regressionsmodell & Warum β₃ = DiD

Das DiD-Modell lautet:

Y = α + β₁·Post + β₂·Treat + β₃·(Post × Treat) + ε

Die vier Erwartungswerte daraus:

E[Y | Kontroll, Vorher] = α
E[Y | Kontroll, Nachher] = α + β₁ → Δ_K = β₁
E[Y | Treatment, Vorher] = α + β₂
E[Y | Treatment, Nachher]= α + β₁ + β₂ + β₃ → Δ_T = β₁ + β₃

Differenz der Differenzen: DiD = Δ_T − Δ_K = (β₁ + β₃) − β₁ = β₃

β₃ ist der Koeffizient des Interaktionsterms (Post × Treat). Er misst genau die zusätzliche Veränderung der Treatmentgruppe über den allgemeinen Zeittrend β₁ hinaus. Der Selektionsbias β₂ (zeitkonstanter Gruppenunterschied) fällt in der doppelten Differenz vollständig heraus — das ist die zentrale Stärke von DiD.

Was schätzt DiD — der ATT

Der DiD-Schätzer β̂₃ identifiziert den Average Treatment Effect on the Treated (ATT) — den kausalen Effekt des Programms für genau die Einheiten, die tatsächlich behandelt wurden (hier: die Treatmentschulen).

ATT ≠ ATE (Average Treatment Effect über alle Einheiten): Wenn sich Treatmentschulen von Kontrollschulen systematisch unterscheiden (Selektionsbias, β₂ ≠ 0), ist der Effekt womöglich nicht auf alle Schulen verallgemeinerbar — wohl aber valide für die behandelten Schulen selbst. Darin liegt die Stärke und zugleich die Grenze von DiD.

Kontrafaktisches Szenario — Was wäre gewesen, wenn?

Ein kontrafaktisches Szenario beantwortet eine gedankliche Frage: Wie hätte sich die Treatmentgruppe entwickelt, wenn sie nicht behandelt worden wäre? Diese Situation existiert per Definition nicht in den Daten — jede Schule war entweder im Programm oder nicht.

Im DiD-Plot ist die gestrichelte grüne Linie das kontrafaktische Szenario: Sie zeigt, wie die Treatmentschulen sich vermutlich entwickelt hätten — nämlich parallel zur Kontrollgruppe. Diese startet aber am selben Punkt wie die Treatmentgruppe und impliziert, wo diese gelandet wäre, wenn sie sich genauso wie die Kontrollgruppe verändert hätte. Der DiD-Effekt β̂₃ ist genau die Lücke zwischen dem tatsächlich beobachteten Nachher-Wert der Treatmentgruppe und diesem kontrafaktischen Wert.

Das Parallel-Trends-Argument macht die kontrafaktische Annahme explizit: Ohne Intervention hätten sich beide Gruppen gleich stark verändert. Ist das plausibel, ist das Kontrafaktual sinnvoll rekonstruiert — und β̂₃ kausal interpretierbar.

→ Das Causal Teaching Tool zeigt kontrafaktische Potenzielle Outcomes im Rubin-Framework (Y(0), Y(1)) und erklärt, warum man nie beides gleichzeitig beobachten kann — das fundamentale Problem kausaler Inferenz.

Selektionsbias — und warum DiD robust ist

β₂ misst den zeitkonstanten Unterschied zwischen Treatment- und Kontrollgruppe vor der Intervention. Wenn z. B. Schulen mit motivierteren Schülern am Programm teilnehmen (Selbstselektion), weichen ihre Ausgangswerte ab (β₂ ≠ 0).

DiD korrigiert dies automatisch: β₂ kürzt sich in der doppelten Differenz heraus — trotz großem β₂ ist β̂₃ unverzerrt. Das Szenario "Selektionsbias" und das Kombinations-Szenario illustrieren das.

Naive Vergleiche — warum sie scheitern

Im Kombinations-Szenario (β₁ = 1.5, β₂ = 1.5, β₃ = 3) sieht man, warum zwei naiv wirkende Vergleiche dennoch falsch sind:

① G1t1 − G0t1 (Querschnitt zum Nachher-Zeitpunkt): überschätzt den ATT, weil der Gruppenunterschied β₂ (Selektion, zeitkonstant) mit eingeht.

② G1t1 − G1t0 (Vorher-Nachher nur in der Treatmentgruppe): überschätzt den ATT, weil der allgemeine Zeittrend β₁ mit eingeht — die Gruppe hätte sich auch ohne Programm verbessert.

DiD korrigiert beide Verzerrungen gleichzeitig: β₂ kürzt sich in der doppelten Differenz heraus, β₁ ebenfalls. Beide orangen Pfeile ① ② im Plot zeigen, wie weit die naiven Vergleiche daneben liegen.

Parallel-Trends-Annahme

DiD setzt voraus, dass sich beide Gruppen ohne Intervention gleich stark verändert hätten. Diese Annahme ist nicht direkt testbar, aber indirekt durch Vorperioden-Vergleiche prüfbar (Placebo-Tests). Der PT-Verletzungs-Slider erlaubt manuelle Exploration dieser theoretischen Gefährdung.

Grenzen & Robustheit

Antizipationseffekte: Ändert die Treatmentgruppe ihr Verhalten schon vor dem Programm, ist die Vorher-Messung kontaminiert.
Spillover: Wenn die Kontrollgruppe indirekt von der Intervention profitiert, wird β₃ unterschätzt.
Event Study: In der Praxis schätzt man DiD für mehrere Vor- und Nachher-Perioden, um Parallel Trends zu prüfen und dynamische Effekte sichtbar zu machen.

Durchgehendes Beispiel
PostZeitpunkt: 0 = Schuljahr vor dem Programm, 1 = Schuljahr danach TreatGruppe: 0 = Kontrollschulen, 1 = Treatmentschulen (Förderungsprogramm) YOutcome: standardisierter Leistungstest (z-standardisiert) β₁Allgemeiner Zeittrend — wie stark verbessern sich Schüler ohnehin? β₂Zeitkonstanter Gruppenunterschied (Selektionsbias) — von DiD korrigiert β₃Interaktionsterm Post×Treat — genau der DiD-Schätzer, kausal interpretierbar
Welchen kausalen Effekt hat das Förderungsprogramm — und wie trennt DiD diesen Effekt von allgemeinem Lernzuwachs und Selektionsunterschieden?
DiD-Plot — Vorher / Nachher
Warum ist β₃ genau der DiD-Schätzer? Y = α + β₁·Post + β₂·Treat + β₃·(Post×Treat) + ε Δ_Kontroll = β₁  ·  Δ_Treatment = β₁ + β₃  ·  DiD = Δ_T − Δ_K = β₃
β₁ (Zeittrend) und β₂ (Selektion) kürzen sich in der doppelten Differenz heraus. β₃ = Interaktionsterm = DiD = ATT — der kausale Effekt für die behandelten Einheiten.
2 × 2 — Zellmittelwerte
GruppeVorher (Post=0)Nachher (Post=1)Δ (Nachher − Vorher)
Kontrollgruppe
Treatmentgruppe
DiD = Δ_T − Δ_K = β̂₃
Regressionsoutput — OLS
KoeffizientWahrer Wertβ̂SEtp
α · Intercept 0.00
β₁ · Post
β₂ · Treat
β₃ · Post×Treat (DiD)
Konzepte
Was ist Difference-in-Differences?
DiD vergleicht die Veränderung (Vorher → Nachher) der Treatmentgruppe mit der Veränderung der Kontrollgruppe. Die doppelte Differenz isoliert den kausalen Effekt: Y = β₀ + β₁·Post + β₂·Treat + β₃·(Post×Treat). Der Interaktionskoeffizient β₃ ist der DiD-Schätzer.
Warum die doppelte Differenz funktioniert
In der doppelten Differenz kürzen sich der allgemeine Zeittrend β₁ (beide Gruppen verbessern sich ohnehin) und der zeitkonstante Gruppenunterschied β₂ (Selektion) heraus. Übrig bleibt nur β₃ — der Teil der Veränderung, der zusätzlich in der Treatmentgruppe auftrat.
Was DiD schätzt: der ATT
β₃ identifiziert den Average Treatment Effect on the Treated (ATT) — den kausalen Effekt für genau die behandelten Einheiten. Das ist nicht zwingend der ATE (Effekt über alle Einheiten): unterscheiden sich Treatment- und Kontrollgruppe systematisch (β₂ ≠ 0), gilt der Effekt valide für die Behandelten, aber nicht unbedingt verallgemeinerbar.
Parallel-Trends-Annahme
Die zentrale Identifikationsannahme: ohne Behandlung hätten sich beide Gruppen gleich stark verändert. Sie ist kontrafaktisch und nicht direkt prüfbar — aber über mehrere Vor-Perioden (Event Study) plausibilisierbar. Ist sie verletzt, enthält β₃ einen Bias und ist nicht mehr kausal interpretierbar.
Warum naive Vergleiche scheitern
① Nur Querschnitt nachher (Treatment − Kontrolle): überschätzt, weil der Selektionsunterschied β₂ mitgezählt wird. ② Nur Vorher-Nachher der Treatmentgruppe: überschätzt, weil der allgemeine Zeittrend β₁ mitgezählt wird — die Gruppe hätte sich auch ohne Programm verbessert. DiD korrigiert beide Verzerrungen zugleich.
Einordnung & verwandte Tools
DiD ist ein quasi-experimentelles Verfahren für Paneldaten: es nutzt eine Kontrollgruppe als Kontrafaktual, statt auf Variablen zu adjustieren. Verwandt: das Confounding-/Backdoor-Denken der kausalen Inferenz und andere Designs ohne Randomisierung. → Kausale Inferenz · → Regression Discontinuity · → Propensity Score Matching
Dasselbe wie eine Moderation
Mathematisch ist DiD nichts anderes als eine Moderationsanalyse: das Modell Y = β₀ + β₁·Post + β₂·Treat + β₃·(Post×Treat) ist exakt ein Interaktionsmodell Y = b₀ + b₁·X + b₂·W + b₃·(X·W) mit zwei binären Prädiktoren. Treat moderiert den Effekt der Zeit (und umgekehrt), und β₃ ist der Interaktions- = Moderationskoeffizient. Die beiden „Differenzen" sind die Simple Slopes der zwei Gruppen, ihre Differenz ist der DiD-Schätzer. Es ist dieselbe OLS-Regression — nur das Framing unterscheidet sich: die Ökonometrie nennt es DiD, die Psychologie Moderation. Wer das einmal sieht, muss die beiden nicht mehr getrennt denken. → Moderationsanalyse