Regression Discontinuity Design

Dr. R. Düsing · Universität Osnabrück
Durchgehendes Beispiel
XQualifikationstest-Score (Quasi-Zuweisungsvariable, 0–100 Punkte) cCutoff = 50 — wer ≥ 50 erreicht, wird zum Weiterbildungsprogramm zugelassen TProgrammzulassung (T=1 wenn X ≥ c, sonst T=0) YBruttogehalt 2 Jahre nach Programmstart (skaliert 0–100, messbar für alle Bewerber)
Erhöht die Weiterbildung das Gehalt kausal — oder verdienen leistungsstärkere Bewerber ohnehin mehr? Knapp über und unter dem Cutoff sollten sich Bewerber nur zufällig unterscheiden: genau das nutzt das RDD aus.
① Streudiagramm
② Regressionsgleichung
③ Koeffizienten
Erweiterung — Polynomiale Terme (Grad 2)
Polynomiale RDD
Ist die wahre Beziehung zwischen QAV und Outcome nicht-linear, kann das die LATE-Schätzung verzerren. Durch Hinzufügen polynomialer Terme wird die Kurvenform flexibler modelliert:

ŷ = b₀ + b₁·(X−c) + b₂·T + b₃·(X−c)·T + b₄·(X−c)² + b₅·T·(X−c)² b₄ kontrolliert die Krümmung der KG-Linie.
b₅ gibt die Krümmungsdifferenz EG−KG an (Slope EG-Kurve = b₄ + b₅).

Achtung: Zu hohe Polynomgrade können zu Overfitting führen und den LATE künstlich verzerren — besonders an den Rändern der Datenverteilung.
b₄ (Krümmung KG) 0.000
b₅ (Krümmungs-Diff.) 0.000
Erweiterung — Fuzzy RDD
Fuzzy RDD — Wenn die Grenze „verwischt"
Beim Sharp RDD folgt die Behandlungszuteilung deterministisch dem Cutoff.
Beim Fuzzy RDD gibt es zwei Formen von Nicht-Compliance:

Non-Compliance (EG): Personen über dem Cutoff nehmen die Intervention nicht an.
Crossover (KG): Personen unter dem Cutoff erhalten die Intervention trotzdem.

Der Cutoff wird dann als Instrument (Z) für die tatsächliche Behandlung (T) verwendet. Der LATE ergibt sich als Wald-Schätzer:

LATE = Intent-to-Treat-Effekt / Compliance-Rate Latenter Konfunder (Motivation): In dieser Simulation entscheiden Nicht-Complier aufgrund ihrer Motivation — unmotivierte EG-Personen lehnen die Behandlung ab, hochmotivierte KG-Personen suchen sie aktiv. Da Motivation auch Y direkt beeinflusst (γ), ist T endogen: Naiver OLS überschätzt LATE.
Der Wald-Schätzer nutzt G (Zuweisung) als Instrument — G hängt nur von X ab, nicht von Motivation, daher ist der ITT unverzerrter Ausgangspunkt und LATE(Wald) ≈ b₂.
P(Non-Compliance | EG) 0.15
P(Crossover | KG) 0.10
Konfundierung γ 15
Konzepte
Was ist ein RDD?
Ein Regression-Discontinuity-Design nutzt einen scharfen Cutoff c auf einer kontinuierlichen Zuweisungsvariable X: wer ≥ c liegt, wird behandelt, wer darunter liegt, nicht. Knapp über und unter c unterscheiden sich Einheiten nur noch zufällig — wie in einem lokalen Experiment. Ein Sprung in Y genau am Cutoff ist dann der kausale Effekt der Behandlung.
Continuity-Annahme
Die zentrale Identifikationsannahme: alles außer der Behandlung verläuft am Cutoff stetig. Ohne Programm gäbe es keinen Sprung in Y bei c — alle anderen Einflussgrößen ändern sich glatt. Ist das plausibel, ist der Sprung kausal interpretierbar. (Das RDD-Pendant zur Parallel-Trends-Annahme bei DiD.) Manipulieren Einheiten ihren Score gezielt über c, ist die Annahme verletzt (McCrary-Dichtetest).
LATE — der lokale Effekt am Cutoff
Das RDD schätzt einen Local Average Treatment Effect (LATE): den Behandlungseffekt genau am Cutoff — den Sprung in Y bei c. Er gilt nur für Einheiten nahe am Cutoff; Personen weit unter c unterscheiden sich systematisch von knapp darunter, der Effekt ist daher nicht ohne Weiteres auf sie übertragbar. Hohe interne, eingeschränkte externe Validität.
Das Schätzmodell
Geschätzt wird das LATE mit Y = b₀ + b₁(X−c) + b₂·T + b₃·T(X−c). Die Zuweisungsvariable wird am Cutoff zentriert (X−c), damit b₂ = der Sprung bei c = LATE ist. b₁ ist die Steigung links, b₃ der Steigungsunterschied rechts. So bekommen beide Seiten getrennte Geraden, und man liest den vertikalen Abstand am Cutoff direkt als Effekt ab.
Bandbreite & Polynome — Fallstricke
Ein schmaleres Fenster um c reduziert Verzerrung (nur vergleichbare Einheiten), erhöht aber die Varianz (weniger Daten) — der klassische Bias-Varianz-Trade-off. Hohe Polynomgrade wirken flexibel, erzeugen aber Overfitting und Artefakte an den Rändern, die den Sprung verfälschen. Empfehlung (Gelman & Imbens 2019): lokal-lineare Schätzung in enger Bandbreite statt globaler Polynome hohen Grades.
Sharp vs. Fuzzy & Einordnung
Sharp RDD: Überschreiten des Cutoffs bestimmt die Behandlung vollständig (T = 1 ⇔ X ≥ c). Fuzzy RDD: der Cutoff erhöht nur die Behandlungswahrscheinlichkeit, erzwingt sie aber nicht — manche knapp über c machen nicht mit (No-Shows), manche knapp darunter werden trotzdem behandelt (Crossover). Die Behandlungsrate springt bei c also um weniger als 100 %. Ein naiver Vergleich der Y-Werte unterschätzt den Effekt deshalb. Der Wald-Schätzer korrigiert das: er teilt den Sprung in Y durch den Sprung in der Behandlungsrate und gewinnt so den Effekt für die Complier (jene, die sich tatsächlich vom Cutoff zur Teilnahme bewegen lassen) zurück. RDD gehört zu den quasi-experimentellen Designs ohne Randomisierung. → Difference-in-Differences · → Propensity Score Matching · → Kausale Inferenz
Regression Discontinuity Design — Hilfe
Beispiel

Bewerber mit einem Qualifikationstest-Score X ≥ 50 werden zum Weiterbildungsprogramm zugelassen (T=1), alle anderen nicht (T=0). Das Gehalt Y (2 Jahre später) ist für alle Bewerber messbar — unabhängig davon, ob sie teilnahmen oder nicht.

Das Problem: Zugelassene und Abgelehnte unterscheiden sich systematisch in X, also auch in allem, was mit X zusammenhängt. Ein naiver Gruppenvergleich wäre verzerrt. Das RDD umgeht das, indem es nur die lokale Diskontinuität am Cutoff auswertet.

RDD-Logik & Continuity Assumption

Die Kernidee: Direkt links und rechts vom Cutoff unterscheiden sich Bewerber nur durch Zufall (sie hatten fast denselben Score). Hätte der Zulassungsmechanismus nicht eingegriffen, würden beide Gruppen im Mittel dasselbe Y zeigen — die erwartete Outcome-Kurve wäre stetig am Cutoff.

Continuity Assumption: E[Y(0) | X] und E[Y(1) | X] sind beide stetig in X an der Stelle c. Jeder beobachtbare Sprung in Y am Cutoff ist dann kausal dem Treatment zuzuschreiben.

Verletzung: Bewerber manipulieren X knapp über c → Selektionsverzerrung

Im Beispiel: Falls Bewerber kurz vor dem Test gezielt üben, um genau den Cutoff zu erreichen, sind die Gruppen knapp über/unter c nicht mehr vergleichbar — die Continuity Assumption wäre verletzt.

Schätzmodell & LATE

Das Modell zentriert die Running Variable am Cutoff (X̃ = X − c) und fügt eine Sprungindikatorvariable T sowie optional einen Slope-Unterschied (T·X̃) ein:

Y = b₀ + b₁·X̃ + b₂·T + b₃·(T·X̃) + ε

b₀ = erwartetes Y direkt am Cutoff (T=0-Seite)  |  b₁ = Slope der Kontrollgruppe  |  b₂ = Sprung am Cutoff = LATE  |  b₃ = Slope-Unterschied Treatment vs. Kontrollgruppe

LATE = b₂ = lim[E(Y|X↓c)] − lim[E(Y|X↑c)]

Im Beispiel: b₂ = 15 bedeutet, dass Programmteilnehmer am Cutoff im Mittel 15 Skalenpunkte mehr Gehalt erzielen als vergleichbare Nicht-Teilnehmer — der lokale kausale Effekt der Weiterbildung.

Wichtig: Das LATE gilt nur für Personen nahe am Cutoff (externe Validität eingeschränkt). Personen weit unter dem Cutoff unterscheiden sich systematisch von Personen knapp darunter.

Szenarien A–D

A — Kein Effekt: b₂=0, b₃=0. Die Regressionsgerade ist stetig am Cutoff — kein Sprung, kein Unterschied in den Slopes. Sichtbar: beide Linien stoßen nahtlos zusammen.

B — Sprung (LATE): b₂≠0, b₃=0. Ein klarer Sprung am Cutoff, aber beide Seiten haben dieselbe Steigung. Das klassische Sharp-RDD-Muster.

C — Kink (Slope-Unterschied): b₂=0, b₃≠0. Kein Niveausprung, aber die Steigung ändert sich. Nützlich wenn das Treatment einen kontinuierlichen Intensitätsunterschied erzeugt (Regression Kink Design).

D — Sprung + Kink: b₂≠0, b₃≠0. Beide Diskontinuitäten gleichzeitig. Im Beispiel könnte das bedeuten: Die Weiterbildung erhöht nicht nur das Gehaltsniveau, sondern auch den Gehaltsanstieg pro Qualifikationspunkt.

Polynomiale Terme

Ein lineares Modell nimmt an, dass Y auf jeder Seite des Cutoffs linear in X ist. Ist die wahre Beziehung nicht-linear (Kurve), kann das eine scheinbare Diskontinuität erzeugen — oder eine echte verdecken.

Polynomiale Erweiterung (Grad 2) fügt X̃² und T·X̃² ein:

Y = b₀ + b₁·X̃ + b₂·T + b₃·(T·X̃) + b₄·X̃² + b₅·(T·X̃²) + ε

Im Beispiel: Wenn Bewerber mit sehr hohem Score (X=90) auch ohne Programm gut verdienen würden (Ceiling-Effekt), würde ein lineares Modell das LATE überschätzen. Das Polynom-Modell fängt diese Krümmung auf.

Trade-off: Höhere Polynomgrade erhöhen die Varianz der Schätzung und können zu Overfitting nahe dem Cutoff führen. Grad 2 ist meist ausreichend — Imbens & Gelman (2019) empfehlen lokale lineare Schätzung mit optimaler Bandbreite statt hoher Polynome.

Fuzzy RDD

Im Sharp RDD springt die Behandlungswahrscheinlichkeit P(T=1|X) am Cutoff von 0 auf 1 — jeder Bewerber über dem Cutoff nimmt zwingend teil, keiner darunter. Fuzzy RDD erlaubt unvollständige Compliance: Der Sprung in P(T=1|X) am Cutoff ist real, aber < 1.

Compliance-Typen: Personen können sich je nach Zuweisung Z (Z=1: Zugelassen; Z=0: Nicht zugelassen) und tatsächlicher Teilnahme T unterschiedlich verhalten:

Im Beispiel: Manche Bewerber mit Score X ≥ 50 nehmen die Weiterbildung nicht an (Never-Taker, z. B. wegen Zeitmangel). Dann springt P(T=1|X) am Cutoff nicht auf 1, sondern auf z. B. 0.85.

ITT — Intent-to-Treat

Der Intent-to-Treat-Effekt (ITT) misst, wie viel das bloße Angebot der Behandlung — die Zuweisung Z — den Outcome Y im Durchschnitt verändert, unabhängig davon, ob die Person tatsächlich teilgenommen hat:

ITT = E[Y | Z=1] − E[Y | Z=0] am Cutoff

Im RDD entspricht Z der Indikatorvariable Z = 1[X ≥ c] — eine Person ist "zugewiesen", sobald ihr Score den Cutoff überschreitet.

Warum ist der ITT nützlich? Die Zuweisung Z ist (zumindest nahe dem Cutoff) quasi-zufällig — wer knapp über oder knapp unter dem Cutoff landet, unterscheidet sich nur durch Zufall. Daher ist der ITT unverzerrt: Er vergleicht zwei Gruppen, die sich im Erwartungswert nur durch die Zuweisung unterscheiden, nicht durch Selektionseffekte.

Warum ist der ITT nicht die ganze Geschichte? Der ITT verwässert den wahren Behandlungseffekt, weil er auch Never-Taker enthält, die zwar zugewiesen wurden (Z=1), aber nie teilgenommen haben. Ihr Outcome ist "null" relativ zum Programm — das zieht den ITT nach unten. Je mehr Non-Compliance, desto mehr wird der ITT unterschätzen.

IV — Instrumentalvariable

Um vom ITT auf den echten Behandlungseffekt zu kommen, brauchen wir ein Instrument. Eine Instrumentalvariable (IV) ist eine Variable Z, die drei Bedingungen erfüllt:

  1. Relevanz: Z beeinflusst die Wahrscheinlichkeit der tatsächlichen Teilnahme T. Im Beispiel: Wer zugelassen wird (Z=1), nimmt mit deutlich höherer Wahrscheinlichkeit teil. Das ist testbar: man prüft, ob der Sprung in P(T=1|X) am Cutoff signifikant ist (First-Stage-Test).
  2. Exogenität (Unabhängigkeit): Z ist nicht mit unbeobachteten Störgrößen U korreliert. Im RDD: Wer knapp über oder knapp unter dem Cutoff liegt, unterscheidet sich im Erwartungswert nur durch Zufall — die Zuweisung ist wie eine lokale Randomisierung. Damit ist Z unkorreliert mit allem, was sonst das Gehalt beeinflusst (Motivation, Fähigkeiten, Herkunft).
  3. Ausschlusskritierium (Exclusion Restriction): Z beeinflusst Y ausschließlich über T — es gibt keinen direkten Weg von Z nach Y. Im Beispiel: Die bloße Zulassung zum Programm darf keinen eigenen Gehaltseffekt haben; nur die tatsächliche Teilnahme am Programm wirkt auf das Gehalt. Wenn z. B. das Unternehmen schon die Zulassung als Signal für Kompetenz nimmt und das Gehalt erhöht, wäre diese Bedingung verletzt.

Im RDD ist Z = 1[X ≥ c] das natürliche Instrument: Es ist relevant (Sprung in P(T=1|X)), lokal exogen (quasi-zufällige Zuweisung nahe c) und — unter plausibler Annahme — erfüllt das Ausschlusskriterium.

LATE(Wald) — Lokaler Durchschnittlicher Behandlungseffekt

Der LATE (Local Average Treatment Effect), auch Wald-Schätzer genannt, kombiniert ITT und First-Stage:

LATE = ITT / First-Stage = Sprung in E[Y|X] / Sprung in E[T|X] am Cutoff

Herleitung intuitiv: Der ITT ist der Effekt der Zuweisung Z auf Y. Aber nur ein Bruchteil der zugewiesenen Personen nimmt tatsächlich teil (die Complier). Der Sprung in E[T|X] am Cutoff misst genau diesen Anteil — die First-Stage. Teilt man den ITT durch die First-Stage, "korrigiert" man für die Non-Compliance: Man erhält den Effekt, der auf die tatsächliche Teilnahme zurückgeht.

Im Beispiel (Defaults: b₂=15, Non-Compliance=15 %): ITT = 15 × 0.85 = 12.75 Tsd. €, First-Stage = 0.85 → LATE = 12.75 / 0.85 = 15 Tsd. € Gehaltserhöhung für Complier.

Warum ist LATE besser als naives OLS? Ein naiver OLS-Vergleich (Teilnehmer vs. Nicht-Teilnehmer) ist verzerrt durch Selbstselektion: Wer das Programm wählt, ist oft motivierter, fähiger oder hat bessere Netzwerke — unabhängig vom Programm. T ist dadurch endogen (korreliert mit dem Fehlerterm ε). Das IV/LATE-Verfahren umgeht dieses Problem, indem es nur die Variation in T nutzt, die durch die quasi-zufällige Zuweisung Z verursacht wird — diese Variation ist per Konstruktion unkorreliert mit U.

Das "Local" im LATE hat zwei Bedeutungen:

Im Beispiel: Der LATE von 10 Tsd. € gilt für Bewerber, die knapp über dem Cutoff lagen und die Zulassung angenommen hätten (Complier). Ob das Programm für Never-Taker oder für Bewerber weit über dem Cutoff gleich wirksam wäre, lässt sich aus diesem Design nicht ableiten.