Propensity Score — Matching & Weighting

Dr. R. Düsing · Universität Osnabrück
Propensity Score Matching & Weighting — Hilfe
Das Problem: Selektionsbias

In Beobachtungsstudien entscheiden Personen selbst, ob sie eine Behandlung T erhalten. Diese Selbstselektion führt dazu, dass Behandlungs- und Kontrollgruppe sich in beobachtbaren Merkmalen (Kovariaten X) unterscheiden, die auch das Outcome Y beeinflussen — das nennt man Konfundierung. Ein naiver Vergleich Y(T=1) − Y(T=0) schätzt nicht den Kausaleffekt, sondern mischt Effekt und Vorunterschied.

Beispiel: Erstsemester mit niedrigerem Abiturschnitt und geringerem SES nehmen häufiger am Mentoring-Programm teil. Naiv verglichen sieht das Programm wirkungslos aus — nicht weil es das ist, sondern weil die Teilnehmer schlechtere Ausgangsbedingungen hatten.

Was ist ein Propensity Score?

Der Propensity Score (PS) ist die bedingte Wahrscheinlichkeit der Behandlung gegeben alle gemessenen Kovariaten:

e(X) = P(T = 1 | X₁, X₂, ..., Xₖ)

Rosenbaum & Rubin (1983): Wenn die Behandlung bedingt auf X unabhängig von den potenziellen Outcomes ist (Ignorabilität), dann ist sie auch bedingt auf den einzigen Skalar e(X) unabhängig. Statt k Kovariaten simultan zu balancieren, genügt es, auf den PS zu konditionieren. In der Praxis wird der PS via logistischer Regression geschätzt.

Annahmen — Wann funktioniert PSM/IPW?

1. Ignorabilität (CIA / Unconfoundedness): {Y(0), Y(1)} ⊥ T | X — bedingt auf die gemessenen Kovariaten ist die Behandlung quasi-zufällig. Diese Annahme ist nicht testbar. PSM/IPW eliminiert nur Bias durch gemessene Kovariaten; ungemessene Confounders (omitted variable bias) bleiben ein Risiko.

2. Common Support (Positivity): 0 < e(X) < 1 für alle X. Jede Person muss theoretisch behandelt oder unbehandelt sein können. Verletzt, wenn ein Merkmal die Behandlung perfekt vorhersagt.

3. SUTVA: Kein Spillover zwischen Einheiten; T ist eine klar definierte Intervention.

Propensity Score Matching (PSM)

Beim 1:1 Nearest-Neighbor Matching wird jeder behandelten Person die Kontrollperson mit dem ähnlichsten PS zugeordnet. Das Caliper c begrenzt die maximale Distanz |e_i − e_j| ≤ c. Empfehlung: c = 0,2 · SD(logit(PS)) (Austin, 2011). Matching ohne Zurücklegen: jede Kontrollperson wird höchstens einmal verwendet.

Matching schätzt den ATT (Average Treatment Effect on the Treated): den Effekt bei denjenigen, die tatsächlich behandelt wurden. Behandelte ohne Match (außerhalb des Common Support) werden ausgeschlossen — das erhöht die interne Validität auf Kosten der Stichprobengröße.

ATT (Matching) = (1/M) · Σᵢ [ Yᵢ(T=1) − Y_match(i)(T=0) ]
Inverse Probability Weighting (IPW / IPTW)

Statt Personen zu matchen, erhält jede Person ein Gewicht, das den Selektionsmechanismus umkehrt. Für den ATT:

Behandelte: w = 1 · Kontrollen: w = e(X) / (1 − e(X))

Kontrollpersonen mit hohem PS (die eigentlich hätten behandelt werden sollen) erhalten mehr Gewicht — sie sind bessere Kontrafaktual-Doppelgänger. Das Ergebnis ist ein pseudo-randomisierter Datensatz. IPW ist effizienter als Matching (nutzt alle Daten), aber sensitiver bei extremen PS-Werten nahe 0 oder 1, bei denen Gewichte explodieren können.

Balance prüfen — Love Plot & SMD

Der Love Plot zeigt den Standardisierten Mittleren Unterschied (SMD) für jede Kovariate vor und nach Adjustierung:

SMD = (μ_behandelt − μ_Kontrolle) / √[(σ²_T + σ²_K) / 2]

|SMD| < 0,10 → gute Balance · |SMD| < 0,25 → akzeptabel · |SMD| ≥ 0,25 → substanzieller Restbias. Ein guter Love Plot zeigt, wie alle Kovariaten nach Adjustierung nahe an 0 wandern. Balance ≠ kein Bias: nur gemessene Kovariaten werden geprüft.

Welche Methode wählen?

PSM: Intuitiv, transparent (einzelne Paare zeigbar), konservativ (nur Common Support). Verlust von Kontrollfällen. Gut, wenn eine klare Vergleichbarkeit der Paare wichtig ist.

IPW: Effizienter (alle Daten), flexibel (ATE oder ATT). Sensitiv gegenüber extremen PS-Werten. Gut bei kleiner Stichprobe oder schlechtem Common Support auf der Matching-Seite.

Doubly Robust (DR): Kombiniert Outcome-Regression + IPW. Konsistent, wenn entweder PS-Modell oder Outcome-Modell korrekt ist. State of the Art in der angewandten Forschung (z.B. AIPW, TMLE).

Achtung: Alle Methoden scheitern bei unbeobachteten Confoundern. Instrumentalvariablen, Regression Discontinuity oder Difference-in-Differences sind dann geeigneter.

R-Pakete

MatchIt: Flexibles Matching (Nearest-Neighbor, Optimal, Genetic, CEM). WeightIt: IPW und weitere Gewichtungsmethoden. cobalt: Love Plot + Balance-Statistiken, kompatibel mit MatchIt & WeightIt. twang: PS via Gradient Boosting (GBM). CBPS: Covariate Balancing PS — schätzt PS direkt auf Balance optimiert.

Das Problem — Selektionsbias & Propensity Score
Behandelte und Kontrollen unterscheiden sich in Vormerkmalen (X₁–X₃). Der Propensity Score e(X) = P(T=1|X) verdichtet alle Kovariaten zu einem Skalar — und zeigt, wo die Gruppen überlappen (Common Support). Ohne Überlappung ist kein Matching möglich.
Wird berechnet…
Die Korrektur — Kovariaten-Balance
Der Love Plot zeigt den Standardisierten Mittleren Unterschied (SMD) je Kovariate vor und nach Adjustierung. Ziel: alle |SMD| < 0,10 (grüne Zone). Ein ausgeglichener Love Plot bedeutet: die Gruppen sind nach Adjustierung vergleichbar.
Kovariate SMD vorher SMD Matching SMD IPW
Der Effekt — Kausale Schätzung
Der grüne Strich markiert den wahren Effekt τ (im Simulationsmodell bekannt). Wie nah kommen die Schätzer heran? Der naive Vergleich zeigt den Bias — adjustierte Methoden sollten sich der Wahrheitslinie annähern.
Lernkarten
Was ist ein Propensity Score?
e(X) = P(T=1|X) — die bedingte Behandlungswahrscheinlichkeit. Rosenbaum & Rubin (1983): Wenn Y(0),Y(1) ⊥ T | X, dann auch Y(0),Y(1) ⊥ T | e(X). Mächtige Dimensionsreduktion: k Kovariaten → 1 Skalar. Wird meist via logistischer Regression geschätzt.
Selektionsbias & CIA
PSM/IPW setzt Ignorabilität (CIA) voraus: bedingt auf X ist T unabhängig von Y(0),Y(1). Das eliminiert Bias durch gemessene Kovariaten. Ungemessene Confounder verursachen weiterhin Bias — PSM/IPW ist kein Allheilmittel.
1:1 Nearest-Neighbor Matching
Jeder behandelten Person wird die Kontrollperson mit dem nächsten PS zugeordnet (ohne Zurücklegen). Das Caliper c begrenzt die maximale Distanz. Empfehlung: c = 0,2 · SD(logit(PS)). Ohne Caliper: garantiert ein Match, aber evtl. schlechte Qualität.
Common Support
Nur im Überlappungsbereich der PS-Verteilungen ist Schätzung valide. Behandelte mit PS ≈ 1 haben keine ähnlichen Kontrollen — sie werden beim Matching ausgeschlossen. Bei IPW bekommen diese Einheiten extreme Gewichte (w → ∞) — Clipping oder stabilisierte Gewichte nötig.
IPW für ATT
Behandelte: w = 1 · Kontrollen: w = e(X)/(1−e(X)). Kontrollen mit hohem PS (die eigentlich hätten teilnehmen können) erhalten mehr Gewicht. Resultat: pseudo-randomisierte Stichprobe. Effizienter als Matching, sensitiver bei extremen PS-Werten.
Love Plot & SMD
SMD = (μ_T − μ_K) / SD_gepooled. |SMD| < 0,10 → gute Balance · < 0,25 → akzeptabel. Der Love Plot zeigt Balance für alle Kovariaten simultan — vor und nach Adjustierung. Balance gilt nur für gemessene Variablen.