Causal Teaching — Kausalität & Potential Outcomes

Beispiel

TRegelmäßiger Sport (ja / nein) — Behandlung YHerzgesundheits-Score (0–100) — Outcome CSozioökonomischer Status (SES, hoch / niedrig) — Confounder

Sporttreibende haben im Schnitt ~19 Punkte bessere Herzgesundheit — aber ist das ein kausaler Effekt? SES beeinflusst sowohl Sport als auch Herzgesundheit. Alle fünf Module analysieren dieses Konfundierungsproblem Schritt für Schritt: DAG → Potential Outcomes → Konfundierung → IPW → G-Computation.

Modul ① von ⑤

Kausale Struktur — Directed Acyclic Graphs

Ein DAG zeigt, wer wen kausal beeinflusst. Bevor wir irgendeinen Effekt schätzen, müssen wir die kausale Struktur kennen — denn sie bestimmt, für welche Variablen wir dürfen, müssen und nicht dürfen kontrollieren.

Das Problem: Nicht jede beobachtete Assoziation ist kausal. Und nicht jede Adjustierung hilft — manche verschlimmert die Verzerrung sogar.

Vorgehen: Schritt A–C erklärt die drei Grundtypen. Schritt D zeigt das vollständige Modell unserer Studie — die Grundlage für alle folgenden Module.

Modul ② von ⑤

Potential Outcomes — Das fundamentale Problem

Was wäre passiert, wenn eine Person nicht Sport getrieben hätte — obwohl sie es tat? Diese Frage können wir nie direkt beantworten. Das Potential Outcomes Framework macht diese Unmöglichkeit mathematisch greifbar und zeigt, wie wir trotzdem kausale Schlüsse ziehen können.

Die Kernidee: Jede Person i hat zwei potenzielle Outcomes: Y_i(1) — ihr Gesundheitsscore, wenn sie Sport treibt — und Y_i(0) — ihr Score, wenn sie keinen Sport treibt. Der individuelle kausale Effekt wäre ITE_i = Y_i(1) − Y_i(0). Das Problem: Wir sehen immer nur eine dieser Welten — die andere ist kontrafaktisch und für immer unbeobachtbar. Wir können nie dieselbe Person gleichzeitig Sport treiben und nicht treiben lassen.

Die Lösung: Statt individueller Effekte schätzen wir durchschnittliche Effekte über Gruppen: ATE = E[Y(1) − Y(0)] für die Gesamtpopulation, ATT für die Behandelten, ATU für die Unbehandelten. Dafür brauchen wir Annahmen (SUTVA, Ignorierbarkeit) — und Methoden wie IPW oder G-Computation, die in Modulen ④ und ⑤ erklärt werden.

Person	SES	T (Sport)	Y(1) — mit Sport	Y(0) — ohne Sport	ITE = Y(1)−Y(0)	beobachtetes Y

    Hover über „?" für den hypothetischen Wert · Skala: Herzgesundheits-Score (0–100)
  

Modul ③ von ⑤

Konfundierung — Warum der naive Vergleich täuscht

Ein einfacher Vergleich von T=1 vs. T=0 misst nicht den kausalen Effekt. Er misst den Effekt inklusive der gesamten Confounding-Verzerrung. Wie groß ist der Unterschied?

Das Problem: Personen mit hohem SES treiben häufiger Sport und sind von Natur aus gesünder. Der naive Vergleich schreibt den SES-Effekt fälschlicherweise dem Sport zu.

Beobachte im linken Panel den naiven Gruppenvergleich. Erkennbar: T=1-Gruppe enthält viel mehr SES-hohe Personen (orange).

Schaue im rechten Panel auf den Vergleich innerhalb jeder SES-Stufe. Der Effekt ist deutlich kleiner — das ist der wahre kausale Effekt.

Verändere den Slider links und beobachte, wie die Verzerrung mit der Konfundierungsstärke wächst.

Naiver Gruppenvergleich verzerrt

Stratifiziert nach SES adjustiert

Modul ④ von ⑤ — Lösung 1

Inverse Probability Weighting — Pseudo-Population

IPW erstellt eine gewichtete Pseudo-Population, in der T und SES statistisch unabhängig sind — als ob Sport zufällig vergeben worden wäre. Jede Beobachtung erhält ein Gewicht, das ihrer Seltenheit entspricht.

Das Problem: Im oberen Panel siehst du die massive Schieflage: Fast alle Hochsport-Personen kommen aus der High-SES-Gruppe, fast alle Nicht-Sporttreibenden aus Low-SES.

Die Lösung: Gewichte Einheiten, die sich „konträr" zu ihrer Erwartung verhalten, stärker. Eine Low-SES-Person, die trotzdem Sport treibt, ist besonders wertvoll für die Schätzung.

Oben: Propensity-Score-Verteilung — gespiegelt. ▲ Sport (T=1) oben, ▼ Kein Sport (T=0) unten. Die Schieflage ist deutlich sichtbar.

Wähle einen Estimanden (ATE/ATT/ATU) links und klicke „Gewichtung anwenden". Beobachte, wie die Verteilung sich symmetrisiert.

Der IPW-Schätzer erscheint links — vergleiche mit dem naiven Wert aus Modul ③.

① Propensity-Score-Verteilung — Rohzählung

        ▲ Sport T=1  |  ▼ Kein Sport T=0
      

Propensity Score p(T=1 | SES) — ungewichtet

② Gewichtete Pseudo-Population

Klicke „Gewichtung anwenden" um die Pseudo-Population zu sehen

Modul ⑤ von ⑤ — Lösung 2

G-Computation — Standardisierung

G-Computation ist das statistische Gegenstück zu den Potential Outcomes aus Modul ②. Dort wollten wir Y_i(1) und Y_i(0) für jede Person kennen — das ist unmöglich. G-Computation schätzt genau diese kontrafaktischen Welten aus einem Outcomemodell und standardisiert dann über die Covariate-Verteilung.

Die Verbindung zu Potential Outcomes: Ê[Y(1)] aus G-Computation entspricht direkt dem E[Y_i(1)] aus dem PO-Framework — dem mittleren Outcome, wenn alle Personen behandelt würden. Ê[Y(0)] entspricht E[Y_i(0)]. Die Differenz Ê[Y(1)] − Ê[Y(0)] ist der ATE. G-Computation macht das kontrafaktisch Unsichtbare schätzbar.

Vorgehen: Schritt ① fit das Outcomemodell E[Y|T,SES]. Schritte ② und ③ zeigen die zwei kontrafaktischen Welten (alle Sport vs. niemand Sport). Klicke „G-Computation zeigen" für den Schätzer und den Vergleich mit IPW und dem Doubly Robust Estimator.

Das Outcomemodell zeigt die vorhergesagten Y-Werte für T=1 und T=0, getrennt nach SES.

Die zwei Welten unten zeigen: Ê[Y(1)] wenn alle Sport treiben, Ê[Y(0)] wenn niemand Sport treibt — mit derselben SES-Verteilung.

Klicke „G-Computation zeigen" links — der Schätzer erscheint zusammen mit dem Vergleich zu IPW aus Modul ④.

① Outcomemodell: Ê[Y | T, SES]

      ● T=1 (Sport)  ·  ● T=0 (kein Sport)  ·  Punkte = beobachtete Daten · Linien = Modellvorhersage
    

① Individuelles Vorhersage-Panel — Ŷ(1) und Ŷ(0) für jede Person

      Das Outcomemodell sagt für jede Person zwei Werte vorher: wie wäre ihr Score, wenn sie Sport treibt (Ŷ(1)), und wie, wenn sie es nicht tut (Ŷ(0))?
      Diese Vorhersagen basieren auf der SES-Gruppe — jede Person bekommt den Gruppenmittelwert ihrer Kombinationsgruppe (T×SES) zugewiesen.
      Die letzte Spalte (Ŷ(1)−Ŷ(0)) ist der geschätzte individuelle Effekt — genau das, was in Modul ② als ITE bezeichnet, aber dort unbeobachtbar war.
    

② Kontrafaktische Welt T=1 — Alle treiben Sport

② Kontrafaktische Welt T=0 — Niemand treibt Sport

Lernkarten — Konzepte im Überblick

Potential Outcomes & das fundamentale Problem

Jede Person hat zwei potenzielle Outcomes: Y(1) (mit Behandlung) und Y(0) (ohne). Der individuelle Effekt wäre Y(1)−Y(0) — aber wir beobachten immer nur eine Welt, die andere bleibt kontrafaktisch. Darum schätzen wir Durchschnittseffekte über Gruppen statt individueller Effekte. ATE = ganze Population, ATT = nur Behandelte, ATU = nur Unbehandelte.

DAG-Bausteine: Confounder · Mediator · Collider

Die kausale Struktur entscheidet, wofür man kontrollieren darf. Confounder (X→T, X→Y): muss adjustiert werden. Mediator (T→M→Y): nicht adjustieren, sonst verschwindet der zu messende Effekt. Collider (T→K←Y): adjustieren erzeugt Scheinassoziation. Faustregel: erst den DAG zeichnen, dann das Modell wählen — nicht umgekehrt.

Konfundierung & Backdoor-Verzerrung

Der naive Vergleich E[Y|T=1] − E[Y|T=0] misst den kausalen Effekt plus die gesamte Confounding-Verzerrung über den offenen „Backdoor"-Pfad T←X→Y. Im Beispiel treiben SES-hohe Personen häufiger Sport und sind gesünder — der SES-Effekt wird dem Sport zugeschrieben. Die OVB-Formel zerlegt die Verzerrung in (Effekt von X auf Y) × (Imbalance von X zwischen den T-Gruppen).

IPW — Pseudo-Population

Inverse Probability Weighting gewichtet jede Beobachtung mit 1/P(T=t|X) (Propensity Score). Seltene Konstellationen — etwa eine Low-SES-Person, die trotzdem Sport treibt — bekommen großes Gewicht. Das erzeugt eine Pseudo-Population, in der T und X unabhängig sind, als ob die Behandlung randomisiert wäre. Voraussetzung: das Propensity-Modell muss korrekt sein.

G-Computation & Doubly Robust

G-Computation schätzt ein Outcomemodell E[Y|T,X], sagt für jede Person beide kontrafaktischen Welten vorher (Ŷ(1), Ŷ(0)) und standardisiert über die Covariate-Verteilung. Es ist das statistische Gegenstück zu Modul ②. Doubly Robust kombiniert Outcome- und Propensity-Modell: konsistent, wenn mindestens eines der beiden korrekt ist — eine doppelte Absicherung.

Identifikationsannahmen & verwandte Tools

Kausale Schätzung steht und fällt mit drei Annahmen: SUTVA (keine Interferenz, eine Behandlungsversion), Ignorierbarkeit (alle Confounder gemessen — nicht prüfbar!) und Positivität (jede Person kann jede Behandlung erhalten, 0<P(T=1|X)<1). → Simpsons Paradox · → Collider/Berkson · → Mediation · → Propensity Score Matching

Kausal Denken — DAGs · Potential Outcomes · Konfundierung · IPW · G-Computation