Lord's Paradox — MethodsLab

Laufendes Beispiel

Förderprogramm-Studie — Mathematikunterricht — Zwei Kurse an einer Universität: 100 Studierende in Kurs A (Standard) und 100 in Kurs B (Intensiv). Kurs B Studierende starten mit im Schnitt 10 Punkte Vorsprung. Beide Kurse verbessern sich um ca. gleich viel — und dennoch liefern zwei Analysen verschiedene Antworten.

Ergebnisse der zwei Analysen

Differenzwert-Analyse

δ_Diff = Δ̄_B − Δ̄_A · t-Test

ΔA̅ = — ΔB̅ = —
δ_Diff = —

t(—) = —, p = —

—

ANCOVA

Post ~ Prä + Kurs · Regression

b_w = — δ_ANC = —
SE = —

t(—) = —, p = —

—

Visualisierung

Mathematischer Zusammenhang

Die zwei Analysen

δ_Diff = Δ_B − Δ_A wobei Δ = mean(Post − Prä) je Kurs

δ_ANCOVA = (ȳ_post,B − ȳ_post,A) − b_w · Δ_base

Schlüsselformel — warum sie divergieren

δ_ANCOVA = δ_Diff + (1 − b_w ) · Δ_base

— = — + (1 − — ) · — = —

Komponenten erklärt

δ_Diff — Differenz der mittl. Veränderungen: Δ_B − Δ_A

δ_ANCOVA — Gruppenkoeff. aus Post ~ Prä + Kurs

b_w — Within-group Steigung Post auf Prä ≈ ρ · σ_post/σ_pre

Δ_base — Ausgangsniveauunterschied: ȳ_pre,B − ȳ_pre,A

Paradox nur wenn b_w ≠ 1 und Δ_base ≠ 0 gleichzeitig. Im RCT: Δ_base ≈ 0 per Randomisierung → beide Methoden stimmen überein.

Zwei Fragen — Zwei Antworten

Differenzwert fragt:

„Hat sich Kurs B im Schnitt stärker verbessert als Kurs A?"

Schätzt den Unterschied in den mittleren Veränderungen: ΔB̄ − ΔĀ.

Die Frage ist marginal: Sie vergleicht Gruppenmittelwerte — ohne auf das Ausgangsniveau zu konditionieren. Individuelle Unterschiede im Startpunkt werden implizit durch die Differenzbildung herausgekürzt.

ANCOVA fragt:

„Bei gleichem Ausgangsniveau — schneidet Kurs B am Ende besser ab?"

Schätzt den Gruppenunterschied bei fixiertem Prä-Wert: E[Post|Kurs=B, Prä=y] − E[Post|Kurs=A, Prä=y].

Die Frage ist konditional: Sie vergleicht Personen mit identischem Startwert. Das ist sinnvoll, wenn man wissen will, ob der Kurs innerhalb einer Leistungsebene einen Unterschied macht.

DAG — Kausale Struktur

      Grüner Bogen (G → Y1): kausaler Effekt δ des Kurses auf das Prüfungsergebnis.  
      Blauer Pfeil (Y0 → Y1): Regression zur Mitte (Stärke ρ).  
      Grau gestrichelt: latente Fähigkeit U beeinflusst beide Messzeitpunkte.  
      Rot gestrichelt (G → Y0): In Observationsstudien wählen stärkere Studierende den Intensivkurs — dieser Pfeil fehlt im RCT.
    

Lege Artis: Wann welches Werkzeug?

ANCOVA — bevorzugen wenn:

Randomisiertes Experiment (RCT) — Baseline-Unterschiede sind zufällig; ANCOVA erhöht die statistische Power deutlich, ohne Bias einzuführen. Es ist der moderne Standard (Vickers & Altman 2001, EMA Guidelines).

Observationsstudie mit klar definiertem Confounder — wenn Y₀ (Prä) als einzige relevante Kovariate gilt und G nicht durch Y₀ verursacht wird (d.h. G ⊥ Y₀ | U im DAG).

Die Frage lautet: „Was wäre der Effekt, wenn wir gleiche Startbedingungen hätten?"

Differenzwert — bevorzugen wenn:

Gruppen sind durch ihr Ausgangsniveau definiert — z.B. „leistungsstarke vs. leistungsschwache Studierende". Hier ist der Prä-Wert das gruppendefinierende Merkmal. ANCOVA würde auf genau dieses Merkmal adjustieren und damit den Gruppenunterschied, der die Intervention erst motiviert, herausrechnen — das ist logisch zirkulär.

Individuelle Veränderung ist das Interessante — wenn man wissen will, ob eine Person oder Gruppe sich entwickelt hat, unabhängig vom Startpunkt.

U (Fähigkeit) ist der Hauptconfounder — Differenzwerte eliminieren zeitstabile Confunder implizit (fixed-effects-Logik).

Modernes Fazit (Pearl 2016, Senn 2006): Lord's Paradox ist kein Fehler — es ist ein Spiegel. Die beiden Methoden beantworten verschiedene kausale Fragen. Lege artis heute: Kausale Frage zuerst präzisieren, DAG zeichnen, dann Methode wählen. In RCTs ist ANCOVA fast immer vorzuziehen. In Observationsstudien hängt die Antwort vom Estimanden ab.

Konzepte

Was ist Lord's Paradox?

Frederic Lord (1967) zeigte, dass zwei Statistiker mit demselben Datensatz — beide korrekt rechnend — zu entgegengesetzten Schlüssen kommen können. Statistiker A nutzt Differenzwerte und findet keinen Gruppeneffekt. Statistiker B nutzt ANCOVA und findet einen signifikanten Effekt. Beide liegen richtig — weil sie verschiedene Fragen beantworten.

Regression zur Mitte als Ursache

Der Mechanismus hinter dem Paradox ist Regression zur Mitte: Wer beim Prä-Test extrem hoch oder niedrig war, bewegt sich beim Post-Test in Richtung des Gruppenmittels. Kurs B hat ein höheres Mittel — seine Mitglieder regredieren zu einem anderen Zentrum als Kurs A. ANCOVA „sieht" diesen Unterschied bei fixiertem Prä-Wert; Differenzwerte nicht.

Der Estimand entscheidet

Ein Estimand ist die präzise Definition der Größe, die geschätzt werden soll. ATE (Average Treatment Effect) fragt nach der durchschnittlichen Wirkung in der Population — Differenzwerte kommen dem nahe. CATE (Conditional ATE) fragt nach der Wirkung bei fixiertem Y₀ — ANCOVA schätzt genau das. Ohne vorab definierten Estimanden ist die Methodenwahl willkürlich.

RCT: ANCOVA fast immer besser

Bei randomisierten Experimenten ist ANCOVA dem bloßen t-Test auf Differenzwerte statistisch überlegen: Es reduziert den Restfehler durch Aufklärung von Varianz durch den Prä-Wert. Die geschätzten Gruppenunterschiede sind unverzerrt und präziser. Vickers & Altman (2001, BMJ) empfehlen ANCOVA als Standard für klinische Trials. Differenzwerte sind nur dann gleichwertig, wenn ρ = 1 oder keine Baseline-Varianz existiert.

Observationsstudien: DAG zuerst

In Beobachtungsstudien kann ANCOVA auf Y₀ (Prä) kontraproduktiv sein: Wenn Y₀ ein Mediator des G-Effekts ist (G → Y₀ → Y₁), adjustieren wir auf dem Kausalweg und unterschätzen den Effekt. Wenn Y₀ ein Collider ist (G → Y₀ ← U → Y₁), öffnen wir durch Adjustierung einen Backdoor-Pfad. Ein DAG klärt, welcher Fall vorliegt.

Die Formel des Paradoxons

δ_ANCOVA = δ_Diff + (1 − b_w) · Δ_base

b_w = pooled within-group Steigung ≈ ρ
Δ_base = Ausgangsniveauunterschied der Gruppen

Das Paradox verschwindet, wenn ρ = 1 (kein Regressions-zur-Mitte-Effekt) oder Δ_base = 0 (keine Baseline-Differenz). Im RCT ist Δ_base ≈ 0 per Randomisierung.

Lord's Paradox — ANCOVA vs. Differenzwert

Hilfe — Lord's Paradox