Lord's Paradox — ANCOVA vs. Differenzwert

Dr. R. Düsing · Universität Osnabrück

Hilfe — Lord's Paradox

Was zeigt dieses Tool?

Lord's Paradox (1967) ist die Beobachtung, dass zwei korrekte statistische Analysen — die Differenzwert-Methode und ANCOVA — zu gegensätzlichen Schlussfolgerungen führen können. Das Paradox entsteht nicht durch einen Fehler, sondern weil beide Methoden verschiedene kausale Fragen beantworten.

Das laufende Beispiel

Eine Universität vergleicht zwei Kurse: Kurs A (Standardunterricht) und Kurs B (Intensivkurs mit Tutorien). Studierende werden am Semesterbeginn (Prä) und -ende (Post) in Mathematik getestet. Kurs B hat im Schnitt ein höheres Ausgangsniveau — leistungsstärkere Studierende wählen den Intensivkurs.

Die zwei Analysen

Differenzwert (Post − Prä): Wie groß ist die mittlere Verbesserung pro Kurs? Wenn beide Kurse gleich viel verbessern, findet die Differenzwert-Analyse keinen Effekt.

ANCOVA (Post ~ Kurs + Prä): Bei gleichem Ausgangsniveau — schneidet ein Kurs am Ende besser ab? Weil Kurs B mit höherem Ausgangsniveau startet und Regression zur Mitte dies dämpft, erscheint Kurs B im ANCOVA-Vergleich besser.

Die Schlüsselformel

Der Unterschied zwischen beiden Schätzern lässt sich exakt berechnen:
delta_ANCOVA = delta_Diff + (1 - b_w) · (mean_pre_B - mean_pre_A)
Solange b_w = 1 (ρ·σ_post/σ_pre = 1) ODER kein Baseline-Unterschied besteht, stimmen beide überein.

Bedienung

Δ Ausgangsniveau: Unterschied im Prä-Test (Kurs B minus Kurs A). Wahrer Effekt: Zusätzliche Verbesserung durch den Intensivkurs (über die Semesterverbesserung hinaus). ρ (Pre-Post-Korr.): Je näher an 1, desto stärker stimmen beide Methoden überein. Szenarien: Vier voreingestellte Situationen, die verschiedene Aspekte des Paradoxons zeigen.

Lege Artis: Wann welches Werkzeug?

RCT: ANCOVA ist vorzuziehen (höhere Power, zufällige Baseline-Differenzen werden korrigiert). Observationsstudie: Die Wahl hängt vom Estimanden ab — welche kausale Frage soll beantwortet werden? Ein DAG ist nötig. Beide Methoden können legitim sein — für verschiedene Fragen.

Laufendes Beispiel
Förderprogramm-Studie — Mathematikunterricht — Zwei Kurse an einer Universität: 100 Studierende in Kurs A (Standard) und 100 in Kurs B (Intensiv). Kurs B Studierende starten mit im Schnitt 10 Punkte Vorsprung. Beide Kurse verbessern sich um ca. gleich viel — und dennoch liefern zwei Analysen verschiedene Antworten.
Ergebnisse der zwei Analysen
Differenzwert-Analyse
δDiff = Δ̄B − Δ̄A · t-Test
ΔA̅ =   ΔB̅ =
δDiff =
t(—) = —, p = —
ANCOVA
Post ~ Prä + Kurs · Regression
bw =   δANC =
SE =
t(—) = —, p = —
Visualisierung
Mathematischer Zusammenhang
Die zwei Analysen
δDiff = ΔB ΔA  wobei Δ = mean(Post − Prä) je Kurs
δANCOVA = (ȳpost,B − ȳpost,A) − bw · Δbase
Schlüsselformel — warum sie divergieren
δANCOVA = δDiff + (1 − bw ) · Δbase
= + (1 − ) · =
Komponenten erklärt
δDiff Differenz der mittl. Veränderungen: ΔB − ΔA
δANCOVA Gruppenkoeff. aus Post ~ Prä + Kurs
bw Within-group Steigung Post auf Prä ≈ ρ · σpostpre
Δbase Ausgangsniveauunterschied: ȳpre,B − ȳpre,A
Paradox nur wenn bw ≠ 1 und Δbase ≠ 0 gleichzeitig. Im RCT: Δbase ≈ 0 per Randomisierung → beide Methoden stimmen überein.
Zwei Fragen — Zwei Antworten
Differenzwert fragt:
„Hat sich Kurs B im Schnitt stärker verbessert als Kurs A?"

Schätzt den Unterschied in den mittleren Veränderungen: ΔB̄ − ΔĀ.

Die Frage ist marginal: Sie vergleicht Gruppenmittelwerte — ohne auf das Ausgangsniveau zu konditionieren. Individuelle Unterschiede im Startpunkt werden implizit durch die Differenzbildung herausgekürzt.
ANCOVA fragt:
„Bei gleichem Ausgangsniveau — schneidet Kurs B am Ende besser ab?"

Schätzt den Gruppenunterschied bei fixiertem Prä-Wert: E[Post|Kurs=B, Prä=y] − E[Post|Kurs=A, Prä=y].

Die Frage ist konditional: Sie vergleicht Personen mit identischem Startwert. Das ist sinnvoll, wenn man wissen will, ob der Kurs innerhalb einer Leistungsebene einen Unterschied macht.
DAG — Kausale Struktur
ρ δ (Effekt) Selektion? (obs. Studie) Kurs G Pra-Test Y0 Post-Test Y1 Fahigkeit U (latent, unbeob.) Treatment ANCOVA: adjustiert Outcome
Grüner Bogen (G → Y1): kausaler Effekt δ des Kurses auf das Prüfungsergebnis.   Blauer Pfeil (Y0 → Y1): Regression zur Mitte (Stärke ρ).   Grau gestrichelt: latente Fähigkeit U beeinflusst beide Messzeitpunkte.   Rot gestrichelt (G → Y0): In Observationsstudien wählen stärkere Studierende den Intensivkurs — dieser Pfeil fehlt im RCT.
Lege Artis: Wann welches Werkzeug?
ANCOVA — bevorzugen wenn:
Randomisiertes Experiment (RCT) — Baseline-Unterschiede sind zufällig; ANCOVA erhöht die statistische Power deutlich, ohne Bias einzuführen. Es ist der moderne Standard (Vickers & Altman 2001, EMA Guidelines).

Observationsstudie mit klar definiertem Confounder — wenn Y₀ (Prä) als einzige relevante Kovariate gilt und G nicht durch Y₀ verursacht wird (d.h. G ⊥ Y₀ | U im DAG).

Die Frage lautet: „Was wäre der Effekt, wenn wir gleiche Startbedingungen hätten?"
Differenzwert — bevorzugen wenn:
Gruppen sind durch ihr Ausgangsniveau definiert — z.B. „leistungsstarke vs. leistungsschwache Studierende". Hier ist der Prä-Wert das gruppendefinierende Merkmal. ANCOVA würde auf genau dieses Merkmal adjustieren und damit den Gruppenunterschied, der die Intervention erst motiviert, herausrechnen — das ist logisch zirkulär.

Individuelle Veränderung ist das Interessante — wenn man wissen will, ob eine Person oder Gruppe sich entwickelt hat, unabhängig vom Startpunkt.

U (Fähigkeit) ist der Hauptconfounder — Differenzwerte eliminieren zeitstabile Confunder implizit (fixed-effects-Logik).
Modernes Fazit (Pearl 2016, Senn 2006): Lord's Paradox ist kein Fehler — es ist ein Spiegel. Die beiden Methoden beantworten verschiedene kausale Fragen. Lege artis heute: Kausale Frage zuerst präzisieren, DAG zeichnen, dann Methode wählen. In RCTs ist ANCOVA fast immer vorzuziehen. In Observationsstudien hängt die Antwort vom Estimanden ab.
Konzepte
Was ist Lord's Paradox?
Frederic Lord (1967) zeigte, dass zwei Statistiker mit demselben Datensatz — beide korrekt rechnend — zu entgegengesetzten Schlüssen kommen können. Statistiker A nutzt Differenzwerte und findet keinen Gruppeneffekt. Statistiker B nutzt ANCOVA und findet einen signifikanten Effekt. Beide liegen richtig — weil sie verschiedene Fragen beantworten.
Regression zur Mitte als Ursache
Der Mechanismus hinter dem Paradox ist Regression zur Mitte: Wer beim Prä-Test extrem hoch oder niedrig war, bewegt sich beim Post-Test in Richtung des Gruppenmittels. Kurs B hat ein höheres Mittel — seine Mitglieder regredieren zu einem anderen Zentrum als Kurs A. ANCOVA „sieht" diesen Unterschied bei fixiertem Prä-Wert; Differenzwerte nicht.
Der Estimand entscheidet
Ein Estimand ist die präzise Definition der Größe, die geschätzt werden soll. ATE (Average Treatment Effect) fragt nach der durchschnittlichen Wirkung in der Population — Differenzwerte kommen dem nahe. CATE (Conditional ATE) fragt nach der Wirkung bei fixiertem Y₀ — ANCOVA schätzt genau das. Ohne vorab definierten Estimanden ist die Methodenwahl willkürlich.
RCT: ANCOVA fast immer besser
Bei randomisierten Experimenten ist ANCOVA dem bloßen t-Test auf Differenzwerte statistisch überlegen: Es reduziert den Restfehler durch Aufklärung von Varianz durch den Prä-Wert. Die geschätzten Gruppenunterschiede sind unverzerrt und präziser. Vickers & Altman (2001, BMJ) empfehlen ANCOVA als Standard für klinische Trials. Differenzwerte sind nur dann gleichwertig, wenn ρ = 1 oder keine Baseline-Varianz existiert.
Observationsstudien: DAG zuerst
In Beobachtungsstudien kann ANCOVA auf Y₀ (Prä) kontraproduktiv sein: Wenn Y₀ ein Mediator des G-Effekts ist (G → Y₀ → Y₁), adjustieren wir auf dem Kausalweg und unterschätzen den Effekt. Wenn Y₀ ein Collider ist (G → Y₀ ← U → Y₁), öffnen wir durch Adjustierung einen Backdoor-Pfad. Ein DAG klärt, welcher Fall vorliegt.
Die Formel des Paradoxons
δANCOVA = δDiff + (1 − bw) · Δbase

bw = pooled within-group Steigung ≈ ρ
Δbase = Ausgangsniveauunterschied der Gruppen

Das Paradox verschwindet, wenn ρ = 1 (kein Regressions-zur-Mitte-Effekt) oder Δbase = 0 (keine Baseline-Differenz). Im RCT ist Δbase ≈ 0 per Randomisierung.