Berkson's Paradox — MethodsLab

Laufendes Beispiel

Talent & Fleiß im Bewerbungskontext — Eine Personalabteilung betrachtet 300 Bewerber: die erfolgreichsten 25% und die erfolglosesten 25% nach Berufserfolg Z. In der Bevölkerung sind Talent (X) und Fleiß (Y) unkorreliert (ρ = 0.00). In der selektierten Gruppe beträgt die Korrelation r = — — Berksons Paradox.

Kausale Struktur (DAG)

Grundprinzip

Z = X + Y + ε (Collider-Struktur: Z hängt von X und Y ab)

Corr(X, Y) = ρ_XY (Gesamtpopulation — keine Konditionierung)

Corr(X, Y | Z extrem) ≠ ρ_XY ← Berkson's Paradox

      Selektionsgrenze: Y = zthreshold − X
       →  Steigung −1  · 
      ρ̂ in Selektion: —
    

Gesamtpopulation vs. Selektierte Gruppe

ρ_XY (Population)

—

wahre Grundkorrelation

n selektiert

—

— % der Stichprobe

ρ_XY (Selektion)

—

Korrelation in Extremgruppe

Δρ (Verzerrung)

—

Selektion − Population

Schlussfolgerung: —

Konzepte

Was ist Berkson's Paradox?

Joseph Berkson (1946) beschrieb es am Beispiel von Krankenhäusern: Zwei Krankheiten A und B sind in der Bevölkerung unkorreliert. Im Krankenhaus jedoch (wo Patienten selektiert werden, die mindestens eine Krankheit haben) erscheinen sie negativ korreliert — wer Krankheit A hat, braucht weniger oft Krankheit B als Einweisungsgrund. Das Paradox tritt immer auf, wenn man auf eine Variable konditioniert, die gemischte Ursachen hat.

Collider — der DAG-Begriff

In einem Directed Acyclic Graph (DAG) ist ein Collider ein Knoten, der zwei eingehende Pfeile hat: X → Z ← Y. Normalerweise blockt ein Collider den Informationsfluss zwischen X und Y (d-separation). Sobald man auf Z konditioniert — durch Selektion, Adjustment oder Stratifizierung — wird der Pfad X — Z — Y geöffnet und eine Scheinkorrelation entsteht. Das ist das Gegenteil von Konfundierung.

Warum Steigung −1?

Die Selektionsschwelle entspricht X + Y ≈ c (Konstante). Das ist die Gleichung einer Gerade mit Steigung −1. Personen im selektierten Band erfüllen näherungsweise X + Y = c, d.h. wer ein hohes X hat, muss ein niedrigeres Y haben. Die orangefarbenen Grenzlinien im linken Plot zeigen genau diese Anti-Diagonalen. Bei zunehmendem Rauschen in Z werden die Grenzen unschärfer — und der Berkson-Effekt schwächer.

Einseitig vs. beidseitig — zwei Effekte

Einseitige Selektion (Preset B/D — nur Top oder nur Bottom) zeigt den klassischen Berkson-Effekt: innerhalb der Gruppe gilt X + Y ≈ Konstante → wer hohes X hat, muss niedrigeres Y haben → negative Scheinkorrelation. Beidseitige Selektion (Preset C — Top + Bottom gemeinsam) erzeugt dagegen eine positive Scheinkorrelation: die obere Gruppe hat hohe Mittelwerte auf X und Y, die untere Gruppe niedrige — der Zwischen-Gruppen-Effekt dominiert den Berkson-Effekt innerhalb der Gruppen. Berksons Krankenhaus-Beispiel (1946) ist ein einseitiger Fall.

Konsequenzen für Forschung

Collider Bias ist in der empirischen Forschung häufig und schwer zu erkennen. Bekannte Fälle: Hospitalismus-Bias (Krankenhausstudien), Survivorship Bias (nur Überlebende/Erfolgreiche befragt), Selektive Veröffentlichung (nur signifikante Befunde publiziert), Online-Umfragen (Teilnahme hängt von Interesse ab, das von Outcome abhängt). Überall wo Studienteilnahme von X und Y abhängt, lauert Berkson.

Positive Grundkorrelation aufheben

Mit Preset D (starke einseitige Selektion 10%) und dem ρ_XY-Slider auf +0.40 lässt sich zeigen: selbst wenn X und Y in der Bevölkerung positiv korreliert sind, kann starke Selektion auf Z die Richtung umkehren. Bei ausreichend engem Selektionsfenster und geringem Rauschen in Z wird der Berkson-Effekt stark genug, die ursprünglich positive Korrelation zu überwältigen — die selektierte Gruppe zeigt dann eine negative Korrelation.

Abgrenzung von Konfundierung

Konfundierung: eine gemeinsame Ursache U → X und U → Y erzeugt Scheinkorrelation; Kontrolle von U beseitigt sie. Collider Bias: eine gemeinsame Wirkung X → Z ← Y; Kontrolle von Z erzeugt Scheinkorrelation. Beide erzeugen Verzerrung, aber in entgegengesetzter Logik. In Regressionsmodellen ist deshalb "für alle verfügbaren Variablen kontrollieren" falsch — Collider sollten nie kontrolliert werden.

Abgrenzung: Range Restriction

Gemeinsam: beides sind Selektionseffekte auf die beobachtete Korrelation — man sieht nicht die ganze Population. Unterschied: Berkson konditioniert auf einen Collider (gemeinsame Wirkung X→Z←Y) und erzeugt dadurch eine Scheinkorrelation, die auch die Regressionssteigung verzerrt — ein Strukturproblem. Range Restriction selektiert dagegen direkt auf den Prädiktor X: die Korrelation wird nur gedämpft (oder bei Extremgruppen aufgebläht), die Steigung Y·X bleibt erwartungstreu — ein Varianzproblem, das sich mit der Thorndike-Formel zurückrechnen lässt. Faustregel: einen Collider niemals kontrollieren, Range Restriction dagegen korrigieren. → Range Restriction (Varianzeinschränkung)

Erkennen und Vermeiden

Schritte: (1) DAG zeichnen, bevor Analyse beginnt. (2) Alle Variablen als Konfounder, Mediatoren oder Collider klassifizieren. (3) Nur für Konfounder adjustieren — niemals für Collider. (4) Selektionsmechanismus der Stichprobe prüfen: hängt die Studienteilnahme von X und Y gleichzeitig ab? (5) Sensitivitätsanalysen mit anderen Selektionsmodellen. Literatur: Pearl (2009) Causality; Hernán & Robins (2020) Causal Inference.

Berksons Paradox & Collider Bias

Hilfe — Berkson's Paradox & Collider Bias