Berksons Paradox & Collider Bias

Dr. R. Düsing · Universität Osnabrück

Hilfe — Berkson's Paradox & Collider Bias

Was zeigt dieses Tool?

Zwei unkorrelierte Variablen X und Y können in einer selektierten Teilstichprobe eine starke negative Korrelation zeigen — obwohl in der Gesamtpopulation keinerlei Zusammenhang besteht. Dieser Effekt heißt Berkson's Paradox oder Collider Bias. Er entsteht immer dann, wenn auf eine Variable konditioniert wird, die von beiden interessierenden Variablen abhängt.

Das laufende Beispiel

Eine Personalabteilung bewertet Bewerber anhand von Talent (X, IQ-Test) und Fleiß (Y, Selbstbericht). In der Bevölkerung sind Talent und Fleiß unkorreliert (ρ = 0). Der Berufserfolg Z hängt von beiden ab: Z = X + Y + Rauschen. Betrachtet man nur die beruflich Erfolgreichsten und Erfolglosesten, erscheint plötzlich eine negative Korrelation: wer hochtalentiert ist, schien weniger fleißig zu sein — und umgekehrt.

Der Mechanismus (Warum?)

Die Selektion auf Z schränkt den Werteraum ein: Personen im oberen Z-Bereich müssen hohe X- oder Y-Werte haben. Wer niedrige X hat, muss hohe Y haben — und umgekehrt. Innerhalb des selektierten Bandes erzwingt die Summe X + Y ≈ konstant eine negative Abhängigkeit. Im DAG nennt man Z einen Collider — er hat zwei eingehende Pfeile (X → Z ← Y). Konditionieren auf einen Collider öffnet einen Scheinpfad zwischen X und Y.

Das DAG

X → Z ← Y — Z ist der Collider. Die gestrichelte rote Linie zeigt die Konditionierung (Selektion auf extreme Z-Werte). Ohne Konditionierung: X ⊥ Y. Mit Konditionierung: X ⊥̸ Y.

Die Visualisierung

Linkes Panel: Gesamtpopulation. Graue Punkte = nicht selektiert, rote Punkte = selektierte Extremgruppe. Die orangefarbenen diagonalen Linien zeigen die Selektionsgrenzen (Z = X + Y = Schwellenwert). Beachte: die Grenzlinien haben Steigung −1 — genau das ist der Grund für die negative Korrelation in der selektierten Gruppe.
Rechtes Panel: Nur die selektierten Personen. Die rote Regressionslinie zeigt die negative Korrelation. Die gestrichelte graue Linie ist die Regressionsgerade der Gesamtpopulation als Referenz.

Bedienung

Selektionsmodus: Keine / Nur Top / Nur Bottom / Beide Extreme. Selektionsanteil: wie viel % je Seite werden ausgewählt. ρ_XY: wahre Grundkorrelation (normalerweise 0). Rauschen in Z: wie stark Z noch von anderen Faktoren abhängt (schwächt den Effekt).

Laufendes Beispiel
Talent & Fleiß im Bewerbungskontext — Eine Personalabteilung betrachtet 300 Bewerber: die erfolgreichsten 25% und die erfolglosesten 25% nach Berufserfolg Z. In der Bevölkerung sind Talent (X) und Fleiß (Y) unkorreliert (ρ = 0.00). In der selektierten Gruppe beträgt die Korrelation r = — Berksons Paradox.
Kausale Struktur (DAG)
keine direkte Verbindung (X ⊥ Y) Talent X Erfolg Z Collider Fleiß Y KONDITIONIERUNG
Grundprinzip
Z = X + Y + ε (Collider-Struktur: Z hängt von X und Y ab)
Corr(X, Y) = ρXY (Gesamtpopulation — keine Konditionierung)
Corr(X, Y | Z extrem) ≠ ρXY ← Berkson's Paradox
Selektionsgrenze: Y = zthreshold − X  →  Steigung −1  ·  ρ̂ in Selektion:
Gesamtpopulation vs. Selektierte Gruppe
ρ_XY (Population)
wahre Grundkorrelation
n selektiert
— % der Stichprobe
ρ_XY (Selektion)
Korrelation in Extremgruppe
Δρ (Verzerrung)
Selektion − Population
Schlussfolgerung:
Konzepte
Was ist Berkson's Paradox?
Joseph Berkson (1946) beschrieb es am Beispiel von Krankenhäusern: Zwei Krankheiten A und B sind in der Bevölkerung unkorreliert. Im Krankenhaus jedoch (wo Patienten selektiert werden, die mindestens eine Krankheit haben) erscheinen sie negativ korreliert — wer Krankheit A hat, braucht weniger oft Krankheit B als Einweisungsgrund. Das Paradox tritt immer auf, wenn man auf eine Variable konditioniert, die gemischte Ursachen hat.
Collider — der DAG-Begriff
In einem Directed Acyclic Graph (DAG) ist ein Collider ein Knoten, der zwei eingehende Pfeile hat: X → Z ← Y. Normalerweise blockt ein Collider den Informationsfluss zwischen X und Y (d-separation). Sobald man auf Z konditioniert — durch Selektion, Adjustment oder Stratifizierung — wird der Pfad X — Z — Y geöffnet und eine Scheinkorrelation entsteht. Das ist das Gegenteil von Konfundierung.
Warum Steigung −1?
Die Selektionsschwelle entspricht X + Y ≈ c (Konstante). Das ist die Gleichung einer Gerade mit Steigung −1. Personen im selektierten Band erfüllen näherungsweise X + Y = c, d.h. wer ein hohes X hat, muss ein niedrigeres Y haben. Die orangefarbenen Grenzlinien im linken Plot zeigen genau diese Anti-Diagonalen. Bei zunehmendem Rauschen in Z werden die Grenzen unschärfer — und der Berkson-Effekt schwächer.
Einseitig vs. beidseitig — zwei Effekte
Einseitige Selektion (Preset B/D — nur Top oder nur Bottom) zeigt den klassischen Berkson-Effekt: innerhalb der Gruppe gilt X + Y ≈ Konstante → wer hohes X hat, muss niedrigeres Y haben → negative Scheinkorrelation. Beidseitige Selektion (Preset C — Top + Bottom gemeinsam) erzeugt dagegen eine positive Scheinkorrelation: die obere Gruppe hat hohe Mittelwerte auf X und Y, die untere Gruppe niedrige — der Zwischen-Gruppen-Effekt dominiert den Berkson-Effekt innerhalb der Gruppen. Berksons Krankenhaus-Beispiel (1946) ist ein einseitiger Fall.
Konsequenzen für Forschung
Collider Bias ist in der empirischen Forschung häufig und schwer zu erkennen. Bekannte Fälle: Hospitalismus-Bias (Krankenhausstudien), Survivorship Bias (nur Überlebende/Erfolgreiche befragt), Selektive Veröffentlichung (nur signifikante Befunde publiziert), Online-Umfragen (Teilnahme hängt von Interesse ab, das von Outcome abhängt). Überall wo Studienteilnahme von X und Y abhängt, lauert Berkson.
Positive Grundkorrelation aufheben
Mit Preset D (starke einseitige Selektion 10%) und dem ρ_XY-Slider auf +0.40 lässt sich zeigen: selbst wenn X und Y in der Bevölkerung positiv korreliert sind, kann starke Selektion auf Z die Richtung umkehren. Bei ausreichend engem Selektionsfenster und geringem Rauschen in Z wird der Berkson-Effekt stark genug, die ursprünglich positive Korrelation zu überwältigen — die selektierte Gruppe zeigt dann eine negative Korrelation.
Abgrenzung von Konfundierung
Konfundierung: eine gemeinsame Ursache U → X und U → Y erzeugt Scheinkorrelation; Kontrolle von U beseitigt sie. Collider Bias: eine gemeinsame Wirkung X → Z ← Y; Kontrolle von Z erzeugt Scheinkorrelation. Beide erzeugen Verzerrung, aber in entgegengesetzter Logik. In Regressionsmodellen ist deshalb "für alle verfügbaren Variablen kontrollieren" falsch — Collider sollten nie kontrolliert werden.
Abgrenzung: Range Restriction
Gemeinsam: beides sind Selektionseffekte auf die beobachtete Korrelation — man sieht nicht die ganze Population. Unterschied: Berkson konditioniert auf einen Collider (gemeinsame Wirkung X→Z←Y) und erzeugt dadurch eine Scheinkorrelation, die auch die Regressionssteigung verzerrt — ein Strukturproblem. Range Restriction selektiert dagegen direkt auf den Prädiktor X: die Korrelation wird nur gedämpft (oder bei Extremgruppen aufgebläht), die Steigung Y·X bleibt erwartungstreu — ein Varianzproblem, das sich mit der Thorndike-Formel zurückrechnen lässt. Faustregel: einen Collider niemals kontrollieren, Range Restriction dagegen korrigieren. → Range Restriction (Varianzeinschränkung)
Erkennen und Vermeiden
Schritte: (1) DAG zeichnen, bevor Analyse beginnt. (2) Alle Variablen als Konfounder, Mediatoren oder Collider klassifizieren. (3) Nur für Konfounder adjustieren — niemals für Collider. (4) Selektionsmechanismus der Stichprobe prüfen: hängt die Studienteilnahme von X und Y gleichzeitig ab? (5) Sensitivitätsanalysen mit anderen Selektionsmodellen. Literatur: Pearl (2009) Causality; Hernán & Robins (2020) Causal Inference.