Lindley's Paradox — signifikant, aber Bayes stützt H₀

Dr. R. Düsing · Universität Osnabrück
📋 Das Rätsel
Ein Test gegen die Punkt-Nullhypothese H₀: θ = 0 an n = 50 000 Personen ergibt p ≈ .05 — also signifikant, H₀ wird abgelehnt. Doch der Bayes-Faktor sagt: Die Daten sind vielfach wahrscheinlicher unter H₀ als unter H₁. Frequentist und Bayesianer kommen zum gegenteiligen Schluss — aus denselben Daten. Wer hat recht, und warum?
Frequentist vs. Bayes
Teststatistik z
δ·√n
p-Wert (2-seitig)
BF₀₁ (für H₀)
Daten×wahrscheinlicher unter H₀
BF₁₀ (für H₁)
Jeffreys-Skala
Warum? Die Verteilung der Teststatistik unter H₀ vs. H₁
Randverteilung von z — H₀ (fest) vs. H₁ (wird mit n breiter)
Die Divergenz mit wachsendem n
p-Wert (rot) vs. Bayes-Faktor BF₀₁ (lila) über die Stichprobengröße
Konzepte
Worin besteht das Paradox?
Bei festem Signifikanzniveau kann ein gerade-signifikantes Ergebnis (p = .05) mit wachsendem n zu immer stärkerer Evidenz für H₀ werden. Der Frequentist lehnt H₀ ab, der Bayesianer stützt sie — beide aus denselben Daten. Lindley (1957) zeigte das formal.
Der Effekt wird winzig
Damit p = .05 bleibt, muss bei großem n der beobachtete Effekt δ = z/√n immer kleiner werden. Ein „signifikanter" Effekt bei n = 1 000 000 ist praktisch null. Die Signifikanz misst hier nur, dass der Effekt nicht exakt 0 ist — nicht, dass er bedeutsam ist.
Warum stützt Bayes H₀?
H₁ verteilt seine Wahrscheinlichkeit über alle möglichen Effekte (Prior τ). Je größer n, desto schärfer wäre ein echter Effekt sichtbar — ein winziges z spricht dann gegen große Effekte und damit für H₀. H₁ wird durch seine Streuung „bestraft" (Ockhams Rasiermesser, automatisch).
Die Rolle des Priors
Der Bayes-Faktor hängt von der Prior-Breite τ ab — ein bekannter Kritikpunkt. Breiterer Prior → stärkere H₀-Stützung (mehr „Bestrafung" von H₁). Der p-Wert ignoriert diese Frage ganz, zahlt dafür aber mit der n-Abhängigkeit der Signifikanz.
Warum dreht der BF im freien Modus „um"?
Bei festem echtem Effekt δ (Lindley-Modus aus) durchläuft BF₀₁ zwei Phasen, weil er aus zwei gegenläufigen Kräften besteht: BF₀₁ = √(1+nτ²) · exp(−½ z²·…).
Occam-Faktor √(1+nτ²) — wächst mit n und stützt H₀: er bestraft H₁ dafür, dass es seine Wahrscheinlichkeit über einen breiten Prior verteilt.
Fit-Term exp(−½z²·…) — bricht ein, sobald z groß wird (echter Effekt sichtbar), und stützt H₁.
Kleines n: z = δ√n ist winzig → der Effekt ist noch nicht auflösbar → Occam gewinnt → BF für H₀. Großes n: der echte Effekt ist aufgelöst → Fit gewinnt → BF für H₁. Das „Umdrehen" ist also Ockhams Rasiermesser: H₁ muss sich seinen Vorteil erst durch genug Daten verdienen.
Pointe: Wenn ein echter Effekt existiert, sind sich p und BF am Ende einig (beide → H₁) — dann ist es wirklich nur unterschiedliche Sensitivität plus Occam-Aufschlag. Das echte Paradox tritt nur im Lindley-Modus auf: dort schrumpft der Effekt mit (δ = z/√n → 0), p bleibt für immer bei α, und BF₀₁ steigt monoton gegen H₀ — sie widersprechen sich dauerhaft.
Und ein Credible Interval / Probability of Direction?
Mit flachem Prior ist der Posterior N(x̄, SE²). Die Probability of Direction ist dann pd = Φ(|z|) = 1 − p/2 — also eine monotone Funktion des p-Werts. Im Lindley-Modus bliebe pd konstant bei 1 − α/2 (z. B. 0.975) und das flat-prior-CrI schlösse die 0 stets knapp aus → beide verhalten sich wie der p-Wert und zeigen das Paradox nicht. Grund: pd und CrI sind Schätz-Maße („wo liegt θ?") ohne Punkt-Null und damit ohne Occam-Faktor. Erst der Bayes-Faktor (Punkt-Null-Vergleich) oder ein ROPE — bei dem das mit n schrumpfende CrI komplett in die Region praktischer Äquivalenz fällt — lösen das Paradox Richtung H₀ auf. Kurz: das Lindley-Paradox ist ein Phänomen des Punkt-Null-Modellvergleichs, nicht der Bayes-Schätzung.
Auflösung & Bezug zum Bayes Thinking Lab
Das Paradox ist kein Rechenfehler, sondern zeigt: p-Wert und Bayes-Faktor beantworten verschiedene Fragen. Der p-Wert: „Wie überraschend sind die Daten unter H₀?" Der Bayes-Faktor: „Welche Hypothese sagt die Daten besser voraus?" Bei großem n und einer Punkt-Null divergieren beide. Tiefer in Priors, Bayes-Faktoren und ROPE-Entscheidungen geht das Schwesterprojekt:
→ Bayes Thinking Lab
Lindley's Paradox — Hintergrund
Der Aufbau

Wir testen den Mittelwert θ einer Normalverteilung mit bekannter Streuung σ. Beobachtet wird der Stichprobenmittelwert x̄ aus n Beobachtungen, standardisiert als z = (x̄ − μ₀)·√n / σ. Alle Effekte sind in σ-Einheiten ausgedrückt (σ = 1), der beobachtete Effekt ist δ = (x̄ − μ₀)/σ, also z = δ·√n.

Frequentistisch: der p-Wert
p = 2·(1 − Φ(|z|)) (zweiseitig)

H₀ wird abgelehnt, wenn p < α. Für festes δ > 0 wächst z = δ√n mit n — irgendwann wird jeder noch so winzige Effekt signifikant. Signifikanz ist also stark von n abhängig.

Bayesianisch: der Bayes-Faktor

H₀: θ = 0 (Punkt-Null) gegen H₁: θ ~ N(0, τ²). Der Bayes-Faktor vergleicht, wie gut jede Hypothese die Daten vorhersagt (marginale Likelihood). Für dieses Normal-Normal-Modell:

BF₀₁ = √(1 + n·τ²) · exp( −½ · z² · n·τ²/(1 + n·τ²) )

BF₀₁ > 1 bedeutet Evidenz für H₀, BF₁₀ = 1/BF₀₁ Evidenz für H₁. Jeffreys-Faustregel: 1–3 anekdotisch, 3–10 moderat, 10–30 stark, >30 sehr stark.

Das Paradox

Hält man das Ergebnis gerade signifikant (z = zkrit, also p = α konstant) und lässt n wachsen, gilt √(1+nτ²) → ∞, während der Exponentialterm gegen exp(−½ zkrit²) strebt. Also BF₀₁ → ∞: dasselbe „signifikante" Ergebnis wird zu immer stärkerer Evidenz für H₀. Anschaulich (Panel ②): Die z-Verteilung unter H₀ bleibt fix N(0,1), die unter H₁ wird mit n immer breiter und flacher. Ein festes z = 1.96 liegt dann zwar im Ablehnungsbereich von H₀, hat aber unter dem breiten H₁ eine noch kleinere Dichte — die Daten passen besser zu H₀.

Die Auflösung

p-Wert und Bayes-Faktor beantworten verschiedene Fragen. Der p-Wert bedingt nur auf H₀ („wie extrem sind die Daten, wenn H₀ gilt?"). Der Bayes-Faktor vergleicht H₀ und H₁ direkt und „bestraft" H₁ für seine Vagheit (Ockham). Zudem: ein bei großem n gerade signifikanter Effekt ist praktisch null — die Signifikanz sagt nur, dass θ ≠ 0 exakt gilt. Wer eine relevante Mindestgröße prüfen will, braucht ohnehin ein Intervall/ROPE statt einer Punkt-Null.

Grenzen dieses Tools

Verwendet wird ein Normalprior unter H₁ (analytisch sauber). Gängige Default-Bayes-Faktoren (JZS, Rouder et al.) nehmen einen Cauchy-Prior — qualitativ identisches Paradox, andere Zahlen. Der BF hängt sichtbar von τ ab.

Literatur

Lindley, D. V. (1957). A statistical paradox. Biometrika, 44, 187–192.
Jeffreys, H. (1939). Theory of Probability.
Wagenmakers, E.-J. (2007). A practical solution to the pervasive problems of p values. Psychon. Bull. Rev., 14, 779–804.
Rouder et al. (2009). Bayesian t tests. Psychon. Bull. Rev., 16, 225–237.