Lindley's Paradox — signifikant, aber Bayes stützt H₀
Dr. R. Düsing · Universität Osnabrück
Lindley-Modus
Ergebnis gerade signifikant halten (p = α)
An: der beobachtete Effekt wird so gesetzt, dass p genau = α bleibt — schiebe dann n und beobachte den Bayes-Faktor.
Stichprobengröße n
n50000
Beobachteter Effekt
δ = (x̄−μ₀)/σ0.009
Im Lindley-Modus von n bestimmt (deaktiviert).
Prior unter H₁
Prior-SD τ(in σ)1.00
θ ~ N(0, τ²) unter H₁ — wie breit man den Effekt a priori erwartet.
Signifikanzniveau α
zweiseitig
📋 Das Rätsel
Ein Test gegen die Punkt-Nullhypothese H₀: θ = 0 an n = 50 000 Personen ergibt p ≈ .05 —
also signifikant, H₀ wird abgelehnt. Doch der Bayes-Faktor sagt: Die Daten sind vielfach
wahrscheinlicher unter H₀ als unter H₁. Frequentist und Bayesianer kommen zum gegenteiligen Schluss —
aus denselben Daten. Wer hat recht, und warum?
①Frequentist vs. Bayes
Teststatistik z
—
δ·√n
p-Wert (2-seitig)
—
—
BF₀₁ (für H₀)
—
Daten×wahrscheinlicher unter H₀
BF₁₀ (für H₁)
—
Jeffreys-Skala
—
②Warum? Die Verteilung der Teststatistik unter H₀ vs. H₁
Randverteilung von z — H₀ (fest) vs. H₁ (wird mit n breiter)
③Die Divergenz mit wachsendem n
p-Wert (rot) vs. Bayes-Faktor BF₀₁ (lila) über die Stichprobengröße
Konzepte
Worin besteht das Paradox?
Bei festem Signifikanzniveau kann ein gerade-signifikantes Ergebnis (p = .05) mit
wachsendem n zu immer stärkerer Evidenz für H₀ werden. Der Frequentist lehnt H₀ ab, der Bayesianer
stützt sie — beide aus denselben Daten. Lindley (1957) zeigte das formal.
Der Effekt wird winzig
Damit p = .05 bleibt, muss bei großem n der beobachtete Effekt δ = z/√n
immer kleiner werden. Ein „signifikanter" Effekt bei n = 1 000 000 ist praktisch null. Die Signifikanz misst hier nur,
dass der Effekt nicht exakt 0 ist — nicht, dass er bedeutsam ist.
Warum stützt Bayes H₀?
H₁ verteilt seine Wahrscheinlichkeit über alle möglichen Effekte (Prior τ).
Je größer n, desto schärfer wäre ein echter Effekt sichtbar — ein winziges z spricht dann gegen große Effekte
und damit für H₀. H₁ wird durch seine Streuung „bestraft" (Ockhams Rasiermesser, automatisch).
Die Rolle des Priors
Der Bayes-Faktor hängt von der Prior-Breite τ ab — ein bekannter Kritikpunkt.
Breiterer Prior → stärkere H₀-Stützung (mehr „Bestrafung" von H₁). Der p-Wert ignoriert diese Frage ganz,
zahlt dafür aber mit der n-Abhängigkeit der Signifikanz.
Warum dreht der BF im freien Modus „um"?
Bei festem echtem Effekt δ (Lindley-Modus aus) durchläuft BF₀₁ zwei Phasen,
weil er aus zwei gegenläufigen Kräften besteht:
BF₀₁ = √(1+nτ²) · exp(−½ z²·…).
• Occam-Faktor √(1+nτ²) — wächst mit n und stützt H₀: er bestraft H₁ dafür,
dass es seine Wahrscheinlichkeit über einen breiten Prior verteilt.
• Fit-Term exp(−½z²·…) — bricht ein, sobald z groß wird (echter Effekt sichtbar), und stützt H₁. Kleines n: z = δ√n ist winzig → der Effekt ist noch nicht auflösbar → Occam gewinnt → BF für H₀.
Großes n: der echte Effekt ist aufgelöst → Fit gewinnt → BF für H₁. Das „Umdrehen" ist also Ockhams
Rasiermesser: H₁ muss sich seinen Vorteil erst durch genug Daten verdienen. Pointe: Wenn ein echter Effekt existiert, sind sich p und BF am Ende einig (beide → H₁) — dann ist es
wirklich nur unterschiedliche Sensitivität plus Occam-Aufschlag. Das echte Paradox tritt nur im Lindley-Modus
auf: dort schrumpft der Effekt mit (δ = z/√n → 0), p bleibt für immer bei α, und BF₀₁ steigt monoton
gegen H₀ — sie widersprechen sich dauerhaft.
Und ein Credible Interval / Probability of Direction?
Mit flachem Prior ist der Posterior N(x̄, SE²). Die Probability of Direction
ist dann pd = Φ(|z|) = 1 − p/2 — also eine monotone Funktion des p-Werts. Im Lindley-Modus bliebe pd
konstant bei 1 − α/2 (z. B. 0.975) und das flat-prior-CrI schlösse die 0 stets knapp aus → beide verhalten
sich wie der p-Wert und zeigen das Paradox nicht. Grund: pd und CrI sind Schätz-Maße
(„wo liegt θ?") ohne Punkt-Null und damit ohne Occam-Faktor. Erst der Bayes-Faktor
(Punkt-Null-Vergleich) oder ein ROPE — bei dem das mit n schrumpfende CrI komplett in die Region
praktischer Äquivalenz fällt — lösen das Paradox Richtung H₀ auf. Kurz: das Lindley-Paradox ist ein Phänomen des
Punkt-Null-Modellvergleichs, nicht der Bayes-Schätzung.
Auflösung & Bezug zum Bayes Thinking Lab
Das Paradox ist kein Rechenfehler, sondern zeigt: p-Wert und Bayes-Faktor beantworten
verschiedene Fragen. Der p-Wert: „Wie überraschend sind die Daten unter H₀?" Der Bayes-Faktor:
„Welche Hypothese sagt die Daten besser voraus?" Bei großem n und einer Punkt-Null divergieren beide.
Tiefer in Priors, Bayes-Faktoren und ROPE-Entscheidungen geht das Schwesterprojekt:
→ Bayes Thinking Lab
Lindley's Paradox — Hintergrund
Der Aufbau
Wir testen den Mittelwert θ einer Normalverteilung mit bekannter Streuung σ. Beobachtet wird der
Stichprobenmittelwert x̄ aus n Beobachtungen, standardisiert als z = (x̄ − μ₀)·√n / σ. Alle Effekte sind
in σ-Einheiten ausgedrückt (σ = 1), der beobachtete Effekt ist δ = (x̄ − μ₀)/σ, also z = δ·√n.
Frequentistisch: der p-Wert
p = 2·(1 − Φ(|z|)) (zweiseitig)
H₀ wird abgelehnt, wenn p < α. Für festes δ > 0 wächst z = δ√n mit n — irgendwann wird jeder
noch so winzige Effekt signifikant. Signifikanz ist also stark von n abhängig.
Bayesianisch: der Bayes-Faktor
H₀: θ = 0 (Punkt-Null) gegen H₁: θ ~ N(0, τ²). Der Bayes-Faktor vergleicht, wie gut jede Hypothese die
Daten vorhersagt (marginale Likelihood). Für dieses Normal-Normal-Modell:
BF₀₁ > 1 bedeutet Evidenz für H₀, BF₁₀ = 1/BF₀₁ Evidenz für H₁. Jeffreys-Faustregel: 1–3 anekdotisch,
3–10 moderat, 10–30 stark, >30 sehr stark.
Das Paradox
Hält man das Ergebnis gerade signifikant (z = zkrit, also p = α konstant) und lässt
n wachsen, gilt √(1+nτ²) → ∞, während der Exponentialterm gegen exp(−½ zkrit²) strebt. Also
BF₀₁ → ∞: dasselbe „signifikante" Ergebnis wird zu immer stärkerer Evidenz für H₀.
Anschaulich (Panel ②): Die z-Verteilung unter H₀ bleibt fix N(0,1), die unter H₁ wird mit n immer breiter und
flacher. Ein festes z = 1.96 liegt dann zwar im Ablehnungsbereich von H₀, hat aber unter dem breiten H₁ eine noch
kleinere Dichte — die Daten passen besser zu H₀.
Die Auflösung
p-Wert und Bayes-Faktor beantworten verschiedene Fragen. Der p-Wert bedingt nur auf H₀
(„wie extrem sind die Daten, wenn H₀ gilt?"). Der Bayes-Faktor vergleicht H₀ und H₁ direkt und „bestraft" H₁ für seine
Vagheit (Ockham). Zudem: ein bei großem n gerade signifikanter Effekt ist praktisch null — die Signifikanz sagt
nur, dass θ ≠ 0 exakt gilt. Wer eine relevante Mindestgröße prüfen will, braucht ohnehin ein Intervall/ROPE statt einer
Punkt-Null.
Grenzen dieses Tools
Verwendet wird ein Normalprior unter H₁ (analytisch sauber). Gängige Default-Bayes-Faktoren (JZS, Rouder
et al.) nehmen einen Cauchy-Prior — qualitativ identisches Paradox, andere Zahlen. Der BF hängt sichtbar von τ ab.
Literatur
Lindley, D. V. (1957). A statistical paradox. Biometrika, 44, 187–192.
Jeffreys, H. (1939). Theory of Probability.
Wagenmakers, E.-J. (2007). A practical solution to the pervasive problems of p values. Psychon. Bull. Rev., 14, 779–804.
Rouder et al. (2009). Bayesian t tests. Psychon. Bull. Rev., 16, 225–237.