Lindley's Paradox — MethodsLab

📋 Das Rätsel

Ein Test gegen die Punkt-Nullhypothese H₀: θ = 0 an n = 50 000 Personen ergibt p ≈ .05 — also signifikant, H₀ wird abgelehnt. Doch der Bayes-Faktor sagt: Die Daten sind vielfach wahrscheinlicher unter H₀ als unter H₁. Frequentist und Bayesianer kommen zum gegenteiligen Schluss — aus denselben Daten. Wer hat recht, und warum?

①Frequentist vs. Bayes

Teststatistik z

—

δ·√n

p-Wert (2-seitig)

—

BF₀₁ (für H₀)

—

Daten×wahrscheinlicher unter H₀

BF₁₀ (für H₁)

—

Jeffreys-Skala

—

②Warum? Die Verteilung der Teststatistik unter H₀ vs. H₁

Randverteilung von z — H₀ (fest) vs. H₁ (wird mit n breiter)

③Die Divergenz mit wachsendem n

p-Wert (rot) vs. Bayes-Faktor BF₀₁ (lila) über die Stichprobengröße

Konzepte

Worin besteht das Paradox?

Bei festem Signifikanzniveau kann ein gerade-signifikantes Ergebnis (p = .05) mit wachsendem n zu immer stärkerer Evidenz für H₀ werden. Der Frequentist lehnt H₀ ab, der Bayesianer stützt sie — beide aus denselben Daten. Lindley (1957) zeigte das formal.

Der Effekt wird winzig

Damit p = .05 bleibt, muss bei großem n der beobachtete Effekt δ = z/√n immer kleiner werden. Ein „signifikanter" Effekt bei n = 1 000 000 ist praktisch null. Die Signifikanz misst hier nur, dass der Effekt nicht exakt 0 ist — nicht, dass er bedeutsam ist.

Warum stützt Bayes H₀?

H₁ verteilt seine Wahrscheinlichkeit über alle möglichen Effekte (Prior τ). Je größer n, desto schärfer wäre ein echter Effekt sichtbar — ein winziges z spricht dann gegen große Effekte und damit für H₀. H₁ wird durch seine Streuung „bestraft" (Ockhams Rasiermesser, automatisch).

Die Rolle des Priors

Der Bayes-Faktor hängt von der Prior-Breite τ ab — ein bekannter Kritikpunkt. Breiterer Prior → stärkere H₀-Stützung (mehr „Bestrafung" von H₁). Der p-Wert ignoriert diese Frage ganz, zahlt dafür aber mit der n-Abhängigkeit der Signifikanz.

Warum dreht der BF im freien Modus „um"?

Bei festem echtem Effekt δ (Lindley-Modus aus) durchläuft BF₀₁ zwei Phasen, weil er aus zwei gegenläufigen Kräften besteht: BF₀₁ = √(1+nτ²) · exp(−½ z²·…).
• Occam-Faktor √(1+nτ²) — wächst mit n und stützt H₀: er bestraft H₁ dafür, dass es seine Wahrscheinlichkeit über einen breiten Prior verteilt.
• Fit-Term exp(−½z²·…) — bricht ein, sobald z groß wird (echter Effekt sichtbar), und stützt H₁.
Kleines n: z = δ√n ist winzig → der Effekt ist noch nicht auflösbar → Occam gewinnt → BF für H₀. Großes n: der echte Effekt ist aufgelöst → Fit gewinnt → BF für H₁. Das „Umdrehen" ist also Ockhams Rasiermesser: H₁ muss sich seinen Vorteil erst durch genug Daten verdienen.
Pointe: Wenn ein echter Effekt existiert, sind sich p und BF am Ende einig (beide → H₁) — dann ist es wirklich nur unterschiedliche Sensitivität plus Occam-Aufschlag. Das echte Paradox tritt nur im Lindley-Modus auf: dort schrumpft der Effekt mit (δ = z/√n → 0), p bleibt für immer bei α, und BF₀₁ steigt monoton gegen H₀ — sie widersprechen sich dauerhaft.

Und ein Credible Interval / Probability of Direction?

Mit flachem Prior ist der Posterior N(x̄, SE²). Die Probability of Direction ist dann pd = Φ(|z|) = 1 − p/2 — also eine monotone Funktion des p-Werts. Im Lindley-Modus bliebe pd konstant bei 1 − α/2 (z. B. 0.975) und das flat-prior-CrI schlösse die 0 stets knapp aus → beide verhalten sich wie der p-Wert und zeigen das Paradox nicht. Grund: pd und CrI sind Schätz-Maße („wo liegt θ?") ohne Punkt-Null und damit ohne Occam-Faktor. Erst der Bayes-Faktor (Punkt-Null-Vergleich) oder ein ROPE — bei dem das mit n schrumpfende CrI komplett in die Region praktischer Äquivalenz fällt — lösen das Paradox Richtung H₀ auf. Kurz: das Lindley-Paradox ist ein Phänomen des Punkt-Null-Modellvergleichs, nicht der Bayes-Schätzung.

Auflösung & Bezug zum Bayes Thinking Lab

Das Paradox ist kein Rechenfehler, sondern zeigt: p-Wert und Bayes-Faktor beantworten verschiedene Fragen. Der p-Wert: „Wie überraschend sind die Daten unter H₀?" Der Bayes-Faktor: „Welche Hypothese sagt die Daten besser voraus?" Bei großem n und einer Punkt-Null divergieren beide. Tiefer in Priors, Bayes-Faktoren und ROPE-Entscheidungen geht das Schwesterprojekt:
→ Bayes Thinking Lab

Lindley's Paradox — signifikant, aber Bayes stützt H₀