Power & Stichprobengröße — MethodsLab

📋 Beispiel — Klinische Studie Antidepressivum Forscher plant Studie: erwartet d = 0.50 (Literatur), n = 64 pro Gruppe → geplante Power: 80%. Pilotstudie deutet auf d ≈ 0.30 hin — Sektion 3 zeigt, was das bedeutet.

① Power ist eine Kurve — nicht ein Wert

Power(d) — Kurve & Kurvenschar

H₀- und H₁-Verteilung

② Die Power-Landschaft — n × d × Power

Heatmap: Power als Funktion von n und Cohen's d

③ Was, wenn das wahre δ kleiner ist als angenommen?

Sensitivitätsanalyse — Power bei n = 64 für jedes mögliche wahre d

Was dieser Plot zeigt Wird geladen…

Lernkarten

Power ist eine Funktion

Für jedes denkbare wahre δ gibt es eine andere Power. Die häufig zitierte „80%-Power" gilt nur für genau ein einziges angenommenes δ — und dieses kennt man vor der Studie nie sicher.

α und Power sind gegenläufig

Strengeres α (z. B. 0.01 statt 0.05) senkt bei gleichem n und δ die Power — man macht es schwerer, H₀ abzulehnen, und verpasst damit auch mehr echte Effekte.

Cohen: Daumenregeln, keine Gesetze

Cohen (1988) leitete d = 0.2/0.5/0.8 aus verhaltenwiss. Studien seiner Zeit ab — als Notlösung ohne Domänenwissen. In der Medizin kann d = 0.1 klinisch bedeutsam sein; in der Grundlagenforschung kann d = 0.8 trivial sein. Die relevante ES ist immer kontextspezifisch.

MDES aus inhaltlichem Kontext

Das MDES (Minimum Detectable Effect Size) sollte aus klinischer/praktischer Relevanz kommen, nicht aus statistischen Konventionen. Frage: „Welcher Effekt wäre klein genug, um ihn zu ignorieren?"

Post-hoc Power ist irreführend

Power nach einer nicht-signifikanten Studie mit dem beobachteten d zu berechnen ist zirkulär: sie spiegelt nur den p-Wert zurück und sagt nichts über die ursprüngliche Planung aus. Verwende nur a-priori Power (vor der Studie).

Power & Stichprobengröße — Hilfe

Beispiel

Ein Kliniker plant eine RCT zu einem Antidepressivum. Aus der Literatur erwartet er Cohen's d = 0.50 auf der HAM-D-Skala. Mit n = 64 pro Gruppe und α = 0.05 (zweiseitig) ergibt sich eine geplante Power von ca. 80%. Eine Pilotstudie deutet jedoch auf d ≈ 0.30 hin — Sektion 3 zeigt, was das für die tatsächliche Power bedeutet.

Was ist statistische Power?

Power (1−β) ist die Wahrscheinlichkeit, einen wahren Effekt zu entdecken — also H₀ korrekt abzulehnen, wenn H₁ gilt. Power hängt von vier Größen ab: Effektgröße δ, Stichprobengröße n, Signifikanzniveau α und Testrichtung.

Power = P(H₀ ablehnen | H₁ wahr) = 1 − β

Warum ist Power eine Kurve?

Für jedes mögliche wahre δ ergibt sich eine andere Power. Bei δ = 0 entspricht Power dem α-Niveau (falsch-positiv). Mit wachsendem δ steigt Power gegen 1. Sektion 1 zeigt diese Kurve — und wie sie sich mit n verschiebt. Die oft zitierte „80%-Power" gilt immer nur für ein bestimmtes δ.

Normalapproximation der Power

Power ≈ Φ(|d| · √(n/2) − z_{α/2}) [zweiseitig, 2 Gruppen] Power ≈ Φ(|d| · √n − z_{α/2}) [zweiseitig, 1 Gruppe]

Φ = Standardnormalverteilung (kumulativ), z_{α/2} = Quantil für α/2. Die Näherung ist für n ≥ 20 sehr präzise.

Cohen's d und seine Grenzen

Standardisierte Effektgröße: d = (μ₁ − μ₂) / σ. Die Konventionen klein/mittel/groß (0.2/0.5/0.8) sind historische Daumenregeln aus der Verhaltensforschung der 1960er–70er Jahre — keine universellen Standards. Cohen selbst warnte vor unreflektierter Übernahme. In der Medizin kann d = 0.1 klinisch bedeutsam sein (Blutdrucksenkung × Millionen Patienten); in der Grundlagenforschung kann d = 0.8 trivial sein.

SESOI — Wie bestimmt man die relevante Effektgröße?

Das Kernproblem der Stichprobenplanung ist nicht das Rechnen — es ist die inhaltliche Frage: Welchen Effekt möchte ich zuverlässig entdecken? Lakens (2022) schlägt vor, die Planung am SESOI auszurichten — dem Smallest Effect Size of Interest: dem kleinsten Effekt, der noch praktisch oder klinisch bedeutsam wäre.

Das SESOI ist grundlegend verschieden von der Frage „Was haben frühere Studien gefunden?" — denn publizierte Effektgrößen sind durch Selektionsbias und Publikationsbias systematisch überschätzt (Winner's Curse). Wer seine Planung auf dem mittleren publizierten d aufbaut, riskiert eine überhöhte Effekterwartung und damit chronische Unterpowerung.

Vier Wege zur SESOI-Bestimmung:

1. Klinischer/praktischer Anker (empfohlen): Welcher Effekt würde eine Entscheidung ändern — z. B. Behandlungsleitlinien, Zulassung, Kostenerstattung? In der Medizin gibt es für viele Skalen bereits empirisch bestimmte Mindestschwellen (MCID, Minimal Clinically Important Difference). Beispiel: Auf dem HAM-D gilt eine Reduktion von ≥ 3 Punkten als klinisch bedeutsam — das entspricht einem bestimmten d.

2. Ressourcen-basierte Rechtfertigung: Arbeite rückwärts: Welche n sind realistisch erreichbar? Welches MDES ergibt sich daraus bei 80% Power? Ist dieser MDES inhaltlich noch relevant — oder so groß, dass nur große, unplausible Effekte entdeckt würden?

3. Untere Schranke aus der Theorie: Was sagt die Theorie über die Mindestgröße des Effekts? Wenn ein Mechanismus postuliert wird, kann man oft argumentieren, unterhalb welcher Schwelle er praktisch nicht existiert.

4. Vorherige Literatur — mit Vorsicht: Metaanalytische Schätzungen aus vorselektierten Stichproben überschätzen den wahren Effekt. Besser: Unkorrigierte Rohdaten aus Registerstudien oder präregistrierten Replikationen. Wenn nur publizierte Effekte verfügbar sind, setze den Planungswert deutlich konservativer an (z. B. 50–70% des publizierten d).

SESOI und MDES verbinden: Nachdem das SESOI inhaltlich bestimmt ist, liefert Sektion 3 dieses Tools die Antwort: Ist mein geplantes n groß genug, um das SESOI zuverlässig zu entdecken (MDES ≤ SESOI)? Falls nicht, muss n erhöht oder das Design geändert werden.

Literatur: Lakens, D. (2022). Sample size justification. Collabra: Psychology, 8(1), 33267. doi:10.1525/collabra.33267 — Open Access, enthält R-Code und interaktive Beispiele.

Begriffe

α (Typ-I-Fehler): Wahrscheinlichkeit, H₀ fälschlicherweise abzulehnen.
β (Typ-II-Fehler): Wahrscheinlichkeit, einen echten Effekt zu verpassen. Power = 1−β.
NCP (Non-centrality parameter): δ · √(n/2) — gibt an, wie weit H₁ von H₀ entfernt ist (in SD-Einheiten der Teststatistik).
MDES (Minimum Detectable Effect Size): Kleinster Effekt, der mit gegebenen n und α bei Ziel-Power entdeckt werden kann. Aus Sektion 3 ablesbar.
SESOI (Smallest Effect Size of Interest): Der kleinste Effekt, der inhaltlich noch praktisch oder klinisch relevant wäre. Die Planung sollte so erfolgen, dass MDES ≤ SESOI.
Post-hoc Power: Power berechnet nach der Studie mit dem beobachteten d — zirkulär und uninformativ, weil sie nur den p-Wert zurückspiegelt.