Power & Stichprobengröße — Warum Power eine Kurve ist
Dr. R. Düsing · Universität Osnabrück
Signifikanzniveau α
α0.05
0.010.050.10
Testrichtung
Design
Stichprobengröße
n (pro Gruppe)64
Gesamt-N: 128
Geplante Effektgröße
Cohen's d0.50
Power: —
Ziel-Power
1−β0.80
📋 Beispiel — Klinische Studie Antidepressivum
Forscher plant Studie: erwartet d = 0.50 (Literatur),
n = 64 pro Gruppe → geplante Power:
80%.
Pilotstudie deutet auf d ≈ 0.30 hin —
Sektion 3 zeigt, was das bedeutet.
① Power ist eine Kurve — nicht ein Wert
Power(d) — Kurve & Kurvenschar
H₀- und H₁-Verteilung
② Die Power-Landschaft — n × d × Power
Heatmap: Power als Funktion von n und Cohen's d
③ Was, wenn das wahre δ kleiner ist als angenommen?
Sensitivitätsanalyse — Power bei n = 64 für jedes mögliche wahre d
Was dieser Plot zeigt
Wird geladen…
Lernkarten
Power ist eine Funktion
Für jedes denkbare wahre δ gibt es eine andere Power. Die häufig zitierte „80%-Power" gilt nur für genau ein einziges angenommenes δ — und dieses kennt man vor der Studie nie sicher.
α und Power sind gegenläufig
Strengeres α (z. B. 0.01 statt 0.05) senkt bei gleichem n und δ die Power — man macht es schwerer, H₀ abzulehnen, und verpasst damit auch mehr echte Effekte.
Cohen: Daumenregeln, keine Gesetze
Cohen (1988) leitete d = 0.2/0.5/0.8 aus verhaltenwiss. Studien seiner Zeit ab — als Notlösung ohne Domänenwissen. In der Medizin kann d = 0.1 klinisch bedeutsam sein; in der Grundlagenforschung kann d = 0.8 trivial sein. Die relevante ES ist immer kontextspezifisch.
MDES aus inhaltlichem Kontext
Das MDES (Minimum Detectable Effect Size) sollte aus klinischer/praktischer Relevanz kommen, nicht aus statistischen Konventionen. Frage: „Welcher Effekt wäre klein genug, um ihn zu ignorieren?"
Post-hoc Power ist irreführend
Power nach einer nicht-signifikanten Studie mit dem beobachteten d zu berechnen ist zirkulär: sie spiegelt nur den p-Wert zurück und sagt nichts über die ursprüngliche Planung aus. Verwende nur a-priori Power (vor der Studie).
Power & Stichprobengröße — Hilfe
Beispiel
Ein Kliniker plant eine RCT zu einem Antidepressivum. Aus der Literatur erwartet er Cohen's d = 0.50 auf der HAM-D-Skala. Mit n = 64 pro Gruppe und α = 0.05 (zweiseitig) ergibt sich eine geplante Power von ca. 80%. Eine Pilotstudie deutet jedoch auf d ≈ 0.30 hin — Sektion 3 zeigt, was das für die tatsächliche Power bedeutet.
Was ist statistische Power?
Power (1−β) ist die Wahrscheinlichkeit, einen wahren Effekt zu entdecken — also H₀ korrekt abzulehnen, wenn H₁ gilt. Power hängt von vier Größen ab: Effektgröße δ, Stichprobengröße n, Signifikanzniveau α und Testrichtung.
Power = P(H₀ ablehnen | H₁ wahr) = 1 − β
Warum ist Power eine Kurve?
Für jedes mögliche wahre δ ergibt sich eine andere Power. Bei δ = 0 entspricht Power dem α-Niveau (falsch-positiv). Mit wachsendem δ steigt Power gegen 1. Sektion 1 zeigt diese Kurve — und wie sie sich mit n verschiebt. Die oft zitierte „80%-Power" gilt immer nur für ein bestimmtes δ.
Normalapproximation der Power
Power ≈ Φ(|d| · √(n/2) − z_{α/2}) [zweiseitig, 2 Gruppen]
Power ≈ Φ(|d| · √n − z_{α/2}) [zweiseitig, 1 Gruppe]
Φ = Standardnormalverteilung (kumulativ), z_{α/2} = Quantil für α/2. Die Näherung ist für n ≥ 20 sehr präzise.
Cohen's d und seine Grenzen
Standardisierte Effektgröße: d = (μ₁ − μ₂) / σ. Die Konventionen klein/mittel/groß (0.2/0.5/0.8) sind historische Daumenregeln aus der Verhaltensforschung der 1960er–70er Jahre — keine universellen Standards. Cohen selbst warnte vor unreflektierter Übernahme. In der Medizin kann d = 0.1 klinisch bedeutsam sein (Blutdrucksenkung × Millionen Patienten); in der Grundlagenforschung kann d = 0.8 trivial sein.
SESOI — Wie bestimmt man die relevante Effektgröße?
Das Kernproblem der Stichprobenplanung ist nicht das Rechnen — es ist die inhaltliche Frage: Welchen Effekt möchte ich zuverlässig entdecken? Lakens (2022) schlägt vor, die Planung am SESOI auszurichten — dem Smallest Effect Size of Interest: dem kleinsten Effekt, der noch praktisch oder klinisch bedeutsam wäre.
Das SESOI ist grundlegend verschieden von der Frage „Was haben frühere Studien gefunden?" — denn publizierte Effektgrößen sind durch Selektionsbias und Publikationsbias systematisch überschätzt (Winner's Curse). Wer seine Planung auf dem mittleren publizierten d aufbaut, riskiert eine überhöhte Effekterwartung und damit chronische Unterpowerung.
Vier Wege zur SESOI-Bestimmung:
1. Klinischer/praktischer Anker (empfohlen): Welcher Effekt würde eine Entscheidung ändern — z. B. Behandlungsleitlinien, Zulassung, Kostenerstattung? In der Medizin gibt es für viele Skalen bereits empirisch bestimmte Mindestschwellen (MCID, Minimal Clinically Important Difference). Beispiel: Auf dem HAM-D gilt eine Reduktion von ≥ 3 Punkten als klinisch bedeutsam — das entspricht einem bestimmten d.
2. Ressourcen-basierte Rechtfertigung: Arbeite rückwärts: Welche n sind realistisch erreichbar? Welches MDES ergibt sich daraus bei 80% Power? Ist dieser MDES inhaltlich noch relevant — oder so groß, dass nur große, unplausible Effekte entdeckt würden?
3. Untere Schranke aus der Theorie: Was sagt die Theorie über die Mindestgröße des Effekts? Wenn ein Mechanismus postuliert wird, kann man oft argumentieren, unterhalb welcher Schwelle er praktisch nicht existiert.
4. Vorherige Literatur — mit Vorsicht: Metaanalytische Schätzungen aus vorselektierten Stichproben überschätzen den wahren Effekt. Besser: Unkorrigierte Rohdaten aus Registerstudien oder präregistrierten Replikationen. Wenn nur publizierte Effekte verfügbar sind, setze den Planungswert deutlich konservativer an (z. B. 50–70% des publizierten d).
SESOI und MDES verbinden: Nachdem das SESOI inhaltlich bestimmt ist, liefert Sektion 3 dieses Tools die Antwort: Ist mein geplantes n groß genug, um das SESOI zuverlässig zu entdecken (MDES ≤ SESOI)? Falls nicht, muss n erhöht oder das Design geändert werden.
Literatur: Lakens, D. (2022). Sample size justification. Collabra: Psychology, 8(1), 33267.
doi:10.1525/collabra.33267 — Open Access, enthält R-Code und interaktive Beispiele.
Begriffe
α (Typ-I-Fehler): Wahrscheinlichkeit, H₀ fälschlicherweise abzulehnen. β (Typ-II-Fehler): Wahrscheinlichkeit, einen echten Effekt zu verpassen. Power = 1−β. NCP (Non-centrality parameter): δ · √(n/2) — gibt an, wie weit H₁ von H₀ entfernt ist (in SD-Einheiten der Teststatistik). MDES (Minimum Detectable Effect Size): Kleinster Effekt, der mit gegebenen n und α bei Ziel-Power entdeckt werden kann. Aus Sektion 3 ablesbar. SESOI (Smallest Effect Size of Interest): Der kleinste Effekt, der inhaltlich noch praktisch oder klinisch relevant wäre. Die Planung sollte so erfolgen, dass MDES ≤ SESOI. Post-hoc Power: Power berechnet nach der Studie mit dem beobachteten d — zirkulär und uninformativ, weil sie nur den p-Wert zurückspiegelt.