Standard: σ = 15 (≡ Regressionshypothese wenn ≈ σ·√rxx)
Bayesianischer Trennwert T
Trennwert T112
P(τ > T | X)
—
Linie auch per Klick/Drag im Plot verschieben.
Kennwerte
Messfehler
SEM
—
Regressionshypothese
τ̂ (Regressionsschätzer)
—
SEreg
—
Bayesianischer Posterior
τ̂ (Posterior-Mittelwert)
—
SDposterior
—
≡ Regressionshypothese (Prior SD ≈ σ·√rxx)
Beobachtung
Prozentrang (X)
—
Durchgehendes Beispiel
PersonKind mit IQ-Testung (Wechsler-Skala, μ=100, σ=15)XBeobachteter Testwert = 115 (einmalige Messung, 1 SD über μ)r_xxReliabilität des Subtests = 0.85SEMStandardmessfehler = σ·√(1−r_xx) = 15·√0.15 ≈ 5.81
In welchem Bereich liegt der wahre IQ dieses Kindes mit 95% Wahrscheinlichkeit — und warum liefern die drei Methoden unterschiedliche Intervalle, obwohl alle denselben Testwert nutzen?
Jede Messung enthält Messfehler — der beobachtete Wert X ist nicht der wahre Wert τ. Wie groß die Unsicherheit ist, sagt der Standardmessfehler: SEM = σ · √(1 − r_xx). Je unreliabler der Test (kleines r_xx), desto größer der SEM und desto breiter das Intervall. Statt eines einzelnen Punktwerts („der IQ ist 115") gibt man also einen Unsicherheitsbereich an — was dieser Bereich genau besagt, hängt aber von der Methode ab (frequentistisches KI vs. bayesianisches CrI). Genau diesen Unterschied zeigt das Tool.
KI nach Äquivalenzhypothese
Das klassische Konfidenzintervall der KTT, zentriert um den beobachteten Wert X: KI = X ± 1.96 · SEM. Annahme: X ist ein erwartungstreuer Schätzer von τ (Beobachteter = wahrer Wert „im Mittel"). Interpretation frequentistisch: Bei unendlich vielen Wiederholungen enthielte dieses Intervall den wahren Wert in 95 % der Fälle.
KI nach Regressionshypothese
Berücksichtigt die Regression zur Mitte: extreme Testwerte enthalten mehr Messfehler, der beste Schätzer liegt näher am Mittel. τ = μ + r_xx · (X − μ) liegt immer zwischen X und μ; SE_reg = σ · √(r_xx · (1 − r_xx)). Das Intervall ist gegenüber dem Äquivalenz-KI zum Mittelwert verschoben und etwas schmaler. → Regression zur Mitte
Bayesianisches CrI (Credible Interval)
Prior N(μ, SD_prior) + Likelihood N(X, SEM) → Posterior per Präzisionsgewichtung. Der Schätzer τ ist ein gewichtetes Mittel aus μ und X (Gewicht = 1/Varianz). Mit SD_prior = σ·√r_xx stimmt das CrI exakt mit dem Regressions-KI überein; bei flachem Prior nähert es sich dem Äquivalenz-KI. Der Vorteil: direkte Wahrscheinlichkeitsaussagen P(τ > T | X).
Welches Intervall — und wie deuten?
Äquivalenz: wenn man X für unverzerrt hält und nur die Messunsicherheit abbilden will. Regression: wenn man die beste korrigierte Schätzung des wahren Werts braucht (Einzelfalldiagnostik, Verlaufsmessung). Bayes: wenn man Vorwissen einbeziehen und Trennwertfragen direkt beantworten will. Achtung: das frequentistische KI sagt etwas über Wiederholungen, das CrI über die Glaubwürdigkeit beim konkreten Fall.
Einordnung & verwandte Tools
SEM und Reliabilität stammen aus der Klassischen Testtheorie; die Regressionshypothese ist die Anwendung der Regression zur Mitte auf den Einzelfall; das CrI bringt die bayesianische Perspektive (Vorwissen, kein multiples-Testen-Problem bei flexiblen Trennwerten). → KTT-Grundlagen · → Regression zur Mitte
Diagnostische Intervalle — Hilfe
Beispiel
Ein Kind erzielt einen IQ von X=115 (Wechsler, μ=100, σ=15, r_xx=0.85). Der Standardmessfehler beträgt SEM = 15·√(1−0.85) ≈ 5.81. Frage: In welchem Bereich liegt der wahre IQ — und welche Aussage erlaubt das gewählte Intervall?
KI Äquivalenzhypothese
Das Intervall liegt um den beobachteten Testwert X. Annahme: X ist ein unverzerrter Schätzer des wahren Werts τ. Das klassische Konfidenzintervall der CTT.
KI = X ± 1.96 · SEM (SEM = σ · √(1 − r_xx))
Im Beispiel: 115 ± 1.96 · 5.81 → [103.6, 126.4]. Interpretation: Bei wiederholter Testung (n → ∞) würde dieses Intervall den wahren Wert in 95% der Fälle enthalten.
KI Regressionshypothese
Das Intervall liegt um den regredierten Schätzwert τ̂, nicht um den beobachteten X. Berücksichtigt die Regression zur Mitte: Extreme Testwerte haben mehr Messfehler als Werte nahe am Mittelwert — deshalb ist τ̂ immer zwischen X und μ.
Im Beispiel: τ̂ = 100 + 0.85 · (115−100) = 112.75. SE_reg = 15·√(0.85·0.15) ≈ 5.36. KI_reg = 112.75 ± 1.96 · 5.36 → [102.2, 123.3]. Lage und Breite liegen näher an μ als beim KI der Äquivalenzhypothese.
Bayesianisches CrI (Credible Interval)
Prior N(μ, SD_prior) + Likelihood N(X, SEM) → Posterior via Präzisionsgewichtung. Der Posterior ist ein gewichtetes Mittel aus Prior-Mittelwert μ und beobachtetem X, wobei das Gewicht umgekehrt proportional zur Varianz ist.
Was steuert SD_prior? SD_prior gibt an, wie weit der wahre Wert τ nach dem Vorwissen vom Populationsmittelwert μ abweichen darf. Großes SD_prior: schwaches, breites Vorwissen — der Prior zieht kaum, Lage und Breite des CrI richten sich fast nur nach den Daten (X und SEM). Kleines SD_prior: starkes Vorwissen — τ̂ und das CrI werden deutlich in Richtung μ gezogen. Empfehlung: SD_prior = σ·√r_xx entspricht dem bayesianischen Äquivalent der Regressionshypothese und ist bei bekannter Reliabilität eine gut begründete Wahl. SD_prior = σ (Populationsstreuung) ist ein neutraler, populationsbasierter Ausgangspunkt.
Im Beispiel (SD_prior=σ=15, X=115, r_xx=0.85): w_prior=1/225, w_data=1/33.75 → τ̂ ≈ 113.1, SD_post ≈ 5.42. CrI ≈ [102.5, 123.7]. Das CrI erlaubt direkte Wahrscheinlichkeitsaussagen: P(τ > 110 | X=115) direkt ablesbar.
Spezialfälle:
— SD_prior = σ·√r_xx: CrI stimmt exakt mit dem Regressionshypothese-KI überein (gleiche Lage und Breite).
— SD_prior = σ (Default): Lage des CrI (τ̂ ≈ 113) und Breite liegen nahe beim Regressionshypothese-KI (τ̂=112.75), weil der SEM bei guter Reliabilität klein ist und die Daten das Gewicht dominieren. Nicht zu verwechseln mit dem Äquivalenzhypothese-KI, das bei X=115 zentriert ist.
— SD_prior → ∞ (flacher Prior): CrI → Äquivalenzhypothese-KI (Lage bei X, Breite = SEM-basiert).
Der bayesianische Vorteil: direkte Wahrscheinlichkeitsaussagen über beliebige Trennwerte ohne frequentistische Umwege.
Sobald der Posterior berechnet ist, kann man für jeden beliebigen Trennwert T direkt fragen: Wie wahrscheinlich ist es, dass der wahre Wert τ über (oder unter) T liegt?
P(τ > T | X) = 1 − Φ((T − τ̂) / SD_post)
Im Beispiel (τ̂≈113, SD_post≈5.42): Liegt der Trennwert bei T=112, ergibt sich P(τ > 112 | X=115) ≈ 58 % — obwohl das beobachtete X=115 über T liegt, besteht wegen der Messungenauigkeit erhebliche Unsicherheit. Verschiebt man T auf 100 (Durchschnitt), ergibt sich P(τ > 100 | X=115) ≈ 99 %. Diese Werte lassen sich im Tool durch Ziehen des Trennwerts direkt ablesen.
Interpretation: P(τ > T | X) = 87 % bedeutet: Gegeben den beobachteten Testwert und das Vorwissen liegt der wahre Wert mit 87-prozentiger Wahrscheinlichkeit über T. Diese Aussage ist direkt und inhaltlich interpretierbar — anders als ein p-Wert, der sich auf hypothetische Wiederholungen unter H₀ bezieht.
Kein multiples Testen: Ein frequentistischer Test ist an ein α gebunden. Fragt man nacheinander "Liegt τ > T₁?", "Liegt τ > T₂?", "Liegt τ > T₃?", steigt die Wahrscheinlichkeit eines Fehlers 1. Art — und eine α-Korrektur (Bonferroni etc.) wird nötig. Der Posterior hingegen ist einmalig berechnet: Alle Trennwertfragen greifen auf dieselbe Verteilung zu, ohne dass sich durch weitere Fragen das Fehlerrisiko erhöht. Der Trennwert kann also klinisch, förderdiagnostisch oder administrativ frei gewählt werden — ohne statistischen Preis für diese Flexibilität.
Wagenmakers, E.-J., Morey, R. D., & Lee, M. D. (2016). Bayesian benefits for the pragmatic researcher. Current Directions in Psychological Science, 25, 169–176.