Ein IQ-Test hat M = 100. Jeder beobachtete Wert X ist die Summe aus dem wahren WertT
(der tatsächlichen Merkmalsausprägung) und einem zufälligen MessfehlerE: X = T + E.
Die Reliabilität ist der Anteil der Varianz, der auf wahre Unterschiede zurückgeht — nicht auf Rauschen.
Mit σT = 14 und σE = 5 ergibt sich rtt ≈ .89 und ein SEM von 5 Punkten.
Eine einzelne Person bearbeitet den Test einmal und erhält den beobachteten Wert
X (Regler „Beobachteter Wert X" in der Seitenleiste). Wegen des Messfehlers ist X nicht exakt der
wahre Wert τ. Die KTT kennt dafür zwei Konfidenzintervalle:
die Äquivalenzhypothese (KI um den beobachteten Wert X) und die
Regressionshypothese (KI um den zur Mitte korrigierten Schätzwert X′).
95%-Konfidenzintervall: Äquivalenz- (rot) vs. Regressionshypothese (grün)
⚠ Ein Konfidenzintervall ist kein Wahrscheinlichkeitsbereich für τ und keine
Schätzung des wahren Werts selbst — es ist ein Überdeckungs-Intervall (bei wiederholter Messung enthält es τ
in z. B. 95 % der Fälle). Der Punkt-Schätzer des wahren Werts ist X bzw. X′; das Intervall drückt nur die Unsicherheit
aus. Eine direkte Wahrscheinlichkeitsaussage über τ erlaubt erst das Bayes-Credible-Interval — KI und CrI werden
ausführlich behandelt im Tool
→ Diagnostische Intervalle
Konzepte
Reliabilität ist ein Varianzanteil
rtt sagt, welcher Anteil der beobachteten Streuung auf echte
Unterschiede zwischen Personen zurückgeht. r = .90 heißt: 90% wahre Varianz, 10% Messrauschen. Reliabilität ist
keine Eigenschaft „des Tests", sondern von Test + Population: dieselbe Skala ist in einer homogenen
Gruppe weniger reliabel.
SEM hängt von Reliabilität ab
Der Standardmessfehler SEM = SD·√(1−r) übersetzt Reliabilität in die
Skaleneinheit. Hier gilt sogar SEM = σE. Er ist die Basis für Konfidenzbänder um Einzelwerte — und damit
für die Veränderungsmessung (Reliable Change).
→ Jacobson-Truax
Längere Tests sind reliabler
Die Spearman-Brown-Formel zeigt: mehr (gleichartige) Items erhöhen die
Reliabilität — aber mit abnehmendem Grenznutzen. Verdoppeln bringt viel, Verzehnfachen wenig. Das Tool rechnet aus,
wie viele Items für eine Ziel-Reliabilität nötig sind.
Messfehler verzerrt Zusammenhänge
Unreliabilität dämpft Korrelationen (Attenuation): der beobachtete
Zusammenhang ist kleiner als der wahre. Die Disattenuationsformel korrigiert das.
→ Messfehler-Attenuation
KTT-Grundlagen — Hintergrund
Was dieses Tool zeigt — und was nicht
Zeigt: das Wahrer-Wert-Modell X = T + E, Reliabilität als Varianzanteil, SEM,
Konfidenzbänder um Einzelwerte und die Spearman-Brown-Testlängen-Formel. Nicht hier: die konkreten
Schätzverfahren (α, ω, Split-Half) — das übernimmt das Tool „Reliabilität: α vs. ω"; die Messmodelle dahinter das
Tool „Messmodelle".
Das Modell der Klassischen Testtheorie
X = T + E (Beobachtung = wahrer Wert + Fehler)
E[E] = 0, Cov(T,E) = 0
Var(X) = Var(T) + Var(E)
Der Fehler ist zufällig, im Mittel null und unkorreliert mit dem wahren Wert. Daraus folgt die zentrale
Definition der Reliabilität:
Zwei parallele Messungen X₁ und X₂ derselben Personen korrelieren genau mit rtt —
denn ihr gemeinsamer Teil ist der wahre Wert T. Das ist die operationale Grundlage der Test-Retest- und
Parallel-Test-Reliabilität. Der empirisch geschätzte Wert schwankt um den theoretischen (Stichprobenfehler — mit n sichtbar kleiner).
Eine einzelne Person erhält bei einer Testung den beobachteten Wert X. Wegen des
Messfehlers weicht X vom (unbekannten) wahren Wert τ ab. Der Standardmessfehler beschreibt, wie stark
einzelne Messungen um τ streuen:
SEM = SD_X · √(1 − r_tt) (hier zugleich = σ_E)
Daraus bildet die KTT ein Konfidenzintervall — in zwei Lesarten, exakt wie im Tool „Diagnostische
Intervalle":
Äquivalenzhypothese (rot): das Intervall liegt um den
beobachteten Wert X. Annahme: X ist ein erwartungstreuer Schätzer von τ.
KI = X ± z · SEM
Regressionshypothese (grün): das Intervall liegt um den
regredierten Schätzwert X′, der die Regression zur Mitte berücksichtigt — extreme Werte enthalten mehr
Messfehler und werden zur Mitte gezogen:
X′ = M + r_tt · (X − M)
SE_reg = SD_X · √(r_tt · (1 − r_tt))
KI = X′ ± z · SE_reg
Wichtig zur Interpretation: Ein Konfidenzintervall ist keine
Wahrscheinlichkeitsaussage über τ und nicht selbst „die Schätzung des wahren Werts". Der Punkt-Schätzer ist X bzw.
X′; das Intervall drückt nur aus, dass es bei wiederholter Messung den wahren Wert in z. B. 95 % der Fälle
überdeckt. Eine direkte Aussage „mit 95 % liegt τ in …" erlaubt erst das Bayes-Credible-Interval.
Konfidenz- und Credible-Intervalle (sowie die Prozentrang-Einordnung) werden ausführlich im Tool
Diagnostische Intervalle behandelt.
Reliabilität lässt sich durch mehr Items erhöhen — denn der gemeinsame wahre Anteil
mehrerer Items summiert sich stärker als ihr unabhängiger Messfehler. Die Spearman-Brown-Prophezeiungsformel sagt
voraus, welche Reliabilität ein um den Faktor k verlängerter Test hätte:
r_k = (k · r) / (1 + (k − 1) · r)
k ist der Längenfaktor: k = 2 bedeutet doppelte Itemzahl, k = 0.5 ein halbierter Test.
Die Kurve im Plot steigt zunächst steil und flacht dann ab — der Grenznutzen nimmt ab: Von einem
schon reliablen Test wird Verdoppeln kaum noch etwas bringen, von einem unreliablen sehr viel. Bei k = 1 liegt der
aktuelle Test (roter Punkt), die lila Linie markiert die Ziel-Reliabilität.
Stellt man die Formel um, ergibt sich die nötige Testlänge für eine Ziel-Reliabilität r*:
k = r* · (1 − r) / [ r · (1 − r*) ]
Beispiel: Ein Test mit r = .70 soll r* = .90 erreichen → k = .90·.30 / (.70·.10) ≈ 3.86, also fast die
vierfache Itemzahl. Voraussetzung: die hinzugefügten Items sind den vorhandenen gleichwertig
(gleiche Qualität, parallel) — sonst überschätzt die Formel den Gewinn.
Reliabilität ist kontextabhängig
Da rtt = Var(T)/Var(X), sinkt sie, wenn die wahre Varianz schrumpft (homogene Gruppe,
Varianzeinschränkung) — bei gleichem Messfehler. Reliabilität gehört also zu Test und
Population, nicht zum Test allein.
Literatur
Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Addison-Wesley.
Spearman, C. (1910) & Brown, W. (1910), Prophezeiungsformel.
Gulliksen, H. (1950). Theory of Mental Tests. Wiley.