KTT — Grundlagen · X = T + E

Dr. R. Düsing · Universität Osnabrück
📋 Beispiel — Intelligenztest (IQ-Skala)
Ein IQ-Test hat M = 100. Jeder beobachtete Wert X ist die Summe aus dem wahren Wert T (der tatsächlichen Merkmalsausprägung) und einem zufälligen Messfehler E: X = T + E. Die Reliabilität ist der Anteil der Varianz, der auf wahre Unterschiede zurückgeht — nicht auf Rauschen. Mit σT = 14 und σE = 5 ergibt sich rtt ≈ .89 und ein SEM von 5 Punkten.
① Reliabilität & Messfehler
Reliabilität rtt
σ²T / (σ²T+σ²E)
SEM
SDX·√(1−rtt) = σE
SD beobachtet
√(σ²T+σ²E)
Empirisch r (Retest)
cor(X₁, X₂) der Stichprobe
wahre Varianz
Fehler
Wahre Varianz (reliabel) = rtt Fehlervarianz = 1 − rtt
② Reliabilität = Korrelation zweier Messungen
③ Spearman-Brown — Reliabilität & Testlänge
④ Konfidenzintervall um einen einzelnen Testwert

Eine einzelne Person bearbeitet den Test einmal und erhält den beobachteten Wert X (Regler „Beobachteter Wert X" in der Seitenleiste). Wegen des Messfehlers ist X nicht exakt der wahre Wert τ. Die KTT kennt dafür zwei Konfidenzintervalle: die Äquivalenzhypothese (KI um den beobachteten Wert X) und die Regressionshypothese (KI um den zur Mitte korrigierten Schätzwert X′).

95%-Konfidenzintervall: Äquivalenz- (rot) vs. Regressionshypothese (grün)
⚠ Ein Konfidenzintervall ist kein Wahrscheinlichkeitsbereich für τ und keine Schätzung des wahren Werts selbst — es ist ein Überdeckungs-Intervall (bei wiederholter Messung enthält es τ in z. B. 95 % der Fälle). Der Punkt-Schätzer des wahren Werts ist X bzw. X′; das Intervall drückt nur die Unsicherheit aus. Eine direkte Wahrscheinlichkeitsaussage über τ erlaubt erst das Bayes-Credible-Interval — KI und CrI werden ausführlich behandelt im Tool → Diagnostische Intervalle
Konzepte
Reliabilität ist ein Varianzanteil
rtt sagt, welcher Anteil der beobachteten Streuung auf echte Unterschiede zwischen Personen zurückgeht. r = .90 heißt: 90% wahre Varianz, 10% Messrauschen. Reliabilität ist keine Eigenschaft „des Tests", sondern von Test + Population: dieselbe Skala ist in einer homogenen Gruppe weniger reliabel.
SEM hängt von Reliabilität ab
Der Standardmessfehler SEM = SD·√(1−r) übersetzt Reliabilität in die Skaleneinheit. Hier gilt sogar SEM = σE. Er ist die Basis für Konfidenzbänder um Einzelwerte — und damit für die Veränderungsmessung (Reliable Change).
→ Jacobson-Truax
Längere Tests sind reliabler
Die Spearman-Brown-Formel zeigt: mehr (gleichartige) Items erhöhen die Reliabilität — aber mit abnehmendem Grenznutzen. Verdoppeln bringt viel, Verzehnfachen wenig. Das Tool rechnet aus, wie viele Items für eine Ziel-Reliabilität nötig sind.
Messfehler verzerrt Zusammenhänge
Unreliabilität dämpft Korrelationen (Attenuation): der beobachtete Zusammenhang ist kleiner als der wahre. Die Disattenuationsformel korrigiert das.
→ Messfehler-Attenuation
KTT-Grundlagen — Hintergrund
Was dieses Tool zeigt — und was nicht

Zeigt: das Wahrer-Wert-Modell X = T + E, Reliabilität als Varianzanteil, SEM, Konfidenzbänder um Einzelwerte und die Spearman-Brown-Testlängen-Formel. Nicht hier: die konkreten Schätzverfahren (α, ω, Split-Half) — das übernimmt das Tool „Reliabilität: α vs. ω"; die Messmodelle dahinter das Tool „Messmodelle".

Das Modell der Klassischen Testtheorie
X = T + E (Beobachtung = wahrer Wert + Fehler) E[E] = 0, Cov(T,E) = 0 Var(X) = Var(T) + Var(E)

Der Fehler ist zufällig, im Mittel null und unkorreliert mit dem wahren Wert. Daraus folgt die zentrale Definition der Reliabilität:

r_tt = Var(T) / Var(X) = Var(T) / [Var(T) + Var(E)]
Reliabilität als Korrelation (Panel ②)

Zwei parallele Messungen X₁ und X₂ derselben Personen korrelieren genau mit rtt — denn ihr gemeinsamer Teil ist der wahre Wert T. Das ist die operationale Grundlage der Test-Retest- und Parallel-Test-Reliabilität. Der empirisch geschätzte Wert schwankt um den theoretischen (Stichprobenfehler — mit n sichtbar kleiner).

Standardmessfehler & Konfidenzintervalle (Panel ④)

Eine einzelne Person erhält bei einer Testung den beobachteten Wert X. Wegen des Messfehlers weicht X vom (unbekannten) wahren Wert τ ab. Der Standardmessfehler beschreibt, wie stark einzelne Messungen um τ streuen:

SEM = SD_X · √(1 − r_tt) (hier zugleich = σ_E)

Daraus bildet die KTT ein Konfidenzintervall — in zwei Lesarten, exakt wie im Tool „Diagnostische Intervalle":

Äquivalenzhypothese (rot): das Intervall liegt um den beobachteten Wert X. Annahme: X ist ein erwartungstreuer Schätzer von τ.

KI = X ± z · SEM

Regressionshypothese (grün): das Intervall liegt um den regredierten Schätzwert X′, der die Regression zur Mitte berücksichtigt — extreme Werte enthalten mehr Messfehler und werden zur Mitte gezogen:

X′ = M + r_tt · (X − M) SE_reg = SD_X · √(r_tt · (1 − r_tt)) KI = X′ ± z · SE_reg

Wichtig zur Interpretation: Ein Konfidenzintervall ist keine Wahrscheinlichkeitsaussage über τ und nicht selbst „die Schätzung des wahren Werts". Der Punkt-Schätzer ist X bzw. X′; das Intervall drückt nur aus, dass es bei wiederholter Messung den wahren Wert in z. B. 95 % der Fälle überdeckt. Eine direkte Aussage „mit 95 % liegt τ in …" erlaubt erst das Bayes-Credible-Interval. Konfidenz- und Credible-Intervalle (sowie die Prozentrang-Einordnung) werden ausführlich im Tool Diagnostische Intervalle behandelt.

Spearman-Brown: Testlänge & Reliabilität (Panel ③)

Reliabilität lässt sich durch mehr Items erhöhen — denn der gemeinsame wahre Anteil mehrerer Items summiert sich stärker als ihr unabhängiger Messfehler. Die Spearman-Brown-Prophezeiungsformel sagt voraus, welche Reliabilität ein um den Faktor k verlängerter Test hätte:

r_k = (k · r) / (1 + (k − 1) · r)

k ist der Längenfaktor: k = 2 bedeutet doppelte Itemzahl, k = 0.5 ein halbierter Test. Die Kurve im Plot steigt zunächst steil und flacht dann ab — der Grenznutzen nimmt ab: Von einem schon reliablen Test wird Verdoppeln kaum noch etwas bringen, von einem unreliablen sehr viel. Bei k = 1 liegt der aktuelle Test (roter Punkt), die lila Linie markiert die Ziel-Reliabilität.

Stellt man die Formel um, ergibt sich die nötige Testlänge für eine Ziel-Reliabilität r*:

k = r* · (1 − r) / [ r · (1 − r*) ]

Beispiel: Ein Test mit r = .70 soll r* = .90 erreichen → k = .90·.30 / (.70·.10) ≈ 3.86, also fast die vierfache Itemzahl. Voraussetzung: die hinzugefügten Items sind den vorhandenen gleichwertig (gleiche Qualität, parallel) — sonst überschätzt die Formel den Gewinn.

Reliabilität ist kontextabhängig

Da rtt = Var(T)/Var(X), sinkt sie, wenn die wahre Varianz schrumpft (homogene Gruppe, Varianzeinschränkung) — bei gleichem Messfehler. Reliabilität gehört also zu Test und Population, nicht zum Test allein.

Literatur

Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Addison-Wesley.
Spearman, C. (1910) & Brown, W. (1910), Prophezeiungsformel.
Gulliksen, H. (1950). Theory of Mental Tests. Wiley.