KTT — Grundlagen — MethodsLab

📋 Beispiel — Intelligenztest (IQ-Skala)

Ein IQ-Test hat M = 100. Jeder beobachtete Wert X ist die Summe aus dem wahren Wert T (der tatsächlichen Merkmalsausprägung) und einem zufälligen Messfehler E: X = T + E. Die Reliabilität ist der Anteil der Varianz, der auf wahre Unterschiede zurückgeht — nicht auf Rauschen. Mit σ_T = 14 und σ_E = 5 ergibt sich r_tt ≈ .89 und ein SEM von 5 Punkten.

① Reliabilität & Messfehler

Reliabilität r_tt

—

σ²_T / (σ²_T+σ²_E)

SEM

—

SD_X·√(1−r_tt) = σ_E

SD beobachtet

—

√(σ²_T+σ²_E)

Empirisch r (Retest)

—

cor(X₁, X₂) der Stichprobe

wahre Varianz

Fehler

■ Wahre Varianz (reliabel) = r_tt ■ Fehlervarianz = 1 − r_tt

② Reliabilität = Korrelation zweier Messungen

③ Spearman-Brown — Reliabilität & Testlänge

④ Konfidenzintervall um einen einzelnen Testwert

Eine einzelne Person bearbeitet den Test einmal und erhält den beobachteten Wert X (Regler „Beobachteter Wert X" in der Seitenleiste). Wegen des Messfehlers ist X nicht exakt der wahre Wert τ. Die KTT kennt dafür zwei Konfidenzintervalle: die Äquivalenzhypothese (KI um den beobachteten Wert X) und die Regressionshypothese (KI um den zur Mitte korrigierten Schätzwert X′).

95%-Konfidenzintervall: Äquivalenz- (rot) vs. Regressionshypothese (grün)

⚠ Ein Konfidenzintervall ist kein Wahrscheinlichkeitsbereich für τ und keine Schätzung des wahren Werts selbst — es ist ein Überdeckungs-Intervall (bei wiederholter Messung enthält es τ in z. B. 95 % der Fälle). Der Punkt-Schätzer des wahren Werts ist X bzw. X′; das Intervall drückt nur die Unsicherheit aus. Eine direkte Wahrscheinlichkeitsaussage über τ erlaubt erst das Bayes-Credible-Interval — KI und CrI werden ausführlich behandelt im Tool → Diagnostische Intervalle

Konzepte

Reliabilität ist ein Varianzanteil

r_tt sagt, welcher Anteil der beobachteten Streuung auf echte Unterschiede zwischen Personen zurückgeht. r = .90 heißt: 90% wahre Varianz, 10% Messrauschen. Reliabilität ist keine Eigenschaft „des Tests", sondern von Test + Population: dieselbe Skala ist in einer homogenen Gruppe weniger reliabel.

SEM hängt von Reliabilität ab

Der Standardmessfehler SEM = SD·√(1−r) übersetzt Reliabilität in die Skaleneinheit. Hier gilt sogar SEM = σ_E. Er ist die Basis für Konfidenzbänder um Einzelwerte — und damit für die Veränderungsmessung (Reliable Change).
→ Jacobson-Truax

Längere Tests sind reliabler

Die Spearman-Brown-Formel zeigt: mehr (gleichartige) Items erhöhen die Reliabilität — aber mit abnehmendem Grenznutzen. Verdoppeln bringt viel, Verzehnfachen wenig. Das Tool rechnet aus, wie viele Items für eine Ziel-Reliabilität nötig sind.

Messfehler verzerrt Zusammenhänge

Unreliabilität dämpft Korrelationen (Attenuation): der beobachtete Zusammenhang ist kleiner als der wahre. Die Disattenuationsformel korrigiert das.
→ Messfehler-Attenuation

KTT — Grundlagen · X = T + E