Die Item-Response-Theorie (IRT) modelliert, wie die Wahrscheinlichkeit einer richtigen Antwort von der Fähigkeit einer Person θ (Theta) und den Eigenschaften eines Items abhängt. Anders als in der Klassischen Testtheorie (KTT) liegen Personenfähigkeit und Itemschwierigkeit auf derselben Skala — das ermöglicht direkte Aussagen darüber, welche Items für welche Personen informativ sind.
IRT und Faktorenanalyse — Verwandtschaft und Unterschied
IRT und FA sind näher verwandt als es auf den ersten Blick erscheint: Beide modellieren eine oder mehrere latente Variablen, die das Antwortverhalten erklären. Mathematisch ist das 2PL-Modell äquivalent zu einem einfaktoriellen Modell für dichotome Daten — der Trennschärfeparameter a entspricht einer Faktorladung, θ entspricht dem personenspezifischen Fähigkeitsparameter (dem Personenwert auf der latenten Skala). Für ordinale Items (Likert-Skalen) sind das Graded Response Model und die ordinale FA mit polychorischen Korrelationen eng verwandt.
Der entscheidende Unterschied liegt im Erkenntnisinteresse: Die Faktorenanalyse fragt: Wie viele latente Dimensionen gibt es, und welche Items laden auf welchen Faktor? Das Ziel ist die Struktur des Konstrukts. Die IRT fragt: Wie gut funktioniert jedes einzelne Item? Wie präzise misst der Test an welcher Stelle der θ-Skala? Das Ziel ist die Güte und Brauchbarkeit der Items sowie die Messgüte des Tests für bestimmte Personen.
ICC — Item Characteristic Curve
Für jedes Item gibt es eine S-förmige Kurve (ICC, auch IRF — Item Response Function), die zeigt: Wie hoch ist P(richtig | θ)? Das allgemeine Modell mit vier Parametern (4PL):
4PL: P(θ) = c + (d − c) · 1 / (1 + exp(−a · (θ − b)))
a = Trennschärfe (Steilheit) · b = Schwierigkeit (Wendepunkt) · c = untere Asymptote (Raten) · d = obere Asymptote (Flüchtigkeitsfehler)
Die einfacheren Modelle entstehen durch sukzessives Fixieren von Parametern:
3PL: P(θ) = c + (1 − c) / (1 + exp(−a · (θ − b))) [d = 1]2PL: P(θ) = 1 / (1 + exp(−a · (θ − b))) [c = 0, d = 1]1PL: P(θ) = 1 / (1 + exp(−a · (θ − b))) a gleich für alle ItemsRasch: P(θ) = 1 / (1 + exp(−1 · (θ − b))) a = 1 per Axiom
Vom 4PL zum Rasch-Modell sinkt die Flexibilität, aber die Interpretierbarkeit und Messtheoretische Strenge steigen. 2PL und 3PL sind die häufigsten Modelle in der angewandten Diagnostik.
Die vier Parameter
b — Schwierigkeit (difficulty): θ-Wert am Wendepunkt der ICC — dem Punkt, an dem die S-Kurve ihre maximale Steigung hat (der Übergang von zunehmender zu abnehmender Steigung). Beim 2PL gilt P(θ=b) = 0.5. Beim 3PL/4PL gilt P(θ=b) = (c+d)/2. Hohe b-Werte → schwieriges Item. b liegt auf derselben Skala wie θ.
a — Trennschärfe (discrimination): Steilheit der ICC am Wendepunkt. Hohe a → steile Kurve → Item trennt gut zwischen Fähigkeitsgruppen. Typisch: a ∈ [0.5, 2.5]. Werte unter 0.3 deuten auf ein schwaches Item hin.
c — Ratewahrscheinlichkeit (pseudo-guessing): Untere Asymptote. Auch bei sehr niedrigem θ ist P(richtig) ≥ c. Bei Multiple-Choice mit K Optionen ist c ≈ 1/K plausibel. Ignoriert man c (2PL), wird θ bei schwachen Personen überschätzt.
d — obere Asymptote (carelessness): Maximale Antwortwahrscheinlichkeit. d < 1 modelliert Flüchtigkeitsfehler auch bei sehr fähigen Personen. In der Praxis schwer zu schätzen — braucht viele hochfähige Personen im Datensatz.
Rasch-Modell vs. 1PL — der entscheidende Unterschied
Dieser Unterschied wird in Lehrbüchern häufig verwischt. Beide Modelle haben a identisch über alle Items — aber die Philosophie ist grundverschieden:
Rasch-Modell: Georg Rasch definierte sein Modell nicht als statistisches Datenmodell, sondern als Messideal. a = 1 ist per Axiom gesetzt — nicht weil die Daten es verlangen, sondern weil es die Voraussetzung für spezifische Objektivität ist: Die Itemschwierigkeit b soll unabhängig von der getesteten Stichprobe gelten, und die Personenfähigkeit θ unabhängig vom eingesetzten Test. Wenn ein Item nicht passt, wird es entfernt oder überarbeitet — nicht das Modell.
1PL-Modell: a wird als gemeinsamer Parameter aus den Daten geschätzt. Das Modell wird den Daten angepasst. Wenn a ≠ 1 herauskommt, ist das kein Problem. Es gibt keinen axiomatischen Anspruch auf Messunabhängigkeit. Kurz: Rasch passt Daten dem Modell an — 1PL passt das Modell den Daten an.
Vorteile Rasch-konformer Items: Wenn Items das Rasch-Modell erfüllen, ergeben sich starke Messeigenschaften: (1) Personenfreie Itemkalibrierung — die Schwierigkeit b wird unabhängig davon geschätzt, welche Personen den Test absolviert haben. (2) Itemfreie Personenmessung — θ wird unabhängig davon geschätzt, welche Itemauswahl verwendet wird. (3) Item Banking — Items verschiedener Tests können auf einer gemeinsamen Skala verankert und ausgetauscht werden (Grundlage für adaptives Testen). (4) Fit-Statistiken — Items, die nicht passen, werden identifiziert und können gezielt verbessert werden. Diese Eigenschaften machen das Rasch-Modell zum Goldstandard in der psychometrischen Qualitätssicherung.
Testinformationsfunktion (TIF)
I(θ) zeigt, wie präzise der Test bei jedem Fähigkeitsniveau misst. Sie ist die Summe der Iteminformationen:
Der Standardfehler der Schätzung ist SE(θ) = 1/√I(θ). Ein Test misst am präzisesten dort, wo viele Items mit b ≈ θ vorliegen und die Trennschärfen a hoch sind. Extremgruppen werden oft schlecht gemessen.
Interpretation: Die TIF zeigt relativ, wo ein Test präzise misst — nicht ob er einen absoluten Schwellenwert erreicht. Entscheidend ist die Form der Kurve: Ein schmales, hohes Maximum bedeutet präzise Messung in einem engen θ-Bereich (typisch für Selektionstests); eine breite, flache Kurve bedeutet gleichmäßige, aber weniger präzise Messung über viele Fähigkeitsniveaus (typisch für Screening). Der Standardfehler SE(θ) = 1/√I(θ) übersetzt die Information direkt in Messunsicherheit auf der θ-Skala — bei SE = 0.5 liegt die Schätzung typischerweise innerhalb von ±1 um den wahren Wert. Mehr Items verschieben die gesamte Kurve nach oben; schwerere oder leichtere Items verschieben das Informationsmaximum entlang der θ-Achse.
Wright Map — Personen und Items auf einer Skala
Ein Alleinstellungsmerkmal der IRT: Personenfähigkeit θ und Itemschwierigkeit b liegen auf derselben Skala. Die Wright Map (Item-Person-Map) zeigt beides zusammen. Items mit b ≈ θ sind am informativsten für eine Person. Items, die zu leicht (b ≪ θ) oder zu schwer (b ≫ θ) sind, tragen kaum zur Messung bei. In diesem Tool steht θ senkrecht: links das Personen-Histogramm (N(0,1)-Referenzpopulation), rechts die Items auf ihrer Schwierigkeit b. Items mit ähnlicher Schwierigkeit werden horizontal nebeneinander aufgefächert, und ein farbiger Tick auf der θ-Achse markiert die genaue Schwierigkeit jedes Items. Die Punktgröße kodiert die Trennschärfe a (steilere Items = größer = informativer), und Items innerhalb des türkisen Bands um die θ-Linie der Person (Max) sind hervorgehoben — genau dort misst der Test präzise.
Antwortmuster und θ̂ (MLE)
Aus einem beobachteten Antwortvektor (z.B. 1,1,0,0,0) lässt sich θ̂ via Maximum-Likelihood schätzen: Finde das θ, das die Wahrscheinlichkeit des beobachteten Musters maximiert. Antwortet jemand alles richtig oder alles falsch, ist die MLE nicht definiert (±∞) — in der Praxis werden dann EAP- oder MAP-Schätzer verwendet.
Laufendes Beispiel
Max (Kl. 8) schreibt einen standardisierten Leseverständnistest mit 5 Items — von einfachem Faktenwissen (Item 1) bis zur komplexen Synthese (Item 5). Wie gut misst der Test seine wahre Lesekompetenz θ?
Modell wählen
Item auswählen
Parameter
Person-Fähigkeit θ
θ0.0
P(richtig | θ)
Fähigkeit aus Antworten schätzen
Wähle, welche Items eine Person richtig (✓) oder falsch (☐) beantwortet hat. Das Tool schätzt daraus die wahrscheinlichste Fähigkeit θ̂ via Maximum-Likelihood.
θ̂ = —
ICC — Item Characteristic Curves
Testinformationsfunktion I(θ) und SE(θ)
Wright Map — Items und Personen auf einer Skala
So liest du die Wright Map
Eine gemeinsame Skala θ (senkrecht): links die Personen, rechts die Items — beide auf derselben Fähigkeits- bzw. Schwierigkeitsachse. Das ist das Alleinstellungsmerkmal der IRT.
Personen — Histogramm der Referenzpopulation N(0,1).
Max — die aktuelle Person; das türkise Band ist ihre informative Zone (|b−θ| ≤ 0.5).
Items — auf ihrer Schwierigkeit b; Punktgröße = Trennschärfe a (größer = trennt schärfer). Gleich schwere Items werden horizontal aufgefächert.
Tick (in Item-Farbe) auf der θ-Achse — markiert die Schwierigkeit jedes Items auf der Skala.
◉Hervorgehoben (Halo + Ring) = Item nahe θ → dort misst der Test präzise; ausgeblasste Items sind für Max zu leicht oder zu schwer.
Überlappen Items und Personen?
Gute Passung (Targeting): Liegen Items auf Höhe von Max (b ≈ θ), misst der Test dort präzise — kleiner Standardfehler. Idealerweise decken die Item-Schwierigkeiten genau den θ-Bereich ab, in dem die Personen liegen.
Lücke: In θ-Bereichen ohne Items misst der Test ungenau, selbst wenn dort Personen sitzen — die Testinformation ist niedrig (siehe Reiter TIF, dort steigt der SE).
Keine Überlappung: Sind alle Items zu leicht (b ≪ θ), löst Max praktisch alles → Deckeneffekt, θ kaum schätzbar (SE wird sehr groß). Spiegelbildlich bei durchweg zu schweren Items → Bodeneffekt.
Ausprobieren: Ziehe Max' θ-Slider aus der Item-Wolke heraus — sobald kein Item mehr hervorgehoben ist, gibt es keine Überlappung, und der Test ist für diese Fähigkeit schlecht abgestimmt. Item-Nummern entsprechen der Seitenleiste.