Ordinale IRT — PCM · GPCM · GRM

Ordinale IRT — Hilfe

Was ist ordinale IRT?

Die klassische IRT modelliert dichotome Antworten (richtig/falsch). Ordinale IRT erweitert diesen Rahmen auf polytome Items mit geordneten Antwortkategorien (z.B. Likert-Skalen, Teilpunkte). Wie bei der binären IRT liegen Personenfähigkeit θ und Itemparameter auf derselben Skala — jetzt aber mit mehreren Schwellenparametern pro Item.

Partial Credit Model (PCM) — Masters (1982)

Das PCM ist ein Mitglied der Rasch-Familie: alle Items haben a = 1 per Axiom. Die Antwortwahrscheinlichkeit ergibt sich aus kumulierten benachbarten Log-Odds-Übergängen:

PCM: P(X=k|θ) = exp(Σⱼ₌₁ᵏ (θ − δⱼ)) / Σₘ₌₀ᴷ⁻¹ exp(Σⱼ₌₁ᵐ (θ − δⱼ))
δⱼ = Schwellenparameter · Summe für m=0: leer (= 0)

Der Schwellenparameter δⱼ ist der θ-Wert, bei dem die benachbarten Kategorien j−1 und j gleich wahrscheinlich sind. Wie beim binären Rasch-Modell gilt: passt ein Item nicht, wird es überarbeitet — nicht das Modell.

Generalized Partial Credit Model (GPCM) — Muraki (1992)

Das GPCM erweitert das PCM um einen Diskriminationsparameter a, der aus den Daten geschätzt wird:

GPCM: P(X=k|θ) = exp(Σⱼ₌₁ᵏ a·(θ − δⱼ)) / Σₘ₌₀ᴷ⁻¹ exp(Σⱼ₌₁ᵐ a·(θ − δⱼ))
PCM ist Spezialfall mit a = 1

Hohes a → steile Kategoriefunktionen → Item trennt gut. Das GPCM passt sich den Daten an — kein Messideal, sondern ein deskriptives Modell.

Graded Response Model (GRM) — Samejima (1969)

Das GRM arbeitet mit kumulativen Wahrscheinlichkeiten (Grenzantwortkurven):

P*(X≥k|θ) = 1 / (1 + exp(−a·(θ − bₖ)))    k = 1,...,K−1
P(X=k|θ)  = P*(X≥k|θ) − P*(X≥k+1|θ)
P*(X≥0) = 1,  P*(X≥K) = 0

Die Grenzparameter bₖ müssen streng monoton sein (b₁ < b₂ < ... < bₖ₋₁), da sonst negative Antwortwahrscheinlichkeiten entstehen. Das ist ein struktureller Unterschied zu PCM/GPCM, bei dem Disordered Thresholds auftreten können.

Threshold-Parameter und Disordered Thresholds

PCM/GPCM (δⱼ): An δⱼ sind Kategorien j−1 und j gleich wahrscheinlich. Die δⱼ müssen nicht geordnet sein. Ungeordnete Schwellen (disordered thresholds, δⱼ₊₁ < δⱼ) bedeuten, dass Kategorie j an keinem θ-Punkt die häufigste Antwort ist — sie ist empirisch redundant. Ursache: zu ähnliche Formulierungen benachbarter Kategorien.

GRM (bₖ): An bₖ gilt P*(X≥k|θ=bₖ) = 0.5 — die kumulative Kurve schneidet die 50%-Linie. Disordered thresholds sind im GRM per Modellstruktur unmöglich.

Verbindung zur Faktorenanalyse

GRM und ordinale Faktorenanalyse mit polychorischen Korrelationen sind mathematisch äquivalent: Der GRM-Parameter a entspricht einer Faktorladung (a = λ/√(1−λ²)). Die Grenzparameter bₖ entsprechen den Schwellenparametern τₖ in der polychorischen FA. Der Personenparameter θ entspricht dem Faktorwert.

Das GPCM entspricht einem graded FA-Modell mit variierenden Faktorladungen. Das PCM entspricht dem Rasch-Ideal für ordinale Daten — gleiche Ladungen (a=1), messtheoretische Strenge.

Der Unterschied liegt im Schätzansatz: GRM schätzt Parameter direkt per ML; polychoric FA schätzt zunächst paarweise Korrelationen, dann Faktorladungen. Für große Stichproben geben beide ähnliche Ergebnisse.

Item Information bei ordinalen Modellen

Für GPCM gilt I(θ) = a² · Var(X|θ) — höhere Trennschärfe und mehr Antwortvarianz erzeugen mehr Information. Im Vergleich zu dichotomen Items können polytome Items mehr Information tragen — jede Zwischenkategorie trägt zur Messung bei. Allerdings nur dann, wenn die Kategorien gut diskriminieren: Disordered thresholds und schwaches a reduzieren die Information trotz vieler Kategorien.

Expected Score Curve (ESC)

E[X|θ] = Σₖ k · P(X=k|θ) zeigt den erwarteten Antwort-Score als Funktion der Personenfähigkeit. Sie verläuft monoton von 0 (θ → −∞) bis K−1 (θ → +∞). Wo die ESC am steilsten ist, ist I(θ) am höchsten — denn dort unterscheidet das Item am besten zwischen ähnlichen Fähigkeitsniveaus.

Wann welches Modell wählen?

Die Wahl hängt vom Itemformat, dem Erkenntnisinteresse und dem inhaltlichen Verständnis der Antwortkategorien ab:

PCM: Geeignet wenn die Kategorien gestufte Teilleistungen repräsentieren — z.B. 0 = keine Lösung, 1 = Teilansatz erkennbar, 2 = vollständige Lösung. Das Modell erzwingt messtheoretische Strenge (a = 1): Items, die nicht passen, werden überarbeitet oder entfernt. Sinnvoll für Item-Banking, computergestütztes adaptives Testen und Lernstandserhebungen, bei denen Itemparameter über Stichproben hinweg stabil sein müssen.

GPCM: Geeignet wenn Items unterschiedliche Trennschärfe haben dürfen — z.B. in heterogenen Testbatterien mit gemischten Itemformaten. Das GPCM ist das Standardmodell in large-scale educational assessments (z.B. PISA, TIMSS) für offene Aufgaben mit Teilpunkten. Im Gegensatz zum PCM wird kein Messideal postuliert: a ist ein freier Parameter, der aus den Daten geschätzt wird.

GRM: Geeignet wenn die Kategorien kontinuierliche Intensitätsstufen oder Zustimmungsgrade repräsentieren — z.B. Likert-Skalen in Persönlichkeits- oder Einstellungsfragebögen. Das Modell ist mathematisch eng mit der konfirmatorischen FA über polychorische Korrelationen verwandt. Die Grenzantwortkurven sind inhaltlich gut interpretierbar: P*(X≥k|θ) ist die Wahrscheinlichkeit, mindestens Kategorie k zu wählen.

Rating Scale Model (RSM, Andrich 1978): Ein Spezialfall des PCM, bei dem alle Items dieselben Schwellenabstände teilen. Der Schwellenparameter für Item i und Übergang j lautet τⱼ + βᵢ — dabei ist τⱼ die gemeinsame Kategorienschwelle und βᵢ die itemspezifische Schwierigkeit. Sinnvoll wenn alle Items exakt dieselbe Antwortskala verwenden und man annehmen kann, dass die psychologischen Abstände zwischen den Kategorien über Items konstant sind. Sparsamster der vier Ansätze; scheitert oft, wenn die Items inhaltlich sehr verschieden sind.

Modellvergleich und Fit

PCM und GPCM sind geschachtelt (PCM ⊂ GPCM): Ein Likelihood-Ratio-Test (LRT) prüft, ob der zusätzliche a-Parameter die Modellanpassung signifikant verbessert. GPCM und GRM sind nicht geschachtelt — hier empfehlen sich AIC und BIC als Vergleichskriterien (niedrigere Werte = besser). Für das PCM stehen Rasch-spezifische Fit-Statistiken zur Verfügung: Infit (informationsgewichteter Fit, sensibel für mittlere θ-Bereiche) und Outfit (ungewichteter Fit, sensibel für Ausreißer an den θ-Extremen). Übliche Richtwerte: Infit/Outfit zwischen 0.7 und 1.3 gelten als akzeptabel.

Stichprobengröße und Kategorienanzahl

Stichprobengröße: Für das PCM gelten N ≥ 200–250 als Minimum für stabile Parameterschätzung. GPCM und GRM haben pro Item einen zusätzlichen a-Parameter und benötigen N ≥ 300–500. Eine pragmatische Faustregel: mindestens 10 Beobachtungen pro zu schätzendem Parameter. Bei kleinen Stichproben kann Bayesianische Schätzung (z.B. via Stan/brms oder der TAM-/mirt-Package in R) helfen, da sie Priors nutzt, um Parameter zu stabilisieren.

Kategorienanzahl: Mehr Kategorien bedeuten nicht automatisch mehr Information. Entscheidend ist, ob jede Kategorie von einem nennenswerten Anteil der Personen gewählt wird. Randkategorien mit sehr geringer Häufigkeit (< 5 % der Antworten) führen zu instabilen Parameterschätzungen und sollten mit benachbarten Kategorien zusammengelegt werden. In der Praxis sind 4–7 Kategorien für Likert-Skalen meist optimal. Disordered thresholds sind oft ein Warnsignal dafür, dass eine Kategorie effektiv nicht genutzt wird.

In R: Für alle drei Modelle steht das Package mirt zur Verfügung (Chalmers, 2012). Das Package TAM ist spezialisiert auf Rasch-Familie (PCM, RSM). ltm implementiert das GRM. Für eine FA-Perspektive auf ordinale Daten: lavaan mit polychorischen Korrelationen oder psych::fa() mit cor="poly".

Verbindung zu DIF — Testfairness und Item-Bias

Ordinale IRT-Modelle sind die methodische Grundlage für Differential Item Functioning (DIF)-Analysen. DIF liegt vor, wenn ein Item für zwei Gruppen (z.B. nach Geschlecht, Herkunft oder Sprache) unterschiedlich schwer ist — auch nachdem die latente Fähigkeit θ statistisch kontrolliert wurde. Das ist der entscheidende Unterschied zu bloßem Impact (Gruppenunterschiede in der mittleren Fähigkeit): DIF ist ein Problem des Items, Impact ist ein Merkmal der Gruppen.

PCM, GPCM und GRM ermöglichen gruppenspezifische Itemparameterschätzung. Beim uniformen DIF ist die Schwierigkeit b für eine Gruppe systematisch höher — die CRF-Kurven sind horizontal verschoben, ohne sich zu kreuzen. Beim nicht-uniformen DIF unterscheidet sich zusätzlich die Trennschärfe a — die Kurven kreuzen sich, sodass das Item für verschiedene Fähigkeitsniveaus unterschiedlich fair ist. DIF-Analysen auf Basis von IRT werden im MethodsLab im separaten DIF-Tool vertieft.

Laufendes Beispiel

Burnout-Screening — 4-Item-Fragebogen zum Wohlbefinden am Arbeitsplatz, 5-stufige Likert-Skala (0 = nie · 4 = immer). θ repräsentiert allgemeines Wohlbefinden.

Modell wählen

Item auswählen

Parameter — Item 1

a — Trennschärfe 1.20

Person-Fähigkeit θ

θ 0.0

Kategorie-Antwortkurven (CRF) — Item 1

⚠ Disordered Thresholds: Mindestens zwei Schwellenparameter sind vertauscht (δⱼ > δⱼ₊₁). Eine Zwischenkategorie hat dann an keinem θ-Punkt die höchste Antwortwahrscheinlichkeit — sie ist empirisch redundant. Kein Rechenfehler — ein Hinweis auf schlecht formulierte Kategorien.

⚠ GRM: Threshold-Reihenfolge automatisch angepasst. Im GRM müssen die Grenzparameter streng aufsteigend sein (b₁ < b₂ < b₃ < b₄) — sonst entstehen negative Kategorienwahrscheinlichkeiten. Die Slider-Werte wurden für alle Berechnungen aufsteigend sortiert. Die Beschriftungen über dem Plot zeigen die tatsächlich verwendete Reihenfolge.

Modell-Formel & Parameter

Expected Score E[X|θ]

Item Information — alle Items

Item-Parameter-Tabelle

Item	a	δ₁	δ₂	δ₃	δ₄	E[X\|θ]	I(θ)

Lernkarten