DIF — Differential Item Functioning

DIF — Differential Item Functioning — Hilfe

Was ist DIF?

Differential Item Functioning (DIF) liegt vor, wenn ein Item für Personen aus verschiedenen Gruppen — z.B. nach Geschlecht, Herkunft, Sprache oder Alter — unterschiedlich schwer ist, obwohl diese Personen dieselbe latente Fähigkeit θ besitzen. DIF ist damit ein Item-Level-Phänomen: Es beschreibt, ob das Item selbst fair ist, unabhängig davon, ob sich Gruppen in ihrer mittleren Fähigkeit unterscheiden.

Das Konzept ist entscheidend in der Testfairness-Analyse: Ein Test kann für eine Gruppe im Durchschnitt schwerer sein, weil diese Gruppe im Mittel eine niedrigere Fähigkeit hat (das ist kein Bias). Ein Test ist dann unfair, wenn ein Item für eine Gruppe schwerer ist als erwartet — gegeben gleiche Fähigkeit (das ist DIF).

DIF vs. Impact

Impact: Die Referenzgruppe und die Fokusgruppe unterscheiden sich in ihrer mittleren Fähigkeit θ. Das kann legitim sein — etwa wenn Gruppen tatsächlich unterschiedlich viel Wissen erworben haben. Impact allein bedeutet keinen Bias.

DIF: Ein Item ist für die Fokusgruppe schwerer (oder leichter), auch nachdem man auf gleiche Fähigkeit θ konditioniert. Das kann auf irrelevante Itemmerkmale hinweisen: Kulturspezifisches Vorwissen, sprachliche Komplexität, Kontext (z.B. Sport, Berufsbilder), der für eine Gruppe vertrauter ist.

Im Tool: Verändere die Gruppenverteilung (μ_Fokus) ohne DIF-Parameter zu ändern — Impact ändert sich, DIF bleibt null. Verändere Δb oder Δa ohne die Gruppenverteilungen zu ändern — DIF ändert sich, Impact bleibt gleich.

Uniforomes DIF (Δb ≠ 0, Δa = 0)

Beim uniformen DIF ist die Schwierigkeitsparameter b der Fokusgruppe systematisch erhöht (oder erniedrigt): b_fok = b_ref + Δb. Die ICC-Form bleibt gleich — die Kurven verlaufen parallel, ohne sich zu kreuzen. Die Fokusgruppe wird über alle θ-Niveaus hinweg gleichmäßig benachteiligt (oder bevorzugt).

Uniformes DIF:  b_fok = b_ref + Δb,  a_fok = a_ref
ICCs verlaufen parallel — kein Kreuzungspunkt

Typisches Beispiel: Ein Vokabelitem, das sprachspezifisches Wissen erfordert. Personen ohne entsprechende Sprachbiographie haben bei gleichem logischen Können eine niedrigere Lösungswahrscheinlichkeit.

Nicht-uniformes DIF (Δa ≠ 0)

Beim nicht-uniformen DIF unterscheidet sich zusätzlich die Trennschärfe a zwischen Gruppen. Das führt dazu, dass sich die ICCs kreuzen: Das Item bevorzugt bei niedrigen θ-Werten eine Gruppe, bei hohen θ-Werten die andere. Nicht-uniformes DIF ist schwerer zu interpretieren und zu erkennen, weil es sich über den θ-Bereich aufhebt.

Nicht-uniformes DIF:  a_fok = a_ref + Δa,  b_fok = b_ref + Δb
ICCs kreuzen sich — DIF wechselt die Richtung

Detektionsmethoden

Mantel-Haenszel (MH): Nicht-parametrisch. Personen werden nach Gesamtscore (als Proxy für θ) in Strata eingeteilt. Innerhalb jedes Stratums wird ein 2×2-χ²-Test für Gruppe × Antwort gerechnet und über Strata aggregiert. Das MH-Odds-Ratio α_MH schätzt den gemeinsamen Effekt. Aus α_MH wird die ETS-D-DIF-Skala berechnet: D-DIF = −2.35 · ln(α_MH). ETS-Klassifikation: |D-DIF| < 1.0 → A (vernachlässigbar), 1.0–1.5 → B (moderat), > 1.5 → C (substantiell).

Logistische Regression: Item-Antwort (0/1) wird auf Gesamtscore, Gruppe und deren Interaktion regressiert. Ein signifikanter Haupteffekt der Gruppe deutet auf uniformes DIF hin; ein signifikanter Interaktionsterm auf nicht-uniformes DIF. Vorteil: Beide DIF-Typen werden in einer Analyse erfasst.

IRT-basierte Methoden: Itemparameter werden für beide Gruppen separat geschätzt und verglichen. Zwei gängige Ansätze sind Lord's χ²-Test (testet, ob der gesamte Parametervektor [a, b] sich signifikant unterscheidet) und Raju's Flächenmaß (quantifiziert die Differenz zwischen den ICC-Kurven als Fläche).

Raju-Index: Signed Area vs. Unsigned Area

Beide Maße basieren auf der Differenzkurve D(θ) = ICC_ref(θ) − ICC_fok(θ). Diese Kurve zeigt für jeden θ-Wert, wer bevorzugt wird — und um wie viel.

Signed Area (SA) = ∫ D(θ) dθ = ∫ [ICC_ref(θ) − ICC_fok(θ)] dθ
Das vorzeichenbehaftete Integral: Flächen über der Nulllinie (Referenz bevorzugt) zählen positiv, Flächen darunter (Fokus bevorzugt) negativ. SA > 0 bedeutet: die Referenzgruppe ist insgesamt im Vorteil. SA = 0 kann trotzdem mit starkem DIF einhergehen — nämlich wenn sich die ICCs kreuzen (nicht-uniformes DIF): Dann heben sich positive und negative Flächen auf, obwohl beide Gruppen an verschiedenen θ-Stellen benachteiligt werden.

Unsigned Area (UA) = ∫ |D(θ)| dθ = ∫ |ICC_ref(θ) − ICC_fok(θ)| dθ
Das Integral der absoluten Differenz. Positive und negative Bereiche werden nicht aufgehoben — UA misst immer den totalen DIF-Betrag, unabhängig von der Richtung. Deshalb ist UA das robustere Maß und bildet die Grundlage für die DIF-Klassifikation:
UA < 0.05 → Klasse A (vernachlässigbar) · 0.05–0.10 → Klasse B (moderat) · > 0.10 → Klasse C (substantiell, Revision empfohlen).

Wann SA ≠ 0 aber klein, obwohl UA groß? Genau bei nicht-uniformem DIF (Δa ≠ 0, kreuzende ICCs): Das Item begünstigt bei niedrigen θ-Werten die eine Gruppe, bei hohen die andere — beide Flächen sind groß, aber sie heben sich in SA auf. UA deckt diesen Fall auf, SA nicht. Das ist der Kernunterschied beider Maße, und der Grund, warum UA für die Klassifikation verwendet wird.

Purification — Anker-Items

Das statistische Problem bei DIF-Analysen: Man braucht eine Gruppe "fairer" Items, um die Fähigkeitsskala zu verankern (Anchor Items). Enthält der Anker-Itemset selbst DIF-Items, werden alle Schätzungen verzerrt. Die Lösung ist die iterative Purification: Zunächst wird mit allen Items geschätzt, dann werden Items mit DIF aus dem Anker entfernt und die Analyse wiederholt, bis sich der Anker stabilisiert. In R: mirt::DIF(), difR::difMH() oder lordif.

Was tun bei DIF?

DIF bedeutet nicht automatisch, dass ein Item aus dem Test entfernt werden muss. Folgende Schritte sind sinnvoll: (1) Inhaltliche Prüfung: Gibt es einen sachlichen Grund für DIF? Sprachspezifisches Wissen, kulturell vertrauter Kontext, geschlechts- oder herkunftsspezifische Erfahrungen? (2) Wenn der Grund irrelevant für das Konstrukt ist: Item überarbeiten oder entfernen. (3) Wenn der Grund inhaltlich begründet ist (z.B. berufliche Vorerfahrung, die zum Konstrukt gehört): DIF kann legitim sein. (4) Bei substantiellem DIF ohne inhaltliche Erklärung gilt das Item als biased und sollte nicht im Test verwendet werden.

In R: mirt (mirt::DIF), difR (difMH, difLord, difRaju), lordif für logistische Regression, TAM für Rasch-basiertes DIF.

Laufendes Beispiel

Hochschulzulassungstest — 4 Items, zwei Gruppen: Referenz (deutschsprachig aufgewachsen) und Fokus (nicht-deutschsprachig). Haben alle Items nach Kontrolle der Fähigkeit θ die gleiche Schwierigkeit für beide Gruppen?

Item auswählen

DIF-Parameter — Item 1

Δb — uniforomes DIF +0.00

Δa — nicht-uniformes DIF +0.00

Gruppenparameter

μ Referenz 0.0

μ Fokus −0.5

      Impact = μ_Ref − μ_Fok = 0.5 SD
    

ℹ Diese Slider beeinflussen ausschließlich die Gruppenverteilung rechts.
Die DIF-Kennwerte (Raju-Index, Δb, Δa) sind θ-verteilungsfrei — sie hängen nur von den ICC-Parametern ab und ändern sich durch μ nicht.

ICC-Vergleich — Item 1

DIF-Differenzkurve P_ref(θ) − P_fok(θ)

Gruppenverteilungen — Impact

DIF-Übersicht — alle Items

Item	a_ref	b_ref	a_fok	b_fok	Sign. Area ⓘ	Unsigned Area ⓘ	Klasse

Lernkarten