Test Bias & Fairness

Durchgehendes Beispiel

XPrädiktor: Auswahltest-Score (kognitive Eignungsmessung, z-standardisiert) YKriterium: Jobleistung (Vorgesetztenbeurteilung, z-standardisiert) Gruppe AReferenzgruppe (Mehrheitsgruppe, z. B. Gruppe ohne Migrationshintergrund) Gruppe BFokusgruppe (Minderheitsgruppe, z. B. Gruppe mit Migrationshintergrund)

Ist der Auswahltest für beide Gruppen gleich valide — oder produziert er systematisch falsche Leistungsprognosen für eine Gruppe? Und selbst wenn er fair ist: Können trotzdem unterschiedliche Selektionsraten entstehen?

① Streudiagramm

▶ Modul 1 — Cleary-Test: Differentielle Prädiktion

Cleary (1968) — Definition von Testverzerrung

Ein Test gilt als verzerrt, wenn die Regressionsgleichung für die Gesamtstichprobe für eine Gruppe systematisch falsche Vorhersagen erzeugt. Cleary prüft dies mit einem hierarchischen Regressionsmodell in drei Schritten:

M1: Ŷ = b₀ + b₁·X (gemeinsame Regressionslinie) M2: Ŷ = b₀ + b₁·X + b₂·G (gleiche Steigung, versch. Achsenabschnitte) M3: Ŷ = b₀ + b₁·X + b₂·G + b₃·(X×G) (versch. Steigungen) M2 vs. M1 testet Achsenabschnittsunterschiede (intercept bias).
M3 vs. M2 testet Steigungsunterschiede (slope bias).

▶ Modul 2 — Meade & Fetzer (2009): Was steckt dahinter?

Differentielle Prädiktion ≠ Testverzerrung

Ein signifikanter Achsenabschnittsunterschied (M2 vs. M1) kann vier verschiedene Ursachen haben. Nur eine davon ist echte Testverzerrung nach Cleary.

Quelle 1 — Testverzerrung: Der Test misst das Konstrukt für beide Gruppen unterschiedlich — Gruppe B erzielt niedrigere X-Werte, obwohl ihre reale Y-Leistung vergleichbar ist. d_X groß, d_Y klein. Auswirkung: Qualifizierte Personen aus B werden systematisch aussortiert; der Test unterschätzt ihre Leistungsfähigkeit.
Quelle 2 — Kriteriumsverzerrung: Das Kriterium Y (z. B. Vorgesetztenbeurteilung) bewertet eine Gruppe besser oder schlechter, unabhängig von ihrer tatsächlichen Leistung. d_X ≈ 0, d_Y groß. Auswirkung: Der Test selbst ist fair — aber das Validierungsziel ist verzerrt. Eine am Kriterium orientierte Selektion zementiert die Benachteiligung.
Quelle 3 — Fehlende Variablen: Weitere Prädiktoren (z. B. Ausbildungsdauer, sozioökon. Status) würden den Interzeptunterschied erklären. Auswirkung: Der scheinbare Bias verschwindet nach Kontrolle — Handlung: Modell erweitern.
Quelle 4 — Stichprobenfehler: Zufällige Abweichungen, insbesondere bei kleinen n. Auswirkung: Kein systematischer Bias; Replikation klärt die Frage.

Diagnose: Die standardisierten Mittelwertdifferenzen d_X und d_Y geben Hinweise auf die wahrscheinlichste Quelle (vgl. Meade & Fetzer, 2009, Fig. 1–3).

▶ Modul 3 — Adverse Impact & 4/5-Regel

Adverse Impact

Adverse Impact liegt vor, wenn eine Gruppe bei einer Auswahlentscheidung deutlich seltener ausgewählt wird als eine andere — auch wenn der Test selbst fair ist. Die US-amerikanischen Uniform Guidelines (1978) formulieren die 4/5-Regel: Die Selektionsrate der benachteiligten Gruppe soll mindestens 80 % der Rate der bevorzugten Gruppe betragen.

AIR = Selektionsrate_B / Selektionsrate_A Adverse Impact ≠ Test Bias. Ein fairer Test kann Adverse Impact erzeugen, wenn echte Gruppenunterschiede auf dem Prädiktor bestehen.

Cut-Off0.0

Konzepte

Testverzerrung nach Cleary (1968)

Ein Test ist verzerrt, wenn die gemeinsame Regression von Kriterium (Y) auf Prädiktor (X) für eine Gruppe systematisch falsche Vorhersagen liefert — differentielle Prädiktion. Geprüft wird, ob Achsenabschnitt und Steigung der Regressionsgeraden für Referenz- (A) und Fokusgruppe (B) gleich sind. Sind sie es, ist der Test im Cleary-Sinn fair.

Intercept- vs. Slope-Bias

Intercept-Unterschied: eine Gruppe wird durchgehend über- oder unterprognostiziert (parallele, aber versetzte Geraden). Slope-Unterschied: der Test sagt das Kriterium für eine Gruppe schwächer vorher (unterschiedliche Validität). Modul 1 testet beides hierarchisch per F-Test (Intercept: M2 vs. M1; Slope: M3 vs. M2).

Ursachendiagnose (Meade & Fetzer)

Die standardisierten Mittelwertdifferenzen d_X (Prädiktor) und d_Y (Kriterium) deuten auf die Quelle: d_X groß, d_Y klein → Testverzerrung; beide groß & proportional → Adverse Impact ohne Bias; nur d_Y → Kriteriumsverzerrung; beide klein → kein Problem. Vier Muster, nur eines ist echte Verzerrung nach Cleary.

Adverse Impact & 4/5-Regel

Adverse Impact betrifft die Auswahlergebnisse, nicht die Testgüte: AIR = Selektionsrate_B / Selektionsrate_A. Liegt die AIR unter 0.80 (Vier-Fünftel-Regel, US-EEOC), gilt das als rechtlicher Hinweis auf Benachteiligung. Es geht um Trefferquoten zwischen Gruppen, nicht um Vorhersagefehler.

Test Bias ≠ Adverse Impact

Der zentrale Punkt: ein fairer Test (identische Regression für beide Gruppen) kann trotzdem Adverse Impact erzeugen — nämlich dann, wenn die Gruppen unterschiedliche Prädiktor-Mittelwerte haben. Verzerrung ist ein Vorhersageproblem, Adverse Impact ein Verteilungs-/Selektionsproblem. Beide dürfen nicht verwechselt werden.

Einordnung & verwandte Tools

Differentielle Prädiktion auf Testebene hat ein Gegenstück auf Itemebene: Differential Item Functioning. Der zugrunde liegende Validitätsgedanke und der Selektionsnutzen werden in den Validitäts-Tools vertieft. → Differential Item Functioning · → Diagnostische Validität · → Taylor-Russell

Test Bias & Fairness — Cleary-Modell