Range Restriction — Varianzeinschränkung & Korrelationsattenuation

Dr. R. Düsing · Universität Osnabrück

Hilfe — Range Restriction (Varianzeinschränkung)

Macht / macht NICHT

Macht: zeigt, wie die Selektion auf den Prädiktor X die in der selektierten Gruppe beobachtete Korrelation r systematisch verzerrt — und wie die Thorndike-Formeln den wahren Wert ρ zurückrechnen. Macht NICHT: keine Schätzung aus echten Daten, kein indirekter Fall mit gemessener Drittvariable (nur Demonstration des Mechanismus unter bivariater Normalität).

Worum geht es?

Wenn eine Stichprobe nur einen Teil des Wertebereichs von X abdeckt (weil z. B. nur Bewerber oberhalb eines Test-Cutoffs eingestellt werden), schrumpft die Streuung von X. Die Korrelation zwischen X und Y wird dadurch unterschätzt — obwohl der wahre Zusammenhang in der Gesamtpopulation viel stärker ist. Das ist direkte Range Restriction (Thorndike Fall II).

Das laufende Beispiel

Ein Unternehmen validiert einen Eignungstest X gegen den späteren Berufserfolg Y. Aber: nur wer im Test über dem Cutoff liegt, wird eingestellt — nur für diese Personen liegt später ein Y-Wert vor. Die so beobachtete Validität r ist kleiner als die wahre Validität ρ. Wer die Range Restriction ignoriert, hält einen guten Test fälschlich für unbrauchbar.

Der Mechanismus (Warum?)

Korrelation = standardisierte Kovarianz. Die Selektion auf X kappt die Streuung von X (sx sinkt), während die Reststreuung von Y um die Regressionsgerade gleich bleibt. Dadurch macht die systematische Variation einen kleineren Anteil an der Gesamtvarianz von Y aus → r sinkt. Schlüsselgröße ist u = s'x / sx (Streuung selektiert ÷ Streuung gesamt).

Die wichtigste Pointe: Steigung bleibt!

Unter direkter Selektion auf X bleibt die Regressionssteigung bY·X theoretisch unverändert — nur die Korrelation (und R²) sinken. Im rechten Plot hat die rote Gerade praktisch dieselbe Steigung wie die blaue Populationsgerade; die Punkte streuen nur über einen schmaleren X-Bereich. Korrelation ≠ Steigung.

Die Visualisierungen

Oben links: Gesamtpopulation. Graue Punkte = nicht selektiert, rote = selektiert. Die orange Linie ist der Selektions-Cutoff auf X; der schraffierte Bereich fällt weg. Oben rechts: nur die selektierte Gruppe — der schmalere X-Bereich ist sofort sichtbar. Rote Gerade = Regression in der Selektion, blau gestrichelt = Populationsgerade (gleiche Steigung!). Die Streuungsbalken unter den Plots zeigen ±1 sx.

Untere Kurve: die Thorndike-Beziehung r(u). Sie zeigt für die aktuelle wahre Korrelation ρ, wie die beobachtete Korrelation vom Streuungsverhältnis u abhängt. Bei u = 1 (keine Einschränkung) ist r = ρ. Links davon (u < 1, Einschränkung) sinkt r; rechts (u > 1, Erweiterung durch Extremgruppen) steigt r. Der Punkt markiert deinen aktuellen Zustand.

Bedienung

Selektionsmodus: Oben (klassische Auslese über Cutoff) · Extremgruppen (oberste + unterste — erhöht r!) · Mitte (mittlerer Bereich). Selektionsanteil: welcher %-Anteil bleibt. ρ: wahre Populationskorrelation. Thorndike-Korrektur: rechnet aus rselektiert und u den korrigierten Wert zurück — er sollte ρ treffen.

Die Symbole im Detail

ρ (rho) — wahre Korrelation in der Gesamtpopulation, also die echte Validität des Tests.
r — die in der selektierten Gruppe beobachtete Korrelation (das, was man real misst).
sx — Streuung (Standardabweichung) von X in der Gesamtpopulation.
s′x — Streuung von X in der selektierten Gruppe (der Strich ′ steht für „eingeschränkt").
u = s′x / sx — das Streuungsverhältnis: wie viel der ursprünglichen Streuung übrig ist. u = 1 heißt keine Einschränkung, u < 1 Einschränkung, u > 1 Erweiterung (Extremgruppen).
U = 1/u = sx / s′x — einfach der Kehrwert von u; er taucht nur auf, weil die Korrekturformel „von eingeschränkt nach gesamt" rechnet (≥ 1 bei Einschränkung).
b — die Regressionssteigung von Y auf X; sie bleibt bei direkter Selektion auf X unverzerrt.
ρ (rho-Dach) — die Thorndike-korrigierte Schätzung von ρ. Das Dach „^" markiert in der Statistik immer einen geschätzten/berechneten Wert.

Formeln (Thorndike, Fall II)

Attenuation: r = ρu / √(1 − ρ²(1 − u²))  ·  Korrektur: ρ = rU / √(1 + r²(U² − 1)) mit U = 1/u = sx/s′x.

Laufendes Beispiel
Eignungsdiagnostik — Ein Unternehmen prüft, ob der Eignungstest X den späteren Berufserfolg Y vorhersagt. Die wahre Validität in der Bewerberpopulation ist ρ = 0.60. Eingestellt wird aber nur 20% (Selektion auf X). In dieser eingeschränkten Gruppe beobachtet man bloß r = — der Test wirkt schwächer, als er ist. Die Thorndike-Korrektur liefert wieder ρ = .
Was bedeuten die Symbole?
ρwahre Korrelation in der Gesamtpopulation (hier: wahre Test-Validität)
rbeobachtete Korrelation in der selektierten Gruppe
sxStreuung (SD) von X in der Gesamtpopulation
s′xStreuung von X in der selektierten Gruppe (Strich ′ = eingeschränkt)
uStreuungsverhältnis s′x/sx: < 1 = Einschränkung, = 1 = keine, > 1 = Erweiterung
UKehrwert 1/u (= sx/s′x) — Schreibhilfe in der Korrekturformel
bRegressionssteigung Y auf X — bleibt bei Selektion auf X unverzerrt
ρThorndike-korrigierte Schätzung von ρ aus r und u (sollte ρ treffen)
Gesamtpopulation vs. eingeschränkte Gruppe
ρ Population
wahre Korrelation
u = s′ / s
Streuungsverhältnis
r selektiert
beobachtet
ρ Thorndike
korrigiert zurück
Schlussfolgerung:
Thorndike-Beziehung — beobachtetes r über dem Streuungsverhältnis u
Formel (Thorndike, Fall II — direkte Selektion auf X)
Attenuation:   r = ρ·u / √( 1 − ρ²(1 − u²) ) mit u = s′x/sx
Korrektur:   ρ = r·U / √( 1 + (U² − 1) ) mit U = 1/u = sx/s′x
Aktuell: u =  ·  rbeobachtet =  ·  rFormel(ρ,u) =  ·  ρkorrigiert =
Konzepte
Was ist Range Restriction?
Wird eine Stichprobe so gewonnen, dass nur ein Teil des Wertebereichs einer Variable vertreten ist, spricht man von Varianzeinschränkung. Weil die Korrelation die gemeinsame standardisierte Variation misst, sinkt sie, sobald die Streuung des Prädiktors gekappt wird. Der beobachtete Zusammenhang unterschätzt dann den wahren — ein häufiger Grund, warum Tests, Auswahlverfahren oder Prädiktoren scheinbar „nicht funktionieren".
Direkt vs. indirekt (Fall II vs. III)
Direkte Range Restriction (Thorndike Fall II): selektiert wird auf den Prädiktor X selbst (z. B. Cutoff im Eignungstest). Indirekte (Fall III): selektiert wird auf eine dritte Variable Z, die mit X korreliert — X wird nur „mitgekappt". Der indirekte Fall ist in der Praxis häufiger (z. B. Selektion auf ein früheres Gesamturteil) und braucht die erweiterte Formel von Lawley / die Korrektur nach Hunter, Schmidt & Le (2006). Dieses Tool zeigt den direkten Fall.
Korrelation sinkt, Steigung bleibt
Die wichtigste Lektion: unter direkter Selektion auf X ist nur die Korrelation verzerrt, die Regressionssteigung bY·X dagegen erwartungstreu. Grund: die bedingte Verteilung Y|X ändert sich durch X-Selektion nicht. Im rechten Plot haben rote (Selektion) und blau-gestrichelte (Population) Gerade dieselbe Steigung. Wer Vorhersagen braucht, kann die Regression auch aus eingeschränkten Daten gewinnen — wer Effektstärken vergleicht, muss korrigieren.
Extremgruppen — die Umkehrung
Behält man nur die obersten und untersten Werte (Extremgruppen-Design), vergrößert sich die Streuung von X (u > 1) und die Korrelation wird künstlich aufgebläht. Das ist die spiegelbildliche Verzerrung: beliebt, um Effekte „sichtbarer" zu machen, aber r und d sind dann nicht mehr auf die Population übertragbar. Probier Preset C: derselbe wahre ρ, aber r schießt nach oben.
Bezug zu Taylor-Russell
Die Taylor-Russell-Tabellen beantworten die ökonomische Folgefrage: Wenn ein Test die (korrigierte) Validität ρ hat, eine Selektionsquote angewandt wird und eine Grundquote an „Geeigneten" besteht — welcher Anteil der Ausgewählten ist erfolgreich? Range Restriction liefert das korrekte ρ als Eingabe; ohne Korrektur unterschätzt man den Nutzen des Verfahrens systematisch. → Taylor-Russell-Tafeln
Praxis & Literatur
Range Restriction ist ein Kernthema der Metaanalyse von Validitätsstudien (Personalauswahl, klinische Prädiktion, Hochschulzulassung). Faustregeln: (1) immer u = s′/s berichten; (2) bei Selektion auf X den Fall-II-, bei Selektion auf Drittvariablen den Fall-III-Korrektur verwenden; (3) korrigierte Werte als solche kennzeichnen. Literatur: Thorndike (1949); Sackett & Yang (2000); Hunter, Schmidt & Le (2006).
Abgrenzung: Berkson's Paradox
Gemeinsam: beide sind Selektionseffekte — eine nach einem Kriterium ausgewählte Teilgruppe verzerrt die beobachtete Korrelation, man sieht nie die ganze Population. Unterschied: Bei Range Restriction selektiert man direkt auf den Prädiktor X → r wird gedämpft (oder bei Extremgruppen aufgebläht), aber die Regressionssteigung bY·X bleibt erwartungstreu. Bei Berkson selektiert man auf einen Collider Z (gemeinsame Wirkung X→Z←Y) → es entsteht eine Scheinkorrelation aus dem Nichts, und auch die Steigung wird verzerrt. Kurz: hier ein Varianzproblem (mit Thorndike korrigierbar), dort ein Strukturproblem (Collider niemals kontrollieren). Die Brücke ist die indirekte Range Restriction (Fall III, Selektion auf eine Drittvariable). → Berkson's Paradox & Collider Bias