Wie stark korreliert Lernzeit mit Klausurleistung, wenn man Intelligenzunterschiede herausrechnet? Geht der Effekt auf eigenständige Lernbereitschaft zurück — oder ist er nur ein Artefakt, weil Klügere zufällig auch mehr lernen? (Szenario D — Reziproke Suppression — wechselt zu einem anderen Beispiel: Dominanz & Empathie als Prädiktoren von Führungserfolg.)
Konzept
rY·X₁ = bivariat (Pearson) rsemi = Semipartial: e(X₁|X₂) ~ Y → X₂ nur aus X₁ herauspartialisiert rpartial = Partial: e(X₁|X₂) ~ e(Y|X₂) → X₂ aus X₁ und Y herauspartialisiert rsemi² = ΔR² (einzigartiger Varianzanteil X₁) · rpartial² = Anteil erklärter Restvarianz
Streudiagramme — schrittweise residualisiert
1 · X₁ vs Y ρ=— r̂=—
2 · e(X₁|X₂) vs Y semi=—
3 · e(X₁|X₂) vs e(Y|X₂) part=—
Ballantine-Diagramm — Varianzzerlegung
Statistiken — Population vs. Stichprobe
Statistik
Population
Stichprobe
t
p
Anmerkung
Multiple Regression — X₁ + X₂ → Y
Konzepte
Bivariat, Semi- & Partialkorrelation
Drei Stufen der Kontrolle: Die bivariate r misst den Zusammenhang von X₁ und Y ohne jede Kontrolle. Die Semipartialkorrelation entfernt X₂'s Einfluss nur aus X₁ — Y bleibt roh. Sie ist die Quadratwurzel von ΔR² und misst den einzigartigen Beitrag von X₁ zur Y-Varianz. Die Partialkorrelation entfernt X₂ aus beiden: Sie misst die Stärke des X₁-Y-Zusammenhangs innerhalb der Ebene, die X₂ nicht erklärt.
Residualisierung — was passiert geometrisch?
„Herauspartialisieren" bedeutet: Vorhersage durch X₂ entfernen. Man regressiert X₁ auf X₂ und nimmt die Residuen e(X₁|X₂) — den Teil von X₁, den X₂ nicht erklärt. Im Streudiagramm-Triptychon sieht man, wie die Punktwolke auf X-Achse „bereinigt" wird (Plot 2), und in Plot 3 auch auf Y-Achse. Die Punktfärbung nach X₂ zeigt: nach Residualisierung gibt es keine X₂-Muster mehr in der X-Achsen-Streuung.
Das Ballantine-Diagramm
Drei überlappende Kreise (X₁, X₂, Y) visualisieren die R²-Zerlegung. Die blaue Zone b = ΔR²(X₁) = Semipartial² — einzigartiger X₁-Anteil. Die grüne Zone d = ΔR²(X₂). Die lila Zone c = geteilte Varianz, die beiden Prädiktoren zugleich zugeordnet werden könnte. c kann negativ werden (Suppression) — dann bricht das Venn-Diagramm geometrisch zusammen, die Werte bleiben aber gültig. Grauer Bereich a = unerklärte Y-Varianz (1−R²).
Suppression — drei Varianten
Bei allen drei Varianten gilt β₁_multipel > β₁_einfach (und c < 0 im Ballantine). Fall 1 — Klassisch (McNemar 1945): ρ(X₂,Y) ≈ 0, ρ(X₁,X₂) > 0 → Szenario C. X₂ enthält Störvarianz in X₁, die Y-irrelevant ist. Fall 2 — Negativ/Net: alle Korrelationen positiv, aber ρ(X₂,Y) < ρ(X₁,X₂)·ρ(X₁,Y). Gradueller Übergang zu Fall 1. Fall 3 — Reziproke Suppression/Komplementarität (Conger 1974): X₁ und X₂ beide positiv mit Y, aber negativ untereinander → Szenario D. Beide Prädiktoren supprimieren sich gegenseitig (Velicer, 1978; Darlington & Hayes, 2017).
Reziproke Suppression / Komplementarität
Kennzeichen: ρ(X₁,Y) > 0, ρ(X₂,Y) > 0, aber ρ(X₁,X₂) < 0. Beide Prädiktoren korrelieren positiv mit Y, sind aber untereinander negativ korreliert — jeder enthält Störvarianz des anderen. Folge: β₁_multipel > β₁_einfach und β₂_multipel > β₂_einfach. Beispiel (Szenario D): Dominanz (X₁, r=.30) und Empathie (X₂, r=.25) korrelieren beide positiv mit Führungserfolg, aber negativ miteinander (r=−.30). Kontrolliert man jeweils die andere Variable, steigen beide β-Gewichte — das gegenseitige Unterdrücken wird aufgehoben.
Kollinearität & ΔR²
Hohe Kollinearität (ρ(X₁,X₂) groß) führt zu kleinen ΔR²-Werten für beide Prädiktoren, auch wenn beide bivariat stark mit Y korrelieren. Die Prädiktoren „konkurrieren" um denselben Y-Varianzanteil. In der multiplen Regression: große SE, instabile β-Koeffizienten, VIF → 1/(1−R²_j) steigt. Szenario B zeigt: bivariat r=0.6, aber ΔR²(X₁)≈0.04. Semipartialkorrelation quadriert gibt den einzigartigen Beitrag direkt — das ist die ehrlichste Effektgröße in der multiplen Regression.
Partial- & Semipartialkorrelation — Hilfe
Beispiel
X₁ = Lernzeit (Std./Woche), X₂ = Intelligenz (IQ, std.),
Y = Klausurleistung (0–100).
Frage: Wie viel von dem X₁–Y-Zusammenhang ist eigenständig (Lernbereitschaft), und wie viel
verschwindet, sobald man Intelligenzunterschiede kontrolliert?
Bivariat, Semipartial- und Partialkorrelation
Drei Stufen der Kontrolle über X₂:
r_bivariat = Korr(X₁, Y) — ohne jede Kontroller_semi = Korr(e(X₁|X₂), Y) — X₂ nur aus X₁ herauspartialisiertr_partial = Korr(e(X₁|X₂), e(Y|X₂)) — X₂ aus beiden herauspartialisiert
r_semi² = ΔR² = einzigartiger Anteil, den X₁ zur Y-Varianz beiträgt,
über X₂ hinaus. r_partial² = Anteil der Restvarianz in Y (nach Abzug von X₂),
den X₁ erklärt — misst die Stärke des Zusammenhangs innerhalb der X₂-kontrollierten Ebene.
Im Beispiel (Szenario A): Lernzeit und IQ sind unkorreliert (ρ₁₂ = 0).
Dann gilt r_semi = r_partial = r_bivariat — Kontrolle von IQ ändert nichts, weil Lernzeit
und IQ keine gemeinsame Varianz teilen. Jeder Prädiktor trägt einzigartig bei.
Residualisierung — was passiert geometrisch?
„Herauspartialisieren" heißt: Lernzeit auf IQ regressieren und die Residuen nehmen —
e(X₁|X₂) ist der Teil der Lernzeit, den IQ nicht vorhersagt.
Die drei Streudiagramme zeigen die schrittweise Bereinigung:
Plot 1: Roher X₁–Y-Zusammenhang (Lernzeit vs. Leistung, gefärbt nach IQ-Rang).
Plot 2: e(X₁|X₂) vs. Y — IQ-Gradient in X₁ entfernt; verbleibende Korrelation = r_semi.
Plot 3: e(X₁|X₂) vs. e(Y|X₂) — IQ aus beiden entfernt; verbleibende Korrelation = r_partial.
Im Beispiel (Szenario B, Kollinearität): Klügere lernen auch mehr (ρ₁₂ = 0.80).
Die Punktfärbung nach IQ-Rang zeigt in Plot 1 einen starken IQ-Gradienten entlang der X-Achse.
Nach Residualisierung (Plot 2/3) ist dieser Gradient verschwunden — was bleibt, ist der reine
Lernzeit-Effekt unabhängig von IQ. Er ist deutlich kleiner als die bivariate r.
Ballantine-Diagramm — Varianzzerlegung
Drei überlappende Kreise (X₁, X₂, Y) zeigen, wie R² sich aufteilt:
Im Beispiel (Szenario B): Lernzeit und IQ teilen viel Varianz in Y (c groß, b und d klein).
Bivariat scheinen beide stark — aber ΔR²(Lernzeit) ≈ 0.04: Lernzeit erklärt nur wenig
einzigartigen Anteil, wenn IQ bereits im Modell ist.
Suppression (Szenario C)
Formal: c < 0 (geteilte Varianz negativ) — geometrisch nicht als Schnittmenge darstellbar,
rechnerisch aber gültig. Erkennungszeichen:
|β₁_multipel| > |β₁_einfach| und r_partial > r_bivariat
X₂ enthält Störvarianz in X₁, die nichts mit Y zu tun hat. Durch Kontrolle von X₂ wird
diese Rauschangabe aus X₁ entfernt und der „wahre" X₁–Y-Effekt tritt hervor.
Im Beispiel (Szenario C, ρ(X₂,Y) ≈ 0, ρ(X₁,X₂) = 0.5):
IQ korreliert kaum mit Klausurleistung — ist aber eng mit Lernzeit verknüpft.
Ein Teil der gemessenen Lernzeit ist eigentlich IQ-getriebenes Lernverhalten ohne Mehrwert.
Partialisiert man IQ heraus, steigt die echte Lernzeit-Leistungs-Korrelation: r_partial > r_bivariat.
Suppression — drei Varianten (nach Velicer 1978; Conger 1974)
Allen drei Varianten gemein: β₁_multipel > β₁_einfach und c < 0 im Ballantine-Diagramm.
Fall 1 — Klassische Suppression (McNemar 1945) — Szenario C:
ρ(X₁,Y) > 0, ρ(X₂,Y) ≈ 0, ρ(X₁,X₂) > 0. X₂ korreliert kaum mit Y, aber mit X₁ —
es steckt Störvarianz in X₁, die Y-irrelevant ist. Kontrolle von X₂ entfernt diesen Rauschanteil
und legt den echten X₁-Y-Effekt frei.
Im Beispiel (Szenario C): IQ (X₂) korreliert kaum mit Leistung (ρ₂y = 0),
aber stark mit Lernzeit (ρ₁₂ = 0.50). Ein Teil der gemessenen Lernzeit ist IQ-getrieben
und leistungsirrelevant. Kontrolliert man IQ, steigt r_partial > r_bivariat.
Fall 2 — Negative/Net Suppression:
Alle Korrelationen positiv, aber ρ(X₂,Y) < ρ(X₁,X₂) · ρ(X₁,Y). Gradueller Übergang
zu Fall 1 — X₂ hat einen kleinen positiven Effekt auf Y, erklärt aber mehr Varianz in X₁
als in Y. Kein eigenes Szenario im Tool; tritt auf, wenn man in Szenario C ρ₂y leicht
von 0 wegschiebt.
Fall 3 — Reziproke Suppression / Komplementarität (Conger 1974) — Szenario D:
ρ(X₁,Y) > 0, ρ(X₂,Y) > 0, aber ρ(X₁,X₂) < 0. Beide Prädiktoren korrelieren
positiv mit Y, sind aber negativ untereinander korreliert. Jeder Prädiktor enthält Störvarianz
des anderen — beide supprimieren sich gegenseitig. Folge: β₁_multipel > β₁_einfach
und β₂_multipel > β₂_einfach.
β₁_multipel = (ρ₁y − ρ₂y · ρ₁₂) / (1 − ρ₁₂²)
Mit ρ₁₂ < 0 wird der Zähler größer (−ρ₂y·ρ₁₂ wird positiv) und der Nenner kleiner →
doppelter Verstärkungseffekt auf β₁.
Im Beispiel (Szenario D) — Persönlichkeit & Führungserfolg:
X₁ = Dominanz (r = .30 mit Führungserfolg), X₂ = Empathie (r = .25), ρ(X₁,X₂) = −.30.
Dominante Personen sind tendenziell weniger empathisch — die negative Interkorrelation
entsteht dadurch, dass diese Eigenschaften konzeptuell antagonistisch sind.
Bivariat erklärt Dominanz nur 9 % der Varianz im Führungserfolg (r² = .09).
Kontrolliert man Empathie, steigt β₁_multipel ≈ .41 > .30 — weil der
„empathie-suppressierte" Anteil der Dominanz, der bisher den Effekt dämpfte, herausgerechnet
wird. Symmetrisch gilt dasselbe für Empathie: β₂_multipel ≈ .34 > .25.
Kollinearität & Wahl der Kennzahl
Hohe Kollinearität (ρ(X₁,X₂) groß) → kleine ΔR²-Werte, große SE, instabile β.
VIF = 1/(1 − R²_j) quantifiziert die Aufblähung der Standardfehler.
Szenario B zeigt: bivariat r = 0.60, aber ΔR²(X₁) ≈ 0.04 — ein kollinearer Prädiktor
erklärt bivariat viel, trägt aber kaum einzigartig bei.
Semipartial vs. Partialkorrelation — wann welche?
Der entscheidende Unterschied liegt in der Bezugsgröße:
r_semi² = ΔR² = Anteil der gesamten Y-Varianz, den X₁ einzigartig erklärtr_partial² = Anteil der residualen Y-Varianz (nach X₂), den X₁ erklärt
Bei r_partial wird X₂ auch aus Y herauspartialisiert — damit ändert sich der Nenner.
r_partial² ist nicht mehr als Anteil der gesamten Y-Varianz interpretierbar und nicht direkt
mit r_bivariat vergleichbar. Wenn X₂ viel von Y erklärt (z. B. 64 %), schrumpft die
Reststreuung in Y auf 36 %. Ein r_partial = .50 klingt groß, entspricht aber nur
r_partial² × (1 − R²_X₂) = .25 × .36 = 9 % der Gesamtvarianz.
Empfehlung für die meisten Forschungsfragen:
r_semi (bzw. ΔR² = r_semi²) — sie behält Y als Bezugsgröße unverändert, ist direkt mit
r_bivariat vergleichbar und gibt den einzigartigen Beitrag in einer für Dritte
nachvollziehbaren Einheit an.
Wann r_partial dennoch sinnvoll ist:
Wenn X₂ als harte Baseline-Kovariate gilt, deren Y-Varianz konzeptuell „nicht interessiert" —
z. B. T1-Messwert als Baseline in einem Längsschnitt. Dann fragt man: „Wie stark hängen
X₁ und Y innerhalb der X₂-bereinigten Ebene zusammen?" — und r_partial beantwortet
genau das. Auch für reine Signifikanztests hat r_partial leicht mehr Power, weil der Nenner
kleiner wird (|r_partial| ≥ |r_semi| immer).
Im Beispiel (Szenario A): IQ erklärt wenig von Leistung (ρ₂y = 0.40, R² ≈ 0.25).
Hier sind r_semi und r_partial ähnlich groß — der Unterschied wächst erst, wenn X₂ einen
großen Teil von Y erklärt (Szenario B mit hoher Kollinearität).