Partial- & Semipartialkorrelation

Dr. R. Düsing · Universität Osnabrück
Beispiel
X₁Wöchentliche Lernzeit (Stunden/Woche) — Prädiktor von Interesse X₂Intelligenz (IQ-Score, standardisiert) — Kontrollvariable YKlausurleistung (Punkte, 0–100)
Wie stark korreliert Lernzeit mit Klausurleistung, wenn man Intelligenzunterschiede herausrechnet? Geht der Effekt auf eigenständige Lernbereitschaft zurück — oder ist er nur ein Artefakt, weil Klügere zufällig auch mehr lernen? (Szenario D — Reziproke Suppression — wechselt zu einem anderen Beispiel: Dominanz & Empathie als Prädiktoren von Führungserfolg.)
Konzept
rY·X₁ = bivariat  (Pearson)
rsemi = Semipartial: e(X₁|X₂) ~ Y  → X₂ nur aus X₁ herauspartialisiert
rpartial = Partial: e(X₁|X₂) ~ e(Y|X₂)  → X₂ aus X₁ und Y herauspartialisiert
rsemi² = ΔR² (einzigartiger Varianzanteil X₁)  ·  rpartial² = Anteil erklärter Restvarianz
Streudiagramme — schrittweise residualisiert
1 · X₁ vs Y  ρ=— r̂=—
2 · e(X₁|X₂) vs Y  semi=—
3 · e(X₁|X₂) vs e(Y|X₂)  part=—
Ballantine-Diagramm — Varianzzerlegung
Statistiken — Population vs. Stichprobe
Statistik Population Stichprobe t p Anmerkung
Multiple Regression — X₁ + X₂ → Y
Konzepte
Bivariat, Semi- & Partialkorrelation
Drei Stufen der Kontrolle: Die bivariate r misst den Zusammenhang von X₁ und Y ohne jede Kontrolle. Die Semipartialkorrelation entfernt X₂'s Einfluss nur aus X₁ — Y bleibt roh. Sie ist die Quadratwurzel von ΔR² und misst den einzigartigen Beitrag von X₁ zur Y-Varianz. Die Partialkorrelation entfernt X₂ aus beiden: Sie misst die Stärke des X₁-Y-Zusammenhangs innerhalb der Ebene, die X₂ nicht erklärt.
Residualisierung — was passiert geometrisch?
„Herauspartialisieren" bedeutet: Vorhersage durch X₂ entfernen. Man regressiert X₁ auf X₂ und nimmt die Residuen e(X₁|X₂) — den Teil von X₁, den X₂ nicht erklärt. Im Streudiagramm-Triptychon sieht man, wie die Punktwolke auf X-Achse „bereinigt" wird (Plot 2), und in Plot 3 auch auf Y-Achse. Die Punktfärbung nach X₂ zeigt: nach Residualisierung gibt es keine X₂-Muster mehr in der X-Achsen-Streuung.
Das Ballantine-Diagramm
Drei überlappende Kreise (X₁, X₂, Y) visualisieren die R²-Zerlegung. Die blaue Zone b = ΔR²(X₁) = Semipartial² — einzigartiger X₁-Anteil. Die grüne Zone d = ΔR²(X₂). Die lila Zone c = geteilte Varianz, die beiden Prädiktoren zugleich zugeordnet werden könnte. c kann negativ werden (Suppression) — dann bricht das Venn-Diagramm geometrisch zusammen, die Werte bleiben aber gültig. Grauer Bereich a = unerklärte Y-Varianz (1−R²).
Suppression — drei Varianten
Bei allen drei Varianten gilt β₁_multipel > β₁_einfach (und c < 0 im Ballantine). Fall 1 — Klassisch (McNemar 1945): ρ(X₂,Y) ≈ 0, ρ(X₁,X₂) > 0 → Szenario C. X₂ enthält Störvarianz in X₁, die Y-irrelevant ist. Fall 2 — Negativ/Net: alle Korrelationen positiv, aber ρ(X₂,Y) < ρ(X₁,X₂)·ρ(X₁,Y). Gradueller Übergang zu Fall 1. Fall 3 — Reziproke Suppression/Komplementarität (Conger 1974): X₁ und X₂ beide positiv mit Y, aber negativ untereinander → Szenario D. Beide Prädiktoren supprimieren sich gegenseitig (Velicer, 1978; Darlington & Hayes, 2017).
Reziproke Suppression / Komplementarität
Kennzeichen: ρ(X₁,Y) > 0, ρ(X₂,Y) > 0, aber ρ(X₁,X₂) < 0. Beide Prädiktoren korrelieren positiv mit Y, sind aber untereinander negativ korreliert — jeder enthält Störvarianz des anderen. Folge: β₁_multipel > β₁_einfach und β₂_multipel > β₂_einfach. Beispiel (Szenario D): Dominanz (X₁, r=.30) und Empathie (X₂, r=.25) korrelieren beide positiv mit Führungserfolg, aber negativ miteinander (r=−.30). Kontrolliert man jeweils die andere Variable, steigen beide β-Gewichte — das gegenseitige Unterdrücken wird aufgehoben.
Kollinearität & ΔR²
Hohe Kollinearität (ρ(X₁,X₂) groß) führt zu kleinen ΔR²-Werten für beide Prädiktoren, auch wenn beide bivariat stark mit Y korrelieren. Die Prädiktoren „konkurrieren" um denselben Y-Varianzanteil. In der multiplen Regression: große SE, instabile β-Koeffizienten, VIF → 1/(1−R²_j) steigt. Szenario B zeigt: bivariat r=0.6, aber ΔR²(X₁)≈0.04. Semipartialkorrelation quadriert gibt den einzigartigen Beitrag direkt — das ist die ehrlichste Effektgröße in der multiplen Regression.
Partial- & Semipartialkorrelation — Hilfe
Beispiel

X₁ = Lernzeit (Std./Woche), X₂ = Intelligenz (IQ, std.), Y = Klausurleistung (0–100).
Frage: Wie viel von dem X₁–Y-Zusammenhang ist eigenständig (Lernbereitschaft), und wie viel verschwindet, sobald man Intelligenzunterschiede kontrolliert?

Bivariat, Semipartial- und Partialkorrelation

Drei Stufen der Kontrolle über X₂:

r_bivariat = Korr(X₁, Y) — ohne jede Kontrolle r_semi = Korr(e(X₁|X₂), Y) — X₂ nur aus X₁ herauspartialisiert r_partial = Korr(e(X₁|X₂), e(Y|X₂)) — X₂ aus beiden herauspartialisiert

r_semi² = ΔR² = einzigartiger Anteil, den X₁ zur Y-Varianz beiträgt, über X₂ hinaus.
r_partial² = Anteil der Restvarianz in Y (nach Abzug von X₂), den X₁ erklärt — misst die Stärke des Zusammenhangs innerhalb der X₂-kontrollierten Ebene.

Im Beispiel (Szenario A): Lernzeit und IQ sind unkorreliert (ρ₁₂ = 0). Dann gilt r_semi = r_partial = r_bivariat — Kontrolle von IQ ändert nichts, weil Lernzeit und IQ keine gemeinsame Varianz teilen. Jeder Prädiktor trägt einzigartig bei.

Residualisierung — was passiert geometrisch?

„Herauspartialisieren" heißt: Lernzeit auf IQ regressieren und die Residuen nehmen — e(X₁|X₂) ist der Teil der Lernzeit, den IQ nicht vorhersagt. Die drei Streudiagramme zeigen die schrittweise Bereinigung:

Plot 1: Roher X₁–Y-Zusammenhang (Lernzeit vs. Leistung, gefärbt nach IQ-Rang).
Plot 2: e(X₁|X₂) vs. Y — IQ-Gradient in X₁ entfernt; verbleibende Korrelation = r_semi.
Plot 3: e(X₁|X₂) vs. e(Y|X₂) — IQ aus beiden entfernt; verbleibende Korrelation = r_partial.

Im Beispiel (Szenario B, Kollinearität): Klügere lernen auch mehr (ρ₁₂ = 0.80). Die Punktfärbung nach IQ-Rang zeigt in Plot 1 einen starken IQ-Gradienten entlang der X-Achse. Nach Residualisierung (Plot 2/3) ist dieser Gradient verschwunden — was bleibt, ist der reine Lernzeit-Effekt unabhängig von IQ. Er ist deutlich kleiner als die bivariate r.

Ballantine-Diagramm — Varianzzerlegung

Drei überlappende Kreise (X₁, X₂, Y) zeigen, wie R² sich aufteilt:

b = ΔR²(X₁) = r²_semi — einzigartiger X₁-Anteil (blau) d = ΔR²(X₂) = r²_semi(X₂) — einzigartiger X₂-Anteil (grün) c = R² − b − d — geteilte Varianz (lila) a = 1 − R² — unerklärte Y-Varianz (grau)

Im Beispiel (Szenario B): Lernzeit und IQ teilen viel Varianz in Y (c groß, b und d klein). Bivariat scheinen beide stark — aber ΔR²(Lernzeit) ≈ 0.04: Lernzeit erklärt nur wenig einzigartigen Anteil, wenn IQ bereits im Modell ist.

Suppression (Szenario C)

Formal: c < 0 (geteilte Varianz negativ) — geometrisch nicht als Schnittmenge darstellbar, rechnerisch aber gültig. Erkennungszeichen:

|β₁_multipel| > |β₁_einfach| und r_partial > r_bivariat

X₂ enthält Störvarianz in X₁, die nichts mit Y zu tun hat. Durch Kontrolle von X₂ wird diese Rauschangabe aus X₁ entfernt und der „wahre" X₁–Y-Effekt tritt hervor.

Im Beispiel (Szenario C, ρ(X₂,Y) ≈ 0, ρ(X₁,X₂) = 0.5): IQ korreliert kaum mit Klausurleistung — ist aber eng mit Lernzeit verknüpft. Ein Teil der gemessenen Lernzeit ist eigentlich IQ-getriebenes Lernverhalten ohne Mehrwert. Partialisiert man IQ heraus, steigt die echte Lernzeit-Leistungs-Korrelation: r_partial > r_bivariat.

Suppression — drei Varianten (nach Velicer 1978; Conger 1974)

Allen drei Varianten gemein: β₁_multipel > β₁_einfach und c < 0 im Ballantine-Diagramm.

Fall 1 — Klassische Suppression (McNemar 1945) — Szenario C:
ρ(X₁,Y) > 0, ρ(X₂,Y) ≈ 0, ρ(X₁,X₂) > 0. X₂ korreliert kaum mit Y, aber mit X₁ — es steckt Störvarianz in X₁, die Y-irrelevant ist. Kontrolle von X₂ entfernt diesen Rauschanteil und legt den echten X₁-Y-Effekt frei.

Im Beispiel (Szenario C): IQ (X₂) korreliert kaum mit Leistung (ρ₂y = 0), aber stark mit Lernzeit (ρ₁₂ = 0.50). Ein Teil der gemessenen Lernzeit ist IQ-getrieben und leistungsirrelevant. Kontrolliert man IQ, steigt r_partial > r_bivariat.

Fall 2 — Negative/Net Suppression:
Alle Korrelationen positiv, aber ρ(X₂,Y) < ρ(X₁,X₂) · ρ(X₁,Y). Gradueller Übergang zu Fall 1 — X₂ hat einen kleinen positiven Effekt auf Y, erklärt aber mehr Varianz in X₁ als in Y. Kein eigenes Szenario im Tool; tritt auf, wenn man in Szenario C ρ₂y leicht von 0 wegschiebt.

Fall 3 — Reziproke Suppression / Komplementarität (Conger 1974) — Szenario D:
ρ(X₁,Y) > 0, ρ(X₂,Y) > 0, aber ρ(X₁,X₂) < 0. Beide Prädiktoren korrelieren positiv mit Y, sind aber negativ untereinander korreliert. Jeder Prädiktor enthält Störvarianz des anderen — beide supprimieren sich gegenseitig. Folge: β₁_multipel > β₁_einfach und β₂_multipel > β₂_einfach.

β₁_multipel = (ρ₁y − ρ₂y · ρ₁₂) / (1 − ρ₁₂²)

Mit ρ₁₂ < 0 wird der Zähler größer (−ρ₂y·ρ₁₂ wird positiv) und der Nenner kleiner → doppelter Verstärkungseffekt auf β₁.

Im Beispiel (Szenario D) — Persönlichkeit & Führungserfolg:
X₁ = Dominanz (r = .30 mit Führungserfolg), X₂ = Empathie (r = .25), ρ(X₁,X₂) = −.30.
Dominante Personen sind tendenziell weniger empathisch — die negative Interkorrelation entsteht dadurch, dass diese Eigenschaften konzeptuell antagonistisch sind. Bivariat erklärt Dominanz nur 9 % der Varianz im Führungserfolg (r² = .09). Kontrolliert man Empathie, steigt β₁_multipel ≈ .41 > .30 — weil der „empathie-suppressierte" Anteil der Dominanz, der bisher den Effekt dämpfte, herausgerechnet wird. Symmetrisch gilt dasselbe für Empathie: β₂_multipel ≈ .34 > .25.

Kollinearität & Wahl der Kennzahl

Hohe Kollinearität (ρ(X₁,X₂) groß) → kleine ΔR²-Werte, große SE, instabile β. VIF = 1/(1 − R²_j) quantifiziert die Aufblähung der Standardfehler. Szenario B zeigt: bivariat r = 0.60, aber ΔR²(X₁) ≈ 0.04 — ein kollinearer Prädiktor erklärt bivariat viel, trägt aber kaum einzigartig bei.

Semipartial vs. Partialkorrelation — wann welche?

Der entscheidende Unterschied liegt in der Bezugsgröße:

r_semi² = ΔR² = Anteil der gesamten Y-Varianz, den X₁ einzigartig erklärt r_partial² = Anteil der residualen Y-Varianz (nach X₂), den X₁ erklärt

Bei r_partial wird X₂ auch aus Y herauspartialisiert — damit ändert sich der Nenner. r_partial² ist nicht mehr als Anteil der gesamten Y-Varianz interpretierbar und nicht direkt mit r_bivariat vergleichbar. Wenn X₂ viel von Y erklärt (z. B. 64 %), schrumpft die Reststreuung in Y auf 36 %. Ein r_partial = .50 klingt groß, entspricht aber nur r_partial² × (1 − R²_X₂) = .25 × .36 = 9 % der Gesamtvarianz.

Empfehlung für die meisten Forschungsfragen: r_semi (bzw. ΔR² = r_semi²) — sie behält Y als Bezugsgröße unverändert, ist direkt mit r_bivariat vergleichbar und gibt den einzigartigen Beitrag in einer für Dritte nachvollziehbaren Einheit an.

Wann r_partial dennoch sinnvoll ist: Wenn X₂ als harte Baseline-Kovariate gilt, deren Y-Varianz konzeptuell „nicht interessiert" — z. B. T1-Messwert als Baseline in einem Längsschnitt. Dann fragt man: „Wie stark hängen X₁ und Y innerhalb der X₂-bereinigten Ebene zusammen?" — und r_partial beantwortet genau das. Auch für reine Signifikanztests hat r_partial leicht mehr Power, weil der Nenner kleiner wird (|r_partial| ≥ |r_semi| immer).

Im Beispiel (Szenario A): IQ erklärt wenig von Leistung (ρ₂y = 0.40, R² ≈ 0.25). Hier sind r_semi und r_partial ähnlich groß — der Unterschied wächst erst, wenn X₂ einen großen Teil von Y erklärt (Szenario B mit hoher Kollinearität).