OLS & Multiple Regression

Beispiel

N = 30 Studierende X₁ = Lernzeit (h/Woche) X₂ = Schlafstunden (h/Nacht) Y = Klausurnote (0–100 Pkt.)

Seed: —

Das Least-Squares-Prinzip

Warum minimiert OLS die quadrierten Abweichungen — und was bedeutet das?

Lernzeit (h/Woche) → Klausurnote

b₀

—

b₁

—

R²

—

RSS

—

RSS-Vergleich (kleiner = besser)

Ihre Gerade

—

OLS (min)

—

Modell:
Y = — + — · X₁

Tutorial — Das Least-Squares-Prinzip

Was Sie sehen
30 simulierte Studierende: Lernzeit X₁ (h/Woche) → Klausurnote Y (Punkte). Die orangene Gerade ist Ihre Schätzlinie — ziehbar über zwei runde Anker am linken und rechten Rand. Schalten Sie ● Residuals ein: grüne Striche = positive Residuen (Punkt liegt über der Gerade), rote Striche = negative Residuen (Punkt liegt darunter). Ein Residuum eᵢ = yᵢ − ŷᵢ ist die Abweichung des beobachteten vom vorhergesagten Wert.

Was tun
Ziehen Sie die Anker, bis Ihre RSS (orangener Balken, absoluter Wert) möglichst klein wird. Klicken Sie dann ◎ OLS zeigen — die teal-farbene OLS-Gerade erscheint. Der zweite Balken zeigt deren RSS. Vergleich: Wie nah kamen Sie ans Minimum?

Was ist RSS? (Residual Sum of Squares)
RSS = Σeᵢ² = Σ(yᵢ − ŷᵢ)². OLS findet analytisch exakt das b₀ und b₁, für das RSS global minimal ist — eindeutig und beweisbar. Kein Ausprobieren: b₁ = Cov(X,Y)/Var(X), b₀ = ȳ − b₁·x̄.

Warum Quadrate, nicht Beträge?
(1) Für jede OLS-Gerade gilt Σeᵢ = 0 — positive und negative Residuen heben sich trivialerweise auf. (2) Das Quadrieren bestraft große Residuen überproportional: ein Residuum von 10 kostet 100, nicht 10. (3) Das Quadrat liefert eine differenzierbare Funktion → geschlossene, eindeutige Lösung.

Was beobachten?
· Falsche Steigung → RSS steigt schneller als falscher Achsenabschnitt.
· Punkte am X-Rand (hohe Hebelwirkung) drehen b₁ stark, wenn sie weit von der Geraden abweichen.
· Probieren Sie absichtlich schlechte Geraden (steil, flach, negativ) — der RSS-Wert explodiert.
· Gauss-Markov: Unter den 5 OLS-Annahmen (→ Modul ③) ist OLS der BLUE — Best Linear Unbiased Estimator. Kein anderer linearer unverzerrter Schätzer hat kleinere Varianz.

Was ist ein Residual? eᵢ = yᵢ − yᵢ ist die Abweichung des beobachteten Wertes vom vorhergesagten. Warum quadrieren? Erstens werden positive und negative Residuen gleich behandelt (|+3| = |−3|). Zweitens werden große Residuen überproportional bestraft: ein Residuum von 10 zählt 100, nicht 10. OLS findet das einzige b₀, b₁ für das gilt: Σeᵢ = 0 und Σeᵢ² ist minimal — diese Lösung ist eindeutig.

I — linear

II — quadratisch

III — Ausreißer

IV — Leverage-Punkt

Alle vier Datensätze haben (nahezu) identische Kennwerte: b₁ ≈ 0.50, b₀ ≈ 3.0, r ≈ .816, R² ≈ .667. Dennoch zeigen Scatterplot und Residualplot fundamental verschiedene Muster. Fazit: Koeffizienten und R² allein genügen nicht — Residualdiagnostik ist Pflicht.

b₀, b₁ und β verstehen

Steigung, Achsenabschnitt und standardisierter Koeffizient — visuell und formal

Regressionsgerade mit Koeffizienten-Visualisierung

b₀

—

b₁

—

b₁: Pro +1 h Lernzeit steigt die erwartete Note um — Punkte.
β = r = — — bivariat gilt stets β = r.
b₀: Erwartete Note bei 0 h Lernzeit (extrapoliert, inhaltlich oft nicht sinnvoll).

Tutorial — b₀, b₁ und β verstehen

Was Sie sehen
Die OLS-Gerade durch alle 30 Datenpunkte. Aktivieren Sie △ Steigung für das Steigungsdreieck und ✛ Mittelwert für den Schwerpunkt (x̄, ȳ) im Canvas.

b₁ = — — Steigung (unstandardisiert)
Pro +1 h Lernzeit steigt die erwartete Note um — Punkte. Einheit: Punkte/Stunde. Interpretation: deskriptiv, kein Kausaleffekt. b₁ ist skalenabhängig — ein b₁ aus einer anderen Studie mit anderen Skalen ist nicht direkt vergleichbar.
Das Steigungsdreieck im Canvas zeigt konkret: +3 h Lernzeit → +— Punkte (= 3 · b₁).

β = — — standardisierter Koeffizient
Pro +1 SD in X₁ steigt Y um β SD. Bivariat gilt immer β = r (Pearson-Korrelation) — prüfen Sie das in der Koeffizientenzelle! β erlaubt den Vergleich von Prädiktoren unterschiedlicher Skalen innerhalb einer Studie, aber nicht zwischen Studien (abhängig von SD(X) und SD(Y)).
Wichtig: β gibt nicht direkt die Wichtigkeit oder den kausalen Einfluss eines Prädiktors an — bei korrelierten Prädiktoren kann β stark vom partiellen Effekt abweichen (→ Modul ④).

b₀ = — — Achsenabschnitt
Erwartete Note bei X₁ = 0 h Lernzeit. Da 0 h außerhalb des beobachteten Bereichs liegt, ist das eine Extrapolation — inhaltlich meist nicht sinnvoll interpretierbar. b₀ ist mathematisch notwendig, hat aber selten eigenständige Bedeutung.

Schwerpunkt (x̄ = — h | ȳ = — Pkt)
Die OLS-Gerade läuft immer durch (x̄, ȳ) — mathematisch zwingend, da b₀ = ȳ − b₁·x̄. Aktivieren Sie ✛ Mittelwert und prüfen Sie das visuell. OLS schätzt E[Y|X] — den konditionalen Erwartungswert, keine Einzelvorhersage.

Berechnungsformeln:
b₁ = Σ(xᵢ − x)(yᵢ − y) / Σ(xᵢ − x)² = Cov(X,Y) / Var(X)
b₀ = y − b₁ · x · β = b₁ · (SD_X / SD_Y) = r (bivariat)

          b₁ (unstandardisiert) berichtet man, wenn
          die Einheit inhaltlich bedeutsam ist: „+1 h Lernzeit → +— Punkte".
          Voraussetzung: Leser kennen die Skala.


          β (standardisiert) erlaubt den Vergleich von
          Prädiktoren verschiedener Skalen innerhalb einer Studie.
          Achtung: β variiert mit SD(X) und SD(Y) — Vergleiche zwischen Studien sind
          nicht zulässig.


          Im bivariaten OLS gilt stets: β = r = —.
          Im multiplen Modell (Modul ④) ist β ≠ r, da partielle Kontrolle der anderen Prädiktoren.
        

Modellgüte & Varianzzerlegung

TSS = SSM + RSS, R², adjusted R² und die Annahmen des OLS-Modells

Gesamt (TSS) — Abstände der Punkte vom Mittelwert ȳ

            TSS = SSM + RSS
          

SSM

RSS

            SSM = —
            RSS = —
          

R²

—

adj. R²

—

f²

—

r (Pearson)

—

R² = SSM/TSS = —% der Gesamtvarianz in Y werden durch X₁ erklärt.
f² = R²/(1−R²) = SSM/RSS: klein ≥ .02 · mittel ≥ .15 · groß ≥ .35

Tutorial — Varianzzerlegung & Modellgüte

Was Sie sehen — drei Modi (TSS = SSM + RSS)
TSS (graue Striche): Abstände aller Punkte vom Mittelwert ȳ — die Gesamtstreuung in Y, unabhängig vom Modell. SSM (grüne Striche): Abstände des Modells (Regressionsgerade) vom Mittelwert ȳ — der Anteil, den das Modell gegenüber „nur ȳ als Vorhersage" erklärt. RSS (rote Striche): Abstände der Punkte vom Modell — die Residuen, also was unerklärt bleibt. Der Balken links zeigt das SSM : RSS-Verhältnis. Wechseln Sie die Modi über die Schaltflächen.

TSS = — — Total Sum of Squares
TSS = Σ(yᵢ − ȳ)². Gesamtvarianz in Y — wie stark schwanken die Noten generell? TSS hängt nicht vom Modell ab. Es ist die Ausgangslage, die erklärt werden soll.

SSM = — (—% von TSS) — Sum of Squares Model
SSM = Σ(ŷᵢ − ȳ)². Der vom Modell erklärte Anteil — der Abstand der Regressionsgeraden vom Mittelwert ȳ an der Stelle jedes Datenpunktes (ein Beitrag pro Beobachtung), also die Verbesserung gegenüber „nur ȳ". Je größer SSM relativ zu TSS, desto besser der Fit. OLS maximiert SSM (äquivalent zum Minimieren von RSS).

RSS = — (—% von TSS) — Residual Sum of Squares
RSS = Σeᵢ² = Σ(yᵢ − ŷᵢ)² — quadrierte Summe aller Residuen, das was das Modell nicht erklärt. TSS = SSM + RSS ist mathematisch exakt. RSS = 0 wäre perfekter Fit — in der Praxis unmöglich und nicht wünschenswert (Überanpassung).

R² und f² (Cohens Effektgröße)
R² = SSM/TSS (→ Kennwerte links): Anteil erklärter Varianz. Achtung: R² steigt immer mit jedem weiteren Prädiktor — auch nutzlosen! Adjusted R² korrigiert mit einem Strafterm pro Prädiktor.
f² = R²/(1−R²) = SSM/RSS = — → — Effekt. f² ist das Verhältnis von erklärter zu nicht erklärter Varianz. Cohen (1988): .02 klein · .15 mittel · .35 groß.
Modellvergleiche: AIC und BIC penalisieren Komplexität stärker als adj. R² — empfehlenswert bei mehreren konkurrierenden Modellen.

Was gut / problematisch ist
· Gut: Großer grüner Balken (SSM ≫ RSS), R² nahe 1, f² ≥ .15.
· R² = 0: Das Modell erklärt nichts — nicht besser als ȳ als Prognose.
· R² allein ist nicht ausreichend — ein gutes R² trotz verletzter Annahmen täuscht. Residualdiagnostik ist Pflicht (→ Akkordion OLS-Annahmen unten).

①

              Linearität:
              Die Beziehung zwischen X und Y ist linear. Verletzung: Residual-vs-Fitted-Plot
              zeigt systematisches Muster (Kurve, Fächer). Abhilfe: Transformation oder
              polynomiale Terme.
            

②

              Unabhängigkeit:
              Beobachtungen sind unabhängig (keine Autokorrelation, kein Clustering).
              Verletzung bei Längsschnitt- oder Nested-Daten → gemischte Modelle notwendig.
              Lernende in derselben Schulklasse sind nicht unabhängig.
            

③

              Homoskedastizität:
              Varianz der Residuen ist konstant über alle X-Werte — kein Streufächer.
              Verletzung: heteroskedastizitätsrobuste Standardfehler (HC3) oder WLS.
              Anscombe-Datensatz III zeigt klassische Verletzung.
            

④

              Normalverteilung der Residuen:
              Nur für Inferenzstatistik (t-Tests, CIs) nötig — nicht für die
              OLS-Schätzung selbst (Gauss-Markov-Theorem!). Bei n ≥ 30 greift
              der zentrale Grenzwertsatz: leichte Verletzungen unkritisch.
            

⑤

              Keine perfekte Multikollinearität
              (multiple Regression): Sind zwei Prädiktoren perfekt korreliert, ist
              (XᵀX) nicht invertierbar.
              Hohe (nicht-perfekte) Kollinearität bläht Standardfehler auf → VIF > 10 kritisch.
              Siehe Modul ④.
            

Multiple Regression & Added Variable Plot

Was bedeutet „unter Kontrolle von X₂"? Partielle Slopes visuell verstehen.

Schritt ① — Bivariates Modell: Y ~ X₁

Schritt

Korrelation X₁↔X₂

Koeffizientenvergleich

Modell	b₁	β₁	R²
Bivariat	—	—	—
Partiell	—	—	—

AVP-Slope

—

Δb₁

—

Schritt ① zeigt die bivariate Regression Y auf X₁ — wie in Modul ①. Das bivariate b₁ enthält noch den Einfluss von X₂, wenn X₁ und X₂ korreliert sind.

Tutorial — Multiple Regression & AVP

Von der Geraden zur Ebene
Bivariat (Y ~ X₁) ist die Lösung eine Gerade im 2D-Raum. Mit zwei Prädiktoren (Y ~ X₁ + X₂) wird sie zur Regressionsfläche (Ebene) im 3D-Raum. Stellen Sie sich vor: X₁ auf der x-Achse, X₂ auf der z-Achse, Y auf der y-Achse — das OLS-Minimum ist die Ebene, die den RSS über alle Punkte minimiert. b₁ ist die Steigung in X₁-Richtung, b₂ in X₂-Richtung — jeweils bei festgehaltenem anderen Prädiktor.

Warum multiple Regression?
X₁ (Lernzeit) und X₂ (Schlaf) korrelieren mit r₁₂ = —. Das bivariate Modell Y ~ X₁ misst nicht den reinen X₁-Effekt — b₁ enthält auch den Einfluss von X₂, da X₂ mit X₁ verflochten ist. Das multiple Modell löst das: es hält X₂ statistisch konstant.

Die Koeffizienten lesen (Tabelle links)
Bivariat b₁: Steigung aus Y ~ X₁ allein — enthält Konfundierung durch X₂.
Partiell b₁: Steigung aus Y ~ X₁ + X₂ — bereinigt um X₂. Das ist der Wert, den die Regressionsfläche in X₁-Richtung hat.
Δb₁: Die Differenz quantifiziert die Konfundierung. Bei r₁₂ = 0 ist Δb₁ = 0.

Schritt ① — Bivariate Ausgangslage
Was Sie sehen: Die bivariate OLS-Gerade Y ~ X₁ (Lernzeit → Note) — identisch mit Modul ①.
Problem: Wenn r₁₂ ≠ 0 enthält b₁ den Einfluss von X₂ als Störgröße. Der bivariate Schätzer ist verzerrt, solange X₂ sowohl mit X₁ korreliert als auch Y beeinflusst.
Tipp: Notieren Sie das bivariate b₁ (Tabelle links), wechseln Sie dann r₁₂ und vergleichen Sie.

Konfundierung im Vergleich
bivariat b₁ = — · partiell b₁ = — · Δb₁ = —
Je größer r₁₂, desto mehr weicht das bivariate vom partiellen b₁ ab. Bei r₁₂ = 0 sind beide identisch — X₂ konfundiert nichts. Probieren Sie die vier r₁₂-Szenarien links.

AVP-Prinzip: Ein Added Variable Plot (Partialregression) macht den partiellen Effekt von X₁ auf Y sichtbar — bereinigt um X₂. Dazu wird X₂ sowohl aus Y (e(Y|X₂)) als auch aus X₁ (e(X₁|X₂)) herausgerechnet. Die Steigung der Regressionslinie durch die Residualvektoren entspricht exakt dem partiellen Koeffizienten b₁ aus dem multiplen Modell. Verändere die Korrelation X₁↔X₂, um zu sehen, wann und warum bivariates b₁ ≠ partielles b₁.

Lernkarten — OLS & Multiple Regression

① OLS-Kriterium

OLS minimiert die Summe der quadrierten Residuen: min Σ(yᵢ − ŷᵢ)². Das Quadrieren hat zwei Gründe: Vorzeichen werden neutralisiert, und große Residuen werden überproportional stärker bestraft als kleine. Die Lösung ist eindeutig und liefert immer Σeᵢ = 0.

② Koeffizient b₁

Interpretation: „Pro +1 Einheit X steigt der erwartete Wert von Y um b₁ Einheiten — alle anderen Prädiktoren konstant gehalten (ceteris paribus)." Im bivariaten Fall: b₁ = Σ(xᵢ−x̄)(yᵢ−ȳ) / Σ(xᵢ−x̄)². Der Zähler ist die Kovarianz, der Nenner die Varianz von X.

③ Intercept b₀

b₀ ist der erwartete Y-Wert, wenn alle Prädiktoren gleich 0 sind. Das ist oft inhaltlich nicht sinnvoll (z. B. 0 Lernstunden, 0 Schlaf). b₀ wird für die Vorhersage benötigt, sollte aber meist nicht inhaltlich interpretiert werden. Immer gilt: ȳ = b₀ + b₁·x̄.

④ R² und adj. R²

R² = SSM/SST ∈ [0, 1] — Anteil erklärter Varianz. R² steigt mit jedem hinzugefügten Prädiktor, auch nutzlosen. Adjusted R² korrigiert dafür: adj.R² = 1 − (1−R²)·(n−1)/(n−k−1). adj.R² sinkt, wenn ein neuer Prädiktor weniger erklärt als durch Zufall erwartet.

⑤ Partial Slope

b₁ im multiplen Modell ist nicht derselbe wie im bivariaten Modell — er ist der Slope im Added Variable Plot (AVP): Regression von e(Y|X₂) auf e(X₁|X₂). Dieser Wert entspricht dem Partial Slope: Effekt von X₁ auf Y, nachdem der gemeinsame Anteil von X₂ aus beiden herausgerechnet wurde.

⑥ Standardisierung β

β = b · (SD_X / SD_Y) — der standardisierte Regressionskoeffizient. β gibt an, um wie viele Standardabweichungen Y steigt, wenn X um eine SD steigt. Erlaubt Vergleich von Prädiktoren mit verschiedenen Skalen, aber nur innerhalb einer Stichprobe. Zwischen Studien sind β-Werte wegen unterschiedlicher SDs nicht direkt vergleichbar.

OLS & Multiple Regression

Was ist OLS?

Koeffizienteninterpretation

R² und Modellgüte

Effektgröße f² und SESOI

Wann versagt OLS?

Verwandte Tools