Was Sie sehen
30 simulierte Studierende: Lernzeit X₁ (h/Woche) → Klausurnote Y (Punkte). Die orangene Gerade ist Ihre Schätzlinie — ziehbar über zwei runde Anker am linken und rechten Rand. Schalten Sie ● Residuals ein: grüne Striche = positive Residuen (Punkt liegt über der Gerade), rote Striche = negative Residuen (Punkt liegt darunter). Ein Residuum eᵢ = yᵢ − ŷᵢ ist die Abweichung des beobachteten vom vorhergesagten Wert.
Was tun
Ziehen Sie die Anker, bis Ihre RSS (orangener Balken, absoluter Wert) möglichst klein wird. Klicken Sie dann ◎ OLS zeigen — die teal-farbene OLS-Gerade erscheint. Der zweite Balken zeigt deren RSS. Vergleich: Wie nah kamen Sie ans Minimum?
Was ist RSS? (Residual Sum of Squares)
RSS = Σeᵢ² = Σ(yᵢ − ŷᵢ)². OLS findet analytisch exakt das b₀ und b₁, für das RSS global minimal ist — eindeutig und beweisbar. Kein Ausprobieren: b₁ = Cov(X,Y)/Var(X), b₀ = ȳ − b₁·x̄.
Warum Quadrate, nicht Beträge?
(1) Für jede OLS-Gerade gilt Σeᵢ = 0 — positive und negative Residuen heben sich trivialerweise auf. (2) Das Quadrieren bestraft große Residuen überproportional: ein Residuum von 10 kostet 100, nicht 10. (3) Das Quadrat liefert eine differenzierbare Funktion → geschlossene, eindeutige Lösung.
Was beobachten?
· Falsche Steigung → RSS steigt schneller als falscher Achsenabschnitt.
· Punkte am X-Rand (hohe Hebelwirkung) drehen b₁ stark, wenn sie weit von der Geraden abweichen.
· Probieren Sie absichtlich schlechte Geraden (steil, flach, negativ) — der RSS-Wert explodiert.
· Gauss-Markov: Unter den 5 OLS-Annahmen (→ Modul ③) ist OLS der BLUE — Best Linear Unbiased Estimator. Kein anderer linearer unverzerrter Schätzer hat kleinere Varianz.
Was Sie sehen
Die OLS-Gerade durch alle 30 Datenpunkte. Aktivieren Sie △ Steigung für das Steigungsdreieck und ✛ Mittelwert für den Schwerpunkt (x̄, ȳ) im Canvas.
b₁ = — — Steigung (unstandardisiert)
Pro +1 h Lernzeit steigt die erwartete Note um — Punkte. Einheit: Punkte/Stunde. Interpretation: deskriptiv, kein Kausaleffekt. b₁ ist skalenabhängig — ein b₁ aus einer anderen Studie mit anderen Skalen ist nicht direkt vergleichbar.
Das Steigungsdreieck im Canvas zeigt konkret: +3 h Lernzeit → +— Punkte (= 3 · b₁).
β = — — standardisierter Koeffizient
Pro +1 SD in X₁ steigt Y um β SD. Bivariat gilt immer β = r (Pearson-Korrelation) — prüfen Sie das in der Koeffizientenzelle! β erlaubt den Vergleich von Prädiktoren unterschiedlicher Skalen innerhalb einer Studie, aber nicht zwischen Studien (abhängig von SD(X) und SD(Y)).
Wichtig: β gibt nicht direkt die Wichtigkeit oder den kausalen Einfluss eines Prädiktors an — bei korrelierten Prädiktoren kann β stark vom partiellen Effekt abweichen (→ Modul ④).
b₀ = — — Achsenabschnitt
Erwartete Note bei X₁ = 0 h Lernzeit. Da 0 h außerhalb des beobachteten Bereichs liegt, ist das eine Extrapolation — inhaltlich meist nicht sinnvoll interpretierbar. b₀ ist mathematisch notwendig, hat aber selten eigenständige Bedeutung.
Schwerpunkt (x̄ = — h | ȳ = — Pkt)
Die OLS-Gerade läuft immer durch (x̄, ȳ) — mathematisch zwingend, da b₀ = ȳ − b₁·x̄. Aktivieren Sie ✛ Mittelwert und prüfen Sie das visuell. OLS schätzt E[Y|X] — den konditionalen Erwartungswert, keine Einzelvorhersage.
Was Sie sehen — drei Modi (TSS = SSM + RSS)
TSS (graue Striche): Abstände aller Punkte vom Mittelwert ȳ — die Gesamtstreuung in Y, unabhängig vom Modell. SSM (grüne Striche): Abstände des Modells (Regressionsgerade) vom Mittelwert ȳ — der Anteil, den das Modell gegenüber „nur ȳ als Vorhersage" erklärt. RSS (rote Striche): Abstände der Punkte vom Modell — die Residuen, also was unerklärt bleibt. Der Balken links zeigt das SSM : RSS-Verhältnis. Wechseln Sie die Modi über die Schaltflächen.
TSS = — — Total Sum of Squares
TSS = Σ(yᵢ − ȳ)². Gesamtvarianz in Y — wie stark schwanken die Noten generell? TSS hängt nicht vom Modell ab. Es ist die Ausgangslage, die erklärt werden soll.
SSM = — (—% von TSS) — Sum of Squares Model
SSM = Σ(ŷᵢ − ȳ)². Der vom Modell erklärte Anteil — der Abstand der Regressionsgeraden vom Mittelwert ȳ an der Stelle jedes Datenpunktes (ein Beitrag pro Beobachtung), also die Verbesserung gegenüber „nur ȳ". Je größer SSM relativ zu TSS, desto besser der Fit. OLS maximiert SSM (äquivalent zum Minimieren von RSS).
RSS = — (—% von TSS) — Residual Sum of Squares
RSS = Σeᵢ² = Σ(yᵢ − ŷᵢ)² — quadrierte Summe aller Residuen, das was das Modell nicht erklärt. TSS = SSM + RSS ist mathematisch exakt. RSS = 0 wäre perfekter Fit — in der Praxis unmöglich und nicht wünschenswert (Überanpassung).
R² und f² (Cohens Effektgröße)
R² = SSM/TSS (→ Kennwerte links): Anteil erklärter Varianz. Achtung: R² steigt immer mit jedem weiteren Prädiktor — auch nutzlosen! Adjusted R² korrigiert mit einem Strafterm pro Prädiktor.
f² = R²/(1−R²) = SSM/RSS = — → — Effekt. f² ist das Verhältnis von erklärter zu nicht erklärter Varianz. Cohen (1988): .02 klein · .15 mittel · .35 groß.
Modellvergleiche: AIC und BIC penalisieren Komplexität stärker als adj. R² — empfehlenswert bei mehreren konkurrierenden Modellen.
Was gut / problematisch ist
· Gut: Großer grüner Balken (SSM ≫ RSS), R² nahe 1, f² ≥ .15.
· R² = 0: Das Modell erklärt nichts — nicht besser als ȳ als Prognose.
· R² allein ist nicht ausreichend — ein gutes R² trotz verletzter Annahmen täuscht. Residualdiagnostik ist Pflicht (→ Akkordion OLS-Annahmen unten).
| Modell | b₁ | β₁ | R² |
|---|---|---|---|
| Bivariat | — | — | — |
| Partiell | — | — | — |
Von der Geraden zur Ebene
Bivariat (Y ~ X₁) ist die Lösung eine Gerade im 2D-Raum. Mit zwei Prädiktoren (Y ~ X₁ + X₂) wird sie zur Regressionsfläche (Ebene) im 3D-Raum. Stellen Sie sich vor: X₁ auf der x-Achse, X₂ auf der z-Achse, Y auf der y-Achse — das OLS-Minimum ist die Ebene, die den RSS über alle Punkte minimiert. b₁ ist die Steigung in X₁-Richtung, b₂ in X₂-Richtung — jeweils bei festgehaltenem anderen Prädiktor.
Warum multiple Regression?
X₁ (Lernzeit) und X₂ (Schlaf) korrelieren mit r₁₂ = —. Das bivariate Modell Y ~ X₁ misst nicht den reinen X₁-Effekt — b₁ enthält auch den Einfluss von X₂, da X₂ mit X₁ verflochten ist. Das multiple Modell löst das: es hält X₂ statistisch konstant.
Die Koeffizienten lesen (Tabelle links)
Bivariat b₁: Steigung aus Y ~ X₁ allein — enthält Konfundierung durch X₂.
Partiell b₁: Steigung aus Y ~ X₁ + X₂ — bereinigt um X₂. Das ist der Wert, den die Regressionsfläche in X₁-Richtung hat.
Δb₁: Die Differenz quantifiziert die Konfundierung. Bei r₁₂ = 0 ist Δb₁ = 0.
Schritt ① — Bivariate Ausgangslage
Was Sie sehen: Die bivariate OLS-Gerade Y ~ X₁ (Lernzeit → Note) — identisch mit Modul ①.
Problem: Wenn r₁₂ ≠ 0 enthält b₁ den Einfluss von X₂ als Störgröße. Der bivariate Schätzer ist verzerrt, solange X₂ sowohl mit X₁ korreliert als auch Y beeinflusst.
Tipp: Notieren Sie das bivariate b₁ (Tabelle links), wechseln Sie dann r₁₂ und vergleichen Sie.
Konfundierung im Vergleich
bivariat b₁ = — · partiell b₁ = — · Δb₁ = —
Je größer r₁₂, desto mehr weicht das bivariate vom partiellen b₁ ab. Bei r₁₂ = 0 sind beide identisch — X₂ konfundiert nichts. Probieren Sie die vier r₁₂-Szenarien links.
min Σ(yᵢ − ŷᵢ)².
Das Quadrieren hat zwei Gründe: Vorzeichen werden neutralisiert,
und große Residuen werden überproportional stärker bestraft als kleine.
Die Lösung ist eindeutig und liefert immer Σeᵢ = 0.
b₁ = Σ(xᵢ−x̄)(yᵢ−ȳ) / Σ(xᵢ−x̄)².
Der Zähler ist die Kovarianz, der Nenner die Varianz von X.
ȳ = b₀ + b₁·x̄.
R² = SSM/SST ∈ [0, 1] — Anteil erklärter Varianz.
R² steigt mit jedem hinzugefügten Prädiktor, auch nutzlosen.
Adjusted R² korrigiert dafür:
adj.R² = 1 − (1−R²)·(n−1)/(n−k−1).
adj.R² sinkt, wenn ein neuer Prädiktor weniger erklärt als durch Zufall erwartet.
e(Y|X₂) auf e(X₁|X₂).
Dieser Wert entspricht dem Partial Slope: Effekt von X₁ auf Y,
nachdem der gemeinsame Anteil von X₂ aus beiden herausgerechnet wurde.
β = b · (SD_X / SD_Y) — der standardisierte Regressionskoeffizient.
β gibt an, um wie viele Standardabweichungen Y steigt,
wenn X um eine SD steigt. Erlaubt Vergleich von Prädiktoren
mit verschiedenen Skalen, aber nur innerhalb einer Stichprobe.
Zwischen Studien sind β-Werte wegen unterschiedlicher SDs nicht direkt vergleichbar.
Ordinary Least Squares (OLS) ist das Standardverfahren zur Schätzung
linearer Regressionsmodelle. Es findet diejenigen Koeffizienten b₀ und b₁, die die
Summe der quadrierten Residuen minimieren:
min Σ(yᵢ − ŷᵢ)² = min Σ(yᵢ − b₀ − b₁·xᵢ)².
Die Lösung folgt aus den Normalgleichungen:
b₁ = Σ(xᵢ−x̄)(yᵢ−ȳ) / Σ(xᵢ−x̄)²b₀ = ȳ − b₁·x̄b = (XᵀX)⁻¹ Xᵀyb₁ (unstandardisiert): „Pro +1 Einheit X steigt Ŷ um b₁ Einheiten, wenn alle anderen Prädiktoren konstant gehalten werden." Das „ceteris paribus" ist entscheidend — im multiplen Modell ist b₁ ein partieller Effekt, kein marginaler Roheffekt.
β (standardisiert): Vergleich von Prädiktoren unterschiedlicher Skalen. Vorsicht: β ist stichprobenspezifisch und darf nicht zwischen Studien verglichen werden.
R² = SSM/TSS = 1 − RSS/TSS. Im bivariaten Fall gilt R² = r².
R² steigt mit jedem Prädiktor, auch bei zufälligen Variablen (Freedman's Paradox).
Adjusted R² korrigiert für die Anzahl der Prädiktoren k:
adj.R² = 1 − (1−R²)·(n−1)/(n−k−1)
f² = R²/(1−R²) — Effektgröße für multiple Regression.
Konventionen (Cohen 1988): klein ≥ .02, mittel ≥ .15, groß ≥ .35.
Besser als Konventionen: SESOI — den kleinsten inhaltlich
bedeutsamen Effekt vor der Studie definieren. → Siehe
Power & Stichprobengröße.