OLS & Multiple Regression
OLS ยท Koeffizienten ยท Modellgรผte ยท Multiple Regression
ยฉ Dr. Rainer Dรผsing ยท Interactive Tools by Claude
N = 30 Studierende Xโ‚ = Lernzeit (h/Woche) Xโ‚‚ = Schlafstunden (h/Nacht) Y = Klausurnote (0โ€“100 Pkt.)
Das Least-Squares-Prinzip
Warum minimiert OLS die quadrierten Abweichungen โ€” und was bedeutet das?
Lernzeit (h/Woche) โ†’ Klausurnote
bโ‚€
โ€”
bโ‚
โ€”
Rยฒ
โ€”
RSS
โ€”
RSS-Vergleich (kleiner = besser)
Ihre Gerade
โ€”
OLS (min)
โ€”
Modell:
Y = โ€” + โ€” ยท Xโ‚
Tutorial โ€” Das Least-Squares-Prinzip

Was Sie sehen
30 simulierte Studierende: Lernzeit Xโ‚ (h/Woche) โ†’ Klausurnote Y (Punkte). Die orangene Gerade ist Ihre Schรคtzlinie โ€” ziehbar รผber zwei runde Anker am linken und rechten Rand. Schalten Sie โ— Residuals ein: grรผne Striche = positive Residuen (Punkt liegt รผber der Gerade), rote Striche = negative Residuen (Punkt liegt darunter). Ein Residuum eแตข = yแตข โˆ’ ลทแตข ist die Abweichung des beobachteten vom vorhergesagten Wert.

Was tun
Ziehen Sie die Anker, bis Ihre RSS (orangener Balken, absoluter Wert) mรถglichst klein wird. Klicken Sie dann โ—Ž OLS zeigen โ€” die blaue OLS-Gerade erscheint. Der zweite Balken zeigt deren RSS. Vergleich: Wie nah kamen Sie ans Minimum?

Was ist RSS? (Residual Sum of Squares)
RSS = ฮฃeแตขยฒ = ฮฃ(yแตข โˆ’ ลทแตข)ยฒ. OLS findet analytisch exakt das bโ‚€ und bโ‚, fรผr das RSS global minimal ist โ€” eindeutig und beweisbar. Kein Ausprobieren: bโ‚ = Cov(X,Y)/Var(X), bโ‚€ = ศณ โˆ’ bโ‚ยทxฬ„.

Warum Quadrate, nicht Betrรคge?
(1) Fรผr jede OLS-Gerade gilt ฮฃeแตข = 0 โ€” positive und negative Residuen heben sich trivialerweise auf. (2) Das Quadrieren bestraft groรŸe Residuen รผberproportional: ein Residuum von 10 kostet 100, nicht 10. (3) Das Quadrat liefert eine differenzierbare Funktion โ†’ geschlossene, eindeutige Lรถsung.

Gauss-Markov: Unter den 5 OLS-Annahmen (โ†’ Modul โ‘ข) ist OLS der BLUE โ€” Best Linear Unbiased Estimator. Kein anderer linearer unverzerrter Schรคtzer hat kleinere Varianz.

Was ist ein Residuum? eแตข = yแตข โˆ’ yแตข ist die Abweichung des beobachteten Wertes vom vorhergesagten. Warum quadrieren? Erstens werden positive und negative Residuen gleich behandelt (|+3| = |โˆ’3|). Zweitens werden groรŸe Residuen รผberproportional bestraft: ein Residuum von 10 zรคhlt 100, nicht 10. OLS findet das einzige bโ‚€, bโ‚ fรผr das gilt: ฮฃeแตข = 0 und ฮฃeแตขยฒ ist minimal โ€” diese Lรถsung ist eindeutig.
I โ€” linear
II โ€” quadratisch
III โ€” AusreiรŸer
IV โ€” Leverage-Punkt
Alle vier Datensรคtze haben (nahezu) identische Kennwerte: bโ‚ โ‰ˆ 0.50, bโ‚€ โ‰ˆ 3.0, r โ‰ˆ .816, Rยฒ โ‰ˆ .667. Dennoch zeigen Scatterplot und Residualplot fundamental verschiedene Muster. Fazit: Koeffizienten und Rยฒ allein genรผgen nicht โ€” Residualdiagnostik ist Pflicht.
bโ‚€, bโ‚ und ฮฒ verstehen
Steigung, Achsenabschnitt und standardisierter Koeffizient โ€” visuell und formal
Regressionsgerade mit Koeffizienten-Visualisierung
bโ‚€
โ€”
bโ‚
โ€”
ฮฒ
โ€”
bโ‚: Pro +1 h Lernzeit steigt die erwartete Note um โ€” Punkte.
ฮฒ = r = โ€” โ€” bivariat gilt stets ฮฒ = r.
bโ‚€: Erwartete Note bei 0 h Lernzeit (extrapoliert, inhaltlich oft nicht sinnvoll).
Tutorial โ€” bโ‚€, bโ‚ und ฮฒ verstehen

Was Sie sehen
Die OLS-Gerade durch alle 30 Datenpunkte. Aktivieren Sie โ–ณ Steigung fรผr das Steigungsdreieck und โœ› Mittelwert fรผr den Schwerpunkt (xฬ„, ศณ) im Koordinatensystem.

bโ‚ = โ€” โ€” Steigung (unstandardisiert)
Pro +1 h Lernzeit steigt die erwartete Note um โ€” Punkte. Einheit: Punkte/Stunde. Interpretation: deskriptiv, kein Kausaleffekt. bโ‚ ist skalenabhรคngig.
Das Steigungsdreieck im Koordinatensystem zeigt konkret: +3 h Lernzeit โ†’ +โ€” Punkte (= 3 ยท bโ‚).

ฮฒ = โ€” โ€” standardisierter Koeffizient
Pro +1 SD in Xโ‚ steigt Y um ฮฒ SD. Bivariat gilt immer ฮฒ = r (Pearson-Korrelation). ฮฒ erlaubt den Vergleich von Prรคdiktoren unterschiedlicher Skalen innerhalb einer Studie.
Wichtig: ฮฒ gibt nicht direkt die Wichtigkeit an โ€” bei korrelierten Prรคdiktoren kann ฮฒ stark vom partiellen Effekt abweichen (โ†’ Modul โ‘ฃ).

bโ‚€ = โ€” โ€” Achsenabschnitt
Erwartete Note bei Xโ‚ = 0 h Lernzeit. Da 0 h auรŸerhalb des beobachteten Bereichs liegt, ist das eine Extrapolation โ€” inhaltlich meist nicht sinnvoll interpretierbar.

Schwerpunkt (xฬ„ = โ€” h | ศณ = โ€” Pkt)
Die OLS-Gerade lรคuft immer durch (xฬ„, ศณ) โ€” mathematisch zwingend, da bโ‚€ = ศณ โˆ’ bโ‚ยทxฬ„.

Berechnungsformeln:
bโ‚ = ฮฃ(xแตข โˆ’ x)(yแตข โˆ’ y) / ฮฃ(xแตข โˆ’ x)ยฒ = Cov(X,Y) / Var(X)
bโ‚€ = y โˆ’ bโ‚ ยท x  ยท  ฮฒ = bโ‚ ยท (SDX / SDY) = r  (bivariat)
bโ‚ (unstandardisiert) berichtet man, wenn die Einheit inhaltlich bedeutsam ist: โ€ž+1 h Lernzeit โ†’ +โ€” Punkte".

ฮฒ (standardisiert) erlaubt den Vergleich von Prรคdiktoren verschiedener Skalen innerhalb einer Studie. Achtung: ฮฒ variiert mit SD(X) und SD(Y) โ€” Vergleiche zwischen Studien sind nicht zulรคssig.

Im bivariaten OLS gilt stets: ฮฒ = r = โ€”. Im multiplen Modell (Modul โ‘ฃ) ist ฮฒ โ‰  r.
Modellgรผte & Varianzzerlegung
SST = SSR + RSS, Rยฒ, adjusted Rยฒ und die Annahmen des OLS-Modells
Gesamtvarianz (SST) โ€” Abweichungen vom Mittelwert ศณ
TSS = SSR + RSS
SSR
RSS
SSR = โ€” SSE = โ€”
Rยฒ
โ€”
adj. Rยฒ
โ€”
fยฒ
โ€”
r (Pearson)
โ€”
Rยฒ = SSR/TSS = โ€”% der Gesamtvarianz in Y werden durch Xโ‚ erklรคrt.
fยฒ = Rยฒ/(1โˆ’Rยฒ) = SSR/RSS:  klein โ‰ฅ .02 ยท mittel โ‰ฅ .15 ยท groรŸ โ‰ฅ .35
Tutorial โ€” Varianzzerlegung & Modellgรผte

Was Sie sehen
Modus TSS: ศณ als blau gestrichelte Linie; blaue Striche zeigen die Abweichung jedes Punktes von ศณ. Modus SSR + RSS: Zeigt die Residuen der OLS-Gerade โ€” grรผne Striche = positive Residuen (Punkt liegt รผber der Gerade), rote Striche = negative Residuen (Punkt liegt darunter). Der Balken zeigt das SSR : RSS-Verhรคltnis der Varianzzerlegung.

TSS = โ€” โ€” Total Sum of Squares
TSS = ฮฃ(yแตข โˆ’ ศณ)ยฒ. Gesamtvarianz in Y โ€” hรคngt nicht vom Modell ab.

SSR = โ€” (โ€”% von TSS) โ€” Sum of Squares Regression (Modell)
SSR = ฮฃ(ลทแตข โˆ’ ศณ)ยฒ. Wie weit liegen die vorhergesagten Werte ลทแตข vom Gesamtmittelwert ศณ entfernt? Das misst, wie viel Varianz das Modell erklรคrt. OLS maximiert SSR.

RSS = โ€” (โ€”% von TSS) โ€” Residual Sum of Squares
RSS = ฮฃeแตขยฒ โ€” nicht erklรคrte Varianz. TSS = SSR + RSS ist mathematisch exakt.

Rยฒ und fยฒ (Cohens EffektgrรถรŸe)
Rยฒ = SSR/TSS: Anteil erklรคrter Varianz. Achtung: Rยฒ steigt immer mit jedem weiteren Prรคdiktor! Adjusted Rยฒ korrigiert mit Strafterm pro Prรคdiktor.
fยฒ = Rยฒ/(1โˆ’Rยฒ) = โ€” โ†’ โ€” Effekt. Cohen (1988): .02 klein ยท .15 mittel ยท .35 groรŸ.

โ‘ 
Linearitรคt: Die Beziehung zwischen X und Y ist linear. Verletzung: Residual-vs-Fitted-Plot zeigt systematisches Muster. Abhilfe: Transformation oder polynomiale Terme.
โ‘ก
Unabhรคngigkeit: Beobachtungen sind unabhรคngig (keine Autokorrelation, kein Clustering). Verletzung bei Lรคngsschnitt- oder Nested-Daten โ†’ gemischte Modelle notwendig.
โ‘ข
Homoskedastizitรคt: Varianz der Residuen ist konstant รผber alle X-Werte โ€” kein Streufรคcher. Verletzung: heteroskedastizitรคtsrobuste Standardfehler (HC3) oder WLS.
โ‘ฃ
Normalverteilung der Residuen: Nur fรผr Inferenzstatistik nรถtig โ€” nicht fรผr die OLS-Schรคtzung selbst (Gauss-Markov-Theorem!). Bei n โ‰ฅ 30 greift der zentrale Grenzwertsatz.
โ‘ค
Keine perfekte Multikollinearitรคt (multiple Regression): Sind zwei Prรคdiktoren perfekt korreliert, ist (Xแต€X) nicht invertierbar. Hohe Kollinearitรคt blรคht Standardfehler auf โ†’ VIF > 10 kritisch. Siehe Modul โ‘ฃ.
Multiple Regression & Added Variable Plot
Was bedeutet โ€žunter Kontrolle von Xโ‚‚"? Partielle Slopes visuell verstehen.
Schritt โ‘  โ€” Bivariates Modell: Y ~ Xโ‚
Schritt
Korrelation Xโ‚โ†”Xโ‚‚
Koeffizientenvergleich
Modell bโ‚ ฮฒโ‚ Rยฒ
Bivariat โ€” โ€” โ€”
Partiell โ€” โ€” โ€”
AVP-Slope
โ€”
ฮ”bโ‚
โ€”
Schritt โ‘  zeigt die bivariate Regression Y auf Xโ‚ โ€” wie in Modul โ‘ . Das bivariate bโ‚ enthรคlt noch den Einfluss von Xโ‚‚, wenn Xโ‚ und Xโ‚‚ korreliert sind.
Tutorial โ€” Multiple Regression & AVP

Von der Geraden zur Ebene
Bivariat (Y ~ Xโ‚) ist die Lรถsung eine Gerade im 2D-Raum. Mit zwei Prรคdiktoren (Y ~ Xโ‚ + Xโ‚‚) wird sie zur Regressionsflรคche (Ebene) im 3D-Raum. bโ‚ ist die Steigung in Xโ‚-Richtung, bโ‚‚ in Xโ‚‚-Richtung โ€” jeweils bei festgehaltenem anderen Prรคdiktor.

Warum multiple Regression?
Xโ‚ (Lernzeit) und Xโ‚‚ (Schlaf) korrelieren mit rโ‚โ‚‚ = โ€”. Das bivariate Modell misst nicht den reinen Xโ‚-Effekt โ€” bโ‚ enthรคlt auch den Einfluss von Xโ‚‚. Das multiple Modell hรคlt Xโ‚‚ statistisch konstant.

Die Koeffizienten lesen (Tabelle links)
Bivariat bโ‚: Steigung aus Y ~ Xโ‚ allein โ€” enthรคlt Konfundierung durch Xโ‚‚.
Partiell bโ‚: Steigung aus Y ~ Xโ‚ + Xโ‚‚ โ€” bereinigt um Xโ‚‚.
ฮ”bโ‚: Die Differenz quantifiziert die Konfundierung. Bei rโ‚โ‚‚ = 0 ist ฮ”bโ‚ = 0.

Schritt โ‘  โ€” Bivariate Ausgangslage
Was Sie sehen: Die bivariate OLS-Gerade Y ~ Xโ‚ (Lernzeit โ†’ Note) โ€” identisch mit Modul โ‘ .
Tipp: Notieren Sie das bivariate bโ‚ (Tabelle links), wechseln Sie dann rโ‚โ‚‚ und vergleichen Sie.

Konfundierung im Vergleich
bivariat bโ‚ = โ€” ยท partiell bโ‚ = โ€” ยท ฮ”bโ‚ = โ€”
Je grรถรŸer rโ‚โ‚‚, desto mehr weicht das bivariate vom partiellen bโ‚ ab.

AVP-Prinzip: Ein Added Variable Plot (Partialregression) macht den partiellen Effekt von Xโ‚ auf Y sichtbar โ€” bereinigt um Xโ‚‚. Dazu wird Xโ‚‚ sowohl aus Y (e(Y|Xโ‚‚)) als auch aus Xโ‚ (e(Xโ‚|Xโ‚‚)) herausgerechnet. Die Steigung der Regressionslinie durch die Residualvektoren entspricht exakt dem partiellen Koeffizienten bโ‚ aus dem multiplen Modell.
Lernkarten โ€” OLS & Multiple Regression
โ‘  OLS-Kriterium
OLS minimiert die Summe der quadrierten Residuen: min ฮฃ(yแตข โˆ’ ลทแตข)ยฒ. Das Quadrieren hat zwei Grรผnde: Vorzeichen werden neutralisiert, und groรŸe Residuen werden รผberproportional stรคrker bestraft als kleine. Die Lรถsung ist eindeutig und liefert immer ฮฃeแตข = 0.
โ‘ก Koeffizient bโ‚
Interpretation: โ€žPro +1 Einheit X steigt der erwartete Wert von Y um bโ‚ Einheiten โ€” alle anderen Prรคdiktoren konstant gehalten (ceteris paribus)." Im bivariaten Fall: bโ‚ = ฮฃ(xแตขโˆ’xฬ„)(yแตขโˆ’ศณ) / ฮฃ(xแตขโˆ’xฬ„)ยฒ. Der Zรคhler ist die Kovarianz, der Nenner die Varianz von X.
โ‘ข Intercept bโ‚€
bโ‚€ ist der erwartete Y-Wert, wenn alle Prรคdiktoren gleich 0 sind. Das ist oft inhaltlich nicht sinnvoll (z. B. 0 Lernstunden, 0 Schlaf). bโ‚€ wird fรผr die Vorhersage benรถtigt, sollte aber meist nicht inhaltlich interpretiert werden. Immer gilt: ศณ = bโ‚€ + bโ‚ยทxฬ„.
โ‘ฃ Rยฒ und adj. Rยฒ
Rยฒ = SSR/SST โˆˆ [0, 1] โ€” Anteil erklรคrter Varianz. Rยฒ steigt mit jedem hinzugefรผgten Prรคdiktor, auch nutzlosen. Adjusted Rยฒ korrigiert dafรผr: adj.Rยฒ = 1 โˆ’ (1โˆ’Rยฒ)ยท(nโˆ’1)/(nโˆ’kโˆ’1). adj.Rยฒ sinkt, wenn ein neuer Prรคdiktor weniger erklรคrt als durch Zufall erwartet.
โ‘ค Partial Slope
bโ‚ im multiplen Modell ist nicht derselbe wie im bivariaten Modell โ€” er ist der Slope im Added Variable Plot (AVP): Regression von e(Y|Xโ‚‚) auf e(Xโ‚|Xโ‚‚). Dieser Wert entspricht dem Partial Slope: Effekt von Xโ‚ auf Y, nachdem der gemeinsame Anteil von Xโ‚‚ aus beiden herausgerechnet wurde.
โ‘ฅ Standardisierung ฮฒ
ฮฒ = b ยท (SD_X / SD_Y) โ€” der standardisierte Regressionskoeffizient. ฮฒ gibt an, um wie viele Standardabweichungen Y steigt, wenn X um eine SD steigt. Erlaubt Vergleich von Prรคdiktoren mit verschiedenen Skalen, aber nur innerhalb einer Stichprobe. Zwischen Studien sind ฮฒ-Werte wegen unterschiedlicher SDs nicht direkt vergleichbar.
? Hilfe โ€” OLS & Multiple Regression

Was ist OLS?

Ordinary Least Squares (OLS) ist das Standardverfahren zur Schรคtzung linearer Regressionsmodelle. Es findet diejenigen Koeffizienten bโ‚€ und bโ‚, die die Summe der quadrierten Residuen minimieren: min ฮฃ(yแตข โˆ’ ลทแตข)ยฒ. Die Lรถsung folgt aus den Normalgleichungen:

  • bโ‚ = ฮฃ(xแตขโˆ’xฬ„)(yแตขโˆ’ศณ) / ฮฃ(xแตขโˆ’xฬ„)ยฒ
  • bโ‚€ = ศณ โˆ’ bโ‚ยทxฬ„
โ–ธ Matrizennotation (fรผr Interessierte)
Im multiplen Fall mit Design-Matrix X (nร—(k+1), erste Spalte Einsen) und Vektor y:
b = (Xแต€X)โปยน Xแต€y
Voraussetzung: (Xแต€X) ist invertierbar โ†’ keine perfekte Multikollinearitรคt.

Koeffizienteninterpretation

bโ‚ (unstandardisiert): โ€žPro +1 Einheit X steigt ลถ um bโ‚ Einheiten, wenn alle anderen Prรคdiktoren konstant gehalten werden." Das โ€žceteris paribus" ist entscheidend โ€” im multiplen Modell ist bโ‚ ein partieller Effekt, kein marginaler Roheffekt.

ฮฒ (standardisiert): Vergleich von Prรคdiktoren unterschiedlicher Skalen. Vorsicht: ฮฒ ist stichprobenspezifisch und darf nicht zwischen Studien verglichen werden.

Rยฒ und Modellgรผte

Rยฒ = SSR/SST = 1 โˆ’ RSS/SST. Im bivariaten Fall gilt Rยฒ = rยฒ. Rยฒ steigt mit jedem Prรคdiktor, auch bei zufรคlligen Variablen (Freedman's Paradox). Adjusted Rยฒ korrigiert fรผr die Anzahl der Prรคdiktoren k:

adj.Rยฒ = 1 โˆ’ (1โˆ’Rยฒ)ยท(nโˆ’1)/(nโˆ’kโˆ’1)

EffektgrรถรŸe fยฒ

fยฒ = Rยฒ/(1โˆ’Rยฒ) โ€” EffektgrรถรŸe fรผr multiple Regression. Konventionen (Cohen 1988): klein โ‰ฅ .02, mittel โ‰ฅ .15, groรŸ โ‰ฅ .35. Besser als Konventionen: SESOI โ€” den kleinsten inhaltlich bedeutsamen Effekt vor der Studie definieren.

Wann versagt OLS?

  • Nichtlinearitรคt โ€” Residual-vs-Fitted-Plot zeigt Muster
  • Heteroskedastizitรคt โ€” Streufรคcher in Residualplot
  • AusreiรŸer/Leverage โ€” Einzelne Punkte bestimmen die Gerade (โ†’ Anscombe)
  • Multikollinearitรคt โ€” Hohe r(Xโ‚,Xโ‚‚) blรคht Standardfehler auf; VIF > 10 kritisch
  • Messfehler โ€” Attenuation von bโ‚ (Koeffizienten werden zur Null hin verzerrt)

Verwandte Tools im Bayes Thinking Lab