Lineares Modell interaktiv
Regression · Residuen · OLS · Bedingte Verteilungen
© Dr. Rainer Düsing · Interactive Tools by Claude
Schritt 1
Zeichne Datenpunkte — klicke in das Feld unten, um Datenpunkte zu setzen. Stell dir vor, du misst den Zusammenhang zwischen zwei Variablen: z.B. Lernstunden (x) und Testergebnis (y). Setze 8–15 Punkte.
Datenpunkte
Anzahl0
x-Bereich
y-Bereich
Anzeige
Was ist eine Regressionsgerade?
Eine Regressionsgerade beschreibt den linearen Zusammenhang zwischen zwei Variablen. Sie beantwortet: Wenn x um 1 steigt — wie viel ändert sich y im Durchschnitt?

Die Gerade hat zwei Parameter: den Achsenabschnitt a (wo schneidet die Gerade die y-Achse, wenn x=0?) und die Steigung b (wie steil ist die Linie?). Formel: ŷ = a + b · x

Warum ist sie nützlich? Weil sie erlaubt, für jeden x-Wert einen Vorhersagewert ŷ zu berechnen — auch für x-Werte die nicht in den Daten vorkommen. Außerdem fasst sie den Zusammenhang in zwei interpretierbare Zahlen zusammen: Gibt es überhaupt einen Zusammenhang (b ≠ 0)? Und wie stark ist er?

Warum die „beste" Gerade? Es gibt unendlich viele mögliche Geraden — die OLS-Gerade ist diejenige, die im Durchschnitt am nächsten an allen Datenpunkten liegt. Versuche selbst, sie zu finden: Jede andere Gerade hat einen höheren RSS-Wert.
Was sind Residuen?
Kein Datenpunkt liegt exakt auf der Geraden — die Abweichung zwischen dem vorhergesagten Wert (Punkt auf der Gerade) und dem echten Wert heißt Residuum.

Residuen sind das „was das Modell nicht erklärt". Eine gute Gerade hat kleine Residuen — sie liegt möglichst nahe an allen Punkten.

Residuen werden mit den roten senkrechten Linien visualisiert.
RSS — wie misst man die Güte?
Um alle Residuen zu einem einzigen Gütemaß zusammenzufassen, werden sie quadriert und aufsummiert: RSS = Σ(y − ŷ)²

Warum quadrieren? Damit sich positive und negative Residuen nicht aufheben. Große Abweichungen werden dabei stärker bestraft als kleine.

Die OLS-Gerade ist genau diejenige Gerade, die RSS minimiert — das ist der Sinn von „Ordinary Least Squares".
Bedingte Normalverteilungen — warum das wichtig ist
Das lineare Modell nimmt an: Die y-Werte um jeden x-Wert herum sind normalverteilt — mit Mittelwert auf der Regressionsgerade und konstanter Streuung σ.

Nicht die gesamte Verteilung von y muss normal sein — nur die Streuung um die Gerade. Das ist ein häufiges Missverständnis.

Schalte „Bedingte Verteilungen" ein — du siehst kleine Glockenkurven an verschiedenen x-Stellen, alle zentriert auf der Geraden.
ℹ Lineares Modell — Hilfe
Was lerne ich hier?
Was bedeutet es, eine Gerade durch Datenpunkte zu legen — und warum ist genau eine Gerade die „beste"? Dieses Tool beantwortet das in drei Schritten:
Schritt-für-Schritt
Tipp: Aktiviere Bedingte Verteilungen im OLS-Schritt — die kleinen Glockenkurven zeigen, was das Modell über die Streuung annimmt.
Was bedeuten die Kennzahlen?
RSS (Residual Sum of Squares) = Σ(y − ŷ)² — Summe der quadrierten Abweichungen. OLS minimiert diesen Wert exakt.

— Anteil der Varianz in y, der durch x erklärt wird. R²=1: perfekte Vorhersage. R²=0: die Gerade erklärt nichts.

σ — geschätzte Streuung der Residuen. Im Bayes-Modell entspricht σ dem Prior auf die Fehlerverteilung: y ~ Normal(μ, σ).
Warum das für Bayes wichtig ist
Das lineare Modell ist der Ausgangspunkt für alles Weitere. Im Bayesianischen Kontext: OLS entspricht Maximum Likelihood unter Normalverteilung. Sobald man Priors hinzufügt, entsteht daraus Bayesianische Regression — mit demselben Residualkonzept.
Danach → Maximum Likelihood: Warum OLS und MLE bei Normalverteilung dasselbe ergeben