Vom LM zum GLM
Falsche Likelihood · Passung vergleichen · Linkfunktion · Verteilungswahl
© Dr. Rainer Düsing · Interactive Tools by Claude
Das Problem: Ein lineares Modell nimmt immer normalverteilte Residuen an. Was wenn die Daten binär, Zähldaten oder positiv-schief sind? Drei Szenarien aus der Körperbildforschung zeigen, was passiert wenn man trotzdem ein LM erzwingt — und wie ein GLM mit passender Verteilung die Situation löst.

Szenario 1: Therapieerfolg (KVT) — 0/1  ·  Szenario 2: Body Checking — Zähldaten  ·  Szenario 3: Reaktionszeiten (Stroop) — positiv-schief
Problem
LM mit Normalverteilung ⚠ Problematisch
Log-Likelihood (LM)
AIC (LM)
GLM mit passender Verteilung ✓ Besser
Log-Likelihood (GLM)
AIC (GLM)
Residuenverteilung & AIC-Vergleich
ΔAIC (LM − GLM)
■ LM-AIC
■ GLM-AIC
RMSE (immer vergleichbar — in y-Einheiten; kleiner = besser)
■ LM-RMSE
■ GLM-RMSE
Stichprobengröße n 50
Was die Linkfunktion macht — visuell
Linearer Prädiktor η = a + b·x
Wertebereich: −∞ bis +∞
Was passiert wenn man die falsche Likelihood wählt?
Das LM minimiert RSS — was äquivalent zur Maximum-Likelihood-Schätzung unter Normalverteilungsannahme ist. Wenn diese Annahme verletzt ist, sind die Schätzer zwar noch berechenbar, aber:

• Vorhersagen landen außerhalb des gültigen Wertebereichs (p < 0 oder p > 1)
• Die Log-Likelihood ist suboptimal — AIC/BIC schlechter
• Residuen sind systematisch nicht normalverteilt
• Inferenz (Konfidenzintervalle, Tests) ist verzerrt
Was ist eine Linkfunktion — und warum braucht man sie?
Das Problem: Der lineare Prädiktor η = a + b·x kann jeden Wert annehmen (−∞ bis +∞). Aber viele Outcome-Variablen haben einen eingeschränkten Wertebereich: Wahrscheinlichkeiten liegen in (0,1), Zählraten müssen positiv sein.

Die Lösung: Eine Linkfunktion transformiert den Erwartungswert in einen Bereich, für den lineare Modellierung sinnvoll ist:

Logit-Link (Bernoulli): log(p/(1-p)) = η
Der Logit bildet p ∈ (0,1) auf (−∞,+∞) ab. Umgekehrt: jedes η ergibt ein p = 1/(1+e^(−η)) ∈ (0,1). Die S-Kurve im Plot.

Log-Link (Poisson, Gamma): log(λ) = η
Logarithmus bildet λ > 0 auf (−∞,+∞) ab. Umgekehrt: λ = e^η ist immer positiv. Die exponentielle Kurve im Plot.

Identitäts-Link (Normal): E[y] = η
Keine Transformation — das LM ist ein GLM-Spezialfall mit Normalverteilung und Identitätslink.
Wie wählt man die richtige Familie — mit Beispielen
Schaue auf die Natur der Outcome-Variable:

Bernoulli (Szenario 1): Hat jemand nach KVT eine klinisch bedeutsame Verbesserung der Körperbildstörung erreicht? (0=nein, 1=ja). Prädiktor: Therapeutische Allianz (WAI-S, z-transformiert). Allgemein: binäre Outcomes, Diagnosen, Entscheidungen.

Poisson (Szenario 2): Wie oft täglich schaut jemand negativ bewertete Körperregionen im Spiegel an? (Body Checking, 0, 1, 2, …). Allgemein: Zähldaten, Ereignishäufigkeiten. Cave: Bei Überdispersion → Negativ-Binomial.

Gamma (Szenario 3): Wie lange (ms) braucht jemand im emotionalen Stroop-Test mit körperbezogenen Wörtern? Allgemein: Reaktionszeiten, Wartezeiten, Kosten — immer positiv, rechtsschief.

Normal/LM: z-standardisierte Fragebogenwerte, IQ, stetige symmetrische Maße ohne natürlichen Nullpunkt als harte Grenze.

Residuen prüfen via Posterior Predictive Check — AIC/BIC für Vergleich alternativer Familien auf denselben Daten.
ΔAIC als Entscheidungshilfe
AIC bestraft schlechten Fit und Parameteranzahl: AIC = −2ℓ̂ + 2k

Faustregel für ΔAIC = AIC(LM) − AIC(GLM):
• ΔAIC < 2: kaum Unterschied
• ΔAIC 2–6: moderater Vorteil für GLM
• ΔAIC > 10: starker Vorteil, LM klar schlechter

Hier siehst du den ΔAIC live. Bei binären Daten und Zähldaten ist der Vorteil des GLM typischerweise groß — bei stetigen, symmetrischen Daten kann das LM ausreichend sein.
ℹ Vom LM zum GLM — Hilfe
Was lerne ich hier?
Dieses Tool zeigt, warum ein lineares Modell (LM) für bestimmte Datentypen strukturell falsch ist — und wie ein GLM mit passender Verteilung das Problem löst.
Die drei Szenarien
Linkfunktion — kurz erklärt
Der lineare Prädiktor η = a + b·x kann jeden Wert annehmen (−∞ bis +∞). Viele Outcomes haben aber einen eingeschränkten Wertebereich:

Logit-Link (Bernoulli): log(p/(1-p)) = η → jedes η ergibt ein p ∈ (0,1)
Log-Link (Poisson, Gamma): log(λ) = η → λ = e^η ist immer positiv
Identität (Normal): E[y] = η — das klassische LM
AIC-Vergleich lesen
ΔAIC = AIC(LM) − AIC(GLM) — je größer, desto schlechter das LM.
Faustregeln: < 2 = kaum Unterschied · 2–10 = moderater Vorteil · > 10 = LM klar ungeeignet.

Wichtig: Beide Modelle werden mit derselben Likelihood bewertet — fairer Vergleich.
Warum das für Bayes wichtig ist
Die Wahl der Likelihood ist in Bayes genauso zentral wie in MLE. Ein Bayes-Modell besteht aus Likelihood × Prior — wählt man die falsche Likelihood (z.B. Normal für 0/1-Daten), ist das Modell strukturell falsch, egal wie gut der Prior ist.
Weiter → GLM Bedingte Verteilungen: wie GLMs für jeden x-Wert eine eigene Verteilung modellieren