Drei Szenarien
OLS-Regression setzt normalverteilte Fehler (errors ε) voraus.
Drei Szenarien aus der Körperbildforschung zeigen, was passiert wenn man es trotzdem erzwingt —
und wie ein GLM mit passender Verteilung die Situation löst.
①Therapieerfolg KVT — 0/1 → Bernoulli
②Body Checking — Zähldaten → Poisson
③Reaktionszeit Stroop — positiv-schief → Gamma
Problem
①LM — Normalverteilung (falsch)
→
②GLM — passende Verteilung (richtig)
→
③Fit-Vergleich: AIC & Residuen
LM mit Normalverteilung
⚠ Problematisch
Log-Likelihood (LM)—
AIC (LM)—
GLM mit passender Verteilung
✓ Besser
Log-Likelihood (GLM)—
AIC (GLM)—
Residuenverteilung & AIC-Vergleich
ΔAIC (LM − GLM)—
RMSE (immer vergleichbar — in y-Einheiten; kleiner = besser)
Linkfunktion
Was die Linkfunktion macht — visuell
Linearer Prädiktor η = a + b·x
Wertebereich: −∞ bis +∞
Wertebereich: −∞ bis +∞
→
E[y] = g⁻¹(η)
Wertebereich: eingeschränkt
Wertebereich: eingeschränkt
Weiter erkunden: Diese drei Szenarien sind der konzeptuelle Einstieg.
Das nächste Tool in Section I zeigt, wie GLMs die bedingten Verteilungen korrekt modellieren —
für jede Familie und jeden x-Wert separat.
→ Bedingte Verteilungen im GLM · → GLM in 3D · → GLMM interaktiv
→ Bedingte Verteilungen im GLM · → GLM in 3D · → GLMM interaktiv
Konzepte
Was du hier lernst
Was passiert wenn man die falsche Likelihood wählt?
Das LM minimiert RSS — was äquivalent zur Maximum-Likelihood-Schätzung unter
Normalverteilungsannahme ist. Wenn diese Annahme verletzt ist, sind die
Schätzer zwar noch berechenbar, aber:
• Vorhersagen landen außerhalb des gültigen Wertebereichs (p < 0 oder p > 1)
• Die Log-Likelihood ist suboptimal — AIC/BIC schlechter
• Residuen sind systematisch nicht normalverteilt
• Inferenz (Konfidenzintervalle, Tests) ist verzerrt
• Vorhersagen landen außerhalb des gültigen Wertebereichs (p < 0 oder p > 1)
• Die Log-Likelihood ist suboptimal — AIC/BIC schlechter
• Residuen sind systematisch nicht normalverteilt
• Inferenz (Konfidenzintervalle, Tests) ist verzerrt
Was ist eine Linkfunktion — und warum braucht man sie?
Das Problem: Der lineare Prädiktor η = a + b·x kann jeden Wert annehmen
(−∞ bis +∞). Aber viele Outcome-Variablen haben einen eingeschränkten Wertebereich:
Wahrscheinlichkeiten liegen in (0,1), Zählraten müssen positiv sein.
Die Lösung: Eine Linkfunktion transformiert den Erwartungswert in einen Bereich, für den lineare Modellierung sinnvoll ist:
Logit-Link (Bernoulli):
Der Logit bildet p ∈ (0,1) auf (−∞,+∞) ab. Umgekehrt: jedes η ergibt ein p = 1/(1+e^(−η)) ∈ (0,1). Die S-Kurve im Plot.
Log-Link (Poisson, Gamma):
Logarithmus bildet λ > 0 auf (−∞,+∞) ab. Umgekehrt: λ = e^η ist immer positiv. Die exponentielle Kurve im Plot.
Identitäts-Link (Normal):
Keine Transformation — das LM ist ein GLM-Spezialfall mit Normalverteilung und Identitätslink.
Die Lösung: Eine Linkfunktion transformiert den Erwartungswert in einen Bereich, für den lineare Modellierung sinnvoll ist:
Logit-Link (Bernoulli):
log(p/(1-p)) = ηDer Logit bildet p ∈ (0,1) auf (−∞,+∞) ab. Umgekehrt: jedes η ergibt ein p = 1/(1+e^(−η)) ∈ (0,1). Die S-Kurve im Plot.
Log-Link (Poisson, Gamma):
log(λ) = ηLogarithmus bildet λ > 0 auf (−∞,+∞) ab. Umgekehrt: λ = e^η ist immer positiv. Die exponentielle Kurve im Plot.
Identitäts-Link (Normal):
E[y] = ηKeine Transformation — das LM ist ein GLM-Spezialfall mit Normalverteilung und Identitätslink.
Wie wählt man die richtige Familie — mit Beispielen
Schaue auf die Natur der Outcome-Variable:
Bernoulli (Szenario 1): Hat jemand nach KVT eine klinisch bedeutsame Verbesserung der Körperbildstörung erreicht? (0=nein, 1=ja). Prädiktor: Therapeutische Allianz (WAI-S, z-transformiert). Allgemein: binäre Outcomes, Diagnosen, Entscheidungen.
Poisson (Szenario 2): Wie oft täglich schaut jemand negativ bewertete Körperregionen im Spiegel an? (Body Checking, 0, 1, 2, …). Allgemein: Zähldaten, Ereignishäufigkeiten. Cave: Bei Überdispersion → Negativ-Binomial.
Gamma (Szenario 3): Wie lange (ms) braucht jemand im emotionalen Stroop-Test mit körperbezogenen Wörtern? Allgemein: Reaktionszeiten, Wartezeiten, Kosten — immer positiv, rechtsschief.
Normal/LM: z-standardisierte Fragebogenwerte, IQ, stetige symmetrische Maße ohne natürlichen Nullpunkt als harte Grenze.
Residuen prüfen via Posterior Predictive Check — AIC/BIC für Vergleich alternativer Familien auf denselben Daten.
Bernoulli (Szenario 1): Hat jemand nach KVT eine klinisch bedeutsame Verbesserung der Körperbildstörung erreicht? (0=nein, 1=ja). Prädiktor: Therapeutische Allianz (WAI-S, z-transformiert). Allgemein: binäre Outcomes, Diagnosen, Entscheidungen.
Poisson (Szenario 2): Wie oft täglich schaut jemand negativ bewertete Körperregionen im Spiegel an? (Body Checking, 0, 1, 2, …). Allgemein: Zähldaten, Ereignishäufigkeiten. Cave: Bei Überdispersion → Negativ-Binomial.
Gamma (Szenario 3): Wie lange (ms) braucht jemand im emotionalen Stroop-Test mit körperbezogenen Wörtern? Allgemein: Reaktionszeiten, Wartezeiten, Kosten — immer positiv, rechtsschief.
Normal/LM: z-standardisierte Fragebogenwerte, IQ, stetige symmetrische Maße ohne natürlichen Nullpunkt als harte Grenze.
Residuen prüfen via Posterior Predictive Check — AIC/BIC für Vergleich alternativer Familien auf denselben Daten.
ΔAIC als Entscheidungshilfe
AIC bestraft schlechten Fit und Parameteranzahl: AIC = −2ℓ̂ + 2k
Faustregel für ΔAIC = AIC(LM) − AIC(GLM):
• ΔAIC < 2: kaum Unterschied
• ΔAIC 2–6: moderater Vorteil für GLM
• ΔAIC > 10: starker Vorteil, LM klar schlechter
Hier siehst du den ΔAIC live. Bei binären Daten und Zähldaten ist der Vorteil des GLM typischerweise groß — bei stetigen, symmetrischen Daten kann das LM ausreichend sein.
Faustregel für ΔAIC = AIC(LM) − AIC(GLM):
• ΔAIC < 2: kaum Unterschied
• ΔAIC 2–6: moderater Vorteil für GLM
• ΔAIC > 10: starker Vorteil, LM klar schlechter
Hier siehst du den ΔAIC live. Bei binären Daten und Zähldaten ist der Vorteil des GLM typischerweise groß — bei stetigen, symmetrischen Daten kann das LM ausreichend sein.