Maximum Likelihood β welcher Parameter macht die beobachteten Daten am plausibelsten?
Β· Likelihood β Wahrscheinlichkeit
Stufe 1
Schritt 1 β Datenpunkt platzieren
Schritt 2 β Verteilung verschieben β Likelihood ablesen
Schritt 1: Datenpunkt y setzen (Ο = 1, fest)
Datenpunkt y (beobachtet, fest)
β
Verteilung zentriert bei ΞΌ
β
Dichtewert = Likelihood L(ΞΌ|y)
β
Likelihood-Kurve: wie hoch ist f(y|ΞΌ) fΓΌr jedes ΞΌ?
Maximum bei ΞΌ =
β (= y)
Log-Likelihood β(ΞΌ|y)
β
Die rechte Kurve zeigt fΓΌr jedes mΓΆgliche ΞΌ, wie hoch die Dichtefunktion
am Datenpunkt y wΓ€re. Das Maximum liegt genau bei ΞΌ = y.
Das ist MLE fΓΌr einen Datenpunkt.
Likelihood β Wahrscheinlichkeit β der zentrale Unterschied
P(y | ΞΈ): Wahrscheinlichkeit der Daten y, wenn Parameter ΞΈ bekannt ist.
ΞΈ fest, y unbekannt.
L(ΞΈ | y): Likelihood des Parameters ΞΈ, wenn die Daten y beobachtet sind. y fest, ΞΈ unbekannt.
Dieselbe mathematische Formel β vollstΓ€ndig andere Interpretation.
Likelihood summiert sich nicht auf 1 und ist keine Wahrscheinlichkeit ΓΌber ΞΈ. Bei stetigen Verteilungen ist L der Dichtewert β dieser kann > 1 sein (Ο in Stufe 2 sehr klein stellen, dann steigt die Dichtefunktion ΓΌber 1).
L(ΞΈ | y): Likelihood des Parameters ΞΈ, wenn die Daten y beobachtet sind. y fest, ΞΈ unbekannt.
Dieselbe mathematische Formel β vollstΓ€ndig andere Interpretation.
Likelihood summiert sich nicht auf 1 und ist keine Wahrscheinlichkeit ΓΌber ΞΈ. Bei stetigen Verteilungen ist L der Dichtewert β dieser kann > 1 sein (Ο in Stufe 2 sehr klein stellen, dann steigt die Dichtefunktion ΓΌber 1).
Warum Log-Likelihood? β Stufe 1 & 2
Die Likelihood von n Beobachtungen ist das Produkt der Einzeldichten:
Bei vielen kleinen Werten (z.B. 0.04 Γ 0.09 Γ β¦ Γ 0.06) wird das Produkt extrem klein β numerischer Underflow. Stufe 2 zeigt das live: das Produkt der roten Linien wird im Infotext angezeigt und schrumpft rasant.
Der Logarithmus macht aus dem Produkt eine Summe:
Warum funktioniert das? Der Logarithmus ist eine monoton steigende Funktion β wenn L(ΞΈ) grΓΆΓer wird, wird log L(ΞΈ) ebenfalls grΓΆΓer, und dort wo L(ΞΈ) sein Maximum erreicht, hat auch log L(ΞΈ) sein Maximum. Das Maximum liegt also an genau derselben Stelle ΞΈΜ β egal ob man L(ΞΈ) oder β(ΞΈ) maximiert.
Der entscheidende praktische Vorteil: Statt tausender winzig kleiner Zahlen zu multiplizieren (was zu numerischem Underflow fΓΌhrt, d.h. der Computer rechnet einfach 0), addiert man nun handhabbare negative Zahlen. Kein PrΓ€zisionsverlust, keine Rundungsfehler.
MLE maximiert daher immer β(ΞΈ) = log L(ΞΈ).
L(ΞΈ|yββ¦yβ) = βα΅’ f(yα΅’|ΞΈ)Bei vielen kleinen Werten (z.B. 0.04 Γ 0.09 Γ β¦ Γ 0.06) wird das Produkt extrem klein β numerischer Underflow. Stufe 2 zeigt das live: das Produkt der roten Linien wird im Infotext angezeigt und schrumpft rasant.
Der Logarithmus macht aus dem Produkt eine Summe:
β(ΞΈ) = Ξ£α΅’ log f(yα΅’|ΞΈ)Warum funktioniert das? Der Logarithmus ist eine monoton steigende Funktion β wenn L(ΞΈ) grΓΆΓer wird, wird log L(ΞΈ) ebenfalls grΓΆΓer, und dort wo L(ΞΈ) sein Maximum erreicht, hat auch log L(ΞΈ) sein Maximum. Das Maximum liegt also an genau derselben Stelle ΞΈΜ β egal ob man L(ΞΈ) oder β(ΞΈ) maximiert.
Der entscheidende praktische Vorteil: Statt tausender winzig kleiner Zahlen zu multiplizieren (was zu numerischem Underflow fΓΌhrt, d.h. der Computer rechnet einfach 0), addiert man nun handhabbare negative Zahlen. Kein PrΓ€zisionsverlust, keine Rundungsfehler.
MLE maximiert daher immer β(ΞΈ) = log L(ΞΈ).
MLE β das Prinzip & SchΓ€tzer β Stufe 1 & 2
Maximum Likelihood Estimation sucht ΞΈ, das die beobachteten Daten
am plausibelsten macht:
Das ist kein Urteil ΓΌber ΞΈ selbst β nur ΓΌber seine KompatibilitΓ€t mit den Daten. Andere ΞΈ-Werte sind nicht unmΓΆglich, nur weniger plausibel.
Analytische MLE-SchΓ€tzer (Normal):
ΞΌΜ = Θ³ Β· ΟΜΒ² = Ξ£(yα΅’βΘ³)Β²/n (biased β n statt nβ1!)
In Stufe 1 sieht man: ΞΌΜ = y (ein Punkt), in Stufe 2: ΞΌΜ = Θ³ (alle Punkte).
ΞΈΜ = argmax β(ΞΈ|y)Das ist kein Urteil ΓΌber ΞΈ selbst β nur ΓΌber seine KompatibilitΓ€t mit den Daten. Andere ΞΈ-Werte sind nicht unmΓΆglich, nur weniger plausibel.
Analytische MLE-SchΓ€tzer (Normal):
ΞΌΜ = Θ³ Β· ΟΜΒ² = Ξ£(yα΅’βΘ³)Β²/n (biased β n statt nβ1!)
In Stufe 1 sieht man: ΞΌΜ = y (ein Punkt), in Stufe 2: ΞΌΜ = Θ³ (alle Punkte).
Mehrdimensionales MLE: ΞΌ und Ο gleichzeitig β Stufe 2
MLE kann mehrere Parameter gleichzeitig schΓ€tzen β ein wichtiger Vorteil gegenΓΌber
einfachen MomentenschΓ€tzern.
FΓΌr die Normalverteilung gibt es zwei unbekannte Parameter: ΞΌ (Lage) und Ο (Streuung). Die Log-Likelihood wird dann zu einer FlΓ€che ΓΌber dem (ΞΌ, Ο)-Raum β ein Gebirge statt einer Kurve. Der gemeinsame MLE liegt am Gipfel dieser FlΓ€che:
In Stufe 2: βAuch Ο variieren" aktivieren β Heatmap zeigt die 2D-Landschaft. Der helle Punkt ist der gemeinsame Gipfel. Dieses Prinzip skaliert auf beliebig viele Parameter β so schΓ€tzt lm() und glm() in R intern.
FΓΌr die Normalverteilung gibt es zwei unbekannte Parameter: ΞΌ (Lage) und Ο (Streuung). Die Log-Likelihood wird dann zu einer FlΓ€che ΓΌber dem (ΞΌ, Ο)-Raum β ein Gebirge statt einer Kurve. Der gemeinsame MLE liegt am Gipfel dieser FlΓ€che:
ΞΌΜ = Θ³ ΟΜ = β(Ξ£(yα΅’βΘ³)Β²/n)In Stufe 2: βAuch Ο variieren" aktivieren β Heatmap zeigt die 2D-Landschaft. Der helle Punkt ist der gemeinsame Gipfel. Dieses Prinzip skaliert auf beliebig viele Parameter β so schΓ€tzt lm() und glm() in R intern.
MLE ist allgemein β Poisson & Bernoulli β Stufe 3
MLE funktioniert fΓΌr jede parametrische Familie β nicht nur Normal.
Das ist das Fundament von GLMs:
Poisson (Trainingsstunden/Woche): Ξ»Μ = Θ³ Β· Log-Likelihood: Ξ£α΅’ [yα΅’Β·log(Ξ») β Ξ»]
Bernoulli (Mindestleistung 0/1): pΜ = Anteil Einsen Β· Log-Likelihood: Ξ£α΅’ [yα΅’Β·log(p) + (1βyα΅’)Β·log(1βp)]
In Stufe 3 zwischen den Familien wechseln: Die Likelihood-Landschaft verΓ€ndert ihre Form β Parabel fΓΌr Bernoulli, asymmetrisch fΓΌr Poisson β aber der Mechanismus ist identisch: finde den Gipfel.
Poisson (Trainingsstunden/Woche): Ξ»Μ = Θ³ Β· Log-Likelihood: Ξ£α΅’ [yα΅’Β·log(Ξ») β Ξ»]
Bernoulli (Mindestleistung 0/1): pΜ = Anteil Einsen Β· Log-Likelihood: Ξ£α΅’ [yα΅’Β·log(p) + (1βyα΅’)Β·log(1βp)]
In Stufe 3 zwischen den Familien wechseln: Die Likelihood-Landschaft verΓ€ndert ihre Form β Parabel fΓΌr Bernoulli, asymmetrisch fΓΌr Poisson β aber der Mechanismus ist identisch: finde den Gipfel.
Modellvergleich mit AIC & BIC β Stufe 3
Der maximierte Log-Likelihood-Wert βΜ lΓ€sst sich direkt fΓΌr Modellvergleiche nutzen:
AIC = β2Β·βΜ + 2k (k = Anzahl Parameter)
BIC = β2Β·βΜ + kΒ·log(n)
Kleinerer AIC/BIC = bessere Passung bei gleicher KomplexitΓ€t. AIC bestraft weniger stark als BIC β bei groΓem n bevorzugt BIC sparsamere Modelle.
Anwendungsbeispiel: Passt Poisson oder Negativ-Binomial besser auf die Trainingsstunden-Daten? Gleiche Daten, verschiedene Familien β AIC/BIC entscheiden. In Stufe 3 werden AIC und BIC live berechnet.
AIC = β2Β·βΜ + 2k (k = Anzahl Parameter)
BIC = β2Β·βΜ + kΒ·log(n)
Kleinerer AIC/BIC = bessere Passung bei gleicher KomplexitΓ€t. AIC bestraft weniger stark als BIC β bei groΓem n bevorzugt BIC sparsamere Modelle.
Anwendungsbeispiel: Passt Poisson oder Negativ-Binomial besser auf die Trainingsstunden-Daten? Gleiche Daten, verschiedene Familien β AIC/BIC entscheiden. In Stufe 3 werden AIC und BIC live berechnet.