Maximum Likelihood
Likelihood Β· Log-Likelihood Β· MLE Β· Normal Β· Poisson Β· Bernoulli
Β© Dr. Rainer DΓΌsing Β· Interactive Tools by Claude
Maximum Likelihood β€” welcher Parameter macht die beobachteten Daten am plausibelsten?  Β·  Likelihood β‰  Wahrscheinlichkeit
Stufe 1
Schritt 1 β€” Datenpunkt platzieren
Schritt 2 β€” Verteilung verschieben β†’ Likelihood ablesen
Schritt 1: Datenpunkt y setzen (Οƒ = 1, fest)
Datenpunkt y (beobachtet, fest) β€”
Verteilung zentriert bei ΞΌ β€”
Dichtewert = Likelihood L(ΞΌ|y) β€”
Likelihood-Kurve: wie hoch ist f(y|ΞΌ) fΓΌr jedes ΞΌ?
Maximum bei ΞΌ = β€” (= y)
Log-Likelihood β„“(ΞΌ|y) β€”
Die rechte Kurve zeigt fΓΌr jedes mΓΆgliche ΞΌ, wie hoch die Dichtefunktion am Datenpunkt y wΓ€re. Das Maximum liegt genau bei ΞΌ = y. Das ist MLE fΓΌr einen Datenpunkt.
Οƒ = 1.0 (fest)
β‘  Datenpunkt y 1.5
β‘‘ Verteilung schieben: ΞΌ -2.00
Likelihood β‰  Wahrscheinlichkeit β€” der zentrale Unterschied
P(y | ΞΈ): Wahrscheinlichkeit der Daten y, wenn Parameter ΞΈ bekannt ist. ΞΈ fest, y unbekannt.

L(ΞΈ | y): Likelihood des Parameters ΞΈ, wenn die Daten y beobachtet sind. y fest, ΞΈ unbekannt.

Dieselbe mathematische Formel β€” vollstΓ€ndig andere Interpretation.

Likelihood summiert sich nicht auf 1 und ist keine Wahrscheinlichkeit ΓΌber ΞΈ. Bei stetigen Verteilungen ist L der Dichtewert β€” dieser kann > 1 sein (Οƒ in Stufe 2 sehr klein stellen, dann steigt die Dichtefunktion ΓΌber 1).
Warum Log-Likelihood? β€” Stufe 1 & 2
Die Likelihood von n Beobachtungen ist das Produkt der Einzeldichten: L(ΞΈ|y₁…yβ‚™) = ∏ᡒ f(yα΅’|ΞΈ)

Bei vielen kleinen Werten (z.B. 0.04 Γ— 0.09 Γ— … Γ— 0.06) wird das Produkt extrem klein β€” numerischer Underflow. Stufe 2 zeigt das live: das Produkt der roten Linien wird im Infotext angezeigt und schrumpft rasant.

Der Logarithmus macht aus dem Produkt eine Summe: β„“(ΞΈ) = Ξ£α΅’ log f(yα΅’|ΞΈ)

Warum funktioniert das? Der Logarithmus ist eine monoton steigende Funktion β€” wenn L(ΞΈ) grâßer wird, wird log L(ΞΈ) ebenfalls grâßer, und dort wo L(ΞΈ) sein Maximum erreicht, hat auch log L(ΞΈ) sein Maximum. Das Maximum liegt also an genau derselben Stelle ΞΈΜ‚ β€” egal ob man L(ΞΈ) oder β„“(ΞΈ) maximiert.

Der entscheidende praktische Vorteil: Statt tausender winzig kleiner Zahlen zu multiplizieren (was zu numerischem Underflow fΓΌhrt, d.h. der Computer rechnet einfach 0), addiert man nun handhabbare negative Zahlen. Kein PrΓ€zisionsverlust, keine Rundungsfehler.
MLE maximiert daher immer β„“(ΞΈ) = log L(ΞΈ).
MLE β€” das Prinzip & SchΓ€tzer β€” Stufe 1 & 2
Maximum Likelihood Estimation sucht ΞΈ, das die beobachteten Daten am plausibelsten macht:

ΞΈΜ‚ = argmax β„“(ΞΈ|y)

Das ist kein Urteil ΓΌber ΞΈ selbst β€” nur ΓΌber seine KompatibilitΓ€t mit den Daten. Andere ΞΈ-Werte sind nicht unmΓΆglich, nur weniger plausibel.

Analytische MLE-SchΓ€tzer (Normal):
ΞΌΜ‚ = Θ³  Β·  ΟƒΜ‚Β² = Ξ£(yα΅’βˆ’Θ³)Β²/n  (biased β€” n statt nβˆ’1!)

In Stufe 1 sieht man: ΞΌΜ‚ = y (ein Punkt), in Stufe 2: ΞΌΜ‚ = Θ³ (alle Punkte).
Mehrdimensionales MLE: ΞΌ und Οƒ gleichzeitig β€” Stufe 2
MLE kann mehrere Parameter gleichzeitig schΓ€tzen β€” ein wichtiger Vorteil gegenΓΌber einfachen MomentenschΓ€tzern.

FΓΌr die Normalverteilung gibt es zwei unbekannte Parameter: ΞΌ (Lage) und Οƒ (Streuung). Die Log-Likelihood wird dann zu einer FlΓ€che ΓΌber dem (ΞΌ, Οƒ)-Raum β€” ein Gebirge statt einer Kurve. Der gemeinsame MLE liegt am Gipfel dieser FlΓ€che:

ΞΌΜ‚ = Θ³    ΟƒΜ‚ = √(Ξ£(yα΅’βˆ’Θ³)Β²/n)

In Stufe 2: β€žAuch Οƒ variieren" aktivieren β†’ Heatmap zeigt die 2D-Landschaft. Der helle Punkt ist der gemeinsame Gipfel. Dieses Prinzip skaliert auf beliebig viele Parameter β€” so schΓ€tzt lm() und glm() in R intern.
MLE ist allgemein β€” Poisson & Bernoulli β€” Stufe 3
MLE funktioniert fΓΌr jede parametrische Familie β€” nicht nur Normal. Das ist das Fundament von GLMs:

Poisson (Trainingsstunden/Woche): Ξ»Μ‚ = Θ³  Β·  Log-Likelihood: Ξ£α΅’ [yα΅’Β·log(Ξ») βˆ’ Ξ»]
Bernoulli (Mindestleistung 0/1): pΜ‚ = Anteil Einsen  Β·  Log-Likelihood: Ξ£α΅’ [yα΅’Β·log(p) + (1βˆ’yα΅’)Β·log(1βˆ’p)]

In Stufe 3 zwischen den Familien wechseln: Die Likelihood-Landschaft verΓ€ndert ihre Form β€” Parabel fΓΌr Bernoulli, asymmetrisch fΓΌr Poisson β€” aber der Mechanismus ist identisch: finde den Gipfel.
Modellvergleich mit AIC & BIC β€” Stufe 3
Der maximierte Log-Likelihood-Wert β„“Μ‚ lΓ€sst sich direkt fΓΌr Modellvergleiche nutzen:

AIC = βˆ’2Β·β„“Μ‚ + 2k  (k = Anzahl Parameter)
BIC = βˆ’2Β·β„“Μ‚ + kΒ·log(n)

Kleinerer AIC/BIC = bessere Passung bei gleicher KomplexitΓ€t. AIC bestraft weniger stark als BIC β€” bei großem n bevorzugt BIC sparsamere Modelle.

Anwendungsbeispiel: Passt Poisson oder Negativ-Binomial besser auf die Trainingsstunden-Daten? Gleiche Daten, verschiedene Familien β€” AIC/BIC entscheiden. In Stufe 3 werden AIC und BIC live berechnet.
β„Ή Maximum Likelihood β€” Hilfe
Was lerne ich hier?
Dieses Tool erklΓ€rt Maximum Likelihood Estimation (MLE) β€” einen der wichtigsten SchΓ€tzmechanismen der Statistik. Und es macht einen entscheidenden Unterschied klar: Likelihood ist nicht Wahrscheinlichkeit.
Die drei Stufen
Likelihood β‰  Wahrscheinlichkeit
Wahrscheinlichkeit: Parameter fix β†’ wie wahrscheinlich sind diese Daten?
Likelihood: Daten fix, beobachtet β†’ wie plausibel ist dieser Parameter?

Die Likelihood ist keine Wahrscheinlichkeitsverteilung ΓΌber den Parameter β€” sie integriert nicht zu 1. Erst ein Prior macht daraus einen Posterior (Bayes-Theorem).
Warum das fΓΌr Bayes wichtig ist
MLE liefert den plausibelsten Parameter ohne Prior-Information. Bayesianische SchΓ€tzung gewichtet diese Likelihood mit einem Prior: Posterior ∝ Likelihood Γ— Prior. Mit flachem Prior β†’ Posterior-Modus β‰ˆ MLE. Das macht MLE zum konzeptuellen Fundament fΓΌr alles Weitere.
Danach β†’ Vom LM zum GLM: Linkfunktionen und warum GLMs dieselbe MLE-Logik auf andere Verteilungen anwenden