Maximum Likelihood
Likelihood · Log-Likelihood · MLE · Normal · Poisson · Bernoulli
© Dr. Rainer Düsing · Interactive Tools by Claude
Die Grundidee: Maximum Likelihood
Wir haben Daten beobachtet — sie sind fest und unveränderlich. Was wir nicht kennen, ist der dahinterliegende Parameter (z.B. der wahre Mittelwert μ der Grundgesamtheit).

Was ist eine Dichtefunktion? Die Kurve f(y|μ) zeigt für jeden möglichen Wert y, wie „dicht" die Wahrscheinlichkeitsmasse liegt — also wie typisch dieser Wert bei gegebenem μ wäre. Hohe Dichte an einer Stelle bedeutet: dieser Wert wäre gut vereinbar mit μ.

Was ist Likelihood? Dreht die Frage um: nicht „wie wahrscheinlich ist y, wenn μ bekannt ist?", sondern „welches μ macht die beobachteten y am plausibelsten?". Dazu schieben wir die gedachte Verteilung über den Wertebereich und lesen den Dichtewert am beobachteten Datenpunkt ab — das ist die Likelihood L(μ|y). Das Maximum dieser Funktion nennt sich MLE: Maximum Likelihood Estimator.
Likelihood ≠ Wahrscheinlichkeit: L summiert sich nicht auf 1 und kann > 1 sein. Ausführlicher Vergleich → Lernkarten unten.
Laufendes Beispiel
Stufe 1 & 2 — Normal
Sprungweite (m)
Du misst die Weitsprung-Leistung von Sportstudierenden. Die Werte streuen annähernd normalverteilt um einen wahren Mittelwert μ. Wie groß ist μ — und welches μ macht deine konkreten Messungen am plausibelsten?
Stufe 3 — Poisson
Trainingsstunden pro Woche
Ganzzahlige Zähldaten (0, 1, 2, …). Die Poisson-Verteilung modelliert, wie viele Einheiten pro Zeitraum auftreten. Parameter λ = erwarteter Mittelwert. MLE: λ̂ = ȳ — identisches Prinzip, andere Formel.
Stufe 3 — Bernoulli
Mindestleistung erreicht? (0/1)
Binäres Ergebnis: bestanden oder nicht. Parameter p = Erfolgswahrscheinlichkeit. MLE: p̂ = Anteil der Einsen. Die Likelihood-Landschaft wird zur Parabel über p ∈ (0, 1).
Stufe 1
Schritt 1 — Datenpunkt platzieren
Schritt 2 — Verteilung verschieben → Likelihood ablesen
Schritt 1: Datenpunkt y setzen (σ = 1, fest)
Datenpunkt y (beobachtet, fest)
Verteilung zentriert bei μ
Dichtewert = Likelihood L(μ|y)
Likelihood-Kurve: wie hoch ist f(y|μ) für jedes μ?
Maximum bei μ = — (= y)
Log-Likelihood ℓ(μ|y)
Die rechte Kurve zeigt für jedes mögliche μ, wie hoch die Dichtefunktion am Datenpunkt y wäre. Das Maximum liegt genau bei μ = y. Das ist MLE für einen Datenpunkt.
σ = 1.0 (fest)
① Datenpunkt y 1.5
② Verteilung schieben: μ -2.00
Likelihood ≠ Wahrscheinlichkeit — der zentrale Unterschied
P(y | θ): Wahrscheinlichkeit der Daten y, wenn Parameter θ bekannt ist. θ fest, y unbekannt.

L(θ | y): Likelihood des Parameters θ, wenn die Daten y beobachtet sind. y fest, θ unbekannt.

Dieselbe mathematische Formel — vollständig andere Interpretation.

Likelihood summiert sich nicht auf 1 und ist keine Wahrscheinlichkeit über θ. Bei stetigen Verteilungen ist L der Dichtewert — dieser kann > 1 sein (σ in Stufe 1 sehr klein stellen).
Warum Log-Likelihood? — Stufe 1 & 2
Die Likelihood von n Beobachtungen ist das Produkt der Einzeldichten: L(θ|y₁…yₙ) = ∏ᵢ f(yᵢ|θ)

Bei vielen kleinen Werten (z.B. 0.04 × 0.09 × … × 0.06) wird das Produkt extrem klein — numerischer Underflow. Stufe 2 zeigt das live: das Produkt der roten Linien wird im Infotext angezeigt und schrumpft rasant.

Der Logarithmus macht aus dem Produkt eine Summe: ℓ(θ) = Σᵢ log f(yᵢ|θ)

Da log monoton steigend ist: derselbe Gipfel, numerisch stabil. MLE maximiert immer ℓ(θ).
MLE — das Prinzip & Schätzer — Stufe 1 & 2
Maximum Likelihood Estimation sucht θ, das die beobachteten Daten am plausibelsten macht:

θ̂ = argmax ℓ(θ|y)

Das ist kein Urteil über θ selbst — nur über seine Kompatibilität mit den Daten. Andere θ-Werte sind nicht unmöglich, nur weniger plausibel.

Analytische MLE-Schätzer (Normal):
μ̂ = ȳ  ·  σ̂² = Σ(yᵢ−ȳ)²/n  (biased — n statt n−1!)

In Stufe 1 sieht man: μ̂ = y (ein Punkt), in Stufe 2: μ̂ = ȳ (alle Punkte).
Mehrdimensionales MLE: μ und σ gleichzeitig — Stufe 2
MLE kann mehrere Parameter gleichzeitig schätzen — ein wichtiger Vorteil gegenüber einfachen Momentenschätzern.

Für die Normalverteilung gibt es zwei unbekannte Parameter: μ (Lage) und σ (Streuung). Die Log-Likelihood wird dann zu einer Fläche über dem (μ, σ)-Raum — ein Gebirge statt einer Kurve. Der gemeinsame MLE liegt am Gipfel dieser Fläche:

μ̂ = ȳ    σ̂ = √(Σ(yᵢ−ȳ)²/n)

In Stufe 2: „Auch σ variieren" aktivieren → Heatmap zeigt die 2D-Landschaft. Der helle Punkt ist der gemeinsame Gipfel. Dieses Prinzip skaliert auf beliebig viele Parameter — so schätzt lm() und glm() in R intern.
MLE ist allgemein — Poisson & Bernoulli — Stufe 3
MLE funktioniert für jede parametrische Familie — nicht nur Normal. Das ist das Fundament von GLMs:

Poisson (Trainingsstunden/Woche): λ̂ = ȳ  ·  Log-Likelihood: Σᵢ [yᵢ·log(λ) − λ]
Bernoulli (Mindestleistung 0/1): p̂ = Anteil Einsen  ·  Log-Likelihood: Σᵢ [yᵢ·log(p) + (1−yᵢ)·log(1−p)]

In Stufe 3 zwischen den Familien wechseln: Die Likelihood-Landschaft verändert ihre Form — Parabel für Bernoulli, asymmetrisch für Poisson — aber der Mechanismus ist identisch: finde den Gipfel.
Modellvergleich mit AIC & BIC — Stufe 3
Der maximierte Log-Likelihood-Wert ℓ̂ lässt sich direkt für Modellvergleiche nutzen:

AIC = −2·ℓ̂ + 2k  (k = Anzahl Parameter)
BIC = −2·ℓ̂ + k·log(n)

Kleinerer AIC/BIC = bessere Passung bei gleicher Komplexität. AIC bestraft weniger stark als BIC — bei großem n bevorzugt BIC sparsamere Modelle.

Anwendungsbeispiel: Passt Poisson oder Negativ-Binomial besser auf die Trainingsstunden-Daten? Gleiche Daten, verschiedene Familien — AIC/BIC entscheiden. In Stufe 3 werden AIC und BIC live berechnet.
ℹ Maximum Likelihood — Hilfe
Was lerne ich hier?
Dieses Tool erklärt Maximum Likelihood Estimation (MLE) — einen der wichtigsten Schätzmechanismen der Statistik. Und es macht einen entscheidenden Unterschied klar: Likelihood ist nicht Wahrscheinlichkeit.
Die drei Stufen
Likelihood ≠ Wahrscheinlichkeit
Wahrscheinlichkeit: Parameter fix → wie wahrscheinlich sind diese Daten?
Likelihood: Daten fix, beobachtet → wie plausibel ist dieser Parameter?

Die Likelihood ist keine Wahrscheinlichkeitsverteilung über den Parameter — sie integriert nicht zu 1. Erst ein Prior macht daraus einen Posterior (Bayes-Theorem).
Warum das für Bayes wichtig ist
MLE liefert den plausibelsten Parameter ohne Prior-Information. Bayesianische Schätzung gewichtet diese Likelihood mit einem Prior: Posterior ∝ Likelihood × Prior. Mit flachem Prior → Posterior-Modus ≈ MLE. Das macht MLE zum konzeptuellen Fundament für alles Weitere.
Danach → Vom LM zum GLM: Linkfunktionen und warum GLMs dieselbe MLE-Logik auf andere Verteilungen anwenden