Maximum Likelihood — Bayes Thinking Lab

Die Grundidee: Maximum Likelihood

Wir haben Daten beobachtet — sie sind fest und unveränderlich. Was wir nicht kennen, ist der dahinterliegende Parameter (z.B. der wahre Mittelwert μ der Grundgesamtheit).

Was ist eine Dichtefunktion? Die Kurve f(y|μ) zeigt für jeden möglichen Wert y, wie „dicht" die Wahrscheinlichkeitsmasse liegt — also wie typisch dieser Wert bei gegebenem μ wäre. Hohe Dichte an einer Stelle bedeutet: dieser Wert wäre gut vereinbar mit μ.

Was ist Likelihood? Dreht die Frage um: nicht „wie wahrscheinlich ist y, wenn μ bekannt ist?", sondern „welches μ macht die beobachteten y am plausibelsten?". Dazu schieben wir die gedachte Verteilung über den Wertebereich und lesen den Dichtewert am beobachteten Datenpunkt ab — das ist die Likelihood L(μ|y). Das Maximum dieser Funktion nennt sich MLE: Maximum Likelihood Estimator.

Likelihood ≠ Wahrscheinlichkeit: L summiert sich nicht auf 1 und kann > 1 sein. Ausführlicher Vergleich → Lernkarten unten.

Laufendes Beispiel

Stufe 1 & 2 — Normal
Sprungweite (m)
Du misst die Weitsprung-Leistung von Sportstudierenden. Die Werte streuen annähernd normalverteilt um einen wahren Mittelwert μ. Wie groß ist μ — und welches μ macht deine konkreten Messungen am plausibelsten?

Stufe 3 — Poisson
Trainingsstunden pro Woche
Ganzzahlige Zähldaten (0, 1, 2, …). Die Poisson-Verteilung modelliert, wie viele Einheiten pro Zeitraum auftreten. Parameter λ = erwarteter Mittelwert. MLE: λ̂ = ȳ — identisches Prinzip, andere Formel.

Stufe 3 — Bernoulli
Mindestleistung erreicht? (0/1)
Binäres Ergebnis: bestanden oder nicht. Parameter p = Erfolgswahrscheinlichkeit. MLE: p̂ = Anteil der Einsen. Die Likelihood-Landschaft wird zur Parabel über p ∈ (0, 1).

Stufe 1

      Schritt 1 — Datenpunkt platzieren
    

      Schritt 2 — Verteilung verschieben → Likelihood ablesen
    

Schritt 1: Datenpunkt y setzen (σ = 1, fest)

Datenpunkt y (beobachtet, fest) —

Verteilung zentriert bei μ —

Dichtewert = Likelihood L(μ|y) —

Likelihood-Kurve: wie hoch ist f(y|μ) für jedes μ?

Maximum bei μ = — (= y)

Log-Likelihood ℓ(μ|y) —

          Die rechte Kurve zeigt für jedes mögliche μ, wie hoch die Dichtefunktion
          am Datenpunkt y wäre. Das Maximum liegt genau bei μ = y.
          Das ist MLE für einen Datenpunkt.
        

      σ = 1.0 (fest)
    

① Datenpunkt y 1.5

② Verteilung schieben: μ -2.00

Likelihood ≠ Wahrscheinlichkeit — der zentrale Unterschied

P(y | θ): Wahrscheinlichkeit der Daten y, wenn Parameter θ bekannt ist. θ fest, y unbekannt.

L(θ | y): Likelihood des Parameters θ, wenn die Daten y beobachtet sind. y fest, θ unbekannt.

Dieselbe mathematische Formel — vollständig andere Interpretation.

Likelihood summiert sich nicht auf 1 und ist keine Wahrscheinlichkeit über θ. Bei stetigen Verteilungen ist L der Dichtewert — dieser kann > 1 sein (σ in Stufe 1 sehr klein stellen).

Warum Log-Likelihood? — Stufe 1 & 2

Die Likelihood von n Beobachtungen ist das Produkt der Einzeldichten: L(θ|y₁…yₙ) = ∏ᵢ f(yᵢ|θ)

Bei vielen kleinen Werten (z.B. 0.04 × 0.09 × … × 0.06) wird das Produkt extrem klein — numerischer Underflow. Stufe 2 zeigt das live: das Produkt der roten Linien wird im Infotext angezeigt und schrumpft rasant.

Der Logarithmus macht aus dem Produkt eine Summe: ℓ(θ) = Σᵢ log f(yᵢ|θ)

Da log monoton steigend ist: derselbe Gipfel, numerisch stabil. MLE maximiert immer ℓ(θ).

MLE — das Prinzip & Schätzer — Stufe 1 & 2

Maximum Likelihood Estimation sucht θ, das die beobachteten Daten am plausibelsten macht:

θ̂ = argmax ℓ(θ|y)

Das ist kein Urteil über θ selbst — nur über seine Kompatibilität mit den Daten. Andere θ-Werte sind nicht unmöglich, nur weniger plausibel.

Analytische MLE-Schätzer (Normal):
μ̂ = ȳ · σ̂² = Σ(yᵢ−ȳ)²/n (biased — n statt n−1!)

In Stufe 1 sieht man: μ̂ = y (ein Punkt), in Stufe 2: μ̂ = ȳ (alle Punkte).

Mehrdimensionales MLE: μ und σ gleichzeitig — Stufe 2

MLE kann mehrere Parameter gleichzeitig schätzen — ein wichtiger Vorteil gegenüber einfachen Momentenschätzern.

Für die Normalverteilung gibt es zwei unbekannte Parameter: μ (Lage) und σ (Streuung). Die Log-Likelihood wird dann zu einer Fläche über dem (μ, σ)-Raum — ein Gebirge statt einer Kurve. Der gemeinsame MLE liegt am Gipfel dieser Fläche:

μ̂ = ȳ σ̂ = √(Σ(yᵢ−ȳ)²/n)

In Stufe 2: „Auch σ variieren" aktivieren → Heatmap zeigt die 2D-Landschaft. Der helle Punkt ist der gemeinsame Gipfel. Dieses Prinzip skaliert auf beliebig viele Parameter — so schätzt lm() und glm() in R intern.

MLE ist allgemein — Poisson & Bernoulli — Stufe 3

MLE funktioniert für jede parametrische Familie — nicht nur Normal. Das ist das Fundament von GLMs:

Poisson (Trainingsstunden/Woche): λ̂ = ȳ · Log-Likelihood: Σᵢ [yᵢ·log(λ) − λ]
Bernoulli (Mindestleistung 0/1): p̂ = Anteil Einsen · Log-Likelihood: Σᵢ [yᵢ·log(p) + (1−yᵢ)·log(1−p)]

In Stufe 3 zwischen den Familien wechseln: Die Likelihood-Landschaft verändert ihre Form — Parabel für Bernoulli, asymmetrisch für Poisson — aber der Mechanismus ist identisch: finde den Gipfel.

Modellvergleich mit AIC & BIC — Stufe 3

Der maximierte Log-Likelihood-Wert ℓ̂ lässt sich direkt für Modellvergleiche nutzen:

AIC = −2·ℓ̂ + 2k (k = Anzahl Parameter)
BIC = −2·ℓ̂ + k·log(n)

Kleinerer AIC/BIC = bessere Passung bei gleicher Komplexität. AIC bestraft weniger stark als BIC — bei großem n bevorzugt BIC sparsamere Modelle.

Anwendungsbeispiel: Passt Poisson oder Negativ-Binomial besser auf die Trainingsstunden-Daten? Gleiche Daten, verschiedene Familien — AIC/BIC entscheiden. In Stufe 3 werden AIC und BIC live berechnet.

ℹ Maximum Likelihood — Hilfe

Was lerne ich hier?

Dieses Tool erklärt Maximum Likelihood Estimation (MLE) — einen der wichtigsten Schätzmechanismen der Statistik. Und es macht einen entscheidenden Unterschied klar: Likelihood ist nicht Wahrscheinlichkeit.

Was ist Likelihood — und warum ist sie eine Funktion des Parameters, nicht der Daten?
Wie entsteht eine Likelihood-Landschaft und wo liegt ihr Gipfel?
Warum rechnet man mit Log-Likelihood statt Likelihood?
Wie funktioniert MLE für Poisson und Bernoulli — nicht nur Normalverteilung?

Die drei Stufen

Stufe 1 — Ein Datenpunkt: Schiebe die Verteilung über den festen Datenpunkt. Beobachte, wie der Dichtewert am Datenpunkt (= Likelihood) sich verändert. Der Gipfel zeigt: MLE = μ̂ = y.
Stufe 2 — Viele Daten: Gesamtlikelihood = Produkt der Einzeldichten (= Summe der Log-Dichten). Rechts: die Log-Likelihood-Landschaft über μ. Tipp: „Auch σ variieren" aktivieren für die 2D-Heatmap.
Stufe 3 — Andere Familien: MLE mit Poisson (Zähldaten) und Bernoulli (0/1). Gleiches Prinzip, andere Formel. AIC/BIC ermöglichen Vergleich zwischen Familien.

Likelihood ≠ Wahrscheinlichkeit

Wahrscheinlichkeit: Parameter fix → wie wahrscheinlich sind diese Daten?
Likelihood: Daten fix, beobachtet → wie plausibel ist dieser Parameter?

Die Likelihood ist keine Wahrscheinlichkeitsverteilung über den Parameter — sie integriert nicht zu 1. Erst ein Prior macht daraus einen Posterior (Bayes-Theorem).

Warum das für Bayes wichtig ist

MLE liefert den plausibelsten Parameter ohne Prior-Information. Bayesianische Schätzung gewichtet diese Likelihood mit einem Prior: Posterior ∝ Likelihood × Prior. Mit flachem Prior → Posterior-Modus ≈ MLE. Das macht MLE zum konzeptuellen Fundament für alles Weitere.

Danach → Vom LM zum GLM: Linkfunktionen und warum GLMs dieselbe MLE-Logik auf andere Verteilungen anwenden