Wozu dieses Tool?
LOO-CV (Leave-One-Out Cross-Validation) misst die Out-of-Sample-Vorhersagegüte eines Bayesianischen Modells.
Das Tool hat drei Stufen: Konzept → R-Output analysieren → Entscheidung treffen.
Hinweis: Dieses Tool
berechnet kein LOO — das ist im Browser nicht machbar.
Du berechnest LOO in R mit
add_criterion() und kopierst den Output in Stufe 2.
Stufe 1 — Die Idee
Modell A (linear) vs.
Modell B (Polynom Grad 4) auf demselben Datensatz.
Jeder Schritt: ein Punkt wird herausgenommen, beide Modelle auf N−1 Punkten refittet, dann die Vorhersage verglichen.
Die gestrichelte Linie = LOO-Fit; der ◆ = LOO-Vorhersage; der Pfeil = Residuum.
Stufe 2 — R-Output
LOO in R wird direkt ins Modell-Objekt geschrieben:
model.1 <- add_criterion(model.1, c("loo"))
Danach:
loo_compare(model.1, model.2, ...) → Output ins erste Textfeld.
Das zweite Feld (optional) nimmt den Output von
print(model.1$criteria$loo)
für die Pareto-k Diagnostics eines
einzelnen Modells.
Beispiel laden zeigt das erwartete Format.
Model Stacking
Model Stacking ist eine Form von Model Averaging — aber ohne Modell-Priors.
Statt ein Modell zu wählen, wird ein Ensemble gebildet:
Ŷ = w₁·Ŷ₁ + w₂·Ŷ₂ + w₃·Ŷ₃ (Gewichte summieren zu 1)
Die Gewichte werden direkt aus der LOO-Vorhersageleistung optimiert
(Yao et al. 2018). Redundante Modelle bekommen automatisch Gewicht ≈ 0.
vs. klassischem Model Averaging (BMA):
BMA gewichtet nach Modell-Posterior-Wahrscheinlichkeit — Stacking nach
Out-of-Sample-Vorhersagegüte. Stacking ist robuster gegen ähnliche Modelle
und prior-sensitiver BMA-Probleme (McElreath Kap. 7).
Entscheidungsregel
|elpd_diff| > 2·SE → klarer Unterschied
|elpd_diff| < 2·SE → praktisch ununterscheidbar
k > 0.7 → LOO-Schätzung unsicher, reloo() empfohlen
Voraussetzungen
brms Model Builder (Modellstruktur) · Posterior PPC (Modelldiagnostik)