Missing Data — MethodsLab

Durchgehendes Beispiel

ZAuxiliary-Variable — vollständig beobachtet, beeinflusst Y (β_Z = +3) und (unter MAR) die Missingness. Nicht Teil der Forschungsfrage, aber nötig im Imputationsmodell. XHauptprädiktor — vollständig beobachtet, r(X,Z) = −.40 YOutcome — Wohlbefinden t=2 (0–100), teilweise fehlend Wahrer DGPY = 60 − 6.0·X + 3·Z + ε — Z beeinflusst Y in der Realität, auch wenn der Forscher nur Y ~ X modelliert. Ohne Z→Y könnte PMM keine besseren Spender finden und MI hätte keinen Vorteil. ZielanalyseY ~ X — marginaler Populationseffekt β_X = −7.20 (= −6.0 + 3·(−0.40), weil Z→Y und r_XZ = −.40) MAR-BiasZ↓ und X↑ → Dropout. Fehlende haben niedrigeres Y. Listwise: (1) μ_Y↑ und (2) β_X zu flach. MI-Fix: Z im Imputationsmodell → PMM findet Spender mit korrekt niedrigen Y-Werten.

Warum Z ins Imputationsmodell, wenn die Analyse nur Y ~ X ist? — Z sagt sowohl die Missingness als auch Y voraus. Ohne Z würde PMM die fehlenden Y-Werte systematisch zu hoch schätzen. Das Imputationsmodell muss reicher sein als das Analysemodell (Rubin 1987).

Scatter — Stresslevel X vs. Wohlbefinden Y

MCAR: Lila Kreise (○) zeigen die wahren Y-Werte fehlender Beobachtungen — gleichmäßig verteilt, kein systematisches Muster. Listwise und MI unverzerrt.

Dichteverteilung Y — Vergleich der Datensätze

Konzepte

Die drei Mechanismen

MCAR (Missing Completely At Random): das Fehlen ist völlig zufällig, hängt von nichts ab. MAR (Missing At Random): das Fehlen hängt von beobachteten Variablen ab (hier X und Z), aber nicht vom fehlenden Wert selbst. MNAR (Missing Not At Random): das Fehlen hängt vom fehlenden Wert Y selbst ab. Welcher Mechanismus vorliegt, entscheidet, welche Methode unverzerrt ist — und ist aus den Daten allein nicht sicher prüfbar.

Listwise Deletion (Complete Case)

Streicht alle Fälle mit fehlendem Y und rechnet nur mit den Vollständigen. Nur bei MCAR unverzerrt. Bei MAR/MNAR ist die Reststichprobe keine Zufallsstichprobe mehr → Mittelwert und Regressionskoeffizient können systematisch verzerrt sein. Selbst bei MCAR kostet sie immer Effizienz (kleineres n, größere Standardfehler).

Mean Imputation — warum sie scheitert

Ersetzt jedes fehlende Y durch den beobachteten Mittelwert. Das stellt (unter MCAR) grob den Mittelwert wieder her, zerstört aber Varianz und Korrelationen: künstlich liegen viele Punkte exakt auf dem Mittel, die Streuung wird zu klein und der Slope β_X zu flach (Attenuation). Eine scheinbare Lösung, die neue Verzerrung schafft.

Multiple Imputation (PMM)

Statt eines Ersatzwerts erzeugt MI mehrere vollständige Datensätze. Predictive Mean Matching zieht für jede Lücke einen plausiblen echten Spenderwert aus ähnlichen Fällen. Man analysiert jeden Datensatz und poolt die Ergebnisse (Rubin's Rules) — so fließt die Imputationsunsicherheit in die Standardfehler ein, anders als bei Single Imputation.

Das Imputationsmodell muss reicher sein

Der Schlüssel zu MAR: alle Variablen, die das Fehlmuster oder Y vorhersagen, gehören ins Imputationsmodell — auch eine Auxiliary-Variable Z, die gar nicht in der Zielanalyse Y~X vorkommt. Hier erzeugt Z das MAR-Muster und beeinflusst Y; nimmt man Z ins Imputationsmodell, findet PMM Spender mit korrekt niedrigen Y-Werten und der MAR-Bias verschwindet. Imputationsmodell ⊇ Analysemodell.

Welche Methode wann?

MCAR: alles unverzerrt, Listwise nur ineffizient. MAR: Multiple Imputation (oder FIML/ML) korrigiert — vorausgesetzt, die relevanten Prädiktoren sind im Modell. MNAR: keine Methode korrigiert vollständig; man braucht Annahmen über den Mechanismus und Sensitivitätsanalysen. Verwandt ist die allgemeine Logik von Selektionseffekten: wer in den Daten landet, hängt vom Mechanismus ab. → Berkson's Paradox (Selektion)

Missing Data — Mechanismen & Multiple Imputation