Diagnostische Validität — Test & Kriterium

Durchgehendes Beispiel

XTestwert — z. B. Depressionsskala (PHQ-9, z-standardisiert) YKriterium — klinische Diagnose nach strukturiertem Interview (z-standardisiert) rValidität = Korrelation zwischen Test und Kriterium (r=0.50) Cut-Off XPHQ-Schwellenwert für positives Screening-Ergebnis Cut-Off YKriteriumsschwelle: ab hier gilt jemand als „klinisch auffällig"

Was nützt ein positiver PHQ-9-Befund wirklich? Validität r beschreibt die Testgüte — aber PPV und NPV entscheiden, wie verwertbar das Ergebnis in dieser konkreten Situation ist. Basisrate, Cut-Off und Validität bestimmen gemeinsam den praktischen Nutzen.

Vierfeldertafel

	Test +	Test −	Σ
Krit. +	TPrichtig positiv—	FNfalsch negativ—	—
Krit. −	FPfalsch positiv—	TNrichtig negativ—	—
Σ	—	—	—

Kennwerte

Kennwert	Formel	Berechnung	Wert

Konzepte

Drei Arten der Validität

Validität fragt: misst der Test, was er messen soll? Man unterscheidet Konstruktvalidität (bildet der Test das theoretische Konstrukt ab?), Kriteriumsvalidität (sagt er ein externes Kriterium vorher — konkurrent oder prädiktiv?) und Inhaltsvalidität (decken die Items das Merkmal repräsentativ ab?). Dieses Tool zeigt die Kriteriumsvalidität: den Zusammenhang zwischen Testwert X und einem Kriterium Y.

Validität r & Varianzaufklärung

Die Validität wird hier als Korrelation r zwischen Test und Kriterium operationalisiert. r² ist der Anteil gemeinsamer Varianz — bei r = 0.50 also 25 %. Die 95 %-Konfidenzellipse zeigt die Enge des Zusammenhangs: je schmaler, desto höher r. Gute diagnostische Tests liegen typischerweise bei r = 0.40–0.70; r = 1 (perfekte Vorhersage) gibt es real nicht.

Testeigenschaft vs. Situationsnutzen

Sensitivität (TP/(TP+FN)) und Spezifität (TN/(TN+FP)) sind Eigenschaften des Tests — prävalenzunabhängig und auf andere Populationen übertragbar. PPV und NPV beantworten dagegen die klinische Frage für diese konkrete Person: Wie wahrscheinlich liegt bei positivem (PPV) bzw. negativem (NPV) Befund die Störung wirklich vor? Sie hängen von der Basisrate ab.

Die Basisrate entscheidet

PPV = TP/(TP+FP) sinkt drastisch, wenn die Störung selten ist: Bei niedriger Prävalenz ist der Nenner voll von Gesunden, von denen ein kleiner Prozentsatz falsch-positiv ist — und die wenigen echten Fälle gehen darin unter. Ein hochvalider Test kann bei seltener Störung trotzdem einen enttäuschend niedrigen PPV haben. Verschiebe den Kriteriums-Cut-Off, um die Basisrate zu verändern. → Sensitivität & Spezifität

Likelihood Ratios

LR+ = Sens/(1−Spez) und LR− = (1−Sens)/Spez sind prävalenzunabhängige Maße der Ergebnis-Stärke. Über die Bayes-Formel übersetzen sie die Prä-Test- in die Post-Test-Wahrscheinlichkeit: Post-Odds = Prä-Odds · LR. Faustregel: LR+ > 10 verschiebt die Diagnose stark in Richtung „krank", LR− < 0.1 schließt sie weitgehend aus.

Nützlichkeit & Taylor-Russell

Validität ist notwendig, aber nicht hinreichend — erst zusammen mit Basisrate und Cut-Off entsteht Nützlichkeit (ein Nebengütekriterium). In Selektionssituationen (Personal, Therapieplätze) heißt der PPV Erfolgsquote: der Anteil der Ausgewählten, der das Kriterium erfüllt — mathematisch identisch (TP/(TP+FP)), nur ein anderes Anwendungsfeld. Die Taylor-Russell-Tafeln formalisieren das aus Validität, Selektions- und Basisrate. → Taylor-Russell-Tafeln