XTestwert — z. B. Depressionsskala (PHQ-9, z-standardisiert)YKriterium — klinische Diagnose nach strukturiertem Interview (z-standardisiert)rValidität = Korrelation zwischen Test und Kriterium (r=0.50)Cut-Off XPHQ-Schwellenwert für positives Screening-ErgebnisCut-Off YKriteriumsschwelle: ab hier gilt jemand als „klinisch auffällig"
Was nützt ein positiver PHQ-9-Befund wirklich? Validität r beschreibt die Testgüte — aber PPV und NPV entscheiden, wie verwertbar das Ergebnis in dieser konkreten Situation ist. Basisrate, Cut-Off und Validität bestimmen gemeinsam den praktischen Nutzen.
Vierfeldertafel
Test +
Test −
Σ
Krit. +
TPrichtig positiv—
FNfalsch negativ—
—
Krit. −
FPfalsch positiv—
TNrichtig negativ—
—
Σ
—
—
—
Kennwerte
Kennwert
Formel
Berechnung
Wert
Konzepte
Drei Arten der Validität
Validität fragt: misst der Test, was er messen soll? Man unterscheidet Konstruktvalidität (bildet der Test das theoretische Konstrukt ab?), Kriteriumsvalidität (sagt er ein externes Kriterium vorher — konkurrent oder prädiktiv?) und Inhaltsvalidität (decken die Items das Merkmal repräsentativ ab?). Dieses Tool zeigt die Kriteriumsvalidität: den Zusammenhang zwischen Testwert X und einem Kriterium Y.
Validität r & Varianzaufklärung
Die Validität wird hier als Korrelation r zwischen Test und Kriterium operationalisiert. r² ist der Anteil gemeinsamer Varianz — bei r = 0.50 also 25 %. Die 95 %-Konfidenzellipse zeigt die Enge des Zusammenhangs: je schmaler, desto höher r. Gute diagnostische Tests liegen typischerweise bei r = 0.40–0.70; r = 1 (perfekte Vorhersage) gibt es real nicht.
Testeigenschaft vs. Situationsnutzen
Sensitivität (TP/(TP+FN)) und Spezifität (TN/(TN+FP)) sind Eigenschaften des Tests — prävalenzunabhängig und auf andere Populationen übertragbar. PPV und NPV beantworten dagegen die klinische Frage für diese konkrete Person: Wie wahrscheinlich liegt bei positivem (PPV) bzw. negativem (NPV) Befund die Störung wirklich vor? Sie hängen von der Basisrate ab.
Die Basisrate entscheidet
PPV = TP/(TP+FP) sinkt drastisch, wenn die Störung selten ist: Bei niedriger Prävalenz ist der Nenner voll von Gesunden, von denen ein kleiner Prozentsatz falsch-positiv ist — und die wenigen echten Fälle gehen darin unter. Ein hochvalider Test kann bei seltener Störung trotzdem einen enttäuschend niedrigen PPV haben. Verschiebe den Kriteriums-Cut-Off, um die Basisrate zu verändern. → Sensitivität & Spezifität
Likelihood Ratios
LR+ = Sens/(1−Spez) und LR− = (1−Sens)/Spez sind prävalenzunabhängige Maße der Ergebnis-Stärke. Über die Bayes-Formel übersetzen sie die Prä-Test- in die Post-Test-Wahrscheinlichkeit: Post-Odds = Prä-Odds · LR. Faustregel: LR+ > 10 verschiebt die Diagnose stark in Richtung „krank", LR− < 0.1 schließt sie weitgehend aus.
Nützlichkeit & Taylor-Russell
Validität ist notwendig, aber nicht hinreichend — erst zusammen mit Basisrate und Cut-Off entsteht Nützlichkeit (ein Nebengütekriterium). In Selektionssituationen (Personal, Therapieplätze) heißt der PPV Erfolgsquote: der Anteil der Ausgewählten, der das Kriterium erfüllt — mathematisch identisch (TP/(TP+FP)), nur ein anderes Anwendungsfeld. Die Taylor-Russell-Tafeln formalisieren das aus Validität, Selektions- und Basisrate. → Taylor-Russell-Tafeln
Diagnostische Validität — Hilfe
Beispiel
Ein Depressionsfragebogen (PHQ-9, z-standardisiert: X) wird mit dem Ergebnis eines klinischen Interviews verglichen (Kriterium Y). Die Korrelation r=0.50 beschreibt die Validität. Beide Cut-Off-Werte teilen den Scatterplot in vier Quadranten — TP, TN, FP, FN. Der zentrale Nutzen-Kennwert ist der PPV = TP/(TP+FP): Von allen positiv Getesteten — wie viele sind tatsächlich krank?
Validität r & Scatterplot
Die Korrelation r bestimmt die Enge des Zusammenhangs zwischen Test (X) und Kriterium (Y). Bei r=0: die Punktwolke ist kreisförmig — kein diagnostischer Nutzen. Bei r=1: alle Punkte auf einer Linie — perfekte Vorhersage.
Im Beispiel: r=0.50 bedeutet, dass der PHQ-9 etwa 25% der Varianz im Kriterium erklärt (r²=0.25). Gute diagnostische Tests haben typischerweise r=0.40–0.70.
Cut-Off-Linien & Vierfeldertafel
Die vertikale Linie (X = Cut-Off Test) und horizontale Linie (Y = Cut-Off Kriterium) definieren vier Gruppen:
Im Beispiel: Verschieben des Test-Cut-Offs nach links erhöht Sensitivität (mehr TP), aber auch FP. Die Cut-Off-Linien können auf dem Canvas direkt gezogen werden.
Diagnostische Kennwerte — PPV & NPV im Vordergrund
Sensitivität und Spezifität beschreiben, wie gut der Test an sich funktioniert — prävalenzunabhängig, eine Eigenschaft des Tests. Im klinischen und diagnostischen Alltag steht aber eine andere Frage im Mittelpunkt: Was sagt mir dieses konkrete Ergebnis über diese konkrete Person? Diese Frage beantworten PPV und NPV.
PPV (Positiver Prädiktiver Wert) = TP/(TP+FP): Wenn jemand positiv getestet wird — wie wahrscheinlich ist es, dass tatsächlich eine Störung vorliegt? NPV (Negativer Prädiktiver Wert) = TN/(TN+FN): Wenn jemand negativ getestet wird — wie sicher kann man sein, dass keine Störung vorliegt?
Beide Werte hängen stark von der Basisrate (Prävalenz) ab. Bei seltenen Störungen bleibt PPV selbst bei gutem Test niedrig — der Nenner ist voll von Gesunden, von denen trotzdem ein kleiner Anteil falsch positiv ist. Im Beispiel: Liegt die Depression-Prävalenz bei 10 % statt 50 %, sinkt PPV bei gleicher Sens und Spez drastisch.
Sensitivität = TP/(TP+FN) und Spezifität = TN/(TN+FP) sind das Fundament: prävalenzunabhängig und populationsübertragbar. Sie bestimmen über LR, wie stark ein Testergebnis die Prä-Test-Wahrscheinlichkeit verändert.
LR+ = Sens/(1−Spez), LR− = (1−Sens)/Spez: prävalenzunabhängige Maße der Testergebnis-Stärke; direkt nutzbar zur Umrechnung von Prä- in Post-Test-Wahrscheinlichkeit (Bayes-Formel).
Nützlichkeit als Nebengütekriterium
In der psychologischen Diagnostik werden neben den Hauptgütekriterien (Objektivität, Reliabilität, Validität) auch Nebengütekriterien gefordert — darunter die Nützlichkeit (Utility). Sie fragt: Lohnt sich der Einsatz dieses Tests in dieser Situation — verbessert er Entscheidungen gegenüber dem Status quo?
PPV und NPV sind die direkten Operationalisierungen der Nützlichkeit im diagnostischen Kontext: Ein Test ist nützlich, wenn sein positiver Befund die Wahrscheinlichkeit einer Störung substanziell erhöht (hoher PPV) und ein negativer Befund sie substanziell senkt (hoher NPV). Validität r ist eine notwendige, aber keine hinreichende Bedingung — Basisrate und Cut-Off bestimmen, wie viel Nutzen r unter realen Bedingungen entfaltet.
Zusammenhang r → Kennwerte
Mit steigendem r rücken die Punktwolken auseinander — Sensitivität und Spezifität verbessern sich gleichzeitig, und damit steigen auch PPV und NPV (bei gleicher Basisrate). Mit sinkendem r werden Sensitivität und Spezifität zum Nullsummenspiel: jede Verbesserung der einen geht auf Kosten der anderen — und PPV/NPV stagnieren oder verschlechtern sich je nach Cut-Off-Wahl.
Taylor-Russell-Tafeln — Ausblick
Für Selektionssituationen (Personal, Therapieplätze, Fördermaßnahmen) formalisieren die Taylor-Russell-Tafeln (1939) den Zusammenhang zwischen Nützlichkeit, Validität und Randbedingungen. Sie verbinden drei Größen:
Validität r — wie stark sagt der Test das Kriterium vorher?
Basisrate BR — wie viele wären auch ohne Test erfolgreich/geeignet?
Selektionsquote SR — welcher Anteil der Bewerber wird ausgewählt?
Aus diesen drei Größen ergibt sich die Erfolgsquote: der Anteil der Ausgewählten, der tatsächlich geeignet ist. Das zeigt, wann ein Test mit moderater Validität (r=0.30) unter günstigen Bedingungen (niedrige SR, mittlere BR) erheblichen Nutzen hat — und wann ein Test mit hoher Validität wenig bringt (z. B. wenn fast alle ohnehin ausgewählt werden). Das interaktive Taylor-Russell-Tool zeigt diese Erfolgsquote als Tafel und Nomogramm mit Zielkreuz.
Erfolgsquote = PPV — mathematisch dasselbe, unterschiedliche Sprache: In der klinischen Diagnostik heißt der Anteil richtig positiver an allen positiv Getesteten PPV; in der Eignungsdiagnostik und Personalpsychologie heißt der Anteil geeigneter Personen an allen Ausgewählten Erfolgsquote. Die Formel ist identisch: TP/(TP+FP). Der Begriff wechselt mit dem Anwendungsfeld — das Konzept bleibt.