Jacobson-Truax — Reliable Change & Klinische Signifikanz

Dr. R. Düsing · Universität Osnabrück
📋 Beispiel — BDI-II (Beck Depression Inventory II)
Das BDI-II misst depressive Symptomatik auf einer Skala von 0–63 (Retest-Reliabilität ≈ .92). Eine Patientin startet bei Prä = 32 (schwer) und liegt nach der Therapie bei Post = 12 (minimal). Ist diese Verbesserung zuverlässig (über den Messfehler hinaus) — und ist sie klinisch bedeutsam (Wechsel von der klinischen in die gesunde Population)? Genau diese zwei Fragen beantwortet die Jacobson-Truax-Methode.
① Kennwerte der Veränderungsmessung
Messfehler SEM
SDd·√(1−rtt)
SE der Differenz Sdiff
√2·SEM
RCI-Kritischer Wert
z·Sdiff · Punkte
Klinisches Cutoff
Kriterium c
② Die zwei Populationen & das klinische Cutoff
Verteilung gesund (grün) vs. klinisch (rot) — wo trennt das Cutoff?
③ Jacobson-Truax-Plot — Prä vs. Post
Veränderungsdiagramm mit Reliable-Change-Band & klinischem Cutoff
④ Klassifikation der Stichprobe — 5 Gruppen analog JTRCI (N = 80)
✓ Genesen (recovered)
Post im funktionalen Bereich und zuverlässige Verbesserung (|RCI| ≥ 1.96).
✓? Nicht reliabel genesen
Post unter dem Cutoff (funktional), aber Veränderung im RCI-Band — Genesung nicht absicherbar.
↑ Verbessert (improved)
Zuverlässige Verbesserung, aber Cutoff nicht überschritten.
→ Unverändert
Veränderung innerhalb des Messfehlers — nicht zuverlässig.
↓ Verschlechtert
Zuverlässige Verschlechterung über den Messfehler hinaus.
Konzepte
Reliable Change Index (RCI)
Der RCI prüft, ob eine individuelle Veränderung größer ist als der Messfehler. Er setzt die Prä-Post-Differenz ins Verhältnis zum Standardfehler der Differenz. Erst ab |RCI| > 1.96 gilt die Veränderung als zuverlässig (p < .05) — alles darunter könnte reines Messrauschen sein.
Klinische Signifikanz
Reliabel ≠ bedeutsam. Eine Person kann sich zuverlässig verbessern und trotzdem klinisch auffällig bleiben. Klinische Signifikanz fragt: Ist die Person von der dysfunktionalen in die funktionale Population gewechselt? Das Cutoff markiert die Grenze zwischen beiden Welten.
Warum zwei Kriterien?
Statistische Signifikanz auf Gruppenebene sagt nichts über den einzelnen Patienten. Jacobson & Truax (1991) kombinieren deshalb Reliabilität (RCI) und Bedeutsamkeit (Cutoff) — das Fundament moderner Outcome-Forschung. Dieses Tool nutzt die 5-Gruppen-Variante des R-Pakets JTRCI, die zusätzlich „nicht reliabel genesen" ausweist.
Cutoff a, b, c — oder d?
a: 2 SD vom klinischen Mittel. b: innerhalb 2 SD der gesunden Norm — oft zu liberal. c: gewichteter Mittelpunkt, meist die beste Wahl. d: ein selbst gesetzter, klinisch validierter Cutoff (z.B. SCL GSI T>60) — nicht Teil des Original-Verfahrens, aber transparent und oft am besten begründbar. Schalte zwischen BDI & SCL um, um den Unterschied zu sehen.
Jacobson-Truax — Methode & Formeln
Das Grundproblem

Eine signifikante Mittelwertsänderung in einer Therapiestudie sagt nichts darüber aus, ob es einem einzelnen Patienten nach der Behandlung tatsächlich besser geht. Jacobson & Truax (1991) lösen das mit zwei Fragen pro Person: (1) Ist die Veränderung zuverlässig? (2) Ist sie klinisch bedeutsam?

1 · Reliable Change Index (RCI)

Der Messfehler (Standardmessfehler, SEM) ergibt sich aus Streuung und Reliabilität:

SE_M = SD · √(1 − r_tt) S_diff = √2 · SE_M (Standardfehler der Differenz) RCI = (x_prä − x_post) / S_diff

Ist |RCI| > 1.96, übersteigt die Veränderung den Messfehler mit 95% Sicherheit. Äquivalent dazu: Die Roh-Differenz muss größer sein als der kritische Wert = 1.96 · Sdiff. Als Pretest-SD wird hier die SD der klinischen Population (SDd) verwendet.

2 · Klinische Signifikanz — vier Cutoff-Kriterien
a = M_d − 2·SD_d (Verlassen der klinischen Verteilung) b = M_f + 2·SD_f (Eintreten in die gesunde Verteilung) c = (SD_f·M_d + SD_d·M_f) / (SD_f + SD_d) d = frei gewählter, validierter Cutoff

a nutzt nur die klinische Stichprobe (wenn keine gesunde Norm vorliegt) und ist konservativ. b nutzt nur die gesunde Norm. c ist der nach Likelihood gewichtete Schnittpunkt beider Verteilungen. d ist eine pragmatische Ergänzung (siehe unten).

Welches Kriterium wählen? (Praxis)

Kriterium a ist konservativ. Es nutzt nur die klinische Stichprobe (a = Md − 2·SDd) und verlangt, dass der Post-Wert die klinische Verteilung nach unten verlässt — also fast bis zum gesunden Mittel zurückkehrt. Sinnvoll, wenn keine gesunde Normstichprobe vorliegt; tendenziell aber streng, sodass echte Verbesserungen seltener als „klinisch bedeutsam" gelten.

Kriterium b ist oft zu liberal. „Innerhalb 2 SD der Gesunden" entspricht dem 97,5-Perzentil der gesunden Verteilung — ein sehr weites Netz. Überlappen sich klinische und gesunde Verteilung (Normalfall bei Symptomskalen), gelten dadurch viele Patienten schon vor der Therapie als „funktional", und das Kriterium trägt kaum Information bei.

Kriterium c ist meist die beste Wahl. Es landet automatisch dort, wo beide Populationen gleich wahrscheinlich sind — typischerweise nahe an klinisch sinnvollen Schwellen. Wichtig: In einer JT-Analyse hast du immer Prätest-Daten der klinischen Gruppe — du kannst Md und SDd also immer schätzen und damit c rechnen. Die Ausrede „nur gesunde Norm vorhanden → ich muss b nehmen" ist selten wirklich zwingend.

Der „2-SD"-Faktor ist Konvention, kein Gesetz. Mit 1 oder 1,28 SD käme b näher an validierte klinische Schwellen heran.

Kriterium d — eigener, validierter Cutoff

d gehört nicht zum Original-Verfahren von Jacobson & Truax — ist in der Praxis aber oft die transparenteste und am besten begründbare Lösung: Statt eines statistischen 2-SD-Werts setzt man direkt einen klinisch validierten Schwellenwert aus Testmanual oder Literatur ein.

Beispiel SCL-90-S: Die Autoren definieren einen Fall ab GSI-T > 60. Diesen Wert als d=60 zu setzen ist nachvollziehbar und manual-konform — Reviewer akzeptieren das in der Regel, gerade weil es sich auf die Originalquelle stützt.

Hinweis — d gibt es in JTRCI nicht direkt: Das R-Paket JTRCI kennt nur die Kriterien a, b und c. Möchte man dort trotzdem einen festen Cutoff erreichen, kann man „tricksen", indem man die Populationsparameter passend wählt. Beispiel SCL-90-S mit Ziel-Cutoff 60: Kriterium b nehmen, die gesunde Norm wie im Original auf Mf = 50 lassen, aber SDf = 5 setzen — dann ergibt sich b = Mf + 2·SDf = 50 + 2·5 = 60. Das funktioniert, ist aber für Außenstehende schwerer nachvollziehbar. Die Option d in diesem Tool macht denselben Schritt einfach explizit und transparent.

Rechenbeispiel: SCL-90-S GSI (T-Werte)

Gesund Mf=50 / SDf=10, klinisch Md=65 / SDd=8. Daraus:

a = 65 − 2·8 = 49 (zu streng: ~ gesunder Mittelwert) b = 50 + 2·10 = 70 (unbrauchbar: über fast jedem Patienten) c = (10·65 + 8·50)/18 ≈ 58.3 (nah an 60, aber nicht exakt) d = 60 (Manual-Caseness, exakt nachvollziehbar)

In einer Poliklinik mit Prätest-Schnitt T≈65 zeigt das die Schwächen schön: b=70 läge über fast allen Patienten (kaum jemand gilt als Fall), a=49 verlangt fast Rückkehr zum gesunden Mittel, c≈58 kommt nah, trifft die offizielle Schwelle aber nicht. d=60 bildet die manualkonforme Definition direkt ab.

Die Klassifikation — 5 Gruppen, analog zum R-Paket JTRCI

Dieses Tool folgt exakt der Klassifikationslogik des R-Pakets JTRCI (A.-W. Kruijt) — derselben Einteilung, die in vielen Publikationen berichtet wird. Entschieden wird über zwei Größen: die Lage des Post-Werts zum Cutoff und den RCI. Die fünf Gruppen:

Genesen (recovered): Post im funktionalen Bereich UND reliable Verbesserung (|RCI| ≥ 1.96).
Nicht reliabel genesen (non-reliably recovered): Post im funktionalen Bereich, aber Veränderung im Messfehler-Band (|RCI| < 1.96).
Verbessert (improved): reliable Verbesserung, aber Post noch im klinischen Bereich.
Unverändert (unchanged): Post im klinischen Bereich, keine reliable Veränderung.
Verschlechtert (deteriorated): reliable Veränderung in die ungünstige Richtung — überschreibt alle anderen Kategorien.

Warum „nicht reliabel genesen"? Jemand kann am Ende unter dem Cutoff liegen, ohne dass die Veränderung den Messfehler übersteigt — die scheinbare Genesung könnte also Messrauschen sein. JTRCI macht diese Unsicherheit als eigene Gruppe sichtbar, statt sie (wie das klassische 4-Felder-Schema) unter „unverändert" zu verstecken.

Vorsicht beim Prä-Status: Die Klassifikation nutzt — wie JTRCI — nur Post-Wert und RCI, nicht, ob jemand zu Beginn überhaupt im klinischen Bereich lag. Wer schon vor der Behandlung unter dem Cutoff startet, kann streng genommen gar nicht „genesen"; solche Fälle sollte man mit Vorsicht interpretieren (JTRCI markiert sie im Plot separat). Für stringente Vergleichbarkeit folgt dieses Tool aber bewusst der Paket-Logik.

Quelle: JTRCI — github.com/AWKruijt/JT-RCI. RCI-Konvention dort: RCI = (Post − Prä) / Sdiff; bei „niedriger = besser" bedeutet ein negativer RCI eine Verbesserung.

Der Jacobson-Truax-Plot

Auf der x-Achse steht der Prä-, auf der y-Achse der Post-Wert. Die Diagonale (y = x) ist die Linie ohne Veränderung. Das graue Reliable-Change-Band markiert den Bereich, in dem Veränderungen nicht vom Messfehler unterscheidbar sind (Breite = ± kritischer Wert). Die Cutoff-Linie trennt funktionale von dysfunktionalen Post-Werten. Die Lage jedes Punktes relativ zu Band und Cutoff bestimmt seine Kategorie.

Der Fokus-Patient (Sidebar)

Mit den beiden Schiebereglern Prä-Wert und Post-Wert ganz unten in der Sidebar legst du einen einzelnen Beispiel-Patienten fest und siehst live, wie die Jacobson-Truax-Logik ihn einordnet. Er ist unabhängig von der simulierten Stichprobe und dient zum gezielten Durchspielen einzelner Fälle.

Direkt unter den Reglern erscheinen zwei Anzeigen:

① Das farbige Kategorie-Feld zeigt die Klassifikation (Genesen / Nicht reliabel genesen / Verbessert / Unverändert / Verschlechtert) in der jeweiligen Kategoriefarbe — dieselbe Farbe, in der der Patient auch im JT-Plot erscheint.

② Die RCI-Zeile nennt den konkreten Reliable-Change-Index, ob die Veränderung zuverlässig ist (zuverlässig = außerhalb des Messfehler-Bands, n.s. = innerhalb), die rohe Differenz Δ in Punkten und den kritischen Wert (± krit.), den die Differenz überschreiten muss.

Im Plot erscheint der Fokus-Patient als großer, umrandeter Punkt mit einer gestrichelten Verbindungslinie zur Diagonalen — diese Linie zeigt anschaulich das Ausmaß seiner Veränderung (je länger, desto größer die Prä-Post-Differenz). So lässt sich z.B. ausprobieren: Ab welchem Post-Wert kippt ein Patient von „Verbessert" zu „Genesen"? Wann reicht die Veränderung gerade nicht für reliable Change? Verschiebe dazu die Cutoff- und RCI-Einstellungen und beobachte, wie der Punkt die Kategorie wechselt.

Beispiel-Defaults

BDI-II: Skala 0–63 · rtt = .92 · gesund M=8 / SD=7 · klinisch M=30 / SD=10. Daraus SEM ≈ 2.83, Sdiff ≈ 4.0, kritischer Wert ≈ 7.8 Punkte, Cutoff c ≈ 17. Eine BDI-II-Änderung muss also etwa 8 Punkte betragen, um zuverlässig zu sein. Kriterium d ist auf 20 voreingestellt — die häufig als klinisch relevant genutzte Grenze (Übergang mittlere/schwere Depression).

SCL-90-S · GSI: T-Werte 30–80 · rtt = .90 · gesund M=50 / SD=10 · klinisch M=65 / SD=8 · Cutoff d = 60 (Manual-Caseness). Daraus SEM ≈ 2.53, kritischer Wert ≈ 7.0 T-Punkte. Hier sieht man, warum die a/b/c-Automatik allein die Manual-Schwelle verfehlt.

Literatur

Jacobson, N.S. & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59(1), 12–19.
Beck, A.T., Steer, R.A. & Brown, G.K. (1996). Manual for the Beck Depression Inventory-II. Psychological Corporation.
Franke, G.H. (2002). SCL-90-R. Die Symptom-Checkliste von L.R. Derogatis (2. Aufl.). Beltz Test.