Wie ein Reasoning-LLM erfahrene Internist:innen in komplexen Fällen schlägt
Autor:innen:
Assoc. Prof. Priv.-Doz. Dr. Veronika Seebacher-Shariat
Prim. Univ.-Prof. DDr. (mult. h.c.) Shahrokh F. Shariat
Medizinische Universität Wien, AKH Wien Comprehensive Cancer Center Wien
Austrian Comprehensive Center Network
Sie sind bereits registriert?
Loggen Sie sich mit Ihrem Universimed-Benutzerkonto ein:
Sie sind noch nicht registriert?
Registrieren Sie sich jetzt kostenlos auf universimed.com und erhalten Sie Zugang zu allen Artikeln, bewerten Sie Inhalte und speichern Sie interessante Beiträge in Ihrem persönlichen Bereich
zum späteren Lesen. Ihre Registrierung ist für alle Unversimed-Portale gültig. (inkl. allgemeineplus.at & med-Diplom.at)
Seit Ledley und Lusted 1959 in Science die computergestützte Differenzialdiagnose als Goldstandard postulierten, wird der diagnostische Wettstreit zwischen Maschine und Kliniker:in neu vermessen. Mit der Einführung der ersten „Reasoning“-Modelle – Sprachmodelle, die vor der Antwort eine explizite Gedankenkette durchlaufen – ist diese Frage erneut auf den Prüfstand gekommen. Brodeur et al. legen nun in Science die bislang umfassendste Evaluation eines solchen Modells (OpenAI o1-preview) gegen einen Baseline-Pool aus mehreren Hundert Ärzt:innen vor.
Keypoints
-
Die analytisch sinnvolle Frage ist nicht „Maschine vs. Mensch“, sondern entspricht den Hybridkonfigurationen: „human-augmented machine“ und „machine-supported human“ .
-
Reasoning-LLMs erreichen in textbasierten Differenzial- und Management-Aufgaben Performance-Niveaus, die historische ärztliche Baselines übertreffen.
-
Der Mehrwert liegt weniger in der Erstdiagnose als im strukturierten Management-Reasoning.
-
Probabilistisches Schlussfolgern und Triage bei spärlicher Information bleiben Schwachstellen.
-
Für die Onkologie sind prospektive Outcome-Studien zu KI-Zweitmeinungen in Tumorboards, perioperativer Entscheidungsfindung und Aufklärung dringend erforderlich – idealerweise im Rahmen interdisziplinärer ACCN-Initiativen.
Bevor wir die Daten betrachten, lohnt sich eine begriffliche Schärfung: Die eigentlich interessante Frage ist nicht „Maschine versus Mensch“, sondern die Vier-Wege-Frage – „machine intelligence“ vs. „human intelligence“ vs. „human-augmented machine“ vs. „machine-supporting human“. Nur die letzten beiden Konfigurationen sind klinisch relevant; die ersten beiden sind im Versorgungsalltag eine Phantomdebatte.
Methodik
Die Autoren prüften o1-preview in sechs Experimenten:
-
Differentialdiagnose anhand von 143 NEJM-Clinicopathologic Conferences (CPCs) 2012–2024,
-
Auswahl der nächsten diagnostischen Untersuchung in den CPCs,
-
Dokumentation klinischer Argumentation auf NEJM-Healer-Vignetten (R-IDEA-Score),
-
probabilistisches Schlussfolgern,
-
Management-Reasoning auf den Grey-Matters-Fällen sowie
-
eine Real-World-Auswertung an 76 zufällig ausgewählten Notaufnahme-Patient:innen am Beth Israel Deaconess Medical Center mit drei vordefinierten diagnostischen Zeitpunkten (Triage, Ende ED-Aufenthalt, Ende H&P). Bewertet wurde durch jeweils zwei verblindete Fachärzt:innen mit validierten psychometrischen Instrumenten (Bond-Score, R-IDEA, Management-Reasoning-Score).
Wesentliche Ergebnisse
-
Differentialdiagnose (NEJM CPCs): o1-preview enthielt die korrekte Diagnose in 78,3% der Fälle (95% CI: 70,7–84,8) im Differential und nannte sie in 52% als Erstdiagnose. Auf einer identischen Subgruppe von 70 Fällen erreichte o1-preview einen exakten oder sehr nahen Treffer in 88,6% vs. 72,9% für GPT-4 (p=0,015). Alle älteren DDx-Generatoren (DXplain, ISABEL, PEPID, Diagnosis Pro) und die Google-Clinician-Baseline (~33%) liegen deutlich darunter.
-
Test-Auswahl: In 87,5% der CPCs wählte o1-preview den korrekten nächsten diagnostischen Test, in weiteren 11% einen plausibel hilfreichen.
-
Klinisches Reasoning (R-IDEA): 78 von 80 Healer-Fällen wurden mit der maximalen Punktzahl 10 bewertet – ein Niveau, das in historischen Vergleichen weder Assistenz- noch Fachärzt:innen erreichten.
-
Management-Reasoning: Median 86% bei o1-preview gegenüber 42% bei Ärzt:innen mit Internet-Zugang und 34% ohne – der größte Effekt der Studie.
-
Real-World-ED: Bei der initialen Triage erreichte o1-preview eine exakte/sehr nahe Diagnose in 67,1% der Fälle, gegenüber 55,3% und 50,0% der beiden Attendings. In einer verblindeten Bewertung waren KI- und ärztliche Zweitmeinungen nicht zuverlässig zu unterscheiden.
-
Keine Verbesserung zeigte sich beim probabilistischen Reasoning (Bayes-Updates) sowie bei Triage-Differentialdiagnosen – hier blieb o1-preview auf GPT-4-Niveau.
Stärken und Limitationen
Die Studie ist methodisch akribisch: validierte Skalen, hohe Inter-Rater-Übereinstimmung (κ bis 0,89), prospektive Real-World-Komponente und ein ungewöhnlich großer humaner Vergleichspool. Limitierend sind die Beschränkung auf textuelle Eingaben (kein Bild, kein Labor-Trend, kein EKG, keine Histologie und keine Bildgebung), die bewusst kuratierten CPC-Fälle (Diagnose ist konzeptionell auffindbar), die geringe Fallzahl im ED-Arm sowie die Tatsache, dass o1-preview bereits durch o3 abgelöst ist. Ein Anchoring der Ärzt:innen ist im ED-Setting nicht vollständig auszuschließen, und die Generalisierbarkeit auf domänenspezifische Aufgaben – etwa onkologisches Staging, molekulare Tumorboards oder operative Entscheidungsfindung – ist offen.
Kommentar für die onkologische Praxis
Erstens: die richtige Frage stellen
Die Dichotomie „LLM vs. Arzt“ ist analytisch falsch gestellt. Klinisch entscheidend ist nicht „machine intelligence“ gegen „human intelligence“, sondern die zwei Hybridkonfigurationen: „human-augmented machine“ – also der Algorithmus, der durch ärztliche Eingaben und Kontext geschärft wird (typisch für autonome Triage, Auto-Reporting, Chart-Synthese) – und „machine-supporting human“ – der/die Kliniker:in, die KI als strukturierte Zweitmeinung in komplexe Entscheidungswege einbindet. Für die Onkologie ist die zweite Konfiguration die ethisch und epistemisch belastbare: Verantwortung, Indikationsstellung und Kommunikation bleiben ärztlich, die Maschine erweitert die kognitive Reichweite. Brodeur et al. liefern die Evidenz dafür, dass dieser Hebel real ist – am stärksten dort, wo wir ihn ohnehin am meisten benötigen: im Management-Reasoning multimodaler Befunde, integriert mit Patientenpräferenz und Komorbidität.
Zweitens: wo der Mensch unersetzlich bleibt
Die Stagnation beim probabilistischen Reasoning ist klinisch bedeutsam. Sie betrifft genau jene Entscheidungen, die unsere Fachgebiete prägen: Active Surveillance versus Therapie beim Niedrig- bzw. günstig-intermediären Prostatakarzinom, Re-TURB nach BCG bzw. Indikation zur frühen radikalen Zystektomie beim Hochrisiko-NMIBC, oder – auf der gynäkologischen Seite – die Risikostratifizierung für eine Lymphonodektomie beim frühen Endometriumkarzinom, die Beratung zur risikoreduzierenden bilateralen Salpingo-Oophorektomie bei BRCA-Trägerinnen und die Frage der Erhaltungstherapie mit PARP-Inhibitoren beim platinsensitiven rezidivierten Ovarialkarzinom. All diese Entscheidungen hängen wesentlich von kalibriertem Bayes-Denken unter Unsicherheit ab. LLMs liefern hier (noch) keinen Mehrwert – ärztliches Urteil bleibt unersetzlich.
Drittens: die Risikoseite
Die unkritische Übernahme von „nutzlosen oder schädlichen Tests“ ist ein realer Risikofaktor – von der überflüssigen PSMA-PET bei Niedrigrisiko-Konstellationen bis zur nicht indizierten erneuten Bildgebung bei asymptomatischen Ovarialkarzinom-Nachsorgepatientinnen. Wir benötigen prospektive, ergebnisorientierte Studien (nicht nur Concordance-Studien) und – analog zum ESMO-Magnitude-of-Clinical-Benefit-Konzept – validierte Frameworks zur Bewertung KI-gestützter Empfehlungen, bevor diese in interdisziplinären Tumorboards, molekularen Tumorboards oder Aufklärungsgesprächen Eingang finden.
Viertens: das nicht delegierbare Bedside
Reasoning-LLMs sind blind gegenüber dem, was uns am Patientenbett unmittelbar erreicht – die bimanuelle gynäkologische Untersuchung, der intraoperative Situs, die Mimik der Patientin, wenn über Inkontinenz, sexuelle Funktion oder Fertilitätserhalt gesprochen wird. Diese Domänen werden in absehbarer Zeit nicht delegierbar sein, und sie sind genau jene, in denen sich onkologische Qualität entscheidet.
Fünftens: die Umkehr der Haftungsfrage
Die in Aufklärungsgesprächen heute noch dominierende Sorge lautet: „Darf ich KI überhaupt einsetzen?“ Mit Daten wie jenen von Brodeur et al. verschiebt sich diese Frage – und zwar grundlegend. Wenn ein frei verfügbares Reasoning-Modell beim strukturierten Management-Reasoning eine Median-Performance von 86% erreicht, gegenüber 42% bei Ärzt:innen mit Internet-Zugang, dann wird die Patientin von morgen nicht mehr fragen, warum wir KI verwendet haben – sondern warum wir sie nicht als Entscheidungsunterstützung herangezogen haben. Vor einer komplexen Therapieentscheidung – radikale Zystektomie versus Blasenerhalt, primäre Operation versus neoadjuvante Chemotherapie beim fortgeschrittenen Ovarialkarzinom, „active surveillance“ versus Fokaltherapie – wird das Unterlassen einer KI-Zweitmeinung zunehmend rechtfertigungsbedürftig werden. Aus dem heutigen „opt-in“ wird mittelfristig ein „opt-out“: Wer KI nicht konsultiert hat, wird begründen müssen, warum nicht. Diese Verschiebung trifft uns in einem ungeordneten Zustand – ohne validierte Frameworks, ohne aufsichtsrechtliche Klarheit, ohne strukturierte Dokumentationsstandards in Tumorboards. Genau hier sollte die Onkologie aktiv gestalten, statt zu reagieren.
Literatur:
● Brodeur PG et al.: Performance of a large language model on the reasoning tasks of a physician. Science 2026; published online 30 April 2026
Das könnte Sie auch interessieren:
Erhaltungstherapie mit Atezolizumab nach adjuvanter Chemotherapie
Die zusätzliche adjuvante Gabe von Atezolizumab nach kompletter Resektion und adjuvanter Chemotherapie führte in der IMpower010-Studie zu einem signifikant verlängerten krankheitsfreien ...
Highlights zu Lymphomen
Assoc.Prof. Dr. Thomas Melchardt, PhD zu diesjährigen Highlights des ASCO und EHA im Bereich der Lymphome, darunter die Ergebnisse der Studien SHINE und ECHELON-1
Aktualisierte Ergebnisse für Blinatumomab bei neu diagnostizierten Patienten
Die Ergebnisse der D-ALBA-Studie bestätigen die Chemotherapie-freie Induktions- und Konsolidierungsstrategie bei erwachsenen Patienten mit Ph+ ALL. Mit einer 3-jährigen ...