Automatisierte „Zweitmeinung“ bei der Erkennung von distalen Radiusfrakturen
Autor:innen:
OÄ Dr. Rosmarie Breu1,2
Univ.-Prof. Dr. Heinz Redl2,3
OA Priv.-Doz. Dr. Stefan Quadlbauer2–4
Prim.Priv.-Doz. Dr. Thomas Hausner2,3,5,6
1Orthopädisches Spital Speising, Wien
2Ludwig Boltzmann Institut für Traumatologie, das Forschungszentrum in Kooperation mit der AUVA, Wien
3Austrian Cluster for Tissue Regeneration, Vienna
4AUVA-Unfallkrankenhaus Lorenz Böhler – European Hand Trauma and Replantation Center, 1200 Wien
5AUVA-Unfallkrankenhaus Salzburg
6Universitätsklinik für Orthopädie und Traumatologie, Paracelsus Medizinische Privatuniversität Salzburg
Korrespondenz:
E-Mail: rosmariebreu1@gmail.com
Sie sind bereits registriert?
Loggen Sie sich mit Ihrem Universimed-Benutzerkonto ein:
Sie sind noch nicht registriert?
Registrieren Sie sich jetzt kostenlos auf universimed.com und erhalten Sie Zugang zu allen Artikeln, bewerten Sie Inhalte und speichern Sie interessante Beiträge in Ihrem persönlichen Bereich
zum späteren Lesen. Ihre Registrierung ist für alle Unversimed-Portale gültig. (inkl. allgemeineplus.at & med-Diplom.at)
Distale Radiusfrakturen (DRF) zählen epidemiologisch zu den häufigsten Frakturformen. Mitdem Einzug diagnostisch-assistierender KI-Software kann Künstliche Intelligenz insbesondere in diesem Bereich alswertvolle Assistenz für Ärzt:innen fungieren, um die diagnostische Sicherheit zu erhöhen und klinische Entscheidungsprozesse zu unterstützen.
Keypoints
-
DRF gehören zu den häufigsten Frakturen, übersehene Frakturen gehören jedoch auch zu den häufigsten vermeidbaren Fehlern in der Notaufnahme.
-
KI-Modelle können beim Erkennen von DRFeine diagnostische Genauigkeit erreichen, die der von handchirurgischen Spezialist:innen ähnelt oder sie sogar übertrifft.
-
Im Rahmen der Studie konnte eine KI-gestützte Zweitmeinung die diagnostische Gesamtleistung von Ärzt:innen, besonders von Ärzt:innen in Ausbildung, bei der Frakturerkennung signifikant verbessern.
-
Die endgültige Diagnosefindung und Therapieentscheidung muss weiterhin in der Verantwortung der behandelnden Ärzt:innen liegen, die KI ist lediglich als Assistenzsystem heranzuziehen.
Distale Radiusfrakturen (DRF) werden als gelenksnahe Brüche definiert, die bis zu 3cm proximal des radiokarpalen Gelenks auftreten. Sie zählen mit etwa 15% aller behandelten Frakturen in Notaufnahmen zu den häufigsten Frakturen. Insbesondere Frauen ab 50 Jahren haben ein lebenslanges Risiko von 50%, eine entsprechende Fraktur zu erleiden. Diese Zahlen unterstreichen die hohe epidemiologische und ökonomische Herausforderung, die mit der DRF einhergeht. Die Kosten für osteoporotische Frakturen in der EU beliefen sich bereits im Jahr 2010 auf 37,4 Milliarden Euro, wobei Unterarmfrakturen einen signifikanten Anteil der direkten und indirekten Kosten verursachen. Die Behandlungsmöglichkeiten der DRF bestehen in einer Gipsruhigstellung oder einer offenen Reposition und palmaren Plattenosteosynthese.1–8
Ein kritisches Problem bleibt die Fehlerquote in der Primärdiagnostik. In der Notaufnahme machen nicht erkannte Frakturen einen Großteil aller vermeidbaren Fehler aus. Besonders subtile Frakturlinien führen unter hoher Arbeitsbelastung oder bei unerfahreneren Ärzt:innen zu Fehlinterpretationen.9–11
Methodik und Datensatz
Das primäre Ziel dieser retrospektiven Studie waren die Entwicklung und die Testung einer KI-Software, die Ärzt:innen eine „Zweitmeinung“ zur Erkennung von DRF liefern soll. Anschließend wurde im Rahmen einer Prüferstudie die Genauigkeit der Frakturerkennung von Ärzt:innen mit und ohne Softwareunterstützung verglichen.
Den Datensatz für das Softwaretraining bildeten über 26000 anonymisierte digitale Röntgenbilder – anterior-posterior und lateral – von volljährigen Patient:innen, die zwischen 2015 und 2019 in den AUVA-Unfallkrankenhäusern in Österreich behandelt wurden. Der Datensatz war nahezu gleichverteilt: 49,5% zeigten eine DRF und 50,5% waren unauffällig.
Als „ground truth“ für das KI-Modell diente die Diagnose des Erstkontakts unter Einbeziehung der klinischen Untersuchung und der Nachkontrollen. Zur Qualitätssicherung der „ground truth“ wurde jedes Bild primär von zwei Ärzt:innen – davon zumindest ein Facharzt bzw. eine Fachärztin für Traumatologie – evaluiert, was eine maximale Datenvalidität gewährleistet.
Das KI-Modell basiert auf einem Convolutional Neural Network (CNN) und wurde von Carolina Avelar, Zsolt Bertalan und Richard Ljuhar vom ImageBiopsy Lab, Wien, entwickelt und darauf trainiert, DRF in Röntgenaufnahmen zu erkennen. 85% der oben beschriebenen Röntgenbilder bildeten das Trainingsset. Ein RetinaNet mit ResNet50-Backbone identifizierte den Handgelenksbereich. Die eigentliche Klassifizierung übernahm ein modifiziertes U-Net, das für eine Doppelaufgabe optimiert wurde.Die Klassifizierung erfolgte über einen Score, der die Wahrscheinlichkeit einer Fraktur bestimmt (0 oder 1). Die Segmentierung erfolgte über eine Maske, die die Fraktur im Bild lokalisierte (Abb.1).
Für die Prüferstudie wurden ausschließlich Röntgenbilder verwendet, die das Modell beim Training noch nicht gesehen hatte. Insgesamt 11 Prüfer:innen, darunter 6 Assistenzärzt:innen und 5 spezialisierte Handchirurg:innen mit >10 Jahren Erfahrung, evaluierten 200 zufällig ausgewählte Bildpaare (a.p. und seitlich). Um Bias zu vermeiden, wurden Bilder mit Gips, Osteosynthesematerial oder Artefakten ausgeschlossen. Die Prüfer:innen bewerteten die Bilder erst eigenständig und nach einer dreiwöchigen Washout-Phase mithilfe der KI-Empfehlung. Die Empfehlung erfolgte mittels einer binären Anzeige: KI-Modell erkennt eine Fraktur/erkennt keine Fraktur.
Ergebnisse
Das KI-Modell zeigte nach abgeschlossenem Training eine exzellente diagnostische Genauigkeit mit einer Area under the Curve (AUC) von 0,97. Im Rahmen der Prüferstudie erreichte das Modell eine Stand-alone-Sensitivität von 96% und eine Spezifität von 91%. Damit übertraf die KI die durchschnittliche Leistung aller 11 beteiligten Ärzt:innen.
Die Unterstützung durch die Software führte zu einer signifikanten Steigerung der diagnostischen Sicherheit (Tab.1).
Diskussion
Die Ergebnisse dieser Studie zeigen deutlich, dass das verwendete KI-Modell mit einer AUC von 0,97 eine diagnostische Genauigkeit erreicht, die internationalen Spitzenwerten entspricht und vergleichbar mit der Genauigkeit von handchirurgischen Spezialist:innen ist oder diese sogar übertrifft.12,13
Die alleinige Spezifität der Ärzt:innen (91%) war vergleichbar mit der Eigenleistung der KI (91%). Mit KI-Unterstützung konnte die Spezifität der Ärzt:innen auf 95% gesteigert werden, was vermutlich am gesteigerten Vertrauen in die eigene Meinung lag. Ein zentrales Ergebnis in unserer Studie ist weiters die signifikante Steigerung der Gesamtleistung (Youden-Index) durch die KI-Unterstützung. Der Youden-Index stieg in der Gruppe der Assistenzärzt:innen statistisch signifikant an, jedoch nicht in der Gruppe der Handchirurg:innen. Einerseits ist das wohl auf die geringe Stichprobengröße – sie bestand aus 5 bzw. 6 Ärzt:innen – zurückzuführen, da wiederum für beide Gruppen zusammen eine statistische Signifikanz besteht. Andererseits profitieren wohl Ärzt:innen mit weniger Erfahrung mehr von einer automatisierten Unterstützung, was auch dadurch gezeigt wurde, dass die drei Ärzt:innen mit der größten Verbesserung alle aus dieser Gruppe stammen (Youden-Index ohne vs. mit KI-Unterstützung: 0,58 vs. 0,86; 0,64 vs. 0,83 und 0,71 vs. 0,90), was im Einklang mit der Literatur steht.14
Gewisse Einschränkungen dieser Studie waren die geringe Teilnehmerzahl von 11 auswertenden Ärzt:innen sowie die retrospektive Natur.Das verhinderte die Einbeziehung der klinischen Untersuchung und der Anamnese, was in der Praxis die Genauigkeit zusätzlich beeinflusst.
Fazit für die Praxis
Künstliche Intelligenz stellt ein hervorragendes Werkzeug zur Unterstützung in der Traumatologie dar. Mit ihrer Hilfe könnte die Anzahl übersehener Frakturen reduziert und Arbeitsabläufe schneller gestaltet oder Frakturverdachtsfälle vorab priorisiert werden. Während die menschliche Befundung anfällig für kognitiven Bias, Ermüdung und hohe Arbeitsbelastung ist, bietet die KI eine verlässliche und objektive algorithmische Zweitbewertung. Besonders Assistenzärzt:innen können durch die Software ihre Lernkurve erhöhen. Es muss jedoch betont werden, dass KI lediglich als Assistenzsystem zu verwenden ist. Die endgültige Diagnosefindung und Therapieentscheidung muss weiterhin in der Verantwortung der behandelnden Ärzt:innen liegen.
Literatur:
1 Larsen CF, Lauritsen J:Int J Epidemiol 1993; 22(5): 911-6 2 Baron JA et al.:Epidemiology 1996; 7(6): 612-8 3 Chung KC, Spilson SV:J Hand Surg Am 2001; 26(5): 908-15 4 MacIntyre NJ, Dewan N:J Hand Ther 2016; 29(2): 136-45 5 Hernlund E et al.:Arch Osteoporos2013; 8(1-2): 136 6 Quadlbauer S et al.:Clin Rehabil 2022; 36(1): 69-86 7 Quadlbauer S et al.:Arch Orthop Trauma Surg2020; 140(6): 843-52 8 Al-Hourani K et al.:Bone Joint Res2021; 10(12): 840-3 9 Pinto A et al.:Acta Biomed 2018; 89(1-S): 111-23 10 Hallas P, Ellingsen T:BMC Emerg Med2006; 6: 4 11 Guly HR:Emerg Med J 2001; 18: 263-9 12 Duron L et al.: Radiology2021; 300(1): 120-9 13 Guermazi A et al.: Radiology2022; 302(3): 627-36 14 Clement ND, Simpson AHRW: Bone Joint Res 2023; 12(8): 494-6
Das könnte Sie auch interessieren:
Frühe Unterwassertherapie nach totaler Hüft- und Knieendoprothese
Eine frühzeitige Durchführung der Unterwassertherapie mit wasserdichtem Folienverband ab dem vierten postoperativen Tag ist im Allgemeinen sicher, wirksam und ohne Nebenwirkungen.
Aktuelles zur anteromedialen Knieinstabilität
Kombinierte Verletzungen des medialen Kollateral- (MCL) und des vorderen Kreuzbandes (VKB) zählen zu den häufigsten multiligamentären Knieverletzungen. Bei vermeintlich isolierten VKB- ...
Arthroskopische Behandlung von Glenoidrandfrakturen
In der Literatur werden die Begriffe knöcherne Bankart-Läsion und Glenoidrandfraktur häufig synonym verwendet, obwohl sie sich hinsichtlich Pathomechanismus und Therapie deutlich ...