
©
Getty Images/iStockphoto
Künstliche Intelligenz in der Brustbildgebung – quo vadis?
Leading Opinions
Autor:
Cand. med. Thomas Sartoretti
Universität Zürich
Autor:
Dr. med. Dr. sc. Anton S. Becker
Universitätsspital Zürich & Memorial Sloan Kettering Cancer Center, New York<br> E-Mail: beckera1@mskcc.org
30
Min. Lesezeit
11.07.2019
Weiterempfehlen
<p class="article-intro">Das Thema «Künstliche Intelligenz» (KI) ist in der Radiologie angekommen und besonders bei der Brustbildgebung auf dem Vormarsch. Ein kompletter Ersatz des Radiologen ist aber selbst in ferner Zukunft völlig abwegig.</p>
<hr />
<p class="article-content"><p>Auf dem offiziellen Kongressposter des Europäischen Kongresses für Radiologie 2020 prangt eine Frau, die auf einen mit blau glänzenden Streifen und Punkten bemalten, schwebenden Würfel starrt. Der Würfel symbolisiere künstliche Intelligenz (KI), heisst es auf der Website der European Society of Radiology; eine Entwicklung, welche die Radiologie grundlegend zu verändern vermag, so, wie es vor einigen Jahrzehnten die Schnittbildgebung tat.<br /> Die Begeisterung des Kongresskomitees für KI scheint aber nicht von allen Radiologen geteilt zu werden. Schon mehrere Male wurden in jüngster Vergangenheit Prophezeiungen gemacht, die nicht hielten, was sie versprachen. Dass gewisse «Experten» sogar verkünden, die Radiologie sei bald überflüssig und man könne aufhören, Radiologen auszubilden, spricht von wenig Realitätsnähe und ist einer fruchtbaren Diskussion eher abträglich.<br /> In den folgenden Zeilen wird versucht, Schlagwörter und Hype von der Realität zu trennen und dem Leser ein Bild zu vermitteln, was die Rolle von KI in der Brustbildgebung sein könnte.</p> <h2>Künstliche Intelligenz, «machine learning», «deep learning»</h2> <p>KI beschreibt den Prozess der Nachahmung und Simulation menschlicher Intelligenz mithilfe von Maschinen und Computern. KI-Systeme kann man grob in zwei Kategorien einteilen: in schwache und starke Systeme. Schwache Systeme (wie z. B. Amazons Alexa) sollen und können ausschliesslich eine bestimmte Aufgabe erfüllen, während starke KI-Systeme auch Probleme lösen können, die auf Daten und Regeln basieren, mit denen das System zuvor nicht explizit konfrontiert wurde, wie dies z. B. beim autonomen Autofahren der Fall ist.<br /> Eine wichtige Form der KI ist das «machine learning» (ML). Dabei werden Algorithmen kreiert, die ein statistisches Modell zur Mustererkennung mithilfe eines Trainingsdatensatzes erstellen sollen und sich dabei selbst modifizieren können, um ihre Leistung bei der Mustererkennung zu verbessern. Nach der Trainingseinheit wird dann das statistische Modell an einem dem System unbekannten Datensatz getestet, um zu schauen, ob der Algorithmus erfolgreich von den Trainingsdaten gelernt hat. Scheitert das Modell an den neuen Daten, spricht man von «overfitting» – das Modell hat nur die Trainingsdaten «auswendig gelernt».<br /> «Deep learning» (DL) bezeichnet eine Gruppe von speziellen Algorithmen und ist eine Unterform des ML. DL arbeitet mit künstlichen neuronalen Netzwerken in vielen hierarchisch untereinander angeordneten Ebenen (daher das Adjektiv «deep»). Trotz des Attributs «neuronal» unterscheiden sich übrigens die einzelnen Einheiten der Netzwerke wie auch der Trainingsprozess grundlegend von natürlichen Neuronen und Nervensystemen.<sup>1</sup> Diese schichtartige Netzwerkanordnung ermöglicht es, aus komplexen Trainingsdaten – wie z. B. Mammografien – Muster zu extrahieren und zu lernen. Aufgrund der Komplexität sowohl der Daten als auch des zugrunde liegenden Netzwerkes benötigt DL aber deutlich mehr Daten als ältere ML-Algorithmen<sup>2</sup> und ist deutlich aufwendiger in der technischen Implementierung.</p> <h2>Einsatz von Computern in der Brustbildgebung</h2> <p>Bei der Mammografie wird die Brust mit Röntgenstrahlen durchleuchtet, wobei dann, vereinfacht zusammengefasst, dichtere Gewebe «heller» erscheinen. Das Fett ist also dunkel, Bindegewebe und Stroma sind heller, und am hellsten erscheinen Verkalkungen. Brustkrebs äussert sich in der Mammografie als «bindegewebige» Verdichtung mit oder ohne Mikrokalk und kann in der Erscheinung, d. h. in Form und Helligkeit, deutlich variieren. Da besonders in Brüsten mit dichtem Stroma gewisse Tumoren nur schlecht oder gar nicht abgegrenzt werden können, wird die Untersuchung oft durch eine Sonografie ergänzt, die einen besseren Weichteilkontrast aufweist. Diese relativ simple Aufgabe der Brustdichtebestimmung kann bereits zuverlässig von DL übernommen werden.<sup>3</sup> Weitere Techniken, die angewendet werden, wie automatischer Ultraschall (ABVS oder ABUS), Tomosynthese, Mamma-MRI oder Mamma-CT, sprengen den Rahmen dieses kurzen Übersichtsartikels.<br /> In vielen Ländern und Regionen werden (nicht unumstrittene<sup>4</sup>) Brustkrebs-Screening- Programme durchgeführt, wobei asymptomatische Frauen ab einem gewissen Alter in regelmässigen Zeitabständen mittels Mammografie untersucht werden. Es sind also an den meisten Zentren genügend grosse Mengen an Trainingsdaten für allfällige DL-Algorithmen vorhanden. Ausserdem liegen bei der Mammografie zweidimensionale Bilddatensätze vor, was das Einspeisen in DL-Programme deutlich vereinfacht (auch wenn hierbei zwei wichtige Eigenschaften, die Lateralität und die verschiedenen Projektionen der gleichen Brust, vernachlässigt werden).<br /> Es stechen zwei Probleme des Screenings heraus, die durch DL gelöst oder zumindest verbessert werden könnten:<br /> Zum einen wird im Screening eine grosse Anzahl ansonsten gesunder Frauen potenziell krebserregender Strahlung ausgesetzt. Diese Strahlendosis könnte wahrscheinlich durch den gezielten Einsatz von DL-Algorithmen in der Bildrekonstruktion reduziert werden.<sup>5</sup> Auch wenn diese Techniken ihre eigenen Tücken bergen<sup>6</sup> und gründlich evaluiert werden müssen, so scheint dies doch eine der naheliegendsten Anwendungsmöglichkeiten von DL.<br /> Zum anderen leidet (glücklicherweise) nur ein winziger Bruchteil der untersuchten Patientinnen an Brustkrebs, was (leider) dazu führt, dass sehr viel Zeit mit der Beurteilung normaler Bilder verschwendet wird und dass ein nicht unerheblicher Anteil falsch positiver Befunde anfällt. Letzteres kann für die eigentlich gesunde Patientin gravierende Konsequenzen nach sich ziehen.<sup>7, 8</sup><br /> Schon um die Jahrtausendwende gab es Software, sogenannte CAD(«computer-aided- detection»)-Systeme, die mittels älterer ML-Algorithmen Radiologen bei der Mammografie-Auswertung zu helfen versuchten. Da diese CAD-Systeme jedoch eine hohe Anzahl an falsch positiven Befunden produzierten, konnten sich diese Programme nie richtig etablieren bzw. hielten in klinischen Studien der wissenschaftlichen Prüfung nicht stand. Dieses Problem soll mit DL gelöst werden.<br /> Nachdem 2017 industrielle DL-Algorithmen in der Auswertung von Mammografien<sup>9</sup> und Mamma-Sonografien<sup>10</sup> bereits nahezu Parität zu Radiologen erreichten, haben in der Zwischenzeit verschiedene akademische Arbeitsgruppen und Firmen spezialisierte DL-Systeme zur automatischen Auswertung von Mammografie-Datensätzen entwickelt. Einige dieser Programme zeigen sowohl eine hohe Sensitivität als auch Spezifität. Somit könnten sie eine Art Triage-Funktion erfüllen und normale Aufnahmen innert Sekunden als solche kennzeichnen – ein deutlicher Mehrwert für Patientinnen und Ärzte zugleich. Rodriguez-Ruiz et al. liessen hierfür alle Mammografien von einem DL-Algorithmus «vorbefunden» und auf einer Skala von 1 bis 10 die Wahrscheinlichkeit für Brustkrebs kennzeichnen. Lediglich Bilder mit 6 bis 10 Punkten wurden anschliessend vom Radiologen befundet. Der grosse Vorteil dieses Systems ist nicht nur die Zeit- oder Kostenersparnis, sondern auch, dass die Wahrscheinlichkeit für das Vorliegen von Brustkrebs in jedem effektiv befundeten Bild deutlich grösser ist. In obigem Szenario wurde das Untersuchungsvolumen für den Radiologen fast halbiert (–47 % ).<sup>11</sup><br /> Bei genauerer Betrachtung muss man jedoch feststellen, dass zumindest noch eine beträchtliche Menge an Forschungsarbeit vor uns liegt, bevor man guten Gewissens klinisch wichtige Bildbeurteilungen in der alltäglichen Routine auch nur teilweise einem Computer überlassen kann.<br /> Erstens hängt die Prognose von Brustkrebs wesentlich von der zugrunde liegenden Molekularbiologie des Tumorgewebes ab und diese ist auf einem Mammografiebild nur sehr beschränkt aufgrund einiger Epiphänomene ersichtlich. DL kann zwar gut Mikrokalk erkennen und klassifizieren, doch dessen Vorhandensein hat für eine symptomatische Frau oder die Patientin mit familiärer Belastung eine komplett andere Bedeutung als für eine junge gesunde Patientin, die das reguläre Screening besucht. Der Arzt ist sich dessen bewusst, DL nicht.<br /> Zudem können DL-Algorithmen bis heute keine Verlaufsbeurteilungen vornehmen. Rein morphologisch suspekte Mikroverkalkungen können z. B. dann trotzdem als harmlos angesehen werden, wenn sie seit mehreren Jahren unverändert bestehen – eine Dimension, die DL fehlt.<br /> Des Weiteren ist es ein grosser Schritt von experimentellen zu klinischen Studien. Sämtliche bis dato publizierten Mammografie- KI-Studien sind experimentelle Studien, die zwar gute diagnostische Genauigkeit belegen, deren Ergebnisse aber wenig über klinische Endpunkte im Alltag aussagen. CAD (s. o.) zeigte initial ebenfalls vielversprechende experimentelle Resultate.<sup>12</sup> Eine spätere Metaanalyse klinischer Studien von Lehman et al. kam hingegen zum ernüchternden Schluss, dass die Benutzung von CAD bestenfalls keinen Nutzen und lediglich zusätzliche Kosten bringt.<sup>13</sup><br /> Eine erste klinische KI-Studie kommt aus der Gastroenterologie: In einer Koloskopie- Studie mit 1058 Patienten konnten Wang et al. zeigen, dass mithilfe des KI-Programms signifikant mehr Adenome und Polypen detektiert werden können, ohne Zunahme von Komplikationen.<sup>14</sup> Ähnliche Studien werden auch in der Brustbildgebung nötig sein, um die Vorteile des KI-Einsatzes zu belegen.</p> <div id="fazit"> <h2>Fazit</h2> <p>Obwohl neue KI-Algorithmen die medizinische Bildgebung in den nächsten Jahren gewiss verändern werden, so wird dies eher eine schleichende Entwicklung als eine abrupte Revolution sein. Der erste Einsatz der jetzigen Algorithmen wird wohl eher technischer Natur sein (Bildrekonstruktion, Strahlenreduktion), von der weder Arzt noch Patientin direkt etwas merken. Ein baldiger Einsatz für einfachere Aufgaben wie die Brustdichtebestimmung ist ebenfalls denkbar. Algorithmen, die helfen, schneller und zuverlässiger Diagnosen zu stellen, oder dies gar halbwegs autonom tun, werden noch lange auf sich warten lassen. Der komplette Ersatz des Arztes oder einer ganzen Disziplin hingegen ist auch in ferner Zukunft völlig abwegig.</p> </div></p>
<p class="article-footer">
<a class="literatur" data-toggle="collapse" href="#collapseLiteratur" aria-expanded="false" aria-controls="collapseLiteratur" >Literatur</a>
<div class="collapse" id="collapseLiteratur">
<p><strong>1</strong> LeCun Y et al.: Deep learning. Nature 2015; 521: 436-444 <strong>2</strong> Hasan M et al: A study of the effectiveness of machine learning methods for classification of clinical interview fragments into a large number of categories. 2016; 62: 21- 31 <strong>3</strong> Ciritsis A et al.: Determination of mammographic breast density using a deep convolutional neural network. Br J Radiol 2018; 1: 20180691 <strong>4</strong> Biller-Andorno N, Jüni P: Abolishing mammography screening programs? A view from the Swiss Medical Board. N Engl J Med 2014; 370: 1965-7 <strong>5</strong> Moriakov N et al.: Deep learning framework for digital breast tomosynthesis reconstruction. Medical Imaging 2019: Physics of Medical Imaging (eds. Bosmans, H., Chen, G.-H. & Gilat Schmidt, T.) 220. SPIE 2019; doi:10.1117/12.2512912 <strong>6</strong> Becker AS et al.: Injecting and removing suspicious features in breast imaging with cycle- GAN: a pilot study of automated adversarial attacks using neural networks on small images. European Journal of Radiology 2019; doi: 10.1016/j.ejrad.2019.108649 <strong>7</strong> Salz T et al.: Meta-analyses of the effect of false-positive mammograms on generic and specific psychosocial outcomes. Psychooncology 2010; 19: 1026-1034 <strong>8</strong> Brodersen J, Siersma VD: Long-term psychosocial consequences of false-positive screening mammography. Ann Fam Med 2013; 11: 106-115 <strong>9</strong> Becker AS et al.: Deep learning in mammography: diagnostic accuracy of a multipurpose image analysis software in the detection of breast cancer. Invest Radiol 2018; 52: 434-440 <strong>10</strong> Becker AS et al.: Classification of breast cancer in ultrasound imaging using a generic deep learning analysis software: a pilot study. Br J Radiol 2018; 91: 20170576 <strong>11</strong> Rodriguez-Ruiz A et al.: Can we reduce the workload of mammographic screening by automatic identification of normal exams with artificial intelligence? A feasibility study. Eur Radiol 2019; 29: 4825-4832 <strong>12</strong> Funovics M et al.: Evaluation of a computer-assisted diagnosis system in breast carcinoma. Rofo 2001; 173: 218- 223 <strong>13</strong> Lehman CD et al.: Diagnostic accuracy of digital screening mammography with and without computeraided detection. JAMA Intern Med 2015; 175: 1828-1837 <strong>14</strong> Wang P et al.: Real-time automatic detection system increases colonoscopic polyp and adenoma detection rates: a prospective randomised controlled study. Gut 2019; 68(10): 1813-1819</p>
</div>
</p>
Das könnte Sie auch interessieren:
Webinar „CTG-Update“
Webinar „CTG-Update“ mit Dr. Elisabeth D’Costa: Aktuelle Leitlinien, praxisnahe Tipps und neue Standards kompakt zusammengefasst. Jetzt ansehen und Wissen auffrischen!
Neue Erkenntnisse zur Kolporrhaphie
Die Kolporrhaphie ist eines der etabliertesten chirurgischen Verfahren in der Beckenbodenchirurgie, welches vorrangig zur Behandlung von Beckenorganprolaps (BOP) eingesetzt wird. Die ...
Die Kunst ärztlicher Kommunikation bei Breaking Bad News
Worte haben entscheidende Wirkungen. In Gesprächen mit Patient:innen und Angehörigen gibt es meist eine hohe Erwartungshaltung gegenüber der Ärztin, dem Arzt. Vor allem die Übermittlung ...