© Getty Images/iStockphoto

Künstliche Intelligenz in der Brustbildgebung – quo vadis?

<p class="article-intro">Das Thema «Künstliche Intelligenz» (KI) ist in der Radiologie angekommen und besonders bei der Brustbildgebung auf dem Vormarsch. Ein kompletter Ersatz des Radiologen ist aber selbst in ferner Zukunft völlig abwegig.</p> <hr /> <p class="article-content"><p>Auf dem offiziellen Kongressposter des Europ&auml;ischen Kongresses f&uuml;r Radiologie 2020 prangt eine Frau, die auf einen mit blau gl&auml;nzenden Streifen und Punkten bemalten, schwebenden W&uuml;rfel starrt. Der W&uuml;rfel symbolisiere k&uuml;nstliche Intelligenz (KI), heisst es auf der Website der European Society of Radiology; eine Entwicklung, welche die Radiologie grundlegend zu ver&auml;ndern vermag, so, wie es vor einigen Jahrzehnten die Schnittbildgebung tat.<br /> Die Begeisterung des Kongresskomitees f&uuml;r KI scheint aber nicht von allen Radiologen geteilt zu werden. Schon mehrere Male wurden in j&uuml;ngster Vergangenheit Prophezeiungen gemacht, die nicht hielten, was sie versprachen. Dass gewisse &laquo;Experten&raquo; sogar verk&uuml;nden, die Radiologie sei bald &uuml;berfl&uuml;ssig und man k&ouml;nne aufh&ouml;ren, Radiologen auszubilden, spricht von wenig Realit&auml;tsn&auml;he und ist einer fruchtbaren Diskussion eher abtr&auml;glich.<br /> In den folgenden Zeilen wird versucht, Schlagw&ouml;rter und Hype von der Realit&auml;t zu trennen und dem Leser ein Bild zu vermitteln, was die Rolle von KI in der Brustbildgebung sein k&ouml;nnte.</p> <h2>K&uuml;nstliche Intelligenz, &laquo;machine learning&raquo;, &laquo;deep learning&raquo;</h2> <p>KI beschreibt den Prozess der Nachahmung und Simulation menschlicher Intelligenz mithilfe von Maschinen und Computern. KI-Systeme kann man grob in zwei Kategorien einteilen: in schwache und starke Systeme. Schwache Systeme (wie z. B. Amazons Alexa) sollen und k&ouml;nnen ausschliesslich eine bestimmte Aufgabe erf&uuml;llen, w&auml;hrend starke KI-Systeme auch Probleme l&ouml;sen k&ouml;nnen, die auf Daten und Regeln basieren, mit denen das System zuvor nicht explizit konfrontiert wurde, wie dies z. B. beim autonomen Autofahren der Fall ist.<br /> Eine wichtige Form der KI ist das &laquo;machine learning&raquo; (ML). Dabei werden Algorithmen kreiert, die ein statistisches Modell zur Mustererkennung mithilfe eines Trainingsdatensatzes erstellen sollen und sich dabei selbst modifizieren k&ouml;nnen, um ihre Leistung bei der Mustererkennung zu verbessern. Nach der Trainingseinheit wird dann das statistische Modell an einem dem System unbekannten Datensatz getestet, um zu schauen, ob der Algorithmus erfolgreich von den Trainingsdaten gelernt hat. Scheitert das Modell an den neuen Daten, spricht man von &laquo;overfitting&raquo; &ndash; das Modell hat nur die Trainingsdaten &laquo;auswendig gelernt&raquo;.<br /> &laquo;Deep learning&raquo; (DL) bezeichnet eine Gruppe von speziellen Algorithmen und ist eine Unterform des ML. DL arbeitet mit k&uuml;nstlichen neuronalen Netzwerken in vielen hierarchisch untereinander angeordneten Ebenen (daher das Adjektiv &laquo;deep&raquo;). Trotz des Attributs &laquo;neuronal&raquo; unterscheiden sich &uuml;brigens die einzelnen Einheiten der Netzwerke wie auch der Trainingsprozess grundlegend von nat&uuml;rlichen Neuronen und Nervensystemen.<sup>1</sup> Diese schichtartige Netzwerkanordnung erm&ouml;glicht es, aus komplexen Trainingsdaten &ndash; wie z. B. Mammografien &ndash; Muster zu extrahieren und zu lernen. Aufgrund der Komplexit&auml;t sowohl der Daten als auch des zugrunde liegenden Netzwerkes ben&ouml;tigt DL aber deutlich mehr Daten als &auml;ltere ML-Algorithmen<sup>2</sup> und ist deutlich aufwendiger in der technischen Implementierung.</p> <h2>Einsatz von Computern in der Brustbildgebung</h2> <p>Bei der Mammografie wird die Brust mit R&ouml;ntgenstrahlen durchleuchtet, wobei dann, vereinfacht zusammengefasst, dichtere Gewebe &laquo;heller&raquo; erscheinen. Das Fett ist also dunkel, Bindegewebe und Stroma sind heller, und am hellsten erscheinen Verkalkungen. Brustkrebs &auml;ussert sich in der Mammografie als &laquo;bindegewebige&raquo; Verdichtung mit oder ohne Mikrokalk und kann in der Erscheinung, d. h. in Form und Helligkeit, deutlich variieren. Da besonders in Br&uuml;sten mit dichtem Stroma gewisse Tumoren nur schlecht oder gar nicht abgegrenzt werden k&ouml;nnen, wird die Untersuchung oft durch eine Sonografie erg&auml;nzt, die einen besseren Weichteilkontrast aufweist. Diese relativ simple Aufgabe der Brustdichtebestimmung kann bereits zuverl&auml;ssig von DL &uuml;bernommen werden.<sup>3</sup> Weitere Techniken, die angewendet werden, wie automatischer Ultraschall (ABVS oder ABUS), Tomosynthese, Mamma-MRI oder Mamma-CT, sprengen den Rahmen dieses kurzen &Uuml;bersichtsartikels.<br /> In vielen L&auml;ndern und Regionen werden (nicht unumstrittene<sup>4</sup>) Brustkrebs-Screening- Programme durchgef&uuml;hrt, wobei asymptomatische Frauen ab einem gewissen Alter in regelm&auml;ssigen Zeitabst&auml;nden mittels Mammografie untersucht werden. Es sind also an den meisten Zentren gen&uuml;gend grosse Mengen an Trainingsdaten f&uuml;r allf&auml;llige DL-Algorithmen vorhanden. Ausserdem liegen bei der Mammografie zweidimensionale Bilddatens&auml;tze vor, was das Einspeisen in DL-Programme deutlich vereinfacht (auch wenn hierbei zwei wichtige Eigenschaften, die Lateralit&auml;t und die verschiedenen Projektionen der gleichen Brust, vernachl&auml;ssigt werden).<br /> Es stechen zwei Probleme des Screenings heraus, die durch DL gel&ouml;st oder zumindest verbessert werden k&ouml;nnten:<br /> Zum einen wird im Screening eine grosse Anzahl ansonsten gesunder Frauen potenziell krebserregender Strahlung ausgesetzt. Diese Strahlendosis k&ouml;nnte wahrscheinlich durch den gezielten Einsatz von DL-Algorithmen in der Bildrekonstruktion reduziert werden.<sup>5</sup> Auch wenn diese Techniken ihre eigenen T&uuml;cken bergen<sup>6</sup> und gr&uuml;ndlich evaluiert werden m&uuml;ssen, so scheint dies doch eine der naheliegendsten Anwendungsm&ouml;glichkeiten von DL.<br /> Zum anderen leidet (gl&uuml;cklicherweise) nur ein winziger Bruchteil der untersuchten Patientinnen an Brustkrebs, was (leider) dazu f&uuml;hrt, dass sehr viel Zeit mit der Beurteilung normaler Bilder verschwendet wird und dass ein nicht unerheblicher Anteil falsch positiver Befunde anf&auml;llt. Letzteres kann f&uuml;r die eigentlich gesunde Patientin gravierende Konsequenzen nach sich ziehen.<sup>7, 8</sup><br /> Schon um die Jahrtausendwende gab es Software, sogenannte CAD(&laquo;computer-aided- detection&raquo;)-Systeme, die mittels &auml;lterer ML-Algorithmen Radiologen bei der Mammografie-Auswertung zu helfen versuchten. Da diese CAD-Systeme jedoch eine hohe Anzahl an falsch positiven Befunden produzierten, konnten sich diese Programme nie richtig etablieren bzw. hielten in klinischen Studien der wissenschaftlichen Pr&uuml;fung nicht stand. Dieses Problem soll mit DL gel&ouml;st werden.<br /> Nachdem 2017 industrielle DL-Algorithmen in der Auswertung von Mammografien<sup>9</sup> und Mamma-Sonografien<sup>10</sup> bereits nahezu Parit&auml;t zu Radiologen erreichten, haben in der Zwischenzeit verschiedene akademische Arbeitsgruppen und Firmen spezialisierte DL-Systeme zur automatischen Auswertung von Mammografie-Datens&auml;tzen entwickelt. Einige dieser Programme zeigen sowohl eine hohe Sensitivit&auml;t als auch Spezifit&auml;t. Somit k&ouml;nnten sie eine Art Triage-Funktion erf&uuml;llen und normale Aufnahmen innert Sekunden als solche kennzeichnen &ndash; ein deutlicher Mehrwert f&uuml;r Patientinnen und &Auml;rzte zugleich. Rodriguez-Ruiz et al. liessen hierf&uuml;r alle Mammografien von einem DL-Algorithmus &laquo;vorbefunden&raquo; und auf einer Skala von 1 bis 10 die Wahrscheinlichkeit f&uuml;r Brustkrebs kennzeichnen. Lediglich Bilder mit 6 bis 10 Punkten wurden anschliessend vom Radiologen befundet. Der grosse Vorteil dieses Systems ist nicht nur die Zeit- oder Kostenersparnis, sondern auch, dass die Wahrscheinlichkeit f&uuml;r das Vorliegen von Brustkrebs in jedem effektiv befundeten Bild deutlich gr&ouml;sser ist. In obigem Szenario wurde das Untersuchungsvolumen f&uuml;r den Radiologen fast halbiert (&ndash;47 % ).<sup>11</sup><br /> Bei genauerer Betrachtung muss man jedoch feststellen, dass zumindest noch eine betr&auml;chtliche Menge an Forschungsarbeit vor uns liegt, bevor man guten Gewissens klinisch wichtige Bildbeurteilungen in der allt&auml;glichen Routine auch nur teilweise einem Computer &uuml;berlassen kann.<br /> Erstens h&auml;ngt die Prognose von Brustkrebs wesentlich von der zugrunde liegenden Molekularbiologie des Tumorgewebes ab und diese ist auf einem Mammografiebild nur sehr beschr&auml;nkt aufgrund einiger Epiph&auml;nomene ersichtlich. DL kann zwar gut Mikrokalk erkennen und klassifizieren, doch dessen Vorhandensein hat f&uuml;r eine symptomatische Frau oder die Patientin mit famili&auml;rer Belastung eine komplett andere Bedeutung als f&uuml;r eine junge gesunde Patientin, die das regul&auml;re Screening besucht. Der Arzt ist sich dessen bewusst, DL nicht.<br /> Zudem k&ouml;nnen DL-Algorithmen bis heute keine Verlaufsbeurteilungen vornehmen. Rein morphologisch suspekte Mikroverkalkungen k&ouml;nnen z. B. dann trotzdem als harmlos angesehen werden, wenn sie seit mehreren Jahren unver&auml;ndert bestehen &ndash; eine Dimension, die DL fehlt.<br /> Des Weiteren ist es ein grosser Schritt von experimentellen zu klinischen Studien. S&auml;mtliche bis dato publizierten Mammografie- KI-Studien sind experimentelle Studien, die zwar gute diagnostische Genauigkeit belegen, deren Ergebnisse aber wenig &uuml;ber klinische Endpunkte im Alltag aussagen. CAD (s. o.) zeigte initial ebenfalls vielversprechende experimentelle Resultate.<sup>12</sup> Eine sp&auml;tere Metaanalyse klinischer Studien von Lehman et al. kam hingegen zum ern&uuml;chternden Schluss, dass die Benutzung von CAD bestenfalls keinen Nutzen und lediglich zus&auml;tzliche Kosten bringt.<sup>13</sup><br /> Eine erste klinische KI-Studie kommt aus der Gastroenterologie: In einer Koloskopie- Studie mit 1058 Patienten konnten Wang et al. zeigen, dass mithilfe des KI-Programms signifikant mehr Adenome und Polypen detektiert werden k&ouml;nnen, ohne Zunahme von Komplikationen.<sup>14</sup> &Auml;hnliche Studien werden auch in der Brustbildgebung n&ouml;tig sein, um die Vorteile des KI-Einsatzes zu belegen.</p> <div id="fazit"> <h2>Fazit</h2> <p>Obwohl neue KI-Algorithmen die medizinische Bildgebung in den n&auml;chsten Jahren gewiss ver&auml;ndern werden, so wird dies eher eine schleichende Entwicklung als eine abrupte Revolution sein. Der erste Einsatz der jetzigen Algorithmen wird wohl eher technischer Natur sein (Bildrekonstruktion, Strahlenreduktion), von der weder Arzt noch Patientin direkt etwas merken. Ein baldiger Einsatz f&uuml;r einfachere Aufgaben wie die Brustdichtebestimmung ist ebenfalls denkbar. Algorithmen, die helfen, schneller und zuverl&auml;ssiger Diagnosen zu stellen, oder dies gar halbwegs autonom tun, werden noch lange auf sich warten lassen. Der komplette Ersatz des Arztes oder einer ganzen Disziplin hingegen ist auch in ferner Zukunft v&ouml;llig abwegig.</p> </div></p> <p class="article-footer"> <a class="literatur" data-toggle="collapse" href="#collapseLiteratur" aria-expanded="false" aria-controls="collapseLiteratur" >Literatur</a> <div class="collapse" id="collapseLiteratur"> <p><strong>1</strong> LeCun Y et al.: Deep learning. Nature 2015; 521: 436-444 <strong>2</strong> Hasan M et al: A study of the effectiveness of machine learning methods for classification of clinical interview fragments into a large number of categories. 2016; 62: 21- 31 <strong>3</strong> Ciritsis A et al.: Determination of mammographic breast density using a deep convolutional neural network. Br J Radiol 2018; 1: 20180691 <strong>4</strong> Biller-Andorno N, J&uuml;ni P: Abolishing mammography screening programs? A view from the Swiss Medical Board. N Engl J Med 2014; 370: 1965-7 <strong>5</strong> Moriakov N et al.: Deep learning framework for digital breast tomosynthesis reconstruction. Medical Imaging 2019: Physics of Medical Imaging (eds. Bosmans, H., Chen, G.-H. &amp; Gilat Schmidt, T.) 220. SPIE 2019; doi:10.1117/12.2512912 <strong>6</strong> Becker AS et al.: Injecting and removing suspicious features in breast imaging with cycle- GAN: a pilot study of automated adversarial attacks using neural networks on small images. European Journal of Radiology 2019; doi: 10.1016/j.ejrad.2019.108649 <strong>7</strong> Salz T et al.: Meta-analyses of the effect of false-positive mammograms on generic and specific psychosocial outcomes. Psychooncology 2010; 19: 1026-1034 <strong>8</strong> Brodersen J, Siersma VD: Long-term psychosocial consequences of false-positive screening mammography. Ann Fam Med 2013; 11: 106-115 <strong>9</strong> Becker AS et al.: Deep learning in mammography: diagnostic accuracy of a multipurpose image analysis software in the detection of breast cancer. Invest Radiol 2018; 52: 434-440 <strong>10</strong> Becker AS et al.: Classification of breast cancer in ultrasound imaging using a generic deep learning analysis software: a pilot study. Br J Radiol 2018; 91: 20170576 <strong>11</strong> Rodriguez-Ruiz A et al.: Can we reduce the workload of mammographic screening by automatic identification of normal exams with artificial intelligence? A feasibility study. Eur Radiol 2019; 29: 4825-4832 <strong>12</strong> Funovics M et al.: Evaluation of a computer-assisted diagnosis system in breast carcinoma. Rofo 2001; 173: 218- 223 <strong>13</strong> Lehman CD et al.: Diagnostic accuracy of digital screening mammography with and without computeraided detection. JAMA Intern Med 2015; 175: 1828-1837 <strong>14</strong> Wang P et al.: Real-time automatic detection system increases colonoscopic polyp and adenoma detection rates: a prospective randomised controlled study. Gut 2019; 68(10): 1813-1819</p> </div> </p>
Back to top