LLM-Einsatz in Diagnostik wäre ,grob fahrlässig'
Inwiefern sich Large Language Models (LLM) für den Einsatz in der Medizin eignen, hat jetzt ein Team der Technischen Universität München (TUM) untersucht – Diagnose: (noch) lebensgefährlich.
©sitthiphong, stock.adobe.com
Inwiefern sich Large Language Models (LLM), also große Sprachmodelle wie zum Beispiel ChatGPT, für den Einsatz in der Medizin eignen, hat jetzt ein Team der Technischen Universität München (TUM) untersucht. Solche Systeme hätten zwar in verschiedenen Versuchsanordnungen medizinische Examen mit Bravour bestanden – sie für Diagnosen heranzuziehen, wäre derzeit aber „grob fahrlässig“, wie das Team der TUM die Untersuchungsergebnisse bewertet. Medizin-Chatbots würden vorschnelle Diagnosen treffen, sich nicht an Richtlinien halten und das Leben von Patienten gefährden, so der Schluss der Forschenden, die laut eigenen Angaben erstmals systematisch untersucht haben, ob diese Form der Künstlichen Intelligenz (KI) für den Klinikalltag geeignet wäre.
Die im Fachmagazin ,Nature Medicine‘ veröffentlichte Untersuchung des interdisziplinären Teams um Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der TUM, hat sich der Frage gewidmet, ob LLMs in einer Notaufnahme anhand von Krankheitssymptomen die richtigen Tests anordnen und am Ende eine korrekte Diagnose stellen können. Um das herauszufinden, haben die Forschenden einen Test mit realen Patientendaten entwickelt. Um die Fähigkeiten der komplexen Algorithmen zu testen, nutzten die Forschenden anonymisierte Daten von Patienten einer Klinik in den USA. Aus einem größeren Datensatz wählten sie 2.400 Fälle aus, bei denen die Betroffenen mit Bauchschmerzen in die Notaufnahme gekommen sind. Die Fallbeschreibung endete jeweils mit einer von vier Diagnosen und einem Behandlungsplan. Zu den Fällen waren alle Daten verfügbar, die für die Diagnose erfasst wurden – von der Krankengeschichte über die Blutwerte bis hin zu den Bildgebungsdaten. „Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, so Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie. Das Programm habe dabei immer nur die Informationen gehabt, die auch den realen Ärzten zur Verfügung gestanden hätten. „Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt“, so Jungmann.
Das Team stellte fest, dass keines der LLM durchgängig alle notwendigen Untersuchungen einforderte. Tatsächlich wurden die Diagnosen der Programme sogar weniger zutreffend, je mehr Informationen sie zu dem Fall hatten. Behandlungsrichtlinien befolgten sie oftmals nicht. Als Konsequenz ordnete die KI beispielsweise Untersuchungen an, die für echte Patienten schwere gesundheitliche Folgen nach sich gezogen hätten.
In einem zweiten Teil der Studie wurden KI-Diagnosen zu einer Teilmenge aus dem Datensatz mit Diagnosen von vier Ärzten verglichen. Während diese bei 89 Prozent der Diagnosen richtig lagen, kam das beste Large Language Model auf 73 Prozent. Jedes Modell erkannte manche Erkrankungen besser als andere. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt.
Ein weiteres Problem, das die Programme für den Einsatz im Alltag disqualifiziere, sei ein Mangel an Robustheit, hieß es. Welche Diagnose ein LLM stellte, hing demnach unter anderem davon ab, in welcher Reihenfolge es die Informationen erhielt. Auch linguistische Feinheiten hätten das Ergebnis beeinflusst – beispielsweise ob das Programm um eine ,Main Diagnosis‘, eine ,Primary Diagnosis‘ oder eine ,Final Diagnosis‘ gebeten wurde. Im Klinikalltag seien diese Begriffe in der Regel austauschbar, hieß es.
Das Team hat explizit nicht die kommerziellen Large Language Models von OpenAI (ChatGPT) und Google getestet, denn zum einen untersagt der Anbieter der Krankenhausdaten aus Datenschutzgründen, die Daten mit diesen Modellen zur verarbeiten, Zum anderen raten Experten, für Anwendungen im Gesundheitssektor ausschließlich Open-Source-Software zu verwenden.
Nur mit solcher Software hätten Krankenhäuser die Informationen und das nötige Maß an Kontrolle, um die Sicherheit der Patienten zu gewährleisten, so Hager. „Wenn es darum geht, Large Language Models zu bewerten, müssen wir wissen, mit welche Daten sie trainiert wurden. Sonst könnte es sein, dass wir für die Bewertung genau die Fragen und Antworten verwenden, mit denen sie trainiert wurden. Da Unternehmen die Trainingsdaten streng unter Verschluss halten, würde eine faire Bewertung erschwert“. Es sei auch gefährlich, wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, die ihre Modelle nach Belieben aktualisieren und ändern könnten, ergänzte er. „Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist.“
„Es ist gut möglich, dass in absehbarer Zeit ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen“, betonte Rückert. „Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollen.“ Rückert sieht Potenzial in der Technologie: „Large Language Models könnten in Zukunft wichtige Werkzeuge für Ärztinnen und Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lässt. Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen“, so der Medizin-KI-Experte.
Die Publikation von Hager, P., Jungmann, F., Holland, R. et al. „Evaluation and mitigation of the limitations of large language models in clinical decision-making“ in Nat Med (2024). DOI: 10.1038/s41591-024-03097-1 ist hier abrufbar.
Diese Meldung finden Sie auch in unserem Sondernewsletter KI im Gesundheitswesen