KI – ein (un)zuverlässiger Gesundheitsratgeber?

Patient hält Smartphone in der Hand und lässt sich von der KI medizinisch beraten
Ist künstliche Intelligenz als kompetenter Ratgeber in Gesundheitsfragen geeignet?
© IDOL'foto / stock.adobe.com
Direkt zum Inhaltsverzeichnis

ChatGPT Health verspricht medizinische Beratung auf Knopfdruck: Das neue Tool soll Symptome analysieren und Gesundheitsdaten auswerten, um Nutzer:innen rasch Orientierung zu bieten. Doch eine aktuelle Studie dämpft die Euphorie und warnt vor Sicherheitsrisiken und möglichen Fehleinschätzungen im Notfall.

Medizinische Expertise

Andreas Klein

Doz. (PD) Univ.-Lektor Dr. Andreas Klein

Ethik-Consultant, Privatdozent und Univ.-Lektor der Universität Wien, Lebens- und Sozialberater
Ethik Consulting, Hintzerstr. 3/12, 1030 Wien
www.andreasklein.at
Medizinische Fachbeiträge auf MeinMed.at werden von 🇦🇹 österreichischen Ärzt:innen und medizinischen Expert:innen geprüft.

Inhaltsverzeichnis

KI wird im Alltag mittlerweile von vielen Menschen als persönlicher Ratgeber eingesetzt. Anfang diesen Jahres wurde ChatGPT Health eingeführt – ein Verbraucher-Gesundheitstool von OpenAI, das bisher nur in den USA verfügbar ist, jedoch innerhalb kürzester Zeit schon Millionen von Nutzer:innen erreichte. 

ChatGPT Health ist kostenlos, rund um die Uhr verfügbar und soll als erste Anlaufstelle bei der Einordnung von Symptomen dienen. Es wird bei der Nutzung zwar darauf hingewiesen, dass es nicht als Notfallwerkzeug entwickelt wurde und keine ärztliche Diagnose ersetzt. Hochakute Anfragen werden aber nicht ausgeschlossen und es erlaubt eine Bewertung von medizinischen Notfällen nach Schweregrad und Dringlichkeit (Triage). Seitens OpenAI wird zudem festgehalten, dass der Datenschutz deutlich strenger geregelt ist als beim klassischen Chatbot. So läuft das Tool in einem eigenen Setting und Informationen werden z.B. nicht als Trainingsdaten für ChatGPT verwendet.

In einer kürzlich veröffentlichten Studie wurde die Genauigkeit von ChatGPT Health unter die Lupe genommen und festgestellt, dass das System Notfälle nicht immer zuverlässig erkennt.

Im Rahmen der Studie wurde ein strukturierter Stresstest der Triage-Empfehlungen durchgeführt, bei dem insgesamt 960 Prompt-Antworten aus 60 Fallbeispielen, die von Kliniker:innen verfasst wurden, unter 16 faktoriellen Bedingungen (wie Geschlecht, ethnischer Hintergrund, Zugangshindernisse wie Versicherung oder Transport, Einschätzung von Nahestehenden etc.) getestet wurden.

Die Klassifikation der Triage erfolgte auf einer vierstufigen Skala:

Nicht dringend: zu Hause beobachten
Teilweise dringend: innerhalb einer Woche eine Ärzt:in konsultieren
Dringend: innerhalb von 24-48 Stunden eine Ärzt:in konsultieren
Notfall: sofort in die Notaufnahme
  • Das Tool hatte 51,6 % der medizinischen Notfälle, die aus dem (verschlechternden) Verlauf einer bereits bestehenden Erkrankung entstehen (wie diabetische Ketoazidose oder drohendes Atemversagen), unterbewertet. Es empfahl Patient:innen, innerhalb von 24-48 Stunden eine Ärzt:in aufzusuchen, anstatt sie umgehend in die Notaufnahme zu schicken. 
  • Klassische Notfälle wie Schlaganfall oder Anaphylaxie wurden korrekt triagiert. 
  • Von den nicht dringenden Fällen wurden 64,8 % überbewertet – meist dahingehend, einen Arztbesuch zu planen. 
  • Wurden die Symptome von nahestehenden Angehörigen heruntergespielt, verschoben sich die Triage-Empfehlungen, vor allem bei Grenzfällen, erheblich – meist in Richtung weniger dringender Versorgung.
  • Objektive Befunde wie Laborwerte oder Vitalzeichen verbesserten zwar die Gesamtgenauigkeit, erhöhte jedoch kurioserweise die Zahl der Unterbewertungen bei Notfällen. 
  • Krisenhinweise bei Suizidgedanken wurden unbeständig ausgelöst und häufiger, wenn Nutzer:innen keine konkrete Methode beschrieben, als wenn sie dies taten.

Die Studienergebnisse zeigten Probleme bei der Nutzung von ChatGPT Health auf. Hochriskante Notfälle wurden übersehen und Krisenschutzmaßnahmen inkonsistent aktiviert. Dies wirft Bedenken bei dem Einsatz von verbraucherorientierten Gesundheits-KI’s auf: Wie sicher sind sie? Ist künstliche Intelligenz wirklich als kompetenter Ratgeber in Gesundheitsfragen geeignet?

Wir sprachen diesbezüglich mit Dr. Andreas Klein, Ethik-Consultant, Privatdozent und Univ.-Lektor der Universität Wien sowie Lebens- und Sozialberater.

Was denken Sie persönlich über den verbraucherorientierten Einsatz von künstlicher Intelligenz bei Gesundheitsfragen? Ist es verantwortbar, dass KI-Tools Gesundheitsratschläge geben?

Dr. Andreas Klein: Grundsätzlich stehen wir ja immer noch am Anfang solcher Entwicklungen und Innovationen und von daher sind Beurteilungsfehler wie die oben beschriebenen auch zu erwarten. Nichtsdestotrotz ist schon abzusehen, dass diese Tools in der Breite der Gesellschaft ankommen und auch aktuell bereits intensiv genutzt werden. Zudem gibt es auch andere Studien, in denen beispielsweise KIs gegenüber Gesundheitsexpert:innen deutlich besser abschneiden.

Die Frage der Verantwortung wird meines Erachtens stark von der Sicherheit bzw. Robustheit dieser Systeme abhängen: sofern die Systeme hochgradig treffsichere Ergebnisse generieren, wird es schwierig sein zu argumentieren, warum man sie der Bevölkerung vorenthalten sollte. Zudem bietet in Europa der AI Act einen zentralen rechtlichen Rahmen, um solche Systeme im Hochrisikobereich wie dem Gesundheitswesen überhaupt zu etablieren und dauerhaft zu kontrollieren. Zu klären ist dann allerdings noch, wie es hinsichtlich des rechtlichen Vorbehalts der Beauskunftung seitens des ärztlichen Personals aussieht.

Gibt es eine Möglichkeit, als Patient:in zu überprüfen, ob eine KI eine medizinisch korrekte Empfehlung gibt?

Dr. Andreas Klein: Natürlich gibt es die, nämlich die ärztlich-medizinischen Expertise. Man kann generell immer die Ärzt:innen des Vertrauens konsultieren, um KI-generierte Inhalte mit Bezug zu Gesundheitsinformationen abklären zu lassen. Zudem besteht selbstverständlich auch die Möglichkeit, andere KI-Systeme – gewissermaßen als Zweitmeinung – einzubeziehen.

Allerdings sehen wir aktuell schon ein Problem darin, dass KIs auf unterschiedlichste Gesundheits- und Medizininformationen zugreifen kann und damit ein umfassendes Bild entwerfen kann, während das medizinisch-ärztliche Personal oft nur Teilbereiche adressiert. KIs können somit Zusammenhänge über Fachgrenzen hinweg simulieren, die in der hochspezialisierten Medizin oft fragmentiert sind. Allerdings liegt hierin auch ein veritables Problem, da genau diese umfassende Perspektive zugleich fehleranfällig ist, weil hier besonders belastbares Wissen zur Verfügung stehen muss. Es wird also auch hier um die Frage der Sicherheit und Robustheit der Systeme gehen. 

Wie heikel sehen Sie die Angabe sensibler Gesundheitsdaten in solchen Systemen?

Dr. Andreas Klein: Auch bei dieser Frage lässt sich zunächst auf den in Europa (zumindest innerhalb der EU) geltenden AI Act verweisen, der in dieser Form – ebenso wie die DSGVO – einzigartig ist und ein solides rechtliches Rahmenwerk mit entsprechender institutioneller Verankerung darstellt. Andererseits sehen wir z.B. auf Sozialen Medien, YouTube oder auch in Online-Selbsthilfegruppen einige Personen, die etwa ihre Blutwerte oder andere Befunde online stellen und/oder gemeinschaftlich diskutieren. Hier schlägt öfters der erwartete individuelle Nutzen die Sicherheitsbedenken.

Es besteht aber berechtigte Hoffnung, dass durch KI-Systeme im Gesundheitsbereich Verbesserungen für die Gesundheitsversorgung erreicht werden können, wie zahlreiche Beispiele aktuell schon belegen. Klar ist aber auch, dass Gesundheitsdaten höchstmöglichen Schutz erfordern, wofür die entsprechenden staatlichen und rechtlichen Bedingungen gesetzt werden müssen.

Seitens der Studienautor:innen wird gefordert, dass Gesundheits-KIs vor Ihrem Einsatz eine primäre Sicherheitsbewertung durchlaufen. Welche Ansätze sehen Sie als notwendig, um eine sichere Nutzung zu gewährleisten?

Dr. Andreas Klein: Genau diesen Aspekt habe ich oben bereits angesprochen. KI-Systeme im Gesundheitsbereich müssen ausreichend valide, sicher und robust sein und der dauerhaften Kontrolle unterliegen (z.B. Human-in-the-loop und Human-on-the-loop). Zudem müssen sie adaptiv sein, um neue Entwicklungen entsprechend berücksichtigen zu können. Darüber hinaus muss ausreichend kommuniziert werden, dass auch bei den besten Systemen Fehler auftreten können – aber das ist kein spezifisches KI-Problem, sondern betrifft auch die von Menschen vorgenommene Beurteilung (was gerne auch übersehen wird). 

Wenn man KI für Gesundheitsthemen nutzt, was sollte man beachten? Wann empfehlen Sie die Nutzung? Wann würden Sie davon abraten? Bei welchen Anliegen sollte man lieber doch zur Ärzt:in?

Dr. Andreas Klein: Meine Empfehlung ist hier ganz klar: Am besten eignen sich KI-Systeme im Gesundheitsbereich dann, wenn man selbst bereits ausreichend Hintergrundinformationen mitbringt. Dies ist auch in anderen Bereichen der KI-Nutzung offensichtlich. Sich blind auf eine KI-Beurteilung zu verlassen, ist keine gute Idee. Darum sollte man je nach Tiefe bzw. Schwere der Fragestellung immer auch andere Optionen einbeziehen, wie etwa die Fachmeinung von Expert:innen oder zumindest andere KI-Optionen. Als Beispiel könnte man als Privatperson Dinge mit einem KI-System erörtern, die bereits in der Vergangenheit valide beurteilt wurden (z.B. bereits vorliegende Blut- oder andere Befunde), um zu überprüfen, ob es hier Übereinstimmungen gibt. Darüber hinaus kann man Fragestellungen mit KIs "diskutieren", die weniger brisant sind, wie etwa individuell abgestimmte Trainings- oder Ernährungspläne, sinnvolle Verhaltensänderungen für ein gesundheitskompatibles Lebenskonzept usw. Mittlerweile gibt es auch zahlreiche Berichte über sehr erfolgreiche KI-Interaktionen im psychologischen Bereich bzw. in der psychosozialen Beratung. 

Wichtig dabei ist, stets auch konkrete Rückfragen und kritische Erörterungen zu integrieren, um sich nicht auf die erstbeste Antwort zu verlassen. Hierzu kann man z.B. wieder andere KI-Systeme beiziehen und auf diese Weise sogar mehrere KI-Tools mit verteilten Rollen an einer Aufgabe arbeiten zu lassen. Dies wird auch in wissenschaftlichen Projekten derzeit genutzt, so dass etwa eine KI den Output einer anderen KI überprüft und umgekehrt bzw. unterschiedliche KIs mit Teilaufgaben betraut werden. 

Eine besondere Warnung würde ich bei schwierigen oder äußerst heiklen Angelegenheiten aussprechen, wo mir die persönliche Interaktion mit Expert:innen unumgehbar erscheint, zumal diese ohnehin vorab Untersuchungen und eine entsprechende Befundung durchführen müssen – eine KI kann kein CT oder MRT machen. Ich kann aber sehr wohl im Nachgang eine KI um ihre Einschätzung fragen und so eventuell sogar ein umfassenderes Bild erhalten. Nicht selten fallen Patient:innen erst nach dem Arztbesuch wichtige oder weiterführende Fragen ein, die sie dann aber nicht mehr stellen können. 

Insgesamt kann KI in diesem Segment künftig helfen, Health Literacy und Empowerment auch von Privatpersonen zu steigern und zu fördern und damit auch das nötige Hintergrundwissen zu heben. Aber auch Expert:innen profitieren von KI-Interaktionen, um ihre eigene Urteilsbildung zu schärfen und zu erweitern. Deshalb wird auch in der ärztlichen Aus-, Fort- und Weiterbildung zunehmend auf die Integration von und die Auseinandersetzung mit KI-Expertisen gesetzt.


Autor:in:

Redaktionelle Bearbeitung:

Medizinisches Review:

Stand der medizinischen Information:

Mehr zum Thema

Videos zum Thema

Derzeit aktuell

Neueste Beiträge