Symptom-Checker

Symptom-Checker sind Web-Anwendungen oder APPs zur klinischen Entscheidungshilfe für Patienten bzw. Laien. Es sind digitale Werkzeuge, die sie bei ihrer Selbsteinschätzung unterstützen, ob und wie schnell sie professionelle ärztliche Hilfe in Anspruch nehmen sollten (Self-Triage) und welche wahrscheinliche Diagnose oder Differentialdiagnose hinter den geschilderten Symptomen und der medizinischen Vorgeschichte sich verbirgt.

Methoden und Regulierung

Methoden reichen von klassischen Bayes’schen Entscheidungsbäumen über andere statistische Verfahren, wie die Auswertung von Korrelationen (engl. associative inference) und Kausales Maschinelles Lernen bis zu neuronalen Netzwerken^[1]. Testgütekriterien (Sensitivität, positiver Prädiktiver Wert) sind besser geeignet, Richtig- und Falschbewertungen gegenüber zu stellen. Die Entwickler veröffentlichen in der Regel ihre Methodik nicht.

Symptom-Checker sollten in Europa zertifiziert sein. Man erkennt dies an der CE-Kennzeichnung oder dem Zusatz Medizinprodukt Klasse 1. Die amerikanische Food and Drug Administration (FDA) hat Symptom-Checker-Apps von den strengen Regeln ausgenommen, die normalerweise für Medizinprodukte gelten. Die Behörde unterscheidet aber zwischen „gesperrten“ (nicht lernenden) Algorithmen und auf künstlicher Intelligenz (AI)-basierten/ML-basierten Lernalgorithmen, wobei nur letztere unter ein strengeres Regelwerk fallen.^[2]

Genauigkeit und Zuverlässigkeit

Die Evaluation, wie zuverlässig eine richtige Diagnose gestellt wird bzw. die korrekte Dringlichkeit eingestuft wird, kann entweder mit realen Patientendaten durch Vergleiche mit ärztlichen Diagnosen durchgeführt werden (kontrollierte Studie). Oder es werden standardisierte Vignetten als Eingangsdatensatz hergenommen. Vignetten sind fiktive Patientenbeschreibungen mit strukturierten Zusammenstellung von Symptomen, Umfeld, Vorgeschichte, Alter u. a.

Eine britische Vergleichsstudie aus dem Jahr 2015 mit 45 Vignetten erbrachte eine Übereinstimmung von 58 % mit richtigen Diagnosen^[3].

In einem systematischen Review von Wallace^[4] aus dem Jahr 2022 über 10 Studien lag die diagnostische Genauigkeit (der zu oberst genannte Diagnose) zwischen 19 und 38 %, während die Triage-Genauigkeit höher lag (49–90 %). Es fanden sich beträchtliche Unterschiede zwischen den einzelnen Symptom-Checkern.

Solche Arbeiten, die die Genauigkeit mehrerer Symptom-Checker zusammenfassen, finden oft eine hohe Heterogenität, sowohl die einzelnen Symptom-Checker, wie auch die verschiedenen Medizinbereiche und die Settings, wo dieser eingesetzt wird. Daher sind auch gezielte Analysen entstanden:

Bewertung zur Anwendung in Notaufnahme

Weltweit laufen Notaufnahme von Kliniken Gefahr, von Bagatellfällen überrannt zu werden und suchen nach Lösungen. In einer amerikanischen Notaufnahme wurden ankommende Patienten entweder durch den Symptom-Checker ADA-Health befragt oder von 3 Ärzten. Der Symptom-Checker lieferte bei 70 % richtige Diagnosen, die Ärzte bei 69 %. Die Ärzte bewerteten 62 % der Triage-Entscheidungen als zutreffend, 24 % als zu vorsichtig und 22 % als zu riskant^[5].

Unterschiedliche Bewertungen in der Rheumatologie je nach Vorwissen der Ärzte

Bei manchen Facharztpraxen bestehen lange Wartezeiten, um einen Termin zu bekommen. Eine Untersuchung in der Rheumatologie erbrachte eine Richtigkeit von 16,7 % bezogen auf die Enddiagnose, die Ärzte gestellt haben^[6], denen alle technischen und Labor-medizinischen Hilfen zur Verfügung standen. Hier wurde allerdings kritisch der Wissensvorsprung der Ärzte als Ursache der schlechten Ergebnisse herausgestellt und von den Autoren eine zweite Studie angeschlossen. Bei dieser standen dem Symptom-Checker (ADA Health) und den Ärzte das gleiche Wissen (Vignetten) zur Verfügung. Unter diesen Bedingungen stellte der Symptom-Checker die zu oberst genannte Diagnose in 70 % richtig dar, während den Ärzte dies in nur 54 % der Fälle gelang^[7].

Untersuchungen, ob Symptom-checker aus früheren Fällen lernen

Eine Arbeitsgruppe aus Berlin konnte zeigen, dass sich die Performance für Triage und Diagnostik im Durchschnitt zwischen 2015 und 2020 kaum verändert hat^[8]. Dieselbe Arbeitsgruppe ermittelte 2021 mittels solcher Vignetten, dass medizinische Laien eine ähnlich gute Fähigkeit wie Symptom-Checker bei der Einstufung der Dringlichkeit (Triage) aufweisen.^[9]

J.G.Richens (von Babylon Health) veröffentlichte 2020, dass durch die Methode der kontrafaktischen Schlussfolgerung (conterfactual inference) die Berücksichtigung der Kausalität von Symptom zur Diagnose zu besseren Ergebnissen führt, als die reine Korrelation, auf welcher die meisten Symptom.Checker beruhen^[10].

Verbreitung

Laut EPatient Survey hatten 2020 bereits 13 % der Deutschen eine Diagnostik-App konsultiert^[11]. 2023 befragten deutsche Wissenschaftler 850 Bürger aller Altersgruppen zu Symptom-Checkern. Nur 7,5 % hatte bisher einen solchen benutzt; am häufigsten waren es NetDoktor und Ada. Die Hauptnutzer lagen in der Altersgruppe zwischen 50 und 55 Jahren. 68 % hatten noch nie von einem Symptom-Checker gehört und von diesen war etwa die Hälfte nicht interessiert an einer Nutzung^[12]. Im deutschsprachigen Raum sind weiterhin verbreitet: Caspar Health und Symptoma (Attersee, Österreich). Deutschsprachig sind auch die spanische Anwendung Mediktor und die polnische App Symptomate von Infermedica. Letztere ist auch in die Medizinwelten von Sana Digital der Sana Kliniken integriert. Weltweit sind 2022 ca. 100 Symptom-Checker freigeschaltet mit starker Tendenz nach oben, aber auch hoher Fluktuation. In China ist DoctorBot sehr stark verbreitet^[13] Babylon-Health unterhielt ebenfalls einen Symptom-Checker und war in Großbritannien sehr verbreitet, musste aber 2023 Insolvenz anmelden.

Laut einer 2024 in Boston durchgeführten Studie^[14], schnitten jene Ärzte, die durch das Large-Language-Modell bei der Diagnose von Fallbeispielen unterstützt wurden, besser ab als teilnehmende Ärzte ohne die KI-Unterstützung.^[15]

Symptom-Checker für Covid-19

Durch die Covid-19-Pandemie breiteten sich spezialisierte Symptom-Checker weltweit aus. Die wichtigsten in Deutschland sind:

CovApp der Charité (Berlin) ist ein Open Source Web-Fragebogen mit MIT-Lizenz und kann auch von Ärzten in der Praxis verwendet werden. Der Symptom-Checker der Lungenärzte im Netz (Web-Fragebogen) gibt Hinweise ob Covid-19, Influenza oder eine Erkältung vorliegen.

Mögliche Kostenerstattung in Europa

In Österreich wurde 2021 vom Austrian Institute for Health Technology Assessment eine Evaluierung vorgenommen und auch Studien und Evaluierungen in anderen Ländern (mit ähnlichen Gesundheitssystemen) herangezogen.

Grundsätzlich sehen sie bei allen DIGAs Datenschutz, CE-Markierung und Risikoeinstufung nach aktueller EU-MDR als zwingend an. Eine Zusammenarbeit mit ELGA wurde empfohlen. Die Österreicher sehen Vignetten-Studien kritisch. DiGAs aus der Gruppe der Symptom-Checker erfüllen die ASVG-relevanten Priorisierungskriterien nicht stringent, da sie der Funktionsgruppe „Erkennung/Diagnose“ zuzuordnen sind. Für Symptom-Checker konnte der Nutzennachweis durch vorliegende Studien nicht ausreichend erbracht werden und somit kann derzeit keine Refundierung erfolgen.^[16]

Anwendungen in der Dritten Welt

Babylon Health hat mit Ruanda für die nächsten 10 Jahre ein gemeinsames Projekt der Gesundheitsversorgung geschlossen, in dem auch der Symptom-checker eingeschlossen ist. ADA Health hat in Tansania eine Studie initiiert, mit der die Versorgungseffekte in einer Distrikt-Notaufnahme untersucht werden sollen^[17].

Zukunftsaussichten

E-Health Analysten sehen in Symptom-Checkern großes Potential, sowohl in der Dritten Welt wie auch in Industrienationen.^[18] Hier würde eine 5 % Reduktion von Arztbesuchen durch Benutzung der APP in Deutschland 1 Mrd. € dem Gesundheitswesen ersparen (in USA 8 Mrd. €. In Japan 6 Mrd. €).

Auch in Entwicklungsländern sind Arztpraxen und Kliniken oft schwer erreichbar, dafür ist aber das Mobilfunknetz gut ausgebaut, namentlich in Afrika. Hier können Symptom-Checker zur Überbrückung dringliche von weniger dringlichen Indikationen trennen und so unnötig lange Wege ersparen.

Forschungsprojekte

Das Tübinger Projekt CHECK.APP untersucht die sozialen, ethischen und juristische Aspekte von Symptom-checkern, insbesondere durch Literaturrecherchen und Befragungen^[19]. Das Forschungsprojekt AkuSym der Charite Berlin erforscht, ob von Symptom-Checkern positive Versorgungseffekte beim Besuch von Notaufnahmen ausgehen.^[20]

Kritik

Experten für Diagnostik und Analysten fiel auf, dass Symptom-Checker oftmals harmlose Symptome bzw. Erkrankungen als 'abklärungsbedürftig' erklären bzw. zum schnellen Arztbesuch raten (engl. overtriage). Eine Beruhigung und Angst-Bewältigung findet also nicht statt und die prophezeiten Sparziele werden verfehlt. Offenbar scheuen sich die Entwickler Verantwortung zu übernehmen^[1]^[21]^[22].

Diese Kritiker konnten auch in mehreren Fällen widerlegen, dass Systeme, die sich mit dem Attribut „Lernendes System“ schmückten, in Wirklichkeit über einen definierten Zeitraum eine schlechtere Performance bei gleichen Eingangsparametern aufwiesen, was einem Lernvorgang widerspricht^[1]^[8]^[21].

Auch unzureichender Datenschutz hat Kritik hervor gerufen: Analysten fanden 2019 heraus, dass bei der App von Ada-Health Krankheitssymptome und der Namen der Krankenkasse an Tracking-Firmen wie Facebook gelangten. Daraufhin nahm die Techniker Krankenkasse die App aus ihrem Portfolio.^[23]

Einzelnachweise

↑ ^a ^b ^c A. Ćirković: Evaluation of Four Artificial Intelligence–Assisted Self-Diagnosis Apps on Three Diagnoses. In: J Med Internet Res. 22(12), 2020, e18097, doi:10.2196/18097.
↑ Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) US-FDA-Artificial-Intelligence-and-Machine-Learning-Discussion-Paper.pdf (PDF)
↑ H. L. Semigran et al.: Evaluation of symptom checkers for self diagnosis and triage. In: BMJ. 351, 2015, h3480 doi:10.1136/bmj.h3480
↑ William Wallace et al.The diagnostic and triage accuracy of digital and online symptom checker tools: a systematic review, npj Digital Medicine (2022) 5:118; doi:10.1038/s41746-022-00667-w.
↑ H. Fraser et al.: Evaluation of Diagnostic and Triage Accuracy and Usability of a Symptom Checker in an Emergency Department: Observational Study. In: JMIR Mhealth Uhealth 10(9), 2022, e38364, doi:10.2196/38364
↑ J. Knitza et al: Accuracy, patient-perceived usability, and acceptance of two symptom checkers in rheumatology. In: ArthritisRes Ther. 23:112, 2021 doi:10.1186/s13075-021-02498-8.
↑ M. Gräf et al.: Comparison of physician and artificial intelligence based symptom checker diagnostic accuracy. In: Rheumatology International. 42:2167, 2022, doi:10.1007/s00296-022-05202-4.
↑ ^a ^b M. L. Schmieding et al.: Triage Accuracy of Symptom Checker Apps: 5-Year Follow-up Evaluation. In: JMed Internet Res. 24(5), 2022, e31810, doi:10.2196/31810.
↑ M. L. Schmieding et al.: Benchmarking Triage Capability of Symptom Checkers Against That of Medical Laypersons: Survey Study. In: J Med Internet Res. 23(3), 2021, e24475, doi:10.2196/24475.
↑ J. G. Richens et al.: Improving the accuracy of medical diagnosis with causal machine learning. In: Nature Communications. 11:3923, 2020, doi:10.1038/s41467-020-17419-7.
↑ EPatient survey 2020. Health & Care Management. 2020. [1]
↑ AJ Wetzel et al.: 'Better see a doctor?’ Status quo of symptom checker apps in Germany: A cross-sectional survey with a mixed-methods design. In: DIGITAL HEALTH. Band 10, 2024, doi:10.1177/20552076241231555.
↑ Xiangmin Fan et al.: Utilization of Self-Diagnosis Health Chatbots in Real-World Settings. Case Study. In: Journal of Medical Internet Research. 2021 23(1):e19928. doi:10.2196/19928.
↑ "Large Language Model Influence on Diagnostic Reasoning A Randomized Clinical Trial. In: jamanetwork.com. 28. Oktober 2024, abgerufen am 3. Dezember 2024.
↑ "Dr." ChatGPT übertrifft Ärzte bei der Diagnose im Alleingang. In: Derstandard.at. 18. November 2024, abgerufen am 3. Dezember 2024.
↑ R. Jeindl, G. Goetz: Prozess und Bewertung digitaler Gesundheitsanwendungen – am Beispiel der „Symptom-Checker“. In: AIHTA Projektbericht Nr. 141. 2021. Wien: HTA Austria – Austrian Institute for Health Technology Assessment GmbH
↑ E. Millen et al.: The AFYA Health Study. In: BMJ open. 12/4, 2021, doi:10.1136/bmjopen-2021-055915.
↑ research2guidance - Next generation of symptoms checkers will become one of the killer applications in digital health. In: research2guidance.com. 22. März 2019, abgerufen am 17. Januar 2024.
↑ Anna-Jasmin Wetzel et al.: Ethical, Legal, and Social Implications of Symptom Checker Apps in Primary Health Care (CHECK.APP): Protocol for an Interdisciplinary Mixed Methods Study. In: JMIR Res Protoc. (2022) 11 : 5 e34026.
↑ Besser mit als ohne App? Symptom Checker Apps in der notfallmedizinischen Akutversorgung (AkuSym). In: bundesgesundheitsministerium.de. 27. Juni 2022, abgerufen am 17. Januar 2024.
↑ ^a ^b Norbert Donner-Banzhoff: Die ärztliche Diagnose. Abschn. 17.3 Hogrefe Bern 2022
↑ Marvin Kopka et al.: The Triage Capability of Laypersons. In: JMIR Form Res. 2022 ;6(10):e38977. doi:10.2196/38977.
↑ Hartmut Gieselmann: Die Folgen des Ada-Datenschutzskandals. In: heise.de. 25. Oktober 2019, abgerufen am 17. Januar 2024.

[:0-1] A. Ćirković: Evaluation of Four Artificial Intelligence–Assisted Self-Diagnosis Apps on Three Diagnoses. In: J Med Internet Res. 22(12), 2020, e18097, doi:10.2196/18097.

[2] Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) US-FDA-Artificial-Intelligence-and-Machine-Learning-Discussion-Paper.pdf (PDF)

[3] H. L. Semigran et al.: Evaluation of symptom checkers for self diagnosis and triage. In: BMJ. 351, 2015, h3480 doi:10.1136/bmj.h3480

[4] William Wallace et al.The diagnostic and triage accuracy of digital and online symptom checker tools: a systematic review, npj Digital Medicine (2022) 5:118; doi:10.1038/s41746-022-00667-w.

[5] H. Fraser et al.: Evaluation of Diagnostic and Triage Accuracy and Usability of a Symptom Checker in an Emergency Department: Observational Study. In: JMIR Mhealth Uhealth 10(9), 2022, e38364, doi:10.2196/38364

[6] J. Knitza et al: Accuracy, patient-perceived usability, and acceptance of two symptom checkers in rheumatology. In: ArthritisRes Ther. 23:112, 2021 doi:10.1186/s13075-021-02498-8.

[7] M. Gräf et al.: Comparison of physician and artificial intelligence based symptom checker diagnostic accuracy. In: Rheumatology International. 42:2167, 2022, doi:10.1007/s00296-022-05202-4.

[:1-8] M. L. Schmieding et al.: Triage Accuracy of Symptom Checker Apps: 5-Year Follow-up Evaluation. In: JMed Internet Res. 24(5), 2022, e31810, doi:10.2196/31810.

[9] M. L. Schmieding et al.: Benchmarking Triage Capability of Symptom Checkers Against That of Medical Laypersons: Survey Study. In: J Med Internet Res. 23(3), 2021, e24475, doi:10.2196/24475.

[10] J. G. Richens et al.: Improving the accuracy of medical diagnosis with causal machine learning. In: Nature Communications. 11:3923, 2020, doi:10.1038/s41467-020-17419-7.

[11] EPatient survey 2020. Health & Care Management. 2020. [1]

[12] AJ Wetzel et al.: 'Better see a doctor?’ Status quo of symptom checker apps in Germany: A cross-sectional survey with a mixed-methods design. In: DIGITAL HEALTH. Band 10, 2024, doi:10.1177/20552076241231555.

[13] Xiangmin Fan et al.: Utilization of Self-Diagnosis Health Chatbots in Real-World Settings. Case Study. In: Journal of Medical Internet Research. 2021 23(1):e19928. doi:10.2196/19928.

[14] "Large Language Model Influence on Diagnostic Reasoning A Randomized Clinical Trial. In: jamanetwork.com. 28. Oktober 2024, abgerufen am 3. Dezember 2024.

[15] "Dr." ChatGPT übertrifft Ärzte bei der Diagnose im Alleingang. In: Derstandard.at. 18. November 2024, abgerufen am 3. Dezember 2024.

[16] R. Jeindl, G. Goetz: Prozess und Bewertung digitaler Gesundheitsanwendungen – am Beispiel der „Symptom-Checker“. In: AIHTA Projektbericht Nr. 141. 2021. Wien: HTA Austria – Austrian Institute for Health Technology Assessment GmbH

[17] E. Millen et al.: The AFYA Health Study. In: BMJ open. 12/4, 2021, doi:10.1136/bmjopen-2021-055915.

[18] research2guidance - Next generation of symptoms checkers will become one of the killer applications in digital health. In: research2guidance.com. 22. März 2019, abgerufen am 17. Januar 2024.

[19] Anna-Jasmin Wetzel et al.: Ethical, Legal, and Social Implications of Symptom Checker Apps in Primary Health Care (CHECK.APP): Protocol for an Interdisciplinary Mixed Methods Study. In: JMIR Res Protoc. (2022) 11 : 5 e34026.

[20] Besser mit als ohne App? Symptom Checker Apps in der notfallmedizinischen Akutversorgung (AkuSym). In: bundesgesundheitsministerium.de. 27. Juni 2022, abgerufen am 17. Januar 2024.

[:2-21] Norbert Donner-Banzhoff: Die ärztliche Diagnose. Abschn. 17.3 Hogrefe Bern 2022

[22] Marvin Kopka et al.: The Triage Capability of Laypersons. In: JMIR Form Res. 2022 ;6(10):e38977. doi:10.2196/38977.

[23] Hartmut Gieselmann: Die Folgen des Ada-Datenschutzskandals. In: heise.de. 25. Oktober 2019, abgerufen am 17. Januar 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]