Halluzination (Künstliche Intelligenz)

überzeugend formuliertes aber falsches KI-Resultat

Im Bereich der Künstlichen Intelligenz (KI) ist eine Halluzination (alternativ auch Konfabulation genannt) ein überzeugend formuliertes Resultat einer KI, das nicht durch Trainingsdaten gerechtfertigt zu sein scheint und objektiv falsch sein kann.[1]

Solche Phänomene werden in Analogie zum Phänomen der Halluzination in der menschlichen Psychologie als von Chatbots erzeugte KI-Halluzinationen bezeichnet. Ein wichtiger Unterschied ist, dass menschliche Halluzinationen meist auf falschen Wahrnehmungen der menschlichen Sinne beruhen, während eine KI-Halluzination ungerechtfertigte Resultate als Text oder Bild erzeugt. Prabhakar Raghavan, Leiter von Google Search, beschrieb Halluzinationen von Chatbots als überzeugend formulierte, aber weitgehend erfundene Resultate.[2] Der spezifische Begriff KI-Halluzination kann Computer unangemessen vermenschlichen.

Vorkommen

Bearbeiten
 
Ein großes Sprachmodell erzeugt eine fundiert klingende Definition eines obskuren Wortes.

KI-Halluzinationen erlangten um 2022 parallel zur Einführung bestimmter großer Sprachmodelle (Large Language Models, LLM) wie ChatGPT an Bedeutung.[3] Die Nutzer beschwerten sich, dass solche Chatbots oft sinnlos plausibel klingende Zufallslügen in ihren generierten Inhalten einbetteten. Als beispielsweise ChatGPT gebeten wurde, einen Artikel über das letzte Finanzquartal eines bestimmten Unternehmens zu generieren, erstellte dieser Chatbot einen kohärenten Artikel, erfand aber darin enthaltene Finanzzahlen. Nach Fragen über astrophysikalische Magnetfelder behauptete ChatGPT fälschlicherweise, dass Magnetfelder von Schwarzen Löchern durch die extrem starken Gravitationskräfte in ihrer Nähe erzeugt würden. In Wirklichkeit hat ein Schwarzes Loch aufgrund des No-Hair-Theorems kein Magnetfeld.[4] Analysten betrachten häufige Halluzinationen als ein großes Problem der LLM-Technik.[5]

Ursachen

Bearbeiten

Forscher haben unerwünschte Halluzinationen als ein statistisches Phänomen bezeichnet oder Halluzinationen auf unzureichende Trainingsdaten zurückgeführt. Da große Sprachmodelle kein vollständiges Wissen der Welt besitzen, wird fehlendes Wissen interpoliert bzw. konfabuliert.[6] Diese Eigenschaft von Sprachmodellen ermöglicht es, Anfragen an das Modell auf eine kreative Weise zu beantworten, anstatt ausschließlich auf vorhandenes Wissen zurückgreifen zu können. Allerdings führt dies auch dazu, dass eine Anfrage des Benutzers, auf die eine objektiv richtige Antwort existiert, dem Modell aber unbekannt ist, auf eine Weise beantwortet wird, die richtig erscheinen kann, jedoch nicht den Tatsachen entspricht.

Einige Kenner glauben, dass bestimmte falsche KI-Antworten, die von Menschen als Halluzinationen im Fall der Objekterkennung eingestuft werden, tatsächlich durch die Trainingsdaten gerechtfertigt sein können, oder sogar, dass eine KI die richtige Antwort gibt, welche die menschlichen Gutachter nicht sehen. Zum Beispiel kann ein umstrittenes Bild, das für einen Menschen wie ein gewöhnliches Bild eines Hundes aussieht, in Wirklichkeit für die KI Muster enthalten, die in authentischen Bildern nur beim Betrachten einer Katze auftreten würden. Die KI erkenne reale visuelle Muster, welche für Menschen nicht zu erkennen seien. Diese Schlussfolgerungen wurden jedoch von anderen Forschern in Frage gestellt. Zum Beispiel wurde eingewendet, dass die Modelle zu oberflächlichen Statistiken tendieren könnten, was dazu führe, dass Training bei umstrittenen Themen in realen Szenarien nicht robust sei.

Halluzination wurde als statistisch unvermeidliches Nebenprodukt eines jeden unvollkommenen generativen Modells erkannt, das darauf trainiert ist, die Trainingswahrscheinlichkeit zu maximieren, wie zum Beispiel GPT-3. Ebenfalls können Fehler beim Kodieren und Dekodieren zwischen Text und Repräsentationen Halluzinationen verursachen. KI-Training zur Erzeugung von vielfältigen Antworten kann auch zu Halluzinationen führen. Halluzinationen können ebenfalls auftreten, wenn die KI auf einem Datensatz trainiert wird, bei dem beschriftete Zusammenfassungen trotz ihrer faktischen Genauigkeit nicht direkt in den beschrifteten Daten verankert sind, die angeblich zusammengefasst werden. Größere Datensätze können ein Problem des parametrischen Wissens schaffen (Wissen, das in gelernten Systemparametern fixiert ist), was zu Halluzinationen führt, wenn das System zu selbstsicher sein festgelegtes Wissen nutzt.[7] In Systemen wie GPT-3 generiert eine KI jedes nächste Wort basierend auf einer Sequenz von vorherigen Wörtern (einschließlich der Wörter, die sie selbst während desselben Dialogs zuvor generiert hat), was zu einer Kaskade von möglichen Halluzinationen führt, je länger die Antwort wird.[8]

Vermeidung

Bearbeiten

Zur Reduktion von KI-Halluzinationen wird zusätzliches aktives Lernen (wie zum Beispiel Bestärkendes Lernen aus menschlich beeinflusster Rückkopplung bei GPT-4) verwendet. Auch hat Google Bard eine neue Funktion eingeführt, mittels welcher Teile im Text orange markiert werden, deren Aussagen unsicher sind.[9] Ob sich jedoch alle erwähnten Probleme lösen lassen, sei fraglich.[10]

Eine weitere Möglichkeit ist das Self-Consistency-Prompting, welches dazu dient, konfabulierte Antworten des Sprachmodells zu erkennen.[11]

Auch ein geeignetes Prompting, welches dem KI-Modell ermöglicht, eine Frage nicht beantworten zu müssen, kann zu einer Verringerung – jedoch nicht Verhinderung – konfabulierter Antworten führen. Beispielsweise kann man statt „Wer war der Präsident von Deutschland 2017?“ die Frage als „Weißt du, wer der Präsident von Deutschland 2017 war?“ formulieren. Dies ermöglicht es dem System, eine Antwort wie „Nein, weiß ich leider nicht“ zu formulieren, anstatt zu versuchen, die Antwort zu erraten.

Eine weitere Möglichkeit besteht darin, mittels Retrieval Augmented Generation die Anfrage des Benutzers mit gesicherten Informationen aus dem Internet oder einer Datenbank anzureichern, sofern die nötigen Daten vorhanden sind.

Begriffliche Kritik

Bearbeiten

Forschende der Universität Glasgow merkten 2024 an, die Metapher der Halluzination könnte bei politischen Entscheidungsträgern und Öffentlichkeit falsche Assoziationen über die Funktionsweise künstlicher neuronaler Netze wecken. Anstelle einer vermeintlichen Fehlrepräsentation der Wirklichkeit müsse ein Begriff verdeutlichen, das derartige Ausgaben gänzlich wirklichkeitsfern und der internen Funktionsweise der KI-Modelle geschuldet seien. Sie schlugen daher die Nutzung des von Harry Frankfurt etablierten Begriffs „Bullshit“ vor.[12] Ähnliche Kritik kam bereits zuvor durch Netzaktivisten auf.[13]

Siehe auch

Bearbeiten
Bearbeiten

Einzelnachweise

Bearbeiten
  1. Craig S. Smith: AI Hallucinations Could Blunt ChatGPT’s Success. In: IEEE Spectrum, 24. März 2023. Abgerufen am 24. September 2023 (englisch)
  2. Google cautions against hallucinating chatbots, report says. Reuters, 11. Februar 2023. Abgerufen am 24. September 2023 (englisch)
  3. Christian J. Meier: Warum die KI so gerne lügt. In: Süddeutsche Zeitung, 28. März 2023. Abgerufen am 24. September 2023
  4. Marc Zastrow: We Asked ChatGPT Your Questions About Astronomy. It Didn't Go so Well. In: Discover Magazine. Kalmbach Publishing Co. 29. Dezember 2022. Abgerufen am 24. September 2023 (englisch)
  5. Ziwie Ji et al.: Survey of hallucination in natural language generation. In: ACM Computing Surveys, 55(12), S. 1–38, 2023 (englisch)
  6. Beren Millidge: LLMs confabulate not hallucinate. 19. März 2023, abgerufen am 26. Juli 2024 (englisch).
  7. Stephen Casper, Xander Davies et al.: Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback. MIT / Harvard University, 27. Juli 2023. Abgerufen am 24. September 2023 (englisch)
  8. Muru Zhang et al.: How language model hallucinations can snowball. arXiv preprint arXiv:2305.13534, 2023 (englisch)
  9. Google-Chatbot Bard kämpft gegen KI-Halluzinationen, indem es zweifelhafte Textstellen markiert. In: NZZ, 19. September 2023. Abgerufen am 24. September 2023
  10. Gerrit De Vynck: ChatGPT hallucinates. Some researchers worry it isn’t fixable. In: The Washington Post, 30. Mai 2023. Abgerufen am 24. September 2023 (englisch)
  11. Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou: Self-Consistency Improves Chain of Thought Reasoning in Language Models. In: arxiv. 7. März 2003, abgerufen am 26. Juli 2024 (englisch).
  12. Michael Townsen Hicks, James Humphries, Joe Slater: ChatGPT is bullshit. In: Ethics and Information Technology. Band 26, Nr. 2, Juni 2024, ISSN 1388-1957, doi:10.1007/s10676-024-09775-5. (englisch)
  13. Jürgen "tante" Geuter: Bullshit, der (e)skaliert. In: Golem.de. 16. März 2023, abgerufen am 18. Juni 2024.