Darum lügt ChatGPT häufig – und das ist kein Zufall

Wer mit ChatGPT oder anderen KI-Textgeneratoren arbeitet, kennt das Phänomen: Die KI klingt überzeugend, aber tlws. stimmt die Antwort nicht. Warum ist das so? Und lässt sich das Problem überhaupt lösen? Eine aktuelle Studie von OpenAI bringt Licht ins Dunkel – und zeigt, warum KI-Modelle nie aufhören werden, Fakten zu erfinden (halluzinieren).

Wie ChatGPT lernt

Und warum Fehler dabei unvermeidlich sind

Ein Blick in die Geschichte der Sprachmodelle zeigt, wie rasant sich die Technologie entwickelt hat – und warum die aktuellen Herausforderungen so komplex sind. Ursprünglich basierten KI-Textsysteme auf einfachen Regeln und festgelegten Datenbanken. Sie konnten nur das wiedergeben, was zuvor manuell eingespeist wurde. Mit dem Aufkommen sogenannter neuronaler Netze und dem Training auf riesigen Textmengen aus dem Internet wurden die Modelle immer leistungsfähiger.

Heute „lernen“ Sprachmodelle wie ChatGPT anhand von Milliarden von Sätzen, die sie aus Büchern, Webseiten und Foren analysieren. Doch diese Daten sind nicht immer korrekt, vollständig oder widerspruchsfrei.

Das bedeutet: Die KI übernimmt auch Fehler, Missverständnisse und sogar Falschinformationen aus ihren Trainingsdaten. Hinzu kommt, dass die Modelle keine echten „Kenntnisse“ haben, sondern Muster erkennen und Wahrscheinlichkeiten berechnen.

Sie wissen nicht, was wahr oder falsch ist – sie ahmen lediglich nach, was in den Daten am häufigsten vorkommt oder am besten passt. Deshalb kann ChatGPT zwar beeindruckend formulieren und scheinbar komplexe Zusammenhänge erklären, aber es fehlt ihm das kritische Urteilsvermögen eines Menschen.

Die Folge: Auch offensichtliche Fehler werden mit derselben Überzeugung präsentiert wie korrekte Fakten.

 

Halluzinationen – wenn KI sich Antworten ausdenkt

Im Marketing spricht man von „Halluzinationen“, wenn ein Sprachmodell wie ChatGPT Informationen liefert, die nicht stimmen oder frei erfunden sind. Das ist kein seltener Ausrutscher: Laut OpenAI müsste ChatGPT bei einem Drittel aller Anfragen eigentlich ehrlich zugeben: „Keine Ahnung.“

Doch das passiert selten. Stattdessen rät die KI – und das aus gutem Grund.

Das Ich zwischen Du und Es: (#Affiliate-Link/Anzeige) Zwischenmenschliche Beziehungen im Zeitalter der Digitalisierung

 

Mathematisch unvermeidbar:

Warum KI halluziniert

Warum KI halluziniert

Die OpenAI-Studie liefert erstmals eine fundierte mathematische Erklärung für das Halluzinieren von KI-Sprachmodellen. Das Problem liegt nicht nur an fehlerhaften Trainingsdaten. Selbst wenn die Trainingsdaten perfekt wären, würde die KI immer noch Fehler machen.

Warum? Anders als eine Suchmaschine, die gezielt nach belegten Fakten sucht, arbeitet ein Sprachmodell wie ChatGPT rein auf Basis von Wahrscheinlichkeiten: Es berechnet, welches Wort oder welche Aussage am wahrscheinlichsten auf die gestellte Frage folgt – unabhängig davon, ob diese wirklich wahr ist. So entstehen Antworten, die überzeugend klingen, aber nicht stimmen müssen. Gewissheiten kennt die KI nicht, sie produziert lediglich das, was statistisch am besten passt.

Ein Beispiel: Wenn die KI nach dem Geburtstag einer bekannten Person gefragt wird, die nur selten in den Trainingsdaten vorkommt, steigt die Wahrscheinlichkeit für eine falsche Antwort deutlich.

Ich kann es nicht oft genug betonen: Textassistenten sind keine Wissensdatenbank! Das ist ein riesengroßer Unterschied.

 

Unterschiede erklärt

Wissensdatenbank vs. KI-Textassistent

Eine Wissensdatenbank ist im Grunde ein digitales Nachschlagewerk. Sie enthält geprüfte Informationen, die von Expertinnen und Experten oder Redaktionen sorgfältig eingepflegt und regelmäßig aktualisiert werden. Wenn du eine Frage stellst, durchsucht die Datenbank ihre Einträge und liefert dir eine präzise, belegte Antwort. Die Inhalte sind klar strukturiert, oft mit Quellenangaben versehen und auf Richtigkeit überprüft.

Ein KI-Textassistent wie ChatGPT funktioniert ganz anders. Er hat keine fest hinterlegten Fakten, sondern wurde mit riesigen Mengen an Texten aus dem Internet, Büchern und anderen Quellen „trainiert“.

Das System hat daraus Muster gelernt: Es berechnet, welche Wortfolge am wahrscheinlichsten auf deine Frage passt – unabhängig davon, ob die Antwort tatsächlich stimmt. ChatGPT kann also auch zu Themen Auskunft geben, die nicht explizit in einer Datenbank stehen, aber es besteht immer die Gefahr, dass die Antwort nur plausibel klingt, doch sachlich falsch ist.

Digitalisierung als Distributivkraft: (#Affiliate-Link/Anzeige) Über das Neue am digitalen Kapitalismus


Beispiel: Du möchtest wissen, wann Albert Einstein geboren wurde.

  • Wissensdatenbank: Du gibst die Frage ein und erhältst die Antwort: „Albert Einstein wurde am 14. März 1879 geboren.“ Die Information ist belegt und stammt aus einer zuverlässigen Quelle.

  • KI-Textassistent (ChatGPT): Du stellst dieselbe Frage. ChatGPT antwortet vermutlich ebenfalls korrekt, weil das Geburtsdatum häufig in den Trainingsdaten vorkommt. Aber bei weniger bekannten Personen oder Fakten kann die KI auch raten und eine falsche Antwort liefern – zum Beispiel ein erfundenes Datum.

Kurz gesagt: Die Wissensdatenbank liefert geprüfte Fakten, der KI-Textassistent generiert Antworten auf Basis von Wahrscheinlichkeiten und Mustern. Das macht ihn flexibel, aber auch fehleranfällig.

 
Das Dilemma der Bewertungssysteme

Dilemma der Bewertungssysteme

Ein großes Problem ist, wie KI-Programme wie ChatGPT getestet und bewertet werden. Stell dir vor, die KI macht bei einer Prüfung mit und bekommt für jede Frage Punkte. Wenn sie ehrlich sagt „Ich weiß es nicht“, bekommt sie 0 Punkte. Wenn sie rät und die Antwort falsch ist, bekommt sie ebenfalls 0 Punkte.

Für die KI lohnt es sich nicht, zuzugeben, dass sie etwas nicht weiß. Stattdessen rät sie lieber – denn vielleicht liegt sie ja richtig und bekommt Punkte. So entsteht eine Situation, in der die KI immer versucht, eine Antwort zu geben, selbst wenn sie unsicher ist.

Die Folge: Die KI erfindet häufiger Dinge, als sie einfach mal „Keine Ahnung“ sagt. Forschende nennen das eine „Epidemie“ von erfundenen Antworten.

 

Die (theoretische) Lösung – und warum sie nicht angewendet wird

OpenAI verdient Geld damit, dass Nutzerinnen und Nutzer gerne mit ChatGPT arbeiten und dem System vertrauen. Das Geschäftsmodell setzt darauf, dass die KI immer schnell und zuverlässig Antworten liefert – und zwar zu möglichst jeder Frage.

Wenn ChatGPT aber plötzlich bei vielen Anfragen sagt: „Ich weiß es nicht“, sind viele Menschen enttäuscht oder sogar genervt. Sie sind es gewohnt, auf Knopfdruck eine Antwort zu bekommen, egal wie schwierig die Frage ist.

Diese Frustration kann dazu führen, dass Nutzerinnen und Nutzer das System weniger nutzen oder ganz abspringen. Weniger Nutzung bedeutet weniger Einnahmen für OpenAI.

Das Unternehmen muss also abwägen: Einerseits wäre es ehrlicher, wenn die KI Unsicherheiten zugibt. Andererseits könnte das die Kundschaft vergraulen und das Geschäftsmodell gefährden. Deshalb bleibt OpenAI oft bei der Strategie, immer eine Antwort zu liefern – selbst wenn sie geraten ist.

Kritik der digitalen Vernunft: (#Affiliate-Link/Anzeige) Warum Humanität der Maßstab sein muss

 

Wirtschaftliche Hürden: Rechenaufwand und Kosten

Selbst wenn die Akzeptanz für mehr Unsicherheiten steigen würde, gibt es noch ein weiteres Problem: die Kosten. KI-Modelle, die Unsicherheiten sauber berechnen und abwägen, brauchen deutlich mehr Rechenleistung.

Für spezialisierte Anwendungen – etwa in der Medizin oder im Finanzwesen – lohnt sich das. Hier sind die Kosten für Fehler hoch, und Genauigkeit ist entscheidend.

Im Alltag für Verbraucherinnen und Verbraucher ist der Aufwand aber kaum zu rechtfertigen.

 

Warum sich so schnell nichts ändern wird

Solange die wirtschaftlichen Anreize so gesetzt sind, dass schnelle und eindeutige Antworten belohnt werden, wird sich an der Halluzinationsrate wenig ändern.

Die Studie von OpenAI zeigt: Die Entwicklung von KI für den Massenmarkt steht im Widerspruch zu maximaler Verlässlichkeit. Fortschritte in der Hardware könnten das Problem in Zukunft abmildern, aber das grundsätzliche Problem bleibt bestehen.

 

Evtl. auch interessant für dich:

Weiß ChatGPT, dass es lügt?

Die Frage setzt einen falsche Kontext. ChatGPT ist kein denkendes Wesen, sondern ein Sprachmodell. Es hat kein Bewusstsein, keine Gefühle und keine Absicht, jemanden zu täuschen. Stattdessen erzeugt es Antworten, indem es berechnet, welche Wortfolgen statistisch am wahrscheinlichsten auf eine Frage passen.

Es prüft dabei nicht, ob die Antwort wirklich stimmt. Wenn ChatGPT eine falsche Information ausgibt, dann weil das Modell einfach die plausibelste Antwort generiert.

ChatGPT kann nicht wissen, ob es lügt, weil es gar nicht versteht, was Wahrheit oder Lüge bedeutet.

 

Prompt-Vorlage, mit der du von einer KI verlässlichere und vorsichtigere Antworten erhältst:

Bitte beantworte die folgende Frage möglichst sachlich, vorsichtig und mit dem Hinweis auf Unsicherheiten oder Wissenslücken. Vermeide Spekulationen und mache deutlich, wenn eine Information nicht eindeutig belegt ist. Begründe deine Aussagen und nenne, falls möglich, unterschiedliche Sichtweisen oder Einschränkungen:

(konkrete Frage)

 

Fazit: Zwischen Wunsch & Wirklichkeit

ChatGPT und Co. werden weiterhin Fakten erfinden – nicht, weil es technisch unmöglich wäre, sondern weil es wirtschaftlich und nutzerseitig so gewollt ist. Wer mit KI arbeitet, sollte sich dieser Grenzen bewusst sein und kritisch hinterfragen, was die Maschine ausspuckt. Denn manchmal ist ein ehrliches „Ich weiß es nicht“ eben doch die beste Antwort.

Brüchige Wahrheit: (#Affiliate-Link/Anzeige) Zur Auflösung von Gewissheiten in demokratischen Gesellschaften

Für Dich als Nutzer bedeutet das: Vertraue nie blind auf KI-generierte Inhalte. Überprüfe kritische Informationen immer mit unabhängigen Quellen. Die Verantwortung für die Überprüfung der KI-Ausgaben liegt letztlich bei Dir, da die Entwickler nicht alle Fehler verhindern wollen.


Quellen:

1) Jörn Brien: 67 Milliarden Dollar Schaden: OpenAI-Studie erklärt, warum Chatbots Unsinn erfinden (tn3)
2) Computerwoche: OpenAI: KI-Halluzinationen sind mathematisch unvermeidbar
3) Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025, September 4): Why Language Models Hallucinate (PDF online) OpenAI & Georgia Tech.

Tamara Niebler (Inkognito-Philosophin)

Hi, ich bin Tamara, freie Journalistin & studierte Philosophin (Mag. phil.). Hier blogge ich über persönliche Erfahrungen mit Depressionen & Angst – und untersuche psychische Phänomene aus einer dezidiert philosophischen Perspektive. Zudem informiere ich fachkritisch über soziale Ungerechtigkeiten und gesellschaftliche Missstände, die uns alle betreffen.

Weiter
Weiter

Gedanken zur Zeit