Nein, Sprachmodelle wie ChatGPT oder Claude werden nicht dümmer. Sie waren schon immer brillant und dämlich zugleich. Viele Nutzer berichten, dass sie den Eindruck haben, aktuelle Sprachmodelle hätten an Qualität eingebüßt. Ich bin davon überzeugt, dass es sich hierbei um eine Fehlwahrnehmung handelt.
AI-Unternehmen investieren kontinuierlich in die Verbesserung ihrer Modelle. Der Eindruck, dass diese schlechter werden, entsteht meiner Meinung nach durch eine Kombination aus psychologischen Effekten und der Funktionsweise der Modelle selbst.
Sprachmodelle sind hochsensibel gegenüber dem Input
Schon kleinste Änderungen in der Art, wie eine Frage gestellt wird, können zu völlig anderen Ergebnissen führen.
Stellen wir uns eine Nutzerin vor: Sie fragt ein Sprachmodell eine anspruchsvolle Frage und erhält eine beeindruckend gute Antwort. Wochen später will sie vor einem Freund die Leistung des Modells demonstrieren, gibt aber die Frage leicht verändert ein – ein anderes Wort hier, eine zusätzliche Frage dort. Das Modell liefert plötzlich eine schlechtere Antwort.
Ohne tiefes Verständnis für die Funktionsweise von LLMs wirkt das, als sei das Modell „dümmer“ geworden. Umgekehrt fällt es weniger auf, wenn ein Modell plötzlich eine bessere Antwort liefert. Schließlich erwarten wir ohnehin, dass KI mit der Zeit besser wird.
Menschen neigen dazu, Sprachmodelle zu anthropomorphisieren
Wir erwarten von Menschen eine gewisse Konsistenz: Wer sich in einem Bereich auskennt, gibt zuverlässig brauchbare Antworten, und wo jemand keine Ahnung hat, redet er konsistent Unsinn – was es uns zumindest erleichtert, das zu ignorieren.
Sprachmodelle hingegen sind nicht auf die gleiche Weise robust. Sie können in einem Moment brillieren und im nächsten völlig versagen – selbst beim gleichen Thema. Diese Diskrepanz verwirrt viele Nutzer.
Psychologische Effekte beeinflussen unsere Wahrnehmung
Drei psychologische Mechanismen tragen besonders dazu bei:
- Negativity Bias (Negativitätsbias): Negative Erfahrungen bleiben stärker im Gedächtnis als positive. Ein einziger Fehler eines Modells kann zehn gute Antworten überschatten.
- Novelty Effect (Neuheitseffekt): Als Sprachmodelle neu waren, waren wir von ihren Fähigkeiten fasziniert. Mit der Zeit verblasst dieser „Wow“-Effekt, und wir bewerten die Modelle kritischer – bzw. realistischer.
- Confirmation Bias (Bestätigungsfehler): Wer einmal glaubt, dass ein Modell schlechter geworden ist, achtet vor allem auf Interaktionen, die diesen Eindruck bestätigen. Gute Antworten werden dann übersehen.
Sprechen Sie uns an

Bertram Sändig
Bertram ist Experte für KI- und Machine-Learning-Systeme mit einem Fokus auf NLP und Neural Search. Er hält einen B.Sc. in Informatik der FH Brandenburg und seit 2018 einen M.Sc. der TU Berlin mti den Schwerpunkten Machine Learning und Robotik. Parallel zum Studium war er fünf Jahre Leitender Software-Ingenieur im Space Rover Project des Luft- und Raumfahrtsinstituts der TU-Berlin. 2018 stieg er als Machine Learning Engineer bei Neofonie ein und leitet heute das Machine Learning Team bei ontolux, einer Marke der Neofonie GmbH. Mit großer Leidenschaft überführt er aktuelle Forschungsergebnisse in nutzbare Anwendungen für Kunden, vor allem an der Anpassung, Optimierung und Integration von Large Language Modellen in Suchsysteme und das Textanalyse-Toolkit von ontolux.