Digitalisierung + IT

So vermeiden Sie Fehler in längeren Gesprächen mit einer KI

Eine neue Studie zeigt: Künstliche Intelligenz wird dramatisch unzuverlässiger, je länger ein Chat dauert. Dagegen hilft nur eins.

2 Min.04.09.2025, 02:00 Uhr (Aktualisiert am 11.02.2026, 09:56 Uhr)

Von

Jörg Wiebking

Wenn ein Chat mit der KI ausufert, werden die Antworten unzuverlässiger. Ein Neustart hilft – und dabei kann Sie die KI mit einem Prompt unterstützen. Rokas - stock.adobe.com

Künstliche Intelligenz wird in längeren Gesprächen zunehmend unzuverlässig, wenn Nutzer ihre Anweisungen schrittweise präzisieren. Das zeigt eine aktuelle Studie von Microsoft und Salesforce. Die Genauigkeit sinkt im Schnitt von 90 auf 51 Prozent – je nach Modell teils noch stärker.

Für die Untersuchung gaben die Forscher den KI-Modellen zunächst vollständige Anweisungen als Vergleichsbasis. Anschließend programmierten sie Agenten, die dieselben Anweisungen in kleinen Schritten während des Gesprächs offenlegten – ähnlich wie in einem Dialog zwischen Menschen.

Insgesamt testeten die Forscher 15 Sprachmodelle. Bei allen brach die Erfolgsquote drastisch ein. Auch fortschrittliche Modelle wie ChatGPT 4.1 und Gemini 2.5 Pro schnitten 30 bis 40 Prozent schlechter ab, wenn sie Anweisungen schrittweise erhielten.

Ursachen für die Ungenauigkeit

Die Forscher identifizierten vier Hauptprobleme:

Die Modelle liefern voreilig vollständige Lösungen, ohne auf Details zu warten. Stattdessen treffen sie Annahmen über Details, die oft zu Verwirrung führen.
Sie stützen sich zu stark auf ihre eigenen früheren Antworten, auch wenn diese fehlerhaft sind.
Sie orientieren sich übermäßig an der ersten und letzten Gesprächsrunde und ignorieren Informationen aus der Mitte des Dialogs.
Sie produzieren zu ausführliche Antworten, die zusätzliche Annahmen enthalten und vom eigentlichen Anliegen des Nutzers ablenken.

Ohne Erfolg: Anpassungen in längeren Chats

Die Forscher testeten erfolglos verschiedene Ansätze, um die Genauigkeit der Modelle zu verbessern:

Wiederholungen: Das wiederholte Formulieren von Anforderungen, wie es in menschlichen Gesprächen üblich ist, brachte keine besseren Ergebnisse.
Detailgenauigkeit: Präzisere, detaillierte Erklärungen, die in menschlichen Dialogen hilfreich sind, zeigten in KI-Chats kaum Wirkung.
Temperaturwert: Die sogenannte Temperatur steuert das Verhältnis von Genauigkeit und Kreativität in KI-Antworten. Nutzer können diesen Wert indirekt über den Prompt beeinflussen oder direkt über eine API-Schnittstelle. In Experimenten mit ChatGPT 4o und 4o-mini führten sehr niedrige, weniger kreative Temperaturwerte jedoch nur zu geringen Verbesserungen.

Empfehlungen und Tipps für Nutzer

Die Lösung dieser Probleme sei eine Aufgabe für die Entwickler von Künstlicher Intelligenz, so die Forscher. Vorerst seien jedoch die Nutzer von KI selbst gefordert:

Tipp: Sie wollen beim Thema Künstliche Intelligenz nichts verpassen? Nutzen Sie den kostenlosen Newsletter von handwerk.com. Jetzt hier anmelden!

Diese Artikel könnten Sie auch interessieren:

Jörg Wiebking

Autor für Steuern & Finanzen, Recht und IT

Empfohlene Artikel

Digitalisierung + IT

Künstliche Intelligenz: 10 Empfehlungen aus der Praxis

Digitalisierung

Software-Chaos im Betrieb? Neue Plattform will Tools vernetzen

Digitalisierung + IT

Digitalisierung für Betriebe: Diese Förderungen gibt es pro Bundesland

Relevante Themen

KI & Software Prozessoptimierung