🤖 Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen

Theo_Gottwald · Post by **Theo_Gottwald** » 24. Nov 2025, 12:32

Viele Menschen beschäftigen sich kaum mit diesem Thema.
Die meisten großen (oder kleinen) Sprachmodelle (LLMs) geben manchmal falsche Antworten – jeder, der sie nutzt, weiß das.
Nicht oft - vielleicht 1 Mal von hundert Fragen?

Meist liefern sie gute Lösungen, aber gelegentlich kommt es zu Halluzinationen oder Fehlern.
Doch was bedeutet das für Einzel- vs. Kettenfragen?

Stellen Sie sich ein Vorstellungsgespräch vor: Der Chef stellt nur eine Frage. Wenn Sie sie richtig beantworten, bekommen Sie den Job – klingt einfach, oder?

Aber was, wenn der Chef 50 Fragen stellt und eine falsche Antwort reicht, um durchzufallen?
Das ist schon viel schwieriger!

Mein Fahrprüfer sagte immer: "Wir lassen dich so lange fahren, bis du einen Fehler machst."
Genau so funktionieren auch LLMs. Unten habe ich die mathematischen Hintergründe erklärt.

Im Prinzip beweist das warum eine SPR-Automatisierung die die LLM immer wieder mit einem konkreten Kontext aufruft
viel Problemloser läuft als wenn man der LLM sagt "Mach das Mal".

Video mit dem neuen lokalen MCP-Server 01:
Lokale KI zum Arbeiten benutzen

Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen

Große Sprachmodelle (LLMs) liefern meist sehr gute Antworten – aber nie perfekt.
Nehmen wir einmal an, ein Modell produziert im Durchschnitt 1 % falsche („halluzinierte“) Antworten.
Das klingt extrem wenig… aber die Wirkung hängt stark davon ab, wie du das Modell benutzt.

1. Einzelner Prompt: 1 % Risiko – sehr gut kontrollierbar

Wenn du eine einzelne Frage stellst und das Modell antwortet, gilt:

1 % Chance, dass die Antwort falsch ist

99 % Chance, dass sie korrekt ist

Damit ist ein Einzelprompt sehr sicher.

Fehler sind selten und leicht zu erkennen.

Beispiel:
Du fragst einmal: „Was kostet die RTX 5090 ungefähr?“
→ 99 Mal richtig, 1 Mal daneben.

2. Mehrstufige Prompts: Der Fehler multipliziert sich

Wenn du jedoch mehrere Prompts hintereinander nutzt, und jeder Schritt wieder 1 % Fehlerchance hat, passiert Folgendes:

Jede Stufe trägt ihr eigenes Fehler-Risiko bei

Bei 2 Schritten:

Schritt 1: 1 % Fehler

Schritt 2: 1 % Fehler

Die Wahrscheinlichkeit, dass beide korrekt sind, ist:
99 % × 99 % = 98,01 %

Schon nach zwei Stufen ist das Gesamtsystem also nicht mehr bei 99 % Genauigkeit, sondern nur noch bei etwa 98 %.

3. Je mehr Stufen, desto stärker fällt die Zuverlässigkeit
Beispiel: 10 Follow-Up-Prompts

Wieder 1 % Risiko pro Stufe.

Gesamtwahrscheinlichkeit korrekt zu bleiben:
99 %^10 ≈ 90,4 %

Das bedeutet:

Startest du eine 10-Schritt-Konversation, entsteht im Durchschnitt in jedem zehnten mehrstufigen Dialog mindestens ein halluzinierter Fehler.

Und das ist problematisch, weil:

Ein Fehler kann sich in den nächsten Schritten weiter verstärken

Der Fehler taucht oft nicht sofort sichtbar auf

Das Modell baut auf einem falschen Zwischenstand auf

4. Kaskadierende Fehler: Warum Follow-Up-Ketten gefährlich sind

Ein kleiner Fehler am Anfang kann:

sich später vergrößern

falsche Annahmen erzeugen

zu komplett unbrauchbaren Endergebnissen führen

Das nennt man Fehlerkaskade.

Beispiel:

Prompt: „Die Formel ist X?“ (Modell macht 1 % Fehler → sagt „ja“)

Prompt: „Nutze die Formel X für Aufgabe Y“

Prompt: „Berechne danach Z“
→ Die komplette Kette ist auf einer falschen Grundlage gebaut.

5. Warum viele Einzelprompts viel sicherer sind

Wenn du dein Problem so strukturierst, dass du mehrere unabhängige Einzelprompts stellst:

✔ jedes Ergebnis bewertet wird
✔ Fehler sich nicht automatisch fortpflanzen
✔ du mehr Kontrolle hast
✔ du gezielt neu fragen kannst

Ein einzelner 1 %-Fehler bleibt isoliert.
In einer Kette wird derselbe 1 %-Fehler zu einem großen Risiko.

Fazit (einfach erklärt)

1 % Fehlerquote klingt klein – ist es aber nur bei einzelnen Fragen.

Bei jeder zusätzlichen Prompt-Ebene steigt die Fehlerwahrscheinlichkeit.

Bei langen Follow-Up-Ketten sind falsche Antworten fast garantiert.

Viele gut strukturierte Einzelprompts sind sicherer als komplexe Folgekonversationen.

Kurz gesagt:

Je länger die Kette, desto höher die Chance, dass sie reißt.

Je mehr Einzelprompts, desto stabiler und sicherer die Ergebnisse.

User Forum

🤖 Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen

🤖 Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen

Who is online