🤖 Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen
Posted: 24. Nov 2025, 12:32
Viele Menschen beschäftigen sich kaum mit diesem Thema.
Die meisten großen (oder kleinen) Sprachmodelle (LLMs) geben manchmal falsche Antworten – jeder, der sie nutzt, weiß das.
Nicht oft - vielleicht 1 Mal von hundert Fragen?
Meist liefern sie gute Lösungen, aber gelegentlich kommt es zu Halluzinationen oder Fehlern.
Doch was bedeutet das für Einzel- vs. Kettenfragen?
Stellen Sie sich ein Vorstellungsgespräch vor: Der Chef stellt nur eine Frage. Wenn Sie sie richtig beantworten, bekommen Sie den Job – klingt einfach, oder?
Aber was, wenn der Chef 50 Fragen stellt und eine falsche Antwort reicht, um durchzufallen?
Das ist schon viel schwieriger!
Mein Fahrprüfer sagte immer: "Wir lassen dich so lange fahren, bis du einen Fehler machst."
Genau so funktionieren auch LLMs. Unten habe ich die mathematischen Hintergründe erklärt.

Im Prinzip beweist das warum eine SPR-Automatisierung die die LLM immer wieder mit einem konkreten Kontext aufruft
viel Problemloser läuft als wenn man der LLM sagt "Mach das Mal".
Video mit dem neuen lokalen MCP-Server 01:
Lokale KI zum Arbeiten benutzen
Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen
Große Sprachmodelle (LLMs) liefern meist sehr gute Antworten – aber nie perfekt.
Nehmen wir einmal an, ein Modell produziert im Durchschnitt 1 % falsche („halluzinierte“) Antworten.
Das klingt extrem wenig… aber die Wirkung hängt stark davon ab, wie du das Modell benutzt.
1. Einzelner Prompt: 1 % Risiko – sehr gut kontrollierbar
Wenn du eine einzelne Frage stellst und das Modell antwortet, gilt:
1 % Chance, dass die Antwort falsch ist
99 % Chance, dass sie korrekt ist
Damit ist ein Einzelprompt sehr sicher.
Fehler sind selten und leicht zu erkennen.
Beispiel:
Du fragst einmal: „Was kostet die RTX 5090 ungefähr?“
→ 99 Mal richtig, 1 Mal daneben.
2. Mehrstufige Prompts: Der Fehler multipliziert sich
Wenn du jedoch mehrere Prompts hintereinander nutzt, und jeder Schritt wieder 1 % Fehlerchance hat, passiert Folgendes:
Jede Stufe trägt ihr eigenes Fehler-Risiko bei
Bei 2 Schritten:
Schritt 1: 1 % Fehler
Schritt 2: 1 % Fehler
Die Wahrscheinlichkeit, dass beide korrekt sind, ist:
99 % × 99 % = 98,01 %
Schon nach zwei Stufen ist das Gesamtsystem also nicht mehr bei 99 % Genauigkeit, sondern nur noch bei etwa 98 %.
3. Je mehr Stufen, desto stärker fällt die Zuverlässigkeit
Beispiel: 10 Follow-Up-Prompts
Wieder 1 % Risiko pro Stufe.
Gesamtwahrscheinlichkeit korrekt zu bleiben:
99 %^10 ≈ 90,4 %
Das bedeutet:
Startest du eine 10-Schritt-Konversation, entsteht im Durchschnitt in jedem zehnten mehrstufigen Dialog mindestens ein halluzinierter Fehler.
Und das ist problematisch, weil:
Ein Fehler kann sich in den nächsten Schritten weiter verstärken
Der Fehler taucht oft nicht sofort sichtbar auf
Das Modell baut auf einem falschen Zwischenstand auf
4. Kaskadierende Fehler: Warum Follow-Up-Ketten gefährlich sind
Ein kleiner Fehler am Anfang kann:
sich später vergrößern
falsche Annahmen erzeugen
zu komplett unbrauchbaren Endergebnissen führen
Das nennt man Fehlerkaskade.
Beispiel:
Prompt: „Die Formel ist X?“ (Modell macht 1 % Fehler → sagt „ja“)
Prompt: „Nutze die Formel X für Aufgabe Y“
Prompt: „Berechne danach Z“
→ Die komplette Kette ist auf einer falschen Grundlage gebaut.
5. Warum viele Einzelprompts viel sicherer sind
Wenn du dein Problem so strukturierst, dass du mehrere unabhängige Einzelprompts stellst:
✔ jedes Ergebnis bewertet wird
✔ Fehler sich nicht automatisch fortpflanzen
✔ du mehr Kontrolle hast
✔ du gezielt neu fragen kannst
Ein einzelner 1 %-Fehler bleibt isoliert.
In einer Kette wird derselbe 1 %-Fehler zu einem großen Risiko.
Fazit (einfach erklärt)
1 % Fehlerquote klingt klein – ist es aber nur bei einzelnen Fragen.
Bei jeder zusätzlichen Prompt-Ebene steigt die Fehlerwahrscheinlichkeit.
Bei langen Follow-Up-Ketten sind falsche Antworten fast garantiert.
Viele gut strukturierte Einzelprompts sind sicherer als komplexe Folgekonversationen.
Kurz gesagt:
Je länger die Kette, desto höher die Chance, dass sie reißt.
Je mehr Einzelprompts, desto stabiler und sicherer die Ergebnisse.
Die meisten großen (oder kleinen) Sprachmodelle (LLMs) geben manchmal falsche Antworten – jeder, der sie nutzt, weiß das.
Nicht oft - vielleicht 1 Mal von hundert Fragen?
Meist liefern sie gute Lösungen, aber gelegentlich kommt es zu Halluzinationen oder Fehlern.
Doch was bedeutet das für Einzel- vs. Kettenfragen?
Stellen Sie sich ein Vorstellungsgespräch vor: Der Chef stellt nur eine Frage. Wenn Sie sie richtig beantworten, bekommen Sie den Job – klingt einfach, oder?
Aber was, wenn der Chef 50 Fragen stellt und eine falsche Antwort reicht, um durchzufallen?
Das ist schon viel schwieriger!
Mein Fahrprüfer sagte immer: "Wir lassen dich so lange fahren, bis du einen Fehler machst."
Genau so funktionieren auch LLMs. Unten habe ich die mathematischen Hintergründe erklärt.
Im Prinzip beweist das warum eine SPR-Automatisierung die die LLM immer wieder mit einem konkreten Kontext aufruft
viel Problemloser läuft als wenn man der LLM sagt "Mach das Mal".
Video mit dem neuen lokalen MCP-Server 01:
Lokale KI zum Arbeiten benutzen
Große Sprachmodelle (LLMs) liefern meist sehr gute Antworten – aber nie perfekt.
Nehmen wir einmal an, ein Modell produziert im Durchschnitt 1 % falsche („halluzinierte“) Antworten.
Das klingt extrem wenig… aber die Wirkung hängt stark davon ab, wie du das Modell benutzt.
Wenn du eine einzelne Frage stellst und das Modell antwortet, gilt:
1 % Chance, dass die Antwort falsch ist
99 % Chance, dass sie korrekt ist
Beispiel:
Du fragst einmal: „Was kostet die RTX 5090 ungefähr?“
→ 99 Mal richtig, 1 Mal daneben.
Wenn du jedoch mehrere Prompts hintereinander nutzt, und jeder Schritt wieder 1 % Fehlerchance hat, passiert Folgendes:
Bei 2 Schritten:
Schritt 1: 1 % Fehler
Schritt 2: 1 % Fehler
99 % × 99 % = 98,01 %
Schon nach zwei Stufen ist das Gesamtsystem also nicht mehr bei 99 % Genauigkeit, sondern nur noch bei etwa 98 %.
Beispiel: 10 Follow-Up-Prompts
Wieder 1 % Risiko pro Stufe.
Gesamtwahrscheinlichkeit korrekt zu bleiben:
99 %^10 ≈ 90,4 %
Und das ist problematisch, weil:
Ein Fehler kann sich in den nächsten Schritten weiter verstärken
Der Fehler taucht oft nicht sofort sichtbar auf
Das Modell baut auf einem falschen Zwischenstand auf
Ein kleiner Fehler am Anfang kann:
Das nennt man Fehlerkaskade.
Beispiel:
Prompt: „Die Formel ist X?“ (Modell macht 1 % Fehler → sagt „ja“)
Prompt: „Nutze die Formel X für Aufgabe Y“
Prompt: „Berechne danach Z“
→ Die komplette Kette ist auf einer falschen Grundlage gebaut.
Wenn du dein Problem so strukturierst, dass du mehrere unabhängige Einzelprompts stellst:
✔ jedes Ergebnis bewertet wird
✔ Fehler sich nicht automatisch fortpflanzen
✔ du mehr Kontrolle hast
✔ du gezielt neu fragen kannst
Ein einzelner 1 %-Fehler bleibt isoliert.
In einer Kette wird derselbe 1 %-Fehler zu einem großen Risiko.
Kurz gesagt: