🤖 Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen

Moderator: MVogt

Post Reply
User avatar
Theo_Gottwald
Posts: 389
Joined: 03. Oct 2009, 08:57
Location: Herrenstr.11 * 76706 Dettenheim
Contact:

🤖 Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen

Post by Theo_Gottwald » 24. Nov 2025, 12:32

Viele Menschen beschäftigen sich kaum mit diesem Thema.
Die meisten großen (oder kleinen) Sprachmodelle (LLMs) geben manchmal falsche Antworten – jeder, der sie nutzt, weiß das.
Nicht oft - vielleicht 1 Mal von hundert Fragen?

Meist liefern sie gute Lösungen, aber gelegentlich kommt es zu Halluzinationen oder Fehlern.
Doch was bedeutet das für Einzel- vs. Kettenfragen? 🤔

Stellen Sie sich ein Vorstellungsgespräch vor: Der Chef stellt nur eine Frage. Wenn Sie sie richtig beantworten, bekommen Sie den Job – klingt einfach, oder?

Aber was, wenn der Chef 50 Fragen stellt und eine falsche Antwort reicht, um durchzufallen?
Das ist schon viel schwieriger! 😬

Mein Fahrprüfer sagte immer: "Wir lassen dich so lange fahren, bis du einen Fehler machst."
Genau so funktionieren auch LLMs. Unten habe ich die mathematischen Hintergründe erklärt. 📊🤖

Im Prinzip beweist das warum eine SPR-Automatisierung die die LLM immer wieder mit einem konkreten Kontext aufruft
viel Problemloser läuft als wenn man der LLM sagt "Mach das Mal".

Video mit dem neuen lokalen MCP-Server 01:
Lokale KI zum Arbeiten benutzen


🤖 Warum 1 % Halluzination bei LLMs viel gefährlicher wird, wenn Prompts aufeinander aufbauen

Große Sprachmodelle (LLMs) liefern meist sehr gute Antworten – aber nie perfekt.
Nehmen wir einmal an, ein Modell produziert im Durchschnitt 1 % falsche („halluzinierte“) Antworten.
Das klingt extrem wenig… aber die Wirkung hängt stark davon ab, wie du das Modell benutzt.

🟢 1. Einzelner Prompt: 1 % Risiko – sehr gut kontrollierbar

Wenn du eine einzelne Frage stellst und das Modell antwortet, gilt:

1 % Chance, dass die Antwort falsch ist

99 % Chance, dass sie korrekt ist

➡️ Damit ist ein Einzelprompt sehr sicher.
➡️ Fehler sind selten und leicht zu erkennen.

Beispiel:
Du fragst einmal: „Was kostet die RTX 5090 ungefähr?“
→ 99 Mal richtig, 1 Mal daneben.

🔴 2. Mehrstufige Prompts: Der Fehler multipliziert sich

Wenn du jedoch mehrere Prompts hintereinander nutzt, und jeder Schritt wieder 1 % Fehlerchance hat, passiert Folgendes:

🎯 Jede Stufe trägt ihr eigenes Fehler-Risiko bei

Bei 2 Schritten:

Schritt 1: 1 % Fehler

Schritt 2: 1 % Fehler
➡️ Die Wahrscheinlichkeit, dass beide korrekt sind, ist:
99 % × 99 % = 98,01 %

Schon nach zwei Stufen ist das Gesamtsystem also nicht mehr bei 99 % Genauigkeit, sondern nur noch bei etwa 98 %.

📉 3. Je mehr Stufen, desto stärker fällt die Zuverlässigkeit
Beispiel: 10 Follow-Up-Prompts

Wieder 1 % Risiko pro Stufe.

Gesamtwahrscheinlichkeit korrekt zu bleiben:
99 %^10 ≈ 90,4 %

❗ Das bedeutet:

➡️ Startest du eine 10-Schritt-Konversation, entsteht im Durchschnitt in jedem zehnten mehrstufigen Dialog mindestens ein halluzinierter Fehler.

Und das ist problematisch, weil:

Ein Fehler kann sich in den nächsten Schritten weiter verstärken

Der Fehler taucht oft nicht sofort sichtbar auf

Das Modell baut auf einem falschen Zwischenstand auf

😬 4. Kaskadierende Fehler: Warum Follow-Up-Ketten gefährlich sind

Ein kleiner Fehler am Anfang kann:

🔸 sich später vergrößern
🔸 falsche Annahmen erzeugen
🔸 zu komplett unbrauchbaren Endergebnissen führen

Das nennt man Fehlerkaskade.

Beispiel:

Prompt: „Die Formel ist X?“ (Modell macht 1 % Fehler → sagt „ja“)

Prompt: „Nutze die Formel X für Aufgabe Y“

Prompt: „Berechne danach Z“
→ Die komplette Kette ist auf einer falschen Grundlage gebaut.

🌟 5. Warum viele Einzelprompts viel sicherer sind

Wenn du dein Problem so strukturierst, dass du mehrere unabhängige Einzelprompts stellst:

✔ jedes Ergebnis bewertet wird
✔ Fehler sich nicht automatisch fortpflanzen
✔ du mehr Kontrolle hast
✔ du gezielt neu fragen kannst

Ein einzelner 1 %-Fehler bleibt isoliert.
In einer Kette wird derselbe 1 %-Fehler zu einem großen Risiko.

💡 Fazit (einfach erklärt)

🔹 1 % Fehlerquote klingt klein – ist es aber nur bei einzelnen Fragen.

🔹 Bei jeder zusätzlichen Prompt-Ebene steigt die Fehlerwahrscheinlichkeit.

🔹 Bei langen Follow-Up-Ketten sind falsche Antworten fast garantiert.

🔹 Viele gut strukturierte Einzelprompts sind sicherer als komplexe Folgekonversationen.

Kurz gesagt:
👉 Je länger die Kette, desto höher die Chance, dass sie reißt.
👉 Je mehr Einzelprompts, desto stabiler und sicherer die Ergebnisse.

Post Reply

Return to “Package Robot”

Who is online

Users browsing this forum: No registered users and 0 guests