Die meisten großen (oder kleinen) Sprachmodelle (LLMs) geben manchmal falsche Antworten – jeder, der sie nutzt, weiß das.
Nicht oft - vielleicht 1 Mal von hundert Fragen?
Meist liefern sie gute Lösungen, aber gelegentlich kommt es zu Halluzinationen oder Fehlern.
Doch was bedeutet das für Einzel- vs. Kettenfragen?
Stellen Sie sich ein Vorstellungsgespräch vor: Der Chef stellt nur eine Frage. Wenn Sie sie richtig beantworten, bekommen Sie den Job – klingt einfach, oder?
Aber was, wenn der Chef 50 Fragen stellt und eine falsche Antwort reicht, um durchzufallen?
Das ist schon viel schwieriger!
Mein Fahrprüfer sagte immer: "Wir lassen dich so lange fahren, bis du einen Fehler machst."
Genau so funktionieren auch LLMs. Unten habe ich die mathematischen Hintergründe erklärt.
Im Prinzip beweist das warum eine SPR-Automatisierung die die LLM immer wieder mit einem konkreten Kontext aufruft
viel Problemloser läuft als wenn man der LLM sagt "Mach das Mal".
Video mit dem neuen lokalen MCP-Server 01:
Lokale KI zum Arbeiten benutzen
Große Sprachmodelle (LLMs) liefern meist sehr gute Antworten – aber nie perfekt.
Nehmen wir einmal an, ein Modell produziert im Durchschnitt 1 % falsche („halluzinierte“) Antworten.
Das klingt extrem wenig… aber die Wirkung hängt stark davon ab, wie du das Modell benutzt.
Wenn du eine einzelne Frage stellst und das Modell antwortet, gilt:
1 % Chance, dass die Antwort falsch ist
99 % Chance, dass sie korrekt ist
Beispiel:
Du fragst einmal: „Was kostet die RTX 5090 ungefähr?“
→ 99 Mal richtig, 1 Mal daneben.
Wenn du jedoch mehrere Prompts hintereinander nutzt, und jeder Schritt wieder 1 % Fehlerchance hat, passiert Folgendes:
Bei 2 Schritten:
Schritt 1: 1 % Fehler
Schritt 2: 1 % Fehler
99 % × 99 % = 98,01 %
Schon nach zwei Stufen ist das Gesamtsystem also nicht mehr bei 99 % Genauigkeit, sondern nur noch bei etwa 98 %.
Beispiel: 10 Follow-Up-Prompts
Wieder 1 % Risiko pro Stufe.
Gesamtwahrscheinlichkeit korrekt zu bleiben:
99 %^10 ≈ 90,4 %
Und das ist problematisch, weil:
Ein Fehler kann sich in den nächsten Schritten weiter verstärken
Der Fehler taucht oft nicht sofort sichtbar auf
Das Modell baut auf einem falschen Zwischenstand auf
Ein kleiner Fehler am Anfang kann:
Das nennt man Fehlerkaskade.
Beispiel:
Prompt: „Die Formel ist X?“ (Modell macht 1 % Fehler → sagt „ja“)
Prompt: „Nutze die Formel X für Aufgabe Y“
Prompt: „Berechne danach Z“
→ Die komplette Kette ist auf einer falschen Grundlage gebaut.
Wenn du dein Problem so strukturierst, dass du mehrere unabhängige Einzelprompts stellst:
✔ jedes Ergebnis bewertet wird
✔ Fehler sich nicht automatisch fortpflanzen
✔ du mehr Kontrolle hast
✔ du gezielt neu fragen kannst
Ein einzelner 1 %-Fehler bleibt isoliert.
In einer Kette wird derselbe 1 %-Fehler zu einem großen Risiko.
Kurz gesagt: