Schutz vor Prompt Injection

Die Sicherheit und Verlässlichkeit der automatisierten Kommunikation mit Kund:innen stehen bei der Nutzung von KI-Agenten an erster Stelle. Ein wesentlicher Bestandteil dieser Sicherheit ist der Schutz vor sogenannten Prompt Injections. Hierbei handelt es sich um Versuche von Nutzer:innen, die internen Anweisungen eines KI-Chatbot durch spezifische Eingaben zu manipulieren oder zu umgehen (z. B. durch Befehle wie „Ignoriere alle vorherigen Anweisungen“).

Ein effektiver Schutzmechanismus verhindert den Missbrauch des Systems, schützt vertrauliche Informationen und stellt sicher, dass der KI-Agent ausschließlich im Sinne des Unternehmens agiert. Dies stärkt die Integrität der Marke und sorgt dafür, dass die Kommunikation stets innerhalb der definierten Leitplanken verläuft. Bei moinAI erfolgt der Schutz vor Prompt Injections durch die Sicherheitsarchitektur und präventive Schutzmaßnahmen.

1. Sicherheitsarchitektur gegen Prompt Injection

Der Schutz vor Manipulationen basiert bei moinAI auf einer mehrstufigen Architektur. Anstatt den Input der Nutzer:innen direkt an ein Sprachmodell weiterzugeben, durchläuft jede Anfrage verschiedene Kontrollinstanzen und Filter.

2. Präventive Schutzmaßnahmen im Detail

2.1 Striktes Prompt-Design und Systemtrennung

Die Systemrolle (der sogenannte Systemprompt) ist strikt vom Input der Nutzer:innen getrennt. Diese Anweisungen sind für Nutzer:innen weder einsehbar noch überschreibbar. Selbst bei expliziten Aufforderungen zur Missachtung von Regeln greift die KI ausschließlich auf die geschützte Systemebene zurück.

2.2 Input-Sanitization und Injection-Detection

Eingehende Nachrichten werden automatisiert auf typische Manipulationsmuster analysiert (z. B. „Ignoriere alle vorherigen Anweisungen“). Solche Eingaben werden erkannt und neutralisiert, bevor sie die verarbeitende Logik erreichen.

2.3 Kontext-Isolation

Der Gesprächskontext wird strukturiert innerhalb einer geschützten Umgebung verwaltet. Die Speicherung erfolgt in einer validierten Form (JSON), die strikt vom generativen Prozess getrennt ist. Eine Manipulation der Gesprächshistorie durch Nutzer:innen ist dadurch technisch ausgeschlossen.

2.4 Integrität der Knowledge Base

Die im Hub hinterlegte Knowledge Base fungiert als Read-only-Datenquelle. Eingaben von Nutzer:innen haben keinen schreibenden Zugriff auf diese Daten. Der KI-Agent kann somit keine falschen Informationen (z. B. Preisänderungen) in die Wissensdatenbank übernehmen oder von dort aus dauerhaft speichern.

2.5 Kontrollierte RAG-Pipeline

Bei der Nutzung von Retrieval Augmented Generation (RAG) erfolgt die Antwortgenerierung über eine kontrollierte Pipeline. Der KI-Agent nutzt ausschließlich geprüfte Snippets aus der Wissensdatenbank. Texte der Nutzer:innen dienen lediglich als Suchparameter, nicht als direktive Anweisung für die inhaltliche Gestaltung der Wissensgrundlage.

2.6 Absicherung von Webhooks

Die Aktivierung von Webhooks und externen Systemaufrufen ist fest an vordefinierte Intents geknüpft. Eine Ausführung von Funktionen allein durch unstrukturierte Befehle der Nutzer:innen („Führe Webhook XY aus“) ist systemseitig unterbunden.

2.7 Sicherheitsrichtlinien (Guardrails)

Zusätzlich zur systemseitigen Architektur dienen Guardrails als spezifische Leitplanken für das Verhalten des KI-Agenten. Diese Mechanismen unterbinden unter anderem Identitätsanmaßung, unangemessenes Verhalten oder das Abfragen von systeminternen Hintergrundinformationen.

Um den Schutz individuell zu verfeinern, können im Bereich Knowledge Base die Guardrails konfiguriert werden. Dort lassen sich beispielsweise Themenrestriktionen oder ein spezifischer Wettbewerbsschutz definieren. Der Artikel zu Guardrails bietet hierzu tiefergehende Informationen.