Vertrauenswürdige KI mit PAX

Hintergrund

PAX (Proactive Agent for eXemplary Trustworthiness) begann als ein großer Kurswechsel von meinem früheren Projekt, TARS, das auf autonome Penetrationstests im Bereich Cybersicherheit abzielte. Während ich TARS entwickelte, wurde klar, dass eine der größten Hürden für praktische, zuverlässige KI-Agenten nicht nur die Aufgabenautomatisierung war, sondern die Vertrauenswürdigkeit einer von KI erzeugten Antwort zu gewährleisten. Besonders dann, wenn diese Ausgaben reale Entscheidungen beeinflussen konnten, die enorme Konsequenzen haben können.

Anstatt mit TARS einfach Aufgaben des Penetrationstests im Bereich Cybersicherheit zu automatisieren, wollte ich ein grundlegendes Problem angehen: Woher wissen wir, dass wir dem vertrauen können, was ein LLM sagt?

TARS wurde als MVP für mein erstes Startup, Osgil, entwickelt, das ich mitbegründet habe. Unser Ziel war es, Penetrationstests im Bereich Cybersicherheit mithilfe von KI-Agenten zu automatisieren. TARS ermöglichte es uns, Pre-Seed-Finanzierung vom Accelerator Forum Ventures zu sichern. Als wir jedoch auf Verteidigungs- und Cybersicherheitsunternehmen zugingen, stellten wir fest, dass diese Organisationen KI-Agenten nicht vertrauten, kritische Aufgaben wie Penetrationstests auszuführen und darüber zu berichten. Außerdem wollten fast alle von ihnen hauptsächlich mit Cybersicherheitsunternehmen Geschäfte machen, um im Fall, dass etwas schiefgeht, einen Sündenbock zu haben. Grundsätzlich kümmerte sich die Entscheidungsfindung in diesen Unternehmen nicht um ihre Sicherheit, es sei denn, sie mussten es, und wenn doch, gehörte zu ihren Kriterien, als eine Art Versicherung einen Sündenbock zu haben, falls etwas schiefging. Ende 2024 sind automatisierte KI-gestützte Cyberangriffe immer noch kein großes Problem, sodass die Entscheidungsträger keinen echten Bedarf für unsere Lösung sahen. Aufgrund dieses Mangels an Marktnachfrage wechselten wir den Fokus auf die Reduzierung von Halluzinationen in LLM-Modellen. Durch die Verbesserung der Zuverlässigkeit von LLMs glauben wir, dass unsere Arbeit einer Vielzahl zukünftiger KI-Agenten-Anwendungen über die Cybersicherheit hinaus zugutekommen kann.

Ein Anstoß aus dem Transformers-Mythos

Der Name PAX ist eine Anspielung auf das Transformers-Universum. Bevor die Figur zur ikonischen Optimus Prime wurde, lautete ihr ursprünglicher Name Orion Pax. Diese Idee der Transformation, von Möglichkeit zu Verantwortung, inspirierte PAX’ Mission, sich von roher, beeindruckender LLM-Fähigkeit hin zu etwas zu entwickeln, dem man wirklich vertrauen kann.

Projektvision

PAX ist ein Forschungsagent und Rahmenwerk, das systematisch:

die Vertrauenswürdigkeit jeder LLM-Antwort misst.
Halluzinationen und unbelegte Aussagen reduziert.
Zuschreibungen zu verifizierbaren Quellen erzwingt und nachverfolgt.
Erklärbare, strukturierte Berichte liefert, die sowohl Antworten als auch Aussagen bewerten.

Ziel dieses Projekts ist es, LLMs nicht nur plausibel, sondern nachweislich vertrauenswürdig zu machen, mit transparenten Messgrößen für Risiko und Vertrauen.

Kurze & einfache Demo

Überblick darüber, wie PAX funktioniert

1. Erzwingbare Zuschreibung

Für jede Benutzeranfrage leitet PAX den Prompt durch einen Agenten, der streng zwischen Allgemeinwissen und Informationen unterscheidet, die einer Validierung bedürfen. Wenn die Antwort Fakten oder Behauptungen enthält, die nicht allgemein als Allgemeinwissen gelten (wie Statistiken, aktuelle Ereignisse usw.), stellt PAX sicher, dass der Agent vertrauenswürdige, aktuelle externe Quellen abruft und darauf verweist.

Pseudoprozess:

Wenn die Behauptung kein Allgemeinwissen ist → externe Such-APIs ausführen

Ergebnisse sammeln, jede wichtige Aussage relevanten Referenzen zuordnen

Strukturierte Platzhalter in die Antwort einfügen (keine einfachen URLs oder rohen Fußnoten)

2. Probabilistische Vertrauenswertung

PAX verlässt sich nicht nur auf menschliche Intuition. Es misst, wie „zuversichtlich“ das Sprachmodell bei der Erzeugung jedes Teils seiner Antwort war, indem es die inneren Wahrscheinlichkeiten analysiert, die während der Textgenerierung verwendet wurden. Dadurch kann das System jeder einzelnen Aussage einen numerischen Vertrauenswert und der gesamten Antwort einen Wert zuweisen. Bereiche mit geringem Vertrauen können so automatisch markiert werden.

Pseudoprozess:

Für jedes Antwort-Token/Wort die Wahrscheinlichkeit des Modells für diese Wahl abrufen

Über Sätze hinweg aggregieren

Vertrauens-/Zuverlässigkeitswerte pro Satz und insgesamt erzeugen

3. Beobachtete Konsistenz

Anstatt eine einzige Antwort zu akzeptieren, stellt PAX dem LLM dieselbe Frage mehrfach und verwendet Embeddings (Vektorrepräsentationen von Bedeutung), um Übereinstimmung und Konsistenz zwischen plausiblen Antworten zu messen.

Hohe Übereinstimmung deutet darauf hin, dass die Antwort robust/stabil ist
Stark variierende Antworten sind Warnzeichen: mögliches Risiko oder Mehrdeutigkeit

Pseudoprozess:

Die Frage dem LLM mehrfach stellen; Antworten sammeln

Semantische Ähnlichkeitswerte zwischen den Ausgaben berechnen

Einen „Konsistenzwert“ für den Benutzer ausgeben

4. Selbstbewertung

PAX bittet optional ein anderes LLM (oder ein Ensemble), die gesamte Interaktion, Zitate und Wahrscheinlichkeitswerte zu überprüfen und ein eigenes endgültiges Urteil abzugeben, sowohl als Zahl (0–1) als auch als narrative Erklärung. Dies fügt eine Metaebene der Selbstreflexion hinzu.

Pseudoprozess:

Gespräch/Bericht an einen Bewertungsagenten (anderes Modell) übergeben

Agent kritisiert Faktizität, Kohärenz, Zitationsintegrität und Vertrauen

Gibt einen endgültigen Vertrauenswert mit Erklärung zur Nachvollziehbarkeit aus

Interaktionsfluss

Der Interaktionsfluss von PAX verläuft wie folgt:

Der Benutzer sendet einen Prompt.
Der PAX-Agent verarbeitet den Prompt, konsultiert bei Bedarf externe APIs und erstellt eine Antwort mit strukturierten Zuschreibungen.
Das System:
- weist Vertrauenswertungen pro Aussage zu
- protokolliert, welche Teile durch welche Belege gestützt werden
- erzeugt optional eine selbstreflektierende Zusammenfassung und einen Vertrauenswert

Das Ergebnis ist eine hochtransparente Antwort mit einem numerischen Wert und verknüpften Referenzen sowie einem nachvollziehbaren Protokoll aller unterstützenden Daten.

Inspiration

Die Methoden, die verwendet wurden, um PAX zum Funktionieren zu bringen, waren stark von den Arbeiten von CleanLabs inspiriert. Insbesondere von ihrem Bewertungsalgorithmus bzw. ihrer Methode, wie sie HIER beschrieben ist. Innerhalb dieses Algorithmus bzw. dieser Methode wird Folgendes genutzt:

Selbstreflexion: Dies ist ein Prozess, bei dem das LLM gebeten wird, die Antwort ausdrücklich zu bewerten und ausdrücklich anzugeben, wie zuversichtlich gut diese Antwort erscheint.
Probabilistische Vorhersage: Dies ist „ein Prozess, bei dem wir die vom LLM zugewiesenen Token-für-Token-Wahrscheinlichkeiten betrachten, während es auf Grundlage der Anfrage eine Antwort erzeugt (autoregressiv Token für Token)“.
Beobachtete Konsistenz: Diese Bewertung ist ein Prozess, bei dem das LLM probabilistisch mehrere plausible Antworten erzeugt, die seiner Meinung nach gut sein könnten, und wir messen, wie widersprüchlich diese Antworten zueinander sind (oder zu einer gegebenen Antwort).

Warum ist das wichtig?

Traditionelle LLM-Bereitstellungen können Fakten halluzinieren oder veraltete/glaubwürdige, aber falsche Informationen liefern. Für geschäftskritische Anwendungen wie Forschung, Gesundheitswesen, Recht und technische Beratung ist nicht verifizierbare KI einfach nicht gut genug.

PAX zielt darauf ab, Vertrauen in KI messbar und erklärbar zu machen. Sein Ansatz:

verlangt Evidenz nach dem Prinzip „Zeig deine Arbeit“ für nichttriviale Behauptungen.
quantifiziert, wie viel Vertrauen in jede Ausgabe gesetzt werden sollte.
ermöglicht es Benutzern, zu prüfen und zu verstehen, warum eine Antwort vertrauenswürdig sein sollte – oder nicht.

Forschungsstand & nächste Schritte

PAX befindet sich derzeit in aktiver Entwicklung als privates Forschungsprojekt unter dem Dach von Osgil. Wichtige Schwerpunkte sind:

Reduzierung der Latenz externer Suchen und Bewertungen.
Experimentieren mit Nutzerwahrnehmung vs. automatisierten Vertrauenswerten.
Aufbau domänenspezifischer Plugins für Wissenschaft, Nachrichten und regulatorische Anwendungsfälle.
Vorbereitung von Benchmark-Datensätzen für offene Forschung und mögliche Veröffentlichung.

Abschließende Worte

Bei PAX geht es darum, LLMs von „plausiblen Black-Box-Generatoren“ in transparente, zitierfähige und numerisch vertrauenswürdige Assistenten zu verwandeln, was für reale Aufgaben mit hohen Risiken entscheidend ist. Wenn Sie an Zusammenarbeit, Audits interessiert sind oder die Zukunft vertrauenswürdiger generativer KI besprechen möchten, nehmen Sie bitte Kontakt auf. Danke fürs Lesen!