Vertrauenswürdige KI mit PAX

Hintergrund

PAX (Proaktiver Agent für beispielhafte Vertrauenswürdigkeit) begann als ein wesentlicher Pivot von meinem früheren Projekt, TARS, das sich auf autonome Cybersecurity-Penetrationstests konzentrierte. Während ich TARS entwickelte, wurde klar, dass eines der größten Hindernisse für praktische, zuverlässige KI-Agenten nicht nur die Automatisierung von Aufgaben war, sondern die Etablierung der Vertrauenswürdigkeit einer von KI generierten Antwort. Besonders wenn diese Ausgaben reale Entscheidungen beeinflussen könnten, die massive Konsequenzen haben können.

Anstatt nur Cybersecurity-Penetrationstestaufgaben mit TARS zu automatisieren, wollte ich ein grundlegendes Problem angehen: Wie wissen wir, dass wir dem, was ein LLM sagt, vertrauen können?

TARS wurde als MVP für mein erstes Startup, Osgil, das ich mitgegründet habe, entwickelt. Unser Ziel war es, Cybersecurity-Penetrationstests mithilfe von KI-Agenten zu automatisieren. TARS ermöglichte es uns, eine Pre-Seed-Finanzierung von dem Forum Ventures Accelerator zu sichern. Als wir jedoch Verteidigungs- und Cybersecurity-Unternehmen ansprachen, entdeckten wir, dass diese Organisationen KI-Agenten nicht vertrauten, um kritische Aufgaben wie Penetrationstests durchzuführen und zu berichten. Außerdem wollten fast alle von ihnen hauptsächlich mit Cybersecurity-Unternehmen Geschäfte machen, um einen Sündenbock zu haben, falls etwas schiefgeht. Im Grunde genommen kümmerten sich die Entscheidungsträger in diesen Unternehmen nicht um ihre Sicherheit, es sei denn, sie mussten es, und wenn sie es taten, war ein Teil ihrer Kriterien, einen Sündenbock zu haben, falls etwas schiefgeht, als eine Form von Versicherung. Ende 2024 sind automatisierte, KI-gestützte Cyberangriffe immer noch kein großes Anliegen, sodass die Entscheidungsträger keinen echten Bedarf für unsere Lösung sahen. Aufgrund dieses Mangels an Marktnachfrage haben wir uns darauf konzentriert, Halluzinationen in LLM-Modellen zu reduzieren. Durch die Verbesserung der Zuverlässigkeit von LLM glauben wir, dass unsere Arbeit einer breiten Palette zukünftiger Anwendungen von KI-Agenten über Cybersecurity hinaus zugutekommen kann.

Ein Anstoß aus der Transformers-Lore

Der Name PAX ist eine Anspielung auf das Transformers-Universum. Bevor er zu dem ikonischen Optimus Prime wurde, war der ursprüngliche Name des Charakters Orion Pax. Diese Idee der Transformation, von Möglichkeit zu Verantwortung, inspirierte die Mission von PAX, von rohen, beeindruckenden LLM-Fähigkeiten zu etwas überzugehen, das vertrauenswürdig genug ist, um wirklich darauf vertraut zu werden.

Projektvision

PAX ist ein Forschungsagent und Framework, das systematisch:

Die Vertrauenswürdigkeit jeder LLM-Antwort misst.
Halluzinationen und unbelegte Aussagen reduziert.
Attribution zu überprüfbaren Quellen erzwingt und verfolgt.
Erklärbare, strukturierte Berichte bereitstellt, die sowohl Antworten als auch Ansprüche bewerten.

Ziel dieses Projekts ist es, LLMs nicht nur plausibel, sondern nachweislich vertrauenswürdig zu machen, mit transparenten Risikomaßnahmen und Vertrauensbewertungen.

Schnelle & Grundlegende Demo

Überblick, wie PAX funktioniert

1. Durchgesetzte Attribution

Für jede Benutzeranfrage leitet PAX das Prompt durch einen Agenten, der strikt zwischen allgemeinem Wissen und Informationen, die Validierung benötigen, unterscheidet. Wenn die Antwort Fakten oder Ansprüche enthält, die nicht allgemein als bekannt gelten (wie Statistiken, aktuelle Ereignisse usw.), stellt PAX sicher, dass der Agent vertrauenswürdige, aktuelle externe Quellen abruft und darauf verweist.

Pseudo-Prozess:

Wenn der Anspruch kein allgemeines Wissen ist → externe Such-APIs ausführen

Ergebnisse sammeln, jede wichtige Aussage relevanten Referenzen zuordnen

Strukturierte Platzhalter in die Antwort einfügen (keine einfachen URLs oder rohen Fußnoten)

2. Wahrscheinlichkeitsbasierte Vertrauensbewertung

PAX verlässt sich nicht nur auf menschliche Intuition. Es misst, wie “zuversichtlich” das Sprachmodell bei der Generierung jedes Teils seiner Antwort war, indem es die inneren Wahrscheinlichkeiten analysiert, die während der Textgenerierung verwendet wurden. Dies ermöglicht es dem System, jedem Satz und der gesamten Antwort eine numerische Vertrauensbewertung zuzuweisen. Bereiche mit niedriger Zuversicht können somit automatisch markiert werden.

Pseudo-Prozess:

Für jedes Antworttoken/Wort die Wahrscheinlichkeit des Modells für diese Wahl abrufen

Über Sätze aggregieren

Vertrauens-/Zuverlässigkeitsbewertungen pro Satz und insgesamt erzeugen

3. Beobachtete Konsistenz

Anstatt eine Antwort zu akzeptieren, fragt PAX das LLM dieselbe Frage mehrfach, wobei Embeddings (Vektor-Darstellungen von Bedeutung) verwendet werden, um Übereinstimmung und Konsistenz zwischen plausiblen Antworten zu messen.

Hohe Übereinstimmung deutet darauf hin, dass die Antwort robust/stabil ist
Weit variierende Antworten sind Warnsignale: mögliches Risiko oder Mehrdeutigkeit

Pseudo-Prozess:

Die Frage mehrere Male an das LLM senden; Antworten sammeln

Semantische Ähnlichkeitswerte zwischen den Ausgaben berechnen

Einen “Konsistenzwert” für den Benutzer berichten

4. Selbstbewertung

PAX fragt optional ein anderes LLM (oder Ensemble), die gesamte Interaktion, Zitationen und Wahrscheinlichkeitswerte zu überprüfen und sein eigenes endgültiges Urteil abzugeben, sowohl als Zahl (0-1) als auch als narrative Erklärung. Dies fügt eine Meta-Ebene der Selbstreflexion hinzu.

Pseudo-Prozess:

Das Gespräch/den Bericht an einen Bewertungsagenten (anderes Modell) weitergeben

Der Agent kritisiert Faktizität, Kohärenz, Zitationsintegrität und Zuversicht

Gibt eine endgültige Vertrauensbewertung mit Erklärung für die Nachvollziehbarkeit aus

Interaktionsfluss

Der Interaktionsfluss von PAX verläuft wie folgt:

Der Benutzer sendet ein Prompt.
Der PAX-Agent verarbeitet das Prompt, konsultiert externe APIs nach Bedarf und erstellt eine Antwort mit strukturierten Attributen.
Das System:
- Weist Vertrauens-/Zuverlässigkeitsbewertungen pro Aussage zu
- Protokolliert, welche Teile durch welche Beweise unterstützt werden
- Generiert optional eine selbstreflektierende Zusammenfassung und Vertrauensbewertung

Das Ergebnis ist eine hochtransparente Antwort mit einer numerischen Bewertung und verlinkten Referenzen sowie einem nachvollziehbaren Protokoll aller unterstützenden Daten.

Inspiration

Die Methoden, die verwendet werden, um PAX zum Laufen zu bringen, wurden stark von den Arbeiten von CleanLabs inspiriert. Insbesondere ihr Bewertungsalgorithmus/-methode, wie HIER detailliert beschrieben. Innerhalb dieses Algorithmus/dieser Methode wird Folgendes genutzt:

Selbstreflexion: Dies ist ein Prozess, bei dem das LLM gebeten wird, die Antwort ausdrücklich zu bewerten und ausdrücklich anzugeben, wie zuversichtlich gut diese Antwort erscheint.
Wahrscheinlichkeitsvorhersage: Dies ist “ein Prozess, bei dem wir die pro-Token-Wahrscheinlichkeiten berücksichtigen, die einem LLM zugewiesen werden, während es eine Antwort basierend auf der Anfrage generiert (auto-regressiv, token für token)”.
Beobachtete Konsistenz: Diese Bewertung ist ein Prozess, bei dem das LLM probabilistisch mehrere plausible Antworten generiert, von denen es denkt, dass sie gut sein könnten, und wir messen, wie widersprüchlich diese Antworten zueinander (oder zu einer gegebenen Antwort) sind.

Warum ist das wichtig?

Traditionelle LLM-Einsätze können Fakten halluzinieren oder veraltete/überzeugende, aber falsche Informationen geben. Für mission-kritische Anwendungen—Forschung, Gesundheitswesen, rechtliche und technische Beratung—ist unverifizierbare KI einfach nicht gut genug.

PAX zielt darauf ab, Vertrauen in KI messbar und erklärbar zu machen. Sein Ansatz:

Fordert “Beweise für die Arbeit” für nicht triviale Ansprüche.
Quantifiziert, wie viel Vertrauen in jede Ausgabe gesetzt werden kann.
Ermöglicht es Benutzern, zu prüfen und zu verstehen, warum eine Antwort (oder nicht) vertrauenswürdig sein sollte.

Forschungsstatus & Nächste Schritte

PAX befindet sich derzeit in aktiver Entwicklung als privates Forschungsprojekt unter dem Dach von Osgil. Wichtige Schwerpunkte sind:

Reduzierung der Latenz externer Suchen und Bewertungen.
Experimentieren mit Benutzerwahrnehmung vs. automatisierten Vertrauensbewertungen.
Aufbau von domänenspezifischen Plugins für Wissenschaft, Nachrichten und regulatorische Anwendungen.
Vorbereitung von Benchmark-Datensätzen für offene Forschung und mögliche Veröffentlichung.

Schlussworte

PAX geht es darum, LLMs von “schwarzen Kasten plausibler Generatoren” in transparente, zitierbare und numerisch vertrauenswürdige Assistenten zu transformieren, was für reale, risikobehaftete Aufgaben entscheidend ist. Wenn Sie an einer Zusammenarbeit, Audits interessiert sind oder die Zukunft vertrauenswürdiger generativer KI diskutieren möchten, kontaktieren Sie uns bitte. Vielen Dank für Ihre Aufmerksamkeit!