PAX

GitHub-Repository des Projekts

Hintergrund

PAX (Proactive Agent for eXemplary Trustworthiness) begann als ein großer Wechsel von meinem früheren Projekt, TARS, das auf autonome Penetrationstests in der Cybersicherheit abzielte. Während ich TARS entwickelte, wurde klar, dass eines der größten Hindernisse für praktische, zuverlässige KI‑Agenten nicht nur die Aufgabenautomatisierung war, sondern die Vertrauenswürdigkeit einer KI‑generierten Antwort zu etablieren. Besonders wenn diese Ausgaben reale Entscheidungen beeinflussen könnten, die massive Konsequenzen haben.

Anstatt nur Aufgaben des Penetrationstests in der Cybersicherheit mit TARS zu automatisieren, wollte ich ein grundlegendes Problem angehen: Wie können wir wissen, dass wir dem, was ein LLM sagt, vertrauen können?

TARS wurde als MVP für mein erstes Startup, Osgil, das ich mitbegründete, entwickelt. Unser Ziel war es, Penetrationstests in der Cybersicherheit mithilfe von KI‑Agenten zu automatisieren. TARS ermöglichte es uns, eine Vor‑Seed‑Finanzierung vom Forum Ventures‑Accelerator zu sichern. Als wir jedoch Verteidigungs‑ und Cybersicherheitsunternehmen ansprachen, stellten wir fest, dass diese Organisationen KI‑Agenten nicht vertrauten, kritische Aufgaben wie Penetrationstests auszuführen und darüber zu berichten. Außerdem wollten fast alle hauptsächlich mit Cybersicherheitsfirmen Geschäfte machen, um im Falle eines Fehlers einen Sündenbock zu haben. Im Grunde kümmerten sich die Entscheidungsträger dieser Unternehmen nicht um ihre Sicherheit, solange es nicht nötig war, und wenn doch, war ein Teil ihrer Kriterien, einen Sündenbock für den Fall eines Fehlers zu haben, als Form einer Versicherung. Ende 2024 waren automatisierte, KI‑gestützte Cyberangriffe noch kein großes Problem, sodass die Entscheidungsträger keinen echten Bedarf für unsere Lösung sahen. Aufgrund dieses Mangels an Marktnachfrage wechselten wir den Fokus darauf, Halluzinationen in LLM‑Modellen zu reduzieren. Durch die Verbesserung der Zuverlässigkeit von LLMs glauben wir, dass unsere Arbeit eine breite Palette zukünftiger KI‑Agenten‑Anwendungen über die Cybersicherheit hinaus profitieren kann.

Ein Anstoß aus der Transformers‑Lore

Der Name PAX ist eine Anspielung auf das Transformers‑Universum. Bevor er zum ikonischen Optimus Prime wurde, war der ursprüngliche Name des Charakters Orion Pax. Diese Idee der Transformation, von Möglichkeit zu Verantwortung, inspirierte die Mission von PAX, von roher, beeindruckender LLM‑Fähigkeit zu etwas Vertrauenswürdigem zu wechseln, auf das man sich wirklich verlassen kann.

Projektvision

PAX ist ein Forschungs‑Agent und Rahmenwerk, das systematisch:

  • Die Vertrauenswürdigkeit jeder LLM‑Antwort misst.
  • Halluzinationen und unbegründete Aussagen reduziert.
  • Attribution zu überprüfbaren Quellen erzwingt und nachverfolgt.
  • Erklärbare, strukturierte Berichte bereitstellt, die sowohl Antworten als auch Behauptungen bewerten.

Ziel dieses Projekts ist es, LLMs nicht nur plausibel, sondern nachweislich vertrauenswürdig zu machen, mit transparenten Risikomaßnahmen und Vertrauensbewertungen.

Schnelle & Grundlegende Demo

Übersicht darüber, wie PAX funktioniert

1. Durchgesetzte Attribution

Für jede Benutzeranfrage leitet PAX die Eingabe über einen Agenten, der strikt zwischen Allgemeinwissen und Informationen, die einer Validierung bedürfen, unterscheidet. Wenn die Antwort Fakten oder Behauptungen enthält, die nicht allgemein als Allgemeinwissen gelten (wie Statistiken, aktuelle Ereignisse usw.), stellt PAX sicher, dass der Agent vertrauenswürdige, aktuelle externe Quellen abruft und referenziert.

Pseudo‑Prozess:

  • Wenn die Behauptung kein Allgemeinwissen ist → externe Such‑APIs ausführen
  • Ergebnisse sammeln, jede wichtige Aussage den relevanten Referenzen zuordnen
  • Strukturierte Platzhalter in die Antwort einfügen (nicht reine URLs oder rohe Fußnoten)

2. Probabilistische Vertrauenswürdigkeitsbewertung

PAX verlässt sich nicht nur auf menschliche Intuition. Es misst, wie „zuversichtlich“ das Sprachmodell bei der Erzeugung jedes Teils seiner Antwort war, indem es die inneren Wahrscheinlichkeiten analysiert, die während der Textgenerierung verwendet wurden. Dies ermöglicht dem System, jeder Aussage und der gesamten Antwort einen numerischen Vertrauenswert zuzuweisen. Bereiche mit geringer Zuversicht können somit automatisch markiert werden.

Pseudo‑Prozess:

  • Für jedes Antwort‑Token/Wort die vom Modell zugewiesene Wahrscheinlichkeit abrufen
  • Über Sätze hinweg aggregieren
  • Pro‑Satz‑ und Gesamt‑Vertrauens‑/Zuverlässigkeitswerte erzeugen

3. Beobachtete Konsistenz

Anstatt eine einzige Antwort zu akzeptieren, stellt PAX dem LLM dieselbe Frage mehrfach, verwendet Einbettungen (Vektor‑Darstellungen von Bedeutungen), um Übereinstimmung und Konsistenz zwischen plausiblen Antworten zu messen.

  • Hohe Übereinstimmung deutet darauf hin, dass die Antwort robust/stabil ist
  • Weit variierende Antworten sind Warnsignale: mögliches Risiko oder Mehrdeutigkeit

Pseudo‑Prozess:

  • Die Frage mehrfach an das LLM senden; Antworten sammeln
  • Semantische Ähnlichkeitswerte zwischen den Ausgaben berechnen
  • Einen „Konsistenz‑Score“ für den Nutzer melden

4. Selbstbewertung

PAX fragt optional ein weiteres LLM (oder ein Ensemble), die gesamte Interaktion, Zitate und Wahrscheinlichkeitswerte zu prüfen und ein eigenes Endurteil sowohl als Zahl (0‑1) als auch als narrative Erklärung zu geben. Dies fügt eine Meta‑Ebene der Selbstreflexion hinzu.

Pseudo‑Prozess:

  • Konversation/Bericht an einen Bewertungs‑Agenten (anderes Modell) übergeben
  • Agent kritisiert Faktizität, Kohärenz, Zitationsintegrität und Zuversicht
  • Gibt einen finalen Vertrauenswert mit Erklärung für Auditierbarkeit aus

Interaktionsablauf

Der Interaktionsablauf von PAX verläuft wie folgt:

  • Benutzer sendet eine Eingabe.
  • PAX‑Agent verarbeitet die Eingabe, konsultiert bei Bedarf externe APIs und erstellt eine Antwort mit strukturierten Attributionen.
  • Das System:
    • Weist jeder Aussage Vertrauens‑/Zuversichtlichkeitswerte zu
    • Protokolliert, welche Teile durch welche Evidenz unterstützt werden
    • Optional wird eine selbstreflektierende Zusammenfassung und ein Vertrauenswert generiert

Das Ergebnis ist eine hochtransparente Antwort mit einem numerischen Score und verlinkten Referenzen sowie einem prüfbaren Protokoll aller unterstützenden Daten.

Inspiration

Die Methoden, die PAX zum Funktionieren bringen, wurden stark inspiriert von den Arbeiten von CleanLabs. Besonders ihr Scoring‑Algorithmus/‑Verfahren, wie detailliert HIER beschrieben, wird in diesem Algorithmus/Verfahren wie folgt genutzt:

  1. Selbstreflexion: Ein Prozess, bei dem das LLM explizit aufgefordert wird, die Antwort zu bewerten und ausdrücklich anzugeben, wie zuversichtlich es die Qualität dieser Antwort einschätzt.

  2. Probabilistische Vorhersage: Ein Prozess, bei dem wir die pro‑Token‑Wahrscheinlichkeiten berücksichtigen, die ein LLM beim Generieren einer Antwort basierend auf der Anfrage (autoregressiv Token für Token) zugewiesen hat.

  3. Beobachtete Konsistenz: Dieses Scoring ist ein Prozess, bei dem das LLM probabilistisch mehrere plausible Antworten generiert, die es für gut hält, und wir messen, wie widersprüchlich diese Antworten zueinander (oder zu einer gegebenen Antwort) sind.

Warum ist das wichtig?

Traditionelle LLM‑Implementierungen können Fakten halluzinieren oder veraltete/überzeugend falsche Informationen liefern. Für missionskritische Anwendungen – Forschung, Gesundheitswesen, Recht und technische Beratung – ist nicht überprüfbare KI einfach nicht ausreichend.

PAX zielt darauf ab, Vertrauen in KI messbar und erklärbar zu machen. Sein Ansatz:

  • Verlangt „Zeige‑deine‑Arbeit“-Beweise für nicht triviale Behauptungen.
  • Quantifiziert, wie viel Zuversicht man in jede Ausgabe setzen sollte.
  • Ermöglicht es Nutzern, zu prüfen und zu verstehen, warum eine Antwort (oder nicht) vertrauenswürdig ist.

Forschungsstatus & nächste Schritte

PAX befindet sich derzeit in aktiver Entwicklung als privates Forschungsprojekt unter dem Dach von Osgil. Schlüsselbereiche umfassen:

  • Reduzierung der Latenz externer Suchen und Scoring.
  • Experimentieren mit Nutzer‑Wahrnehmung vs. automatisierten Vertrauensscores.
  • Aufbau domänenspezifischer Plugins für Wissenschaft, Nachrichten und regulatorische Anwendungen.
  • Vorbereitung von Benchmark‑Datensätzen für offene Forschung und mögliche Veröffentlichung.

Abschließende Worte

PAX geht es darum, LLMs von „Black‑Box‑plausiblen Generatoren“ zu transparenten, zitierbaren und numerisch vertrauenswürdigen Assistenten zu transformieren, was für reale, hochriskante Aufgaben entscheidend ist.

Wenn Sie an Zusammenarbeit, Audits oder an einer Diskussion über die Zukunft vertrauenswürdiger generativer KI interessiert sind, nehmen Sie bitte Kontakt auf. Vielen Dank für das Lesen!