PAX
Contexte
PAX (Proactive Agent for eXemplary Trustworthiness) a commencé comme un pivot majeur depuis mon projet antérieur, TARS, qui visait les tests de pénétration en cybersécurité autonomes. En développant TARS, il est devenu clair que l’un des plus grands obstacles aux agents IA pratiques et fiables n’était pas seulement l’automatisation des tâches, mais l’établissement de la fiabilité d’une réponse générée par IA. Surtout lorsque ces sorties peuvent influencer des décisions réelles aux conséquences massives.
Plutôt que d’automatiser simplement les tâches de test de pénétration en cybersécurité avec TARS, je voulais aborder un problème fondamental : Comment savoir si nous pouvons faire confiance à ce qu’un LLM dit ?
TARS a été développé comme MVP pour ma première startup, Osgil, que j’ai co‑fondée. Notre objectif était d’automatiser les tests de pénétration en cybersécurité à l’aide d’agents IA. TARS nous a permis d’obtenir un financement pré‑seed de l’accélérateur Forum Ventures. Cependant, lorsque nous avons approché des entreprises de défense et de cybersécurité, nous avons découvert que ces organisations ne faisaient pas confiance aux agents IA pour exécuter et rendre compte de tâches critiques comme les tests de pénétration. De plus, la plupart d’entre elles souhaitaient principalement faire affaire avec des sociétés de cybersécurité afin d’avoir un bouc émissaire en cas de problème, comme forme d’assurance. À la fin 2024, les cyber‑attaques automatisées alimentées par IA ne sont toujours pas une préoccupation majeure, donc les décideurs ne voyaient pas de réel besoin pour notre solution. En raison de ce manque de demande du marché, nous avons pivoté vers la réduction des hallucinations dans les modèles LLM. En améliorant la fiabilité des LLM, nous croyons que notre travail peut bénéficier à un large éventail d’applications futures d’agents IA au‑delà de la cybersécurité.
Un clin d’œil à l’univers Transformers
Le nom PAX est un clin d’œil à l’univers Transformers. Avant de devenir l’emblématique Optimus Prime, le personnage s’appelait Orion Pax. Cette idée de transformation, du potentiel à la responsabilité, a inspiré la mission de PAX : passer d’une capacité brute et impressionnante des LLM à quelque chose d’assez fiable pour être réellement exploité.
Vision du projet
PAX est un agent de recherche et un cadre qui mesure systématiquement :
- Mesure la fiabilité de toute réponse d’LLM.
- Réduit les hallucinations et les affirmations non étayées.
- Force et suit l’attribution à des sources vérifiables.
- Fournit des rapports structurés et explicables évaluant à la fois les réponses et les affirmations.
Le but de ce projet est de rendre les LLM non seulement plausibles, mais prouvablement fiables, avec des mesures transparentes de risque et de confiance.
Démo rapide et basique
Aperçu du fonctionnement de PAX
1. Attribution imposée
Pour toute requête utilisateur, PAX dirige l’invite à travers un agent qui distingue strictement entre connaissances communes et informations nécessitant une validation. Lorsque la réponse contient des faits ou des affirmations qui ne sont pas largement considérés comme connaissances communes (telles que des statistiques, des événements récents, etc.), PAX s’assure que l’agent récupère et se réfère à des sources externes fiables et à jour.
Pseudo‑processus :
- Si la revendication n’est pas une connaissance commune → exécuter les API de recherche externes
- Collecter les résultats, associer chaque affirmation importante aux références pertinentes
- Insérer des espaces réservés structurés dans la réponse (pas de simples URL ou de notes de bas de page brutes)
2. Score de confiance probabiliste
PAX ne se contente pas de l’intuition humaine. Il mesure à quel point le modèle de langage était « confident » en générant chaque partie de sa réponse, en analysant les probabilités internes utilisées pendant la génération du texte. Cela permet au système d’attribuer un score de confiance numérique à chaque phrase, et à la réponse dans son ensemble. Les zones à faible confiance peuvent ainsi être automatiquement signalées.
Pseudo‑processus :
- Pour chaque token/mot de réponse, récupérer la probabilité du modèle pour ce choix
- Agréguer sur les phrases
- Produire des scores de confiance/fiabilité par phrase et globaux
3. Cohérence observée
Au lieu d’accepter une seule réponse, PAX pose la même question au LLM plusieurs fois, en utilisant des embeddings (représentations vectorielles du sens) pour mesurer l’accord et la cohérence entre les réponses plausibles.
- Un fort accord suggère que la réponse est robuste/stable
- Des réponses très variables sont des signes d’avertissement : risque ou ambiguïté possible
Pseudo‑processus :
- Envoyer la question au LLM plusieurs fois ; collecter les réponses
- Calculer les scores de similarité sémantique entre les sorties
- Rapporter un « score de cohérence » à l’utilisateur
4. Auto‑évaluation
PAX demande éventuellement à un autre LLM (ou à un ensemble) de revoir l’ensemble de l’interaction, les citations et les scores de probabilité, et de donner son propre verdict final, à la fois sous forme de nombre (0‑1) et d’explication narrative. Cela ajoute une couche méta de réflexion.
Pseudo‑processus :
- Fournir la conversation/le rapport à un agent d’évaluation (modèle différent)
- L’agent critique la factualité, la cohérence, l’intégrité des citations et la confiance
- Produit un score de confiance final avec explication pour l’auditabilité
Flux d’interaction
Le flux d’interaction de PAX se déroule comme suit :
- L’utilisateur envoie une invite.
- L’agent PAX traite l’invite, consulte les API externes si nécessaire, et construit une réponse avec des attributions structurées.
- Le système :
- Attribue des scores de confiance/fiabilité par affirmation
- Enregistre quelles parties sont soutenues par quelles preuves
- Optionnellement, génère un résumé auto‑réflexif et un score de confiance
Le résultat est une réponse hautement transparente avec un score numérique et des références liées, ainsi qu’un enregistrement auditable de toutes les données de soutien.
Inspiration
Les méthodes utilisées pour faire fonctionner PAX ont été fortement inspirées par les travaux de CleanLabs. Plus précisément, leur algorithme/méthode de scoring détaillé ICI. Dans cet algorithme/méthode, les éléments suivants sont utilisés :
-
Auto‑réflexion : Il s’agit d’un processus dans lequel le LLM est invité à évaluer explicitement la réponse et à indiquer explicitement à quel point il estime que cette réponse est bonne.
-
Prédiction probabiliste : Il s’agit « d’un processus dans lequel nous considérons les probabilités par token attribuées par un LLM lorsqu’il génère une réponse à la demande (auto‑régresseur token par token) ».
-
Cohérence observée : Ce scoring est un processus dans lequel le LLM génère probabilistiquement plusieurs réponses plausibles qu’il estime bonnes, et nous mesurons à quel point ces réponses sont contradictoires les unes avec les autres (ou avec une réponse donnée).
Pourquoi cela importe-t-il ?
Les déploiements traditionnels de LLM peuvent halluciner des faits ou fournir des informations obsolètes mais crédibles et fausses. Pour les usages critiques—recherche, santé, juridique et conseils techniques—une IA non vérifiable n’est tout simplement pas suffisante.
PAX vise à rendre la confiance en IA mesurable et explicable. Son approche :
- Exige des preuves « montrez votre travail » pour les affirmations non triviales.
- Quantifie le niveau de confiance à accorder à chaque sortie.
- Permet aux utilisateurs d’auditer et de comprendre pourquoi une réponse doit (ou ne doit pas) être fiable.
État de la recherche et prochaines étapes
PAX est actuellement en développement actif en tant que projet de recherche privé sous l’égide de Osgil. Les axes clés incluent :
- Réduire la latence des recherches externes et du scoring.
- Expérimenter la perception des utilisateurs vs. les scores de confiance automatisés.
- Construire des plugins spécifiques à des domaines pour la science, l’actualité et les usages réglementaires.
- Préparer des jeux de données de référence pour la recherche ouverte et une éventuelle diffusion.
Mot de la fin
PAX consiste à transformer les LLM de « générateurs plausibles boîte noire » en assistants transparents, citables et numériquement fiables, ce qui est crucial pour les tâches réelles à enjeux élevés.
Si vous êtes intéressé par une collaboration, des audits, ou souhaitez discuter de l’avenir de l’IA générative fiable, veuillez nous contacter. Merci de votre lecture !