IA digne de confiance avec PAX

Contexte

PAX (Proactive Agent for eXemplary Trustworthiness) a commencé comme un pivot majeur par rapport à mon projet précédent, TARS, qui visait des tests de pénétration autonomes en cybersécurité. Alors que je développais TARS, il est devenu clair que l’un des plus grands obstacles à des agents d’IA pratiques et fiables n’était pas seulement l’automatisation des tâches, mais l’établissement de la fiabilité d’une réponse générée par l’IA. Surtout lorsque ces sorties pouvaient influencer des décisions du monde réel qui peuvent avoir des conséquences énormes.

Plutôt que d’automatiser simplement les tâches de test de pénétration en cybersécurité avec TARS, je voulais aborder un problème fondamental : Comment savoir que nous pouvons faire confiance à ce qu’un LLM dit ?

TARS a été विकसित comme un MVP pour ma première startup, Osgil, que j’ai cofondée. Notre objectif était d’automatiser les tests de pénétration en cybersécurité à l’aide d’agents d’IA. TARS nous a permis d’obtenir un financement pre-seed de l’accélérateur Forum Ventures. Cependant, lorsque nous avons approché des entreprises de défense et de cybersécurité, nous avons découvert que ces organisations ne faisaient pas confiance aux agents d’IA pour exécuter et rapporter des tâches critiques comme les tests de pénétration. De plus, presque toutes voulaient surtout faire des affaires avec des entreprises de cybersécurité pour avoir un bouc émissaire si les choses tournaient mal. En gros, les décideurs de ces entreprises ne se souciaient pas de leur sécurité à moins d’y être obligés, et lorsqu’ils s’en souciaient, une partie de leurs critères consistait à avoir un bouc émissaire en cas de problème, comme forme d’assurance. Fin 2024, les cyberattaques automatisées alimentées par l’IA ne constituent toujours pas une préoccupation majeure, donc les décideurs n’ont pas vu de besoin réel pour notre solution. En raison de ce manque de demande du marché, nous avons pivoté vers la réduction des hallucinations dans les modèles de LLM. En améliorant la fiabilité des LLM, nous pensons que notre travail peut bénéficier à un large éventail de futures applications d’agents d’IA au-delà de la cybersécurité.

Un clin d’œil à la mythologie des Transformers

Le nom PAX est un clin d’œil à l’univers des Transformers. Avant de devenir l’emblématique Optimus Prime, le nom original du personnage était Orion Pax. Cette idée de transformation, du potentiel à la responsabilité, a inspiré la mission de PAX : passer de capacités brutes et impressionnantes des LLM à quelque chose de suffisamment digne de confiance pour être réellement utilisé.

Vision du projet

PAX est un agent de recherche et un cadre qui, de manière systématique :

Mesure la fiabilité de toute réponse d’un LLM.
Réduit les hallucinations et les affirmations non étayées.
Force et suit l’attribution à des sources vérifiables.
Fournit des rapports explicables et structurés notant à la fois les réponses et les affirmations.

L’objectif de ce projet est de rendre les LLM non seulement plausibles, mais démontrablement dignes de confiance, avec des mesures transparentes du risque et de la confiance.

Démo rapide et basique

Aperçu du fonctionnement de PAX

1. Attribution imposée

Pour toute requête utilisateur, PAX achemine le prompt via un agent qui distingue strictement les connaissances communes des informations nécessitant une validation. Lorsque la réponse contient des faits ou des affirmations qui ne sont pas largement considérés comme des connaissances communes (comme des statistiques, des événements récents, etc.), PAX s’assure que l’agent récupère et consulte des sources externes fiables et à jour.

Pseudo-processus :

Si l’affirmation n’est pas une connaissance commune → exécuter des API de recherche externes

Collecter les résultats, relier chaque énoncé important aux références pertinentes

Insérer des espaces réservés structurés dans la réponse (et non de simples URL ou des notes de bas de page brutes)

2. Notation probabiliste de confiance

PAX ne se fie pas uniquement à l’intuition humaine. Il mesure à quel point le modèle de langage était « confiant » lors de la génération de chaque partie de sa réponse, en analysant les probabilités internes utilisées pendant la génération du texte. Cela permet au système d’attribuer un score numérique de confiance à chaque phrase, ainsi qu’à la réponse dans son ensemble. Les zones de faible confiance peuvent ainsi être automatiquement signalées.

Pseudo-processus :

Pour chaque jeton/mot de la réponse, récupérer la probabilité du modèle pour ce choix

Agréguer sur l’ensemble des phrases

Produire des scores de confiance/fiabilité par phrase et globaux

3. Cohérence observée

Au lieu d’accepter une seule réponse, PAX pose plusieurs fois la même question au LLM, en utilisant des embeddings (représentations vectorielles du sens) pour mesurer l’accord et la cohérence entre des réponses plausibles.

Un fort accord suggère que la réponse est robuste/stable
Des réponses très variables sont des signaux d’alerte : risque possible ou ambiguïté

Pseudo-processus :

Envoyer la question au LLM plusieurs fois ; collecter les réponses

Calculer des scores de similarité sémantique entre les sorties

Fournir un “score de cohérence” à l’utilisateur

4. Auto-évaluation

PAX demande en option à un autre LLM (ou à un ensemble) de revoir l’ensemble de l’interaction, les citations et les scores de probabilité, et de donner son propre verdict final, à la fois sous forme numérique (0-1) et d’explication narrative. Cela ajoute une couche méta de réflexion sur soi.

Pseudo-processus :

Fournir la conversation/le rapport à un agent d’évaluation (modèle différent)

L’agent critique la factualité, la cohérence, l’intégrité des citations et la confiance

Produire un score de confiance final avec explication pour l’auditabilité

Flux d’interaction

Le flux d’interaction de PAX se déroule comme suit :

L’utilisateur envoie un prompt.
L’agent PAX traite le prompt, consulte des API externes si nécessaire, et construit une réponse avec des attributions structurées.
Le système :
- Attribue des scores de confiance/par affirmation
- Enregistre quelles parties sont étayées par quelles preuves
- Génère éventuellement un résumé réflexif et un score de confiance

Le résultat est une réponse hautement transparente avec un score numérique et des références liées, ainsi qu’un enregistrement auditable de toutes les données justificatives.

Inspiration

Les méthodes utilisées pour faire fonctionner PAX ont été fortement inspirées par les travaux réalisés par CleanLabs. En particulier, leur algorithme/méthode de notation, comme détaillé ICI. Dans cet algorithme/cette méthode, les éléments suivants sont utilisés :

Auto-réflexion : il s’agit d’un processus dans lequel le LLM est invité à évaluer explicitement la réponse et à indiquer explicitement à quel point cette réponse semble bonne avec confiance.
Prédiction probabiliste : c’est « un processus dans lequel nous considérons les probabilités par jeton attribuées par un LLM lorsqu’il génère une réponse en fonction de la requête (de manière auto-régressive, jeton par jeton) ».
Cohérence observée : cette notation est un processus dans lequel le LLM génère probabilistiquement plusieurs réponses plausibles qu’il pense pouvoir être bonnes, et nous mesurons à quel point ces réponses se contredisent les unes les autres (ou une réponse donnée).

Pourquoi est-ce important ?

Les déploiements traditionnels de LLM peuvent halluciner des faits ou fournir des informations obsolètes mais crédibles, voire fausses. Pour des usages critiques tels que la recherche, la santé, le droit et les conseils techniques, une IA invérifiable n’est tout simplement pas suffisante.

PAX vise à rendre la confiance dans l’IA mesurable et explicable. Son approche :

Exige des preuves de type « montrez votre travail » pour les affirmations non triviales.
Quantifie le niveau de confiance à accorder à chaque sortie.
Permet aux utilisateurs d’auditer et de comprendre pourquoi une réponse doit (ou ne doit pas) être considérée comme digne de confiance.

État de la recherche et prochaines étapes

PAX est actuellement en développement actif en tant que projet de recherche privé sous l’égide de Osgil. Les axes principaux incluent :

Réduire la latence des recherches externes et de la notation.
Expérimenter la perception des utilisateurs par rapport aux scores de confiance automatisés.
Construire des plugins spécifiques à des domaines pour la science, l’actualité et les usages réglementaires.
Préparer des ensembles de données de référence pour la recherche ouverte et une éventuelle publication.

Mot de la fin

PAX consiste à transformer les LLM de « générateurs plausibles en boîte noire » en assistants transparents, citables et numériquement dignes de confiance, ce qui est crucial pour les tâches réelles à fort enjeu. Si vous êtes intéressé par une collaboration, des audits, ou si vous souhaitez discuter de l’avenir de l’IA générative digne de confiance, n’hésitez pas à me contacter. Merci de votre lecture !