IA Fiable avec PAX | Mehmet Yilmaz

Contexte

PAX (Agent Proactif pour une Fiabilité Exemplaire) a commencé comme un pivot majeur de mon projet précédent, TARS, qui visait les tests de pénétration en cybersécurité autonomes. Alors que je développais TARS, il est devenu clair que l’un des plus grands obstacles à des agents IA pratiques et fiables n’était pas seulement l’automatisation des tâches, mais l’établissement de la fiabilité d’une réponse générée par l’IA. Surtout lorsque ces résultats pouvaient avoir un impact sur des décisions réelles pouvant avoir des conséquences massives.

Plutôt que de simplement automatiser les tâches de tests de pénétration en cybersécurité avec TARS, je voulais aborder un problème fondamental : Comment savons-nous que nous pouvons faire confiance à ce qu’un LLM dit ?

TARS a été développé comme un MVP pour ma première startup, Osgil, que j’ai cofondée. Notre objectif était d’automatiser les tests de pénétration en cybersécurité en utilisant des agents IA. TARS nous a permis de sécuriser un financement pré-seed auprès de l’accélérateur Forum Ventures. Cependant, lorsque nous avons approché des entreprises de défense et de cybersécurité, nous avons découvert que ces organisations ne faisaient pas confiance aux agents IA pour effectuer et rendre compte de tâches critiques comme les tests de pénétration. De plus, presque toutes voulaient principalement faire affaire avec des entreprises de cybersécurité pour avoir un bouc émissaire en cas de problème. En gros, les décideurs de ces entreprises ne se souciaient pas de leur sécurité à moins qu’ils n’y soient contraints, et quand ils le faisaient, une partie de leurs critères était d’avoir un bouc émissaire en cas de problème, comme une forme d’assurance. À la fin de 2024, les attaques cybernétiques automatisées alimentées par l’IA ne sont toujours pas une préoccupation majeure, donc les décideurs ne voyaient pas de véritable besoin pour notre solution. En raison de ce manque de demande sur le marché, nous avons pivoté pour nous concentrer sur la réduction des hallucinations dans les modèles LLM. En améliorant la fiabilité des LLM, nous croyons que notre travail peut bénéficier à un large éventail d’applications futures d’agents IA au-delà de la cybersécurité.

Un Coup de Pouce de l’Univers des Transformers

Le nom PAX est un clin d’œil à l’univers des Transformers. Avant de devenir l’emblématique Optimus Prime, le nom original du personnage était Orion Pax. Cette idée de transformation, de possibilité à responsabilité, a inspiré la mission de PAX de passer d’une capacité brute et impressionnante des LLM à quelque chose de suffisamment fiable pour être réellement utilisé.

Vision du Projet

PAX est un agent de recherche et un cadre qui mesure systématiquement :

La fiabilité de toute réponse LLM.
Réduit les hallucinations et les déclarations non soutenues.
Force et suit l’attribution à des sources vérifiables.
Fournit des rapports explicables et structurés notant à la fois les réponses et les affirmations.

L’objectif de ce projet est de rendre les LLM non seulement plausibles, mais prouvablement fiables, avec des mesures transparentes de risque et de confiance.

Démo Rapide et Basique

Aperçu de Fonctionnement de PAX

1. Attribution Forcée

Pour toute requête utilisateur, PAX achemine le prompt à travers un agent qui distingue strictement entre les connaissances communes et les informations nécessitant validation. Lorsque la réponse contient des faits ou des affirmations qui ne sont pas largement considérés comme des connaissances communes (comme des statistiques, des événements récents, etc.), PAX s’assure que l’agent récupère et se réfère à des sources externes fiables et à jour.

Pseudo-processus :

Si l’affirmation n’est pas une connaissance commune → exécuter des API de recherche externes

Collecter les résultats, mapper chaque déclaration importante à des références pertinentes

Insérer des espaces réservés structurés dans la réponse (pas d’URLs brutes ou de notes de bas de page)

2. Scoring de Confiance Probabiliste

PAX ne se fie pas seulement à l’intuition humaine. Il mesure à quel point le modèle de langage était “confiant” dans la génération de chaque partie de sa réponse, en analysant les probabilités internes utilisées lors de la génération de texte. Cela permet au système d’attribuer un score de confiance numérique à chaque phrase, et à la réponse dans son ensemble. Les zones de faible confiance peuvent ainsi être automatiquement signalées.

Pseudo-processus :

Pour chaque token/mot de réponse, récupérer la probabilité du modèle pour ce choix

Agrégat à travers les phrases

Produire des scores de confiance/fiabilité par phrase et globaux

3. Cohérence Observée

Au lieu d’accepter une seule réponse, PAX pose la même question au LLM plusieurs fois, utilisant des embeddings (représentations vectorielles de sens) pour mesurer l’accord et la cohérence entre les réponses plausibles.

Un fort accord suggère que la réponse est robuste/stable
Des réponses largement variées sont des signes d’alerte : risque ou ambiguïté possibles

Pseudo-processus :

Envoyer la question au LLM plusieurs fois ; collecter les réponses

Calculer les scores de similarité sémantique entre les sorties

Rapporter un “score de cohérence” pour l’utilisateur

4. Auto-évaluation

PAX demande éventuellement à un autre LLM (ou ensemble) de revoir l’ensemble de l’interaction, des citations et des scores de probabilité, et de donner son propre verdict final, à la fois sous forme de nombre (0-1) et d’explication narrative. Cela ajoute une couche méta de réflexion personnelle.

Pseudo-processus :

Fournir la conversation/rapport à un agent d’évaluation (modèle différent)

L’agent critique la factualité, la cohérence, l’intégrité des citations et la confiance

Produire un score de confiance final avec explication pour l’audit

Flux d’Interaction

Le flux d’interaction de PAX se déroule comme suit :

L’utilisateur envoie un prompt.
L’agent PAX traite le prompt, consulte les API externes si nécessaire, et construit une réponse avec des attributions structurées.
Le système :
- Attribue des scores de confiance/fiabilité par déclaration
- Enregistre quelles parties sont soutenues par quelles preuves
- Génère éventuellement un résumé auto-réflexif et un score de confiance

Le résultat est une réponse hautement transparente avec un score numérique et des références liées, ainsi qu’un enregistrement auditable de toutes les données de soutien.

Inspiration

Les méthodes utilisées pour faire fonctionner PAX ont été fortement inspirées par les travaux réalisés par CleanLabs. En particulier, leur algorithme/méthode de scoring comme détaillé ICI. Dans cet algorithme/méthode, les éléments suivants sont utilisés :

Auto-réflexion : C’est un processus dans lequel le LLM est invité à évaluer explicitement la réponse et à indiquer explicitement à quel point cette réponse semble bonne avec confiance.
Prédiction Probabiliste : C’est “un processus dans lequel nous considérons les probabilités par token attribuées par un LLM alors qu’il génère une réponse basée sur la demande (auto-régressivement token par token)”.
Cohérence Observée : Ce scoring est un processus dans lequel le LLM génère probabilistiquement plusieurs réponses plausibles qu’il pense être bonnes, et nous mesurons à quel point ces réponses sont contradictoires entre elles (ou par rapport à une réponse donnée).

Pourquoi Cela A-t-il de l’Importance ?

Les déploiements traditionnels de LLM peuvent halluciner des faits ou donner des informations obsolètes/convaincantes mais fausses. Pour des utilisations critiques—recherche, santé, conseils juridiques et techniques—une IA non vérifiable n’est tout simplement pas suffisante.

PAX vise à rendre la confiance dans l’IA mesurable et explicable. Son approche :

Exige des preuves “montrez votre travail” pour des affirmations non triviales.
Quantifie combien de confiance placer dans chaque sortie.
Permet aux utilisateurs d’auditer et de comprendre pourquoi une réponse devrait (ou ne devrait pas) être fiable.

État de la Recherche & Prochaines Étapes

PAX est actuellement en développement actif en tant que projet de recherche privé sous l’égide de Osgil. Les principaux axes incluent :

Réduction de la latence des recherches externes et du scoring.
Expérimentation avec la perception des utilisateurs par rapport aux scores de confiance automatisés.
Construction de plugins spécifiques à des domaines pour la science, les nouvelles et les usages réglementaires.
Préparation de jeux de données de référence pour la recherche ouverte et une éventuelle publication.

Derniers Mots

PAX vise à transformer les LLM de “générateurs plausibles en boîte noire” en assistants transparents, citables et numériquement fiables, ce qui est crucial pour des tâches réelles à enjeux élevés. Si vous êtes intéressé par une collaboration, des audits, ou souhaitez discuter de l’avenir de l’IA générative fiable, n’hésitez pas à me contacter. Merci de votre lecture !