IA affidabile con PAX
Contesto
PAX (Proactive Agent for eXemplary Trustworthiness) nacque come una svolta importante dal mio progetto precedente, TARS, che mirava al penetration testing autonomo per la cybersecurity. Mentre sviluppavo TARS, divenne chiaro che una delle maggiori barriere per agenti IA pratici e affidabili non era solo l’automazione dei compiti, ma stabilire l’affidabilità di una risposta generata dall’IA. Soprattutto quando quegli output potevano influenzare decisioni del mondo reale con conseguenze enormi.
Piuttosto che automatizzare soltanto i compiti di penetration testing per la cybersecurity con TARS, volevo affrontare un problema fondamentale: Come facciamo a sapere che possiamo fidarci di ciò che dice un LLM?
TARS fu sviluppato come MVP per la mia prima startup, Osgil, che ho co-fondato. Il nostro obiettivo era automatizzare il penetration testing per la cybersecurity usando agenti IA. TARS ci permise di ottenere un finanziamento pre-seed dall’acceleratore Forum Ventures. Tuttavia, quando ci avvicinammo a aziende del settore difesa e cybersecurity, scoprimmo che quelle organizzazioni non si fidavano degli agenti IA per svolgere e riportare compiti critici come il penetration testing. Inoltre, quasi tutte volevano principalmente fare affari con aziende di cybersecurity per avere un capro espiatorio nel caso qualcosa andasse storto. In sostanza, i decisori di queste aziende non si interessavano alla loro sicurezza a meno che non fossero costretti, e quando lo facevano, parte dei loro criteri era avere un capro espiatorio nel caso qualcosa andasse male, come forma di assicurazione. Alla fine del 2024, gli attacchi informatici automatizzati basati su IA non sono ancora una preoccupazione importante, quindi i decisori non vedevano un reale bisogno della nostra soluzione. A causa di questa mancanza di domanda di mercato, abbiamo cambiato direzione concentrandoci sulla riduzione delle allucinazioni nei modelli LLM. Migliorando l’affidabilità degli LLM, crediamo che il nostro lavoro possa beneficiare un’ampia gamma di future applicazioni di agenti IA oltre la cybersecurity.
Una spinta dalla mitologia dei Transformers
Il nome PAX è un omaggio all’universo di Transformers. Prima di diventare l’iconico Optimus Prime, il nome originale del personaggio era Orion Pax. Questa idea di trasformazione, dalla possibilità alla responsabilità, ha ispirato la missione di PAX: passare dalla pura e impressionante capacità degli LLM a qualcosa di abbastanza affidabile da poter essere davvero degno di fiducia.
Visione del progetto
PAX è un agente di ricerca e un framework che sistematicamente:
- Misura l’affidabilità di qualsiasi risposta di un LLM.
- Riduce allucinazioni e affermazioni prive di supporto.
- Impone e traccia l’attribuzione a fonti verificabili.
- Fornisce report strutturati e spiegabili che valutano sia le risposte sia le affermazioni.
L’obiettivo di questo progetto è rendere gli LLM non solo plausibili, ma dimostrabilmente affidabili, con misure trasparenti di rischio e confidenza.
Demo rapida e di base
Panoramica di come funziona PAX
1. Attribuzione imposta
Per qualsiasi richiesta dell’utente, PAX instrada il prompt attraverso un agente che distingue rigorosamente tra conoscenza comune e informazioni che richiedono verifica. Quando la risposta contiene fatti o affermazioni non ampiamente considerati conoscenza comune (come statistiche, eventi recenti, ecc.), PAX garantisce che l’agente recuperi e faccia riferimento a fonti esterne affidabili e aggiornate.
Pseudo-processo:
- Se l’affermazione non è conoscenza comune → eseguire API di ricerca esterne
- Raccogliere i risultati, mappare ogni affermazione importante ai riferimenti pertinenti
- Inserire segnaposto strutturati nella risposta (non semplici URL o note a piè di pagina grezze)
2. Punteggio probabilistico di confidenza
PAX non si affida solo all’intuizione umana. Misura quanto il modello linguistico fosse “sicuro” nel generare ciascuna parte della sua risposta, analizzando le probabilità interne usate durante la generazione del testo. Questo consente al sistema di assegnare un punteggio numerico di affidabilità a ogni frase e alla risposta nel suo complesso. Le aree a bassa confidenza possono così essere segnalate automaticamente.
Pseudo-processo:
- Per ogni token/parola della risposta, recuperare la probabilità del modello per quella scelta
- Aggregare tra le frasi
- Produrre punteggi di affidabilità/confidenza per singola frase e complessivi
3. Coerenza osservata
Invece di accettare una sola risposta, PAX pone all’LLM la stessa domanda più volte, usando embedding (rappresentazioni vettoriali del significato) per misurare l’accordo e la coerenza tra risposte plausibili.
- Un alto accordo suggerisce che la risposta è robusta/stabile
- Risposte molto variabili sono segnali di allarme: possibile rischio o ambiguità
Pseudo-processo:
- Inviare la domanda all’LLM più volte; raccogliere le risposte
- Calcolare punteggi di similarità semantica tra gli output
- Riportare un “punteggio di coerenza” per l’utente
4. Autovalutazione
PAX facoltativamente chiede a un altro LLM (o a un ensemble) di rivedere l’intera interazione, le citazioni e i punteggi di probabilità, e di fornire il proprio verdetto finale, sia come numero (0-1) sia come spiegazione narrativa. Questo aggiunge un livello meta di auto-riflessione.
Pseudo-processo:
- Fornire conversazione/report a un agente di valutazione (modello diverso)
- L’agente critica la fattualità, la coerenza, l’integrità delle citazioni e la confidenza
- Produce un punteggio finale di affidabilità con spiegazione per l’auditabilità
Flusso di interazione
Il flusso di interazione di PAX è il seguente:
- L’utente invia un prompt.
- L’agente PAX elabora il prompt, consulta le API esterne se necessario e costruisce una risposta con attribuzioni strutturate.
- Il sistema:
- Assegna punteggi di affidabilità/confidenza per singola affermazione
- Registra quali parti sono supportate da quali evidenze
- Facoltativamente, genera un riepilogo auto-riflessivo e un punteggio di affidabilità
Il risultato è una risposta altamente trasparente con un punteggio numerico e riferimenti collegati, insieme a un registro verificabile di tutti i dati di supporto.
Ispirazione
I metodi usati per far funzionare PAX sono stati fortemente ispirati dai lavori fatti da CleanLabs. In particolare, dal loro algoritmo/metodo di scoring come descritto QUI. All’interno di questo algoritmo/metodo, viene utilizzato quanto segue:
-
Auto-riflessione: Questo è un processo in cui si chiede all’LLM di valutare esplicitamente la risposta e di affermare esplicitamente quanto confidente e valida sembri essere questa risposta.
-
Predizione probabilistica: Questo è “un processo in cui consideriamo le probabilità per token assegnate da un LLM mentre genera una risposta in base alla richiesta (autoregressivamente, token per token)”.
-
Coerenza osservata: Questo punteggio è un processo in cui l’LLM genera probabilisticamente più risposte plausibili che ritiene possano essere buone, e misuriamo quanto queste risposte siano contraddittorie tra loro (o con una data risposta).
Perché questo è importante?
Le distribuzioni tradizionali di LLM possono allucinare fatti o fornire informazioni obsolete, credibili ma false. Per usi mission-critical come ricerca, sanità, ambito legale e consulenza tecnica, un’IA non verificabile semplicemente non è abbastanza.
PAX mira a rendere la fiducia nell’IA misurabile e spiegabile. Il suo approccio:
- Richiede prove “mostra il tuo lavoro” per le affermazioni non banali.
- Quantifica quanta confidenza riporre in ogni output.
- Consente agli utenti di verificare e capire perché una risposta dovrebbe (o non dovrebbe) essere considerata affidabile.
Stato della ricerca e prossimi passi
PAX è attualmente in sviluppo attivo come progetto di ricerca privato sotto l’ombrello di Osgil. Le aree principali di interesse includono:
- Ridurre la latenza delle ricerche esterne e dello scoring.
- Sperimentare il divario tra percezione dell’utente e punteggi di affidabilità automatizzati.
- Costruire plugin specifici per dominio per scienza, notizie e usi regolatori.
- Preparare dataset di benchmark per la ricerca aperta e un’eventuale pubblicazione.
Parole finali
PAX riguarda la trasformazione degli LLM da “generatori plausibili a scatola chiusa” in assistenti trasparenti, citabili e affidabili in modo numerico, il che è cruciale per compiti del mondo reale ad alto rischio. Se sei interessato a collaborazioni, audit o vuoi discutere il futuro dell’IA generativa affidabile, non esitare a contattarci. Grazie per aver letto!