Intelligenza Artificiale Affidabile con PAX

Contesto

PAX (Agente Proattivo per l’Esemplare Affidabilità) è nato come una grande evoluzione rispetto al mio progetto precedente, TARS, che mirava ai test di penetrazione autonomi per la sicurezza informatica. Mentre sviluppavo TARS, è diventato chiaro che una delle maggiori barriere agli agenti AI pratici e affidabili non era solo l’automazione dei compiti, ma stabilire l’affidabilità di una risposta generata dall’IA. Soprattutto quando quegli output potevano influenzare decisioni del mondo reale che possono avere conseguenze enormi.

Piuttosto che limitarmi ad automatizzare i compiti di penetration testing con TARS, volevo affrontare un problema fondamentale: Come facciamo a sapere che possiamo fidarci di ciò che dice un LLM?

TARS è stato sviluppato come MVP per la mia prima startup, Osgil, che ho co-fondato. Il nostro obiettivo era automatizzare i test di penetrazione per la sicurezza informatica usando agenti AI. TARS ci ha permesso di ottenere finanziamenti pre-seed dall’acceleratore Forum Ventures. Tuttavia, quando ci siamo rivolti a aziende della difesa e della sicurezza informatica, abbiamo scoperto che quelle organizzazioni non si fidavano degli agenti AI per svolgere e riportare compiti critici come i penetration test. Inoltre, quasi tutte volevano principalmente fare affari con società di cybersecurity per avere un capro espiatorio nel caso le cose andassero male. Fondamentalmente, i decisori in queste aziende non si preoccupavano della loro sicurezza a meno che non fosse necessario, e quando lo era, parte dei loro criteri era avere un capro espiatorio nel caso qualcosa andasse storto, come una forma di assicurazione. Alla fine del 2024, gli attacchi informatici automatizzati alimentati da AI non erano ancora una grande preoccupazione, quindi i decisori non vedevano una reale necessità per la nostra soluzione. A causa di questa mancanza di domanda di mercato, ci siamo riposizionati per concentrarci sulla riduzione delle allucinazioni nei modelli LLM. Migliorando l’affidabilità degli LLM, crediamo che il nostro lavoro possa beneficiare un’ampia gamma di future applicazioni di agenti AI oltre la cybersecurity.

Un Richiamo dalla Mitologia dei Transformers

Il nome PAX è un omaggio all’universo dei Transformers. Prima di diventare l’iconico Optimus Prime, il nome originale del personaggio era Orion Pax. Questa idea di trasformazione, dalla possibilità alla responsabilità, ha ispirato la missione di PAX di passare dalla capacità grezza ed impressionante degli LLM a qualcosa di sufficientemente affidabile da essere veramente utilizzato.

Visione del Progetto

PAX è un agente di ricerca e un framework che sistematicamente:

  • Misura l’affidabilità di qualsiasi risposta di un LLM.
  • Riduce le allucinazioni e le affermazioni non supportate.
  • Impone e traccia l’attribuzione a fonti verificabili.
  • Fornisce report spiegabili e strutturati che assegnano punteggi sia alle risposte sia alle affermazioni.

L’obiettivo di questo progetto è rendere gli LLM non solo plausibili, ma dimostralmente affidabili, con misure trasparenti del rischio e della fiducia.

Demo rapida e di base

Panoramica di come funziona PAX

1. Attribuzione Forzata

Per qualsiasi query dell’utente, PAX instrada il prompt attraverso un agente che distingue rigorosamente tra conoscenza comune e informazioni che necessitano di convalida. Quando la risposta contiene fatti o affermazioni non ampiamente considerati conoscenza comune (come statistiche, eventi recenti, ecc.), PAX assicura che l’agente recuperi e si riferisca a fonti esterne attendibili e aggiornate.

Pseudo-processo:

  • Se l’affermazione non è conoscenza comune → eseguire API di ricerca esterne
  • Raccogliere i risultati, mappare ogni affermazione importante a riferimenti pertinenti
  • Inserire segnaposto strutturati nella risposta (non semplici URL o note a piè di pagina grezze)

2. Punteggio di Confidenza Probabilistico

PAX non si affida solo all’intuizione umana. Misura quanto il modello di linguaggio fosse “fiducioso” nel generare ogni parte della sua risposta, analizzando le probabilità interne utilizzate durante la generazione del testo. Questo permette al sistema di assegnare un punteggio numerico di fiducia a ogni frase e alla risposta nel suo insieme. Le aree a bassa fiducia possono quindi essere automaticamente contrassegnate.

Pseudo-processo:

  • Per ogni token/parola di risposta, recuperare la probabilità che il modello ha assegnato a quella scelta
  • Aggregare attraverso le frasi
  • Produrre punteggi di fiducia/affidabilità per frase e complessivi

3. Coerenza Osservata

Invece di accettare una sola risposta, PAX pone la stessa domanda all’LLM più volte, usando embedding (rappresentazioni vettoriali di significato) per misurare l’accordo e la coerenza tra risposte plausibili.

  • Un alto accordo suggerisce che la risposta è robusta/stabile
  • Risposte molto variabili sono segnali di avviso: possibile rischio o ambiguità

Pseudo-processo:

  • Inviare la domanda all’LLM più volte; raccogliere le risposte
  • Calcolare punteggi di similarità semantica tra gli output
  • Riportare un “punteggio di coerenza” per l’utente

4. Autovalutazione

PAX opzionalmente chiede a un altro LLM (o a un ensemble) di rivedere l’intera interazione, le citazioni e i punteggi di probabilità, e di dare il proprio verdetto finale, sia come numero (0-1) sia come spiegazione narrativa. Questo aggiunge un livello meta di autoriflessione.

Pseudo-processo:

  • Fornire la conversazione/report a un agente di valutazione (modello diverso)
  • L’agente critica la factualità, la coerenza, l’integrità delle citazioni e la fiducia
  • Produce un punteggio di fiducia finale con spiegazione per auditabilità

Flusso di Interazione

Il flusso di interazione di PAX è il seguente:

  • L’utente invia un prompt.
  • L’agente PAX elabora il prompt, consulta API esterne se necessario e costruisce una risposta con attribuzioni strutturate.
  • Il sistema:
    • Assegna punteggi di fiducia/confidenza per affermazione
    • Registra quali parti sono supportate da quale evidenza
    • Opzionalmente, genera un riepilogo autoriflessivo e un punteggio di fiducia

Il risultato è una risposta altamente trasparente con un punteggio numerico e riferimenti collegati, insieme a un registro verificabile di tutti i dati di supporto.

Ispirazione

I metodi usati per far funzionare PAX sono stati fortemente ispirati dai lavori svolti da CleanLabs. In particolare, il loro algoritmo/metodo di punteggio come dettagliato QUI. Con questo algoritmo/metodo, si utilizza quanto segue:

  1. Auto-riflessione: Questo è un processo in cui si chiede all’LLM di valutare esplicitamente la risposta e dichiarare esplicitamente quanto confidamente buona appare tale risposta.

  2. Predizione Probabilistica: Questo è “un processo in cui consideriamo le probabilità per-token assegnate da un LLM mentre genera una risposta basata sulla richiesta (auto-regressivamente token per token)”.

  3. Coerenza Osservata: Questo punteggio è un processo in cui l’LLM genera probabilisticamente più risposte plausibili che pensa possano essere buone, e misuriamo quanto queste risposte siano contraddittorie tra loro (o rispetto a una data risposta).

Perché è importante?

Le implementazioni tradizionali di LLM possono allucinare fatti o fornire informazioni obsolete/plausibili ma false. Per usi critici—ricerca, sanità, consulenza legale e tecnica—un’IA non verificabile semplicemente non è sufficiente.

PAX mira a rendere la fiducia nell’IA misurabile e spiegabile. Il suo approccio:

  • Richiede prove che “mostrino il proprio lavoro” per affermazioni non banali.
  • Quantifica quanta fiducia riporre in ogni output.
  • Permette agli utenti di verificare e comprendere perché una risposta dovrebbe (o non dovrebbe) essere ritenuta affidabile.

Stato della Ricerca e Prossimi Passi

PAX è attualmente in sviluppo attivo come progetto di ricerca privato sotto l’ombrello di Osgil. I principali punti di interesse includono:

  • Ridurre la latenza delle ricerche esterne e del punteggio.
  • Sperimentare la percezione dell’utente rispetto ai punteggi di fiducia automatizzati.
  • Costruire plugin specifici per dominio per scienza, notizie e usi normativi.
  • Preparare dataset di benchmark per la ricerca aperta e una possibile pubblicazione.

Parole finali

PAX riguarda la trasformazione degli LLM da “generatori plausibili a scatola nera” in assistenti trasparenti, citabili e numericamente affidabili, il che è cruciale per compiti del mondo reale ad alto rischio. Se sei interessato alla collaborazione, a audit o vuoi discutere il futuro dell’IA generativa affidabile, ti prego di metterti in contatto. Grazie per aver letto!