PAX
Antecedentes
PAX (Proactive Agent for eXemplary Trustworthiness) começou como uma grande mudança em relação ao meu projeto anterior, TARS, que visava testes de penetração de cibersegurança autônomos. Enquanto eu desenvolvia o TARS, ficou claro que uma das maiores barreiras para agentes de IA práticos e confiáveis não era apenas a automação de tarefas, mas estabelecer a confiabilidade de uma resposta gerada por IA. Especialmente quando essas saídas podem impactar decisões do mundo real que podem ter consequências massivas.
Em vez de apenas automatizar tarefas de testes de penetração de cibersegurança com o TARS, eu queria abordar um problema fundamental: Como sabemos que podemos confiar no que um LLM diz?
O TARS foi desenvolvido como um MVP para minha primeira startup, Osgil, que eu co-fundei. Nosso objetivo era automatizar testes de penetração de cibersegurança usando agentes de IA. O TARS nos permitiu garantir financiamento pré-seed do acelerador Forum Ventures. No entanto, quando nos aproximamos de empresas de defesa e cibersegurança, descobrimos que essas organizações não confiavam em agentes de IA para executar e relatar tarefas críticas como testes de penetração. Além disso, quase todas elas queriam fazer negócios principalmente com empresas de cibersegurança para ter um “cavalo de carga” caso algo desse errado. Basicamente, os tomadores de decisão nessas empresas não se importavam com sua segurança a menos que fosse necessário, e quando se importavam, parte de seus critérios era ter um “cavalo de carga” como forma de seguro. No final de 2024, ataques cibernéticos automatizados alimentados por IA ainda não eram uma grande preocupação, então os tomadores de decisão não viam uma necessidade real para nossa solução. Devido a essa falta de demanda de mercado, mudamos o foco para reduzir alucinações em modelos LLM. Ao melhorar a confiabilidade dos LLMs, acreditamos que nosso trabalho pode beneficiar uma ampla gama de aplicações futuras de agentes de IA além da cibersegurança.
Um Empurrão da Lore dos Transformers
O nome PAX é uma referência ao universo Transformers. Antes de se tornar o icônico Optimus Prime, o nome original do personagem era Orion Pax. Essa ideia de transformação, de possibilidade para responsabilidade, inspirou a missão do PAX de passar de capacidade bruta e impressionante de LLM para algo confiável o suficiente para ser realmente dependido.
Visão do Projeto
PAX é um agente de pesquisa e uma estrutura que sistematicamente:
- Mede a confiabilidade de qualquer resposta de LLM.
- Reduz alucinações e afirmações não suportadas.
- Obriga e rastreia a atribuição a fontes verificáveis.
- Fornece relatórios explicáveis e estruturados que pontuam tanto respostas quanto afirmações.
O objetivo deste projeto é fazer com que os LLMs não sejam apenas plausíveis, mas provavelmente confiáveis, com medidas transparentes de risco e confiança.
Demo Rápida & Básica
Visão Geral de Como o PAX Funciona
1. Atribuição Obrigatória
Para qualquer consulta do usuário, o PAX encaminha o prompt através de um agente que distingue estritamente entre conhecimento comum e informação que necessita validação. Quando a resposta contém fatos ou afirmações que não são amplamente considerados conhecimento comum (como estatísticas, eventos recentes, etc.), o PAX garante que o agente recupere e faça referência a fontes externas confiáveis e atualizadas.
Pseudo-processo:
- Se a afirmação não for conhecimento comum → executar APIs de busca externa
- Coletar resultados, mapear cada declaração importante para referências relevantes
- Inserir marcadores estruturados na resposta (não URLs simples ou notas de rodapé brutas)
2. Pontuação de Confiança Probabilística
O PAX não se baseia apenas na intuição humana. Ele mede o quão “confiante” o modelo de linguagem estava ao gerar cada parte de sua resposta, analisando as probabilidades internas usadas durante a geração de texto. Isso permite que o sistema atribua uma pontuação numérica de confiança a cada frase e à resposta como um todo. Áreas de baixa confiança podem, assim, ser automaticamente sinalizadas.
Pseudo-processo:
- Para cada token/palavra da resposta, recuperar a probabilidade do modelo para essa escolha
- Agreguar ao longo das frases
- Produzir pontuações de confiança/reliabilidade por frase e geral
3. Consistência Observada
Em vez de aceitar uma única resposta, o PAX faz o LLM responder à mesma pergunta várias vezes, usando embeddings (representações vetoriais de significado) para medir concordância e consistência entre respostas plausíveis.
- Alta concordância sugere que a resposta é robusta/estável
- Respostas amplamente divergentes são sinais de alerta: risco ou ambiguidade possíveis
Pseudo-processo:
- Enviar a pergunta ao LLM múltiplas vezes; coletar respostas
- Calcular pontuações de similaridade semântica entre as saídas
- Reportar uma “pontuação de consistência” para o usuário
4. Autoavaliação
O PAX opcionalmente pede a outro LLM (ou conjunto) que revise toda a interação, citações e pontuações de probabilidade, e forneça seu próprio veredicto final, tanto como número (0-1) quanto como explicação narrativa. Isso adiciona uma camada meta de autorreflexão.
Pseudo-processo:
- Alimentar a conversa/relatório a um agente de avaliação (modelo diferente)
- O agente critica factualidade, coerência, integridade das citações e confiança
- Emite uma pontuação final de confiança com explicação para auditabilidade
Fluxo de Interação
O fluxo de interação do PAX ocorre da seguinte forma:
- O usuário envia um prompt.
- O agente PAX processa o prompt, consulta APIs externas conforme necessário e constrói uma resposta com atribuições estruturadas.
- O sistema:
- Atribui pontuações de confiança/confiabilidade por declaração
- Registra quais partes são suportadas por quais evidências
- Opcionalmente, gera um resumo autorreflexivo e uma pontuação de confiança
O resultado é uma resposta altamente transparente com uma pontuação numérica e referências vinculadas, juntamente com um registro auditável de todos os dados de suporte.
Inspiração
Os métodos usados para fazer o PAX funcionar foram fortemente inspirados pelos trabalhos realizados pela CleanLabs. Especialmente, seu algoritmo/método de pontuação detalhado AQUI. Nesse algoritmo/método, o seguinte é utilizado:
-
Autorreflexão: Este é um processo no qual o LLM é solicitado a classificar explicitamente a resposta e declarar explicitamente quão confiante ele está de que a resposta parece boa.
-
Predição Probabilística: Este é “um processo no qual consideramos as probabilidades por token atribuídas por um LLM enquanto ele gera uma resposta com base na solicitação (auto-regressivamente token por token)”.
-
Consistência Observada: Esta pontuação é um processo no qual o LLM gera probabilisticamente múltiplas respostas plausíveis que ele acha que podem ser boas, e medimos o quão contraditórias essas respostas são entre si (ou em relação a uma resposta dada).
Por Que Isso Importa?
Implantações tradicionais de LLM podem alucinar fatos ou fornecer informações desatualizadas/creíveis, mas falsas. Para usos críticos de missão — pesquisa, saúde, aconselhamento jurídico e técnico — IA não verificável simplesmente não é suficiente.
O PAX pretende tornar a confiança em IA mensurável e explicável. Sua abordagem:
- Exige evidência “mostre seu trabalho” para afirmações não triviais.
- Quantifica quanta confiança colocar em cada saída.
- Permite que os usuários auditem e compreendam por que uma resposta deve (ou não) ser confiável.
Status da Pesquisa & Próximos Passos
O PAX está atualmente em desenvolvimento ativo como um projeto de pesquisa privado sob o guarda-chuva da Osgil. Focos principais incluem:
- Reduzir a latência de buscas externas e pontuação.
- Experimentar percepção do usuário vs. pontuações de confiança automatizadas.
- Construir plugins específicos de domínio para ciência, notícias e usos regulatórios.
- Preparar conjuntos de dados de benchmark para pesquisa aberta e possível liberação.
Palavras Finais
O PAX trata de transformar LLMs de “geradores de plausibilidade de caixa preta” em assistentes transparentes, citáveis e numericamente confiáveis, o que é crucial para tarefas do mundo real e de alto risco.
Se você está interessado em colaboração, auditorias ou quer discutir o futuro da IA generativa confiável, por favor entre em contato. Obrigado por ler!