IA Confiável com PAX

Contexto

PAX (Agente Proativo para Confiabilidade Exemplar) começou como uma grande mudança em relação ao meu projeto anterior, TARS, que tinha como alvo o teste de penetração autônomo em cibersegurança. À medida que eu desenvolvia o TARS, ficou claro que uma das maiores barreiras para agentes de IA práticos e confiáveis não era apenas a automação de tarefas, mas estabelecer a confiabilidade de uma resposta gerada por IA. Especialmente quando essas saídas podiam impactar decisões do mundo real que podem ter consequências enormes.

Em vez de apenas automatizar tarefas de teste de penetração em cibersegurança com o TARS, eu queria abordar um problema fundamental: Como sabemos que podemos confiar no que um LLM diz?

O TARS foi desenvolvido como um MVP para minha primeira startup, Osgil, da qual fui cofundador. Nosso objetivo era automatizar testes de penetração em cibersegurança usando agentes de IA. O TARS nos permitiu garantir financiamento pré-seed do acelerador Forum Ventures. No entanto, quando nos aproximamos de empresas de defesa e cibersegurança, descobrimos que essas organizações não confiavam em agentes de IA para executar e relatar tarefas críticas como testes de penetração. Além disso, quase todas elas queriam principalmente fazer negócios com empresas de cibersegurança para ter um bode expiatório caso as coisas dessem errado. Basicamente, os tomadores de decisão dessas empresas não se importavam com sua segurança, a menos que fossem obrigados, e, quando se importavam, parte de seus critérios era ter um bode expiatório caso algo desse errado, como uma forma de seguro. No final de 2024, ataques cibernéticos automatizados com IA ainda não são uma grande preocupação, então os tomadores de decisão não viam uma necessidade real para nossa solução. Devido a essa falta de demanda de mercado, mudamos o foco para reduzir alucinações em modelos de LLM. Ao melhorar a confiabilidade dos LLMs, acreditamos que nosso trabalho pode beneficiar uma ampla gama de futuras aplicações de agentes de IA além da cibersegurança.

Um Empurrão da Mitologia dos Transformers

O nome PAX é uma referência ao universo de Transformers. Antes de se tornar o icônico Optimus Prime, o nome original do personagem era Orion Pax. Essa ideia de transformação, da possibilidade à responsabilidade, inspirou a missão do PAX de passar da capacidade bruta e impressionante dos LLMs para algo confiável o suficiente para ser verdadeiramente dependável.

Visão do Projeto

PAX é um agente de pesquisa e uma estrutura que sistematicamente:

Mede a confiabilidade de qualquer resposta de LLM.
Reduz alucinações e declarações sem suporte.
Força e rastreia a atribuição a fontes verificáveis.
Fornece relatórios estruturados e explicáveis que pontuam tanto respostas quanto declarações.

O objetivo deste projeto é tornar os LLMs não apenas plausíveis, mas provavelmente confiáveis, com medidas transparentes de risco e confiança.

Demonstração Rápida e Básica

Visão Geral De Como O PAX Funciona

1. Atribuição Imposta

Para qualquer consulta do usuário, o PAX encaminha o prompt por meio de um agente que distingue rigorosamente entre conhecimento comum e informações que precisam de validação. Quando a resposta contém fatos ou declarações que não são amplamente considerados conhecimento comum (como estatísticas, eventos recentes etc.), o PAX garante que o agente recupere e consulte fontes externas confiáveis e atualizadas.

Pseudo-processo:

Se a declaração não for conhecimento comum → executar APIs de busca externas

Coletar resultados, mapear cada declaração importante para referências relevantes

Inserir espaços reservados estruturados na resposta (não URLs simples nem notas de rodapé brutas)

2. Pontuação de Confiança Probabilística

O PAX não depende apenas da intuição humana. Ele mede quão “confiante” o modelo de linguagem estava ao gerar cada parte de sua პასუხା, analisando as probabilidades internas usadas durante a geração de texto. Isso permite que o sistema atribua uma pontuação numérica de confiança a cada frase e à resposta como um todo. Áreas de baixa confiança podem, assim, ser sinalizadas automaticamente.

Pseudo-processo:

Para cada token/palavra da resposta, recuperar a probabilidade do modelo para essa escolha

Agregar ao longo das frases

Produzir pontuações de confiança/confiabilidade por frase e gerais

3. Consistência Observada

Em vez de aceitar uma única resposta, o PAX pede ao LLM a mesma pergunta várias vezes, usando embeddings (representações vetoriais de significado) para medir concordância e consistência entre respostas plausíveis.

Alta concordância sugere que a resposta é robusta/estável
Respostas amplamente variáveis são sinais de alerta: possível risco ou ambiguidade

Pseudo-processo:

Enviar a pergunta ao LLM várias vezes; coletar respostas

Calcular pontuações de similaridade semântica entre as saídas

Relatar uma “pontuação de consistência” para o usuário

4. Autoavaliação

Opcionalmente, o PAX pede a outro LLM (ou conjunto) para revisar toda a interação, citações e pontuações de probabilidade, e dar seu próprio veredito final, tanto como um número (0-1) quanto como uma explicação narrativa. Isso adiciona uma camada meta de autorreflexão.

Pseudo-processo:

Fornecer a conversa/relatório a um agente de avaliação (modelo diferente)

O agente critica a factualidade, a coerência, a integridade das citações e a confiança

Produz uma pontuação final de confiança com explicação para auditabilidade

Fluxo De Interação

O fluxo de interação do PAX é o seguinte:

O usuário envia um prompt.
O agente PAX processa o prompt, consulta APIs externas conforme necessário e constrói uma resposta com atribuições estruturadas.
O sistema:
- Atribui pontuações de confiança/confiabilidade por declaração
- Registra quais partes são suportadas por quais evidências
- Opcionalmente, gera um resumo autorreflexivo e uma pontuação de confiança

O resultado é uma resposta altamente transparente com uma pontuação numérica e referências vinculadas, juntamente com um registro auditável de todos os dados de suporte.

Inspiração

Os métodos usados para fazer o PAX funcionar foram fortemente inspirados nos trabalhos realizados pela CleanLabs. Especialmente, seu algoritmo/método de pontuação conforme detalhado AQUI. Com esse algoritmo/método, o seguinte é utilizado:

Autorreflexão: Este é um processo em que o LLM é solicitado a avaliar explicitamente a resposta e declarar explicitamente com quanta confiança essa resposta parece ser boa.
Previsão Probabilística: Este é “um processo em que consideramos as probabilidades por token atribuídas por um LLM à medida que ele gera uma resposta com base na solicitação (autoregressivamente, token por token)”.
Consistência Observada: Essa pontuação é um processo em que o LLM gera probabilisticamente várias respostas plausíveis que acredita que poderiam ser boas, e medimos o quanto essas respostas são contraditórias entre si (ou em relação a uma resposta dada).

Por Que Isso Importa?

Implantações tradicionais de LLM podem alucinar fatos ou fornecer informações desatualizadas, porém críveis, mas falsas. Para usos críticos como pesquisa, saúde, jurídico e aconselhamento técnico, a IA não verificável simplesmente não é suficiente.

O PAX visa tornar a confiança em IA mensurável e explicável. Sua abordagem:

Exige evidências de “mostre seu trabalho” para afirmações não triviais.
Quantifica quanta confiança deve ser colocada em cada saída.
Permite que os usuários auditem e entendam por que uma resposta deve (ou não deve) ser confiável.

Status Da Pesquisa e Próximos Passos

O PAX está atualmente em desenvolvimento ativo como um projeto de pesquisa privado sob a estrutura da Osgil. Os focos principais incluem:

Reduzir a latência de buscas e pontuações externas.
Experimentar a percepção do usuário vs. pontuações automáticas de confiança.
Construir plugins específicos de domínio para usos em ciência, notícias e regulamentação.
Preparar conjuntos de dados de benchmark para pesquisa aberta e possível lançamento.

Palavras Finais

PAX trata de transformar LLMs de “geradores plausíveis de caixa-preta” em assistentes transparentes, citáveis e numericamente confiáveis, o que é crucial para tarefas do mundo real e de alto risco. Se você tiver interesse em colaboração, auditorias ou quiser discutir o futuro da IA generativa confiável, entre em contato. Obrigado por ler!