IA Confiável com PAX | Mehmet Yilmaz

Contexto

PAX (Agente Proativo para Confiabilidade Exemplar) começou como uma grande mudança em meu projeto anterior, TARS, que visava testes de penetração em cibersegurança autônomos. Enquanto desenvolvia o TARS, ficou claro que uma das maiores barreiras para agentes de IA práticos e confiáveis não era apenas a automação de tarefas, mas estabelecer a confiabilidade de uma resposta gerada por IA. Especialmente quando essas saídas poderiam impactar decisões do mundo real que podem ter consequências massivas.

Em vez de apenas automatizar tarefas de testes de penetração em cibersegurança com o TARS, eu queria abordar um problema fundamental: Como sabemos que podemos confiar no que um LLM diz?

O TARS foi desenvolvido como um MVP para minha primeira startup, Osgil, que co-fundei. Nosso objetivo era automatizar testes de penetração em cibersegurança usando agentes de IA. O TARS nos permitiu garantir financiamento pré-seed do acelerador Forum Ventures. No entanto, quando nos aproximamos de empresas de defesa e cibersegurança, descobrimos que essas organizações não confiavam em agentes de IA para realizar e relatar tarefas críticas como testes de penetração. Além disso, quase todas elas queriam principalmente fazer negócios com empresas de cibersegurança para ter um “bode expiatório” caso as coisas dessem errado. Basicamente, os tomadores de decisão nessas empresas não se importavam com sua segurança, a menos que fosse necessário, e quando o faziam, parte de seus critérios era ter um “bode expiatório” caso algo desse errado, como uma forma de seguro. No final de 2024, ataques cibernéticos automatizados impulsionados por IA ainda não eram uma grande preocupação, então os tomadores de decisão não viam uma necessidade real para nossa solução. Devido a essa falta de demanda de mercado, mudamos o foco para reduzir alucinações em modelos de LLM. Ao melhorar a confiabilidade dos LLM, acreditamos que nosso trabalho pode beneficiar uma ampla gama de futuras aplicações de agentes de IA além da cibersegurança.

Um Empurrão da Lore dos Transformers

O nome PAX é uma referência ao universo Transformers. Antes de se tornar o icônico Optimus Prime, o nome original do personagem era Orion Pax. Essa ideia de transformação, de possibilidade para responsabilidade, inspirou a missão do PAX de passar de uma capacidade bruta e impressionante de LLM para algo confiável o suficiente para ser verdadeiramente confiável.

Visão do Projeto

PAX é um agente de pesquisa e um framework que sistematicamente:

Mede a confiabilidade de qualquer resposta de LLM.
Reduz alucinações e declarações não suportadas.
Força e rastreia atribuições a fontes verificáveis.
Fornece relatórios estruturados e explicáveis, pontuando tanto respostas quanto reivindicações.

O objetivo deste projeto é fazer com que os LLMs não sejam apenas plausíveis, mas provavelmente confiáveis, com medidas transparentes de risco e confiança.

Demonstração Rápida e Básica

Visão Geral de Como o PAX Funciona

1. Atribuição Forçada

Para qualquer consulta do usuário, o PAX roteia o prompt através de um agente que distingue estritamente entre conhecimento comum e informações que precisam de validação. Quando a resposta contém fatos ou reivindicações que não são amplamente considerados conhecimento comum (como estatísticas, eventos recentes, etc.), o PAX garante que o agente recupere e se refira a fontes externas confiáveis e atualizadas.

Pseudo-processo:

Se a reivindicação não é conhecimento comum → executar APIs de busca externas

Coletar resultados, mapear cada declaração importante para referências relevantes

Inserir espaços reservados estruturados na resposta (não URLs simples ou notas de rodapé brutas)

2. Pontuação de Confiança Probabilística

O PAX não se baseia apenas na intuição humana. Ele mede quão “confiante” o modelo de linguagem estava ao gerar cada parte de sua resposta, analisando as probabilidades internas usadas durante a geração de texto. Isso permite que o sistema atribua uma pontuação de confiança numérica a cada frase e à resposta como um todo. Áreas de baixa confiança podem, assim, ser automaticamente sinalizadas.

Pseudo-processo:

Para cada token/palavra da resposta, recuperar a probabilidade do modelo para essa escolha

Agregar por frases

Produzir pontuações de confiança/confiabilidade por frase e geral

3. Consistência Observada

Em vez de aceitar uma resposta, o PAX pergunta ao LLM a mesma questão várias vezes, usando embeddings (representações vetoriais de significado) para medir concordância e consistência entre respostas plausíveis.

Alta concordância sugere que a resposta é robusta/estável
Respostas amplamente variadas são sinais de alerta: possível risco ou ambiguidade

Pseudo-processo:

Enviar a pergunta ao LLM várias vezes; coletar respostas

Calcular pontuações de similaridade semântica entre as saídas

Relatar uma “pontuação de consistência” para o usuário

4. Autoavaliação

O PAX opcionalmente pede a outro LLM (ou conjunto) para revisar toda a interação, citações e pontuações de probabilidade, e dar seu próprio veredicto final, tanto como um número (0-1) quanto uma explicação narrativa. Isso adiciona uma camada meta de autorreflexão.

Pseudo-processo:

Fornecer a conversa/relatório a um agente de avaliação (modelo diferente)

O agente critica a factualidade, coerência, integridade da citação e confiança

Produz uma pontuação final de confiança com explicação para auditabilidade

Fluxo de Interação

O fluxo de interação do PAX é o seguinte:

O usuário envia um prompt.
O agente PAX processa o prompt, consulta APIs externas conforme necessário e constrói uma resposta com atribuições estruturadas.
O sistema:
- Atribui pontuações de confiança por declaração
- Registra quais partes são suportadas por quais evidências
- Opcionalmente, gera um resumo autorreflexivo e uma pontuação de confiança

O resultado é uma resposta altamente transparente com uma pontuação numérica e referências vinculadas, juntamente com um registro auditável de todos os dados de suporte.

Inspiração

Os métodos usados para fazer o PAX funcionar foram fortemente inspirados pelos trabalhos realizados pela CleanLabs. Especialmente, seu algoritmo/método de pontuação conforme detalhado AQUI. Dentro deste algoritmo/método, o seguinte é utilizado:

Autorreflexão: Este é um processo no qual o LLM é solicitado a avaliar explicitamente a resposta e declarar explicitamente quão confiante essa resposta parece ser.
Predição Probabilística: Este é “um processo no qual consideramos as probabilidades por token atribuídas por um LLM enquanto gera uma resposta com base na solicitação (auto-regressivamente, token por token)”.
Consistência Observada: Esta pontuação é um processo no qual o LLM gera probabilisticamente várias respostas plausíveis que ele acha que podem ser boas, e medimos quão contraditórias essas respostas são entre si (ou uma resposta dada).

Por Que Isso Importa?

Implantações tradicionais de LLM podem alucinar fatos ou fornecer informações desatualizadas/credíveis, mas falsas. Para usos críticos—pesquisa, saúde, aconselhamento legal e técnico—IA não verificável simplesmente não é boa o suficiente.

O PAX visa tornar a confiança na IA mensurável e explicável. Sua abordagem:

Exige evidências “mostre seu trabalho” para reivindicações não triviais.
Quantifica quanta confiança depositar em cada saída.
Permite que os usuários auditem e entendam por que uma resposta deve (ou não) ser confiável.

Status da Pesquisa e Próximos Passos

O PAX está atualmente em desenvolvimento ativo como um projeto de pesquisa privado sob a égide da Osgil. Os principais focos incluem:

Reduzir a latência de buscas externas e pontuações.
Experimentar com percepção do usuário vs. pontuações de confiança automatizadas.
Construir plugins específicos de domínio para ciência, notícias e usos regulatórios.
Preparar conjuntos de dados de referência para pesquisa aberta e possível liberação.

Palavras Finais

O PAX é sobre transformar LLMs de “geradores plausíveis de caixa preta” em assistentes transparentes, citáveis e numericamente confiáveis, o que é crucial para tarefas do mundo real e de alto risco. Se você estiver interessado em colaboração, auditorias ou quiser discutir o futuro da IA generativa confiável, entre em contato. Obrigado por ler!