PAX

Repositorio GitHub del proyecto

Antecedentes

PAX (Agente Proactivo para la Confianza Ejemplar) comenzó como un gran giro desde mi proyecto anterior, TARS, que se enfocaba en pruebas de penetración de ciberseguridad autónomas. Mientras desarrollaba TARS, quedó claro que una de las mayores barreras para agentes de IA prácticos y fiables no era solo la automatización de tareas, sino establecer la confiabilidad de una respuesta generada por IA. Especialmente cuando esas salidas podrían impactar decisiones del mundo real que pueden tener consecuencias masivas.

En lugar de simplemente automatizar tareas de pruebas de penetración de ciberseguridad con TARS, quería abordar un problema fundamental: ¿Cómo sabemos que podemos confiar en lo que dice un LLM?

TARS se desarrolló como un MVP para mi primera startup, Osgil, que cofundé. Nuestro objetivo era automatizar pruebas de penetración de ciberseguridad usando agentes de IA. TARS nos permitió asegurar financiación pre-semilla del acelerador Forum Ventures. Sin embargo, cuando nos acercamos a empresas de defensa y ciberseguridad, descubrimos que esas organizaciones no confiaban en los agentes de IA para realizar y reportar tareas críticas como pruebas de penetración. Además, casi todas ellas querían principalmente hacer negocios con compañías de ciberseguridad para tener un chivo expiatorio en caso de que las cosas salieran mal. Básicamente, los tomadores de decisiones en estas empresas no se preocupaban por su seguridad a menos que fuera necesario, y cuando lo hacían, parte de sus criterios era tener un chivo expiatorio en caso de que algo saliera mal, como forma de seguro. A finales de 2024, los ciberataques automatizados impulsados por IA aún no son una preocupación importante, por lo que los tomadores de decisiones no veían una necesidad real de nuestra solución. Debido a esta falta de demanda del mercado, cambiamos el enfoque a reducir las alucinaciones en los modelos LLM. Al mejorar la fiabilidad de los LLM, creemos que nuestro trabajo puede beneficiar a una amplia gama de futuras aplicaciones de agentes de IA más allá de la ciberseguridad.

Un empujón del lore de Transformers

El nombre PAX es un guiño al universo Transformers. Antes de convertirse en el icónico Optimus Prime, el nombre original del personaje era Orion Pax. Esta idea de transformación, de posibilidad a responsabilidad, inspiró la misión de PAX de pasar de una capacidad LLM cruda e impresionante a algo lo suficientemente confiable como para depender realmente de ella.

Visión del proyecto

PAX es un agente de investigación y un marco que sistemáticamente:

  • Mide la confiabilidad de cualquier respuesta de LLM.
  • Reduce alucinaciones y declaraciones no respaldadas.
  • Obliga y rastrea la atribución a fuentes verificables.
  • Proporciona informes estructurados y explicables que puntúan tanto respuestas como afirmaciones.

El objetivo de este proyecto es hacer que los LLM no solo sean plausibles, sino demostrablemente confiables, con medidas transparentes de riesgo y confianza.

Demostración rápida y básica

Visión general de cómo funciona PAX

1. Atribución forzada

Para cualquier consulta de usuario, PAX dirige el prompt a través de un agente que distingue estrictamente entre conocimiento común e información que necesita validación. Cuando la respuesta contiene hechos o afirmaciones que no se consideran conocimiento común (como estadísticas, eventos recientes, etc.), PAX asegura que el agente recupere y haga referencia a fuentes externas confiables y actualizadas.

Pseudo-proceso:

  • Si la afirmación no es conocimiento común → ejecutar APIs de búsqueda externas
  • Recopilar resultados, mapear cada declaración importante a referencias relevantes
  • Insertar marcadores de posición estructurados en la respuesta (no URLs simples ni notas al pie crudas)

2. Puntuación de confianza probabilística

PAX no solo se basa en la intuición humana. Mide cuán “seguro” estaba el modelo de lenguaje al generar cada parte de su respuesta, analizando las probabilidades internas usadas durante la generación de texto. Esto permite al sistema asignar una puntuación de confianza numérica a cada oración y a la respuesta en su conjunto. Las áreas de baja confianza pueden así ser marcadas automáticamente.

Pseudo-proceso:

  • Para cada token/palabra de respuesta, recuperar la probabilidad del modelo para esa elección
  • Agregar a través de las oraciones
  • Producir puntuaciones de confianza/fiabilidad por oración y globales

3. Consistencia observada

En lugar de aceptar una sola respuesta, PAX le hace la misma pregunta al LLM varias veces, usando embeddings (representaciones vectoriales del significado) para medir el acuerdo y la consistencia entre respuestas plausibles.

  • Un alto acuerdo sugiere que la respuesta es robusta/estable
  • Respuestas muy variables son señales de advertencia: posible riesgo o ambigüedad

Pseudo-proceso:

  • Enviar la pregunta al LLM múltiples veces; recopilar respuestas
  • Calcular puntuaciones de similitud semántica entre los resultados
  • Informar una “puntuación de consistencia” al usuario

4. Autoevaluación

PAX opcionalmente solicita a otro LLM (o conjunto) que revise toda la interacción, citas y puntuaciones de probabilidad, y dé su propio veredicto final, tanto como un número (0-1) como una explicación narrativa. Esto añade una capa meta de autorreflexión.

Pseudo-proceso:

  • Alimentar la conversación/informe a un agente de evaluación (modelo diferente)
  • El agente critica la factualidad, coherencia, integridad de citas y confianza
  • Genera una puntuación de confianza final con explicación para auditoría

Flujo de interacción

El flujo de interacción de PAX va como sigue:

  • El usuario envía un prompt.
  • El agente PAX procesa el prompt, consulta APIs externas según sea necesario y construye una respuesta con atribuciones estructuradas.
  • El sistema:
    • Asigna puntuaciones de confianza/confianza por declaración
    • Registra qué partes están respaldadas por qué evidencia
    • Opcionalmente, genera un resumen autorreflexivo y una puntuación de confianza

El resultado es una respuesta altamente transparente con una puntuación numérica y referencias vinculadas, junto con un registro auditable de todos los datos de soporte.

Inspiración

Los métodos utilizados para que PAX funcione fueron fuertemente inspirados por los trabajos realizados por CleanLabs. En particular, su algoritmo/método de puntuación como se detalla AQUÍ. En este algoritmo/método, se utiliza lo siguiente:

  1. Autorreflexión: Este es un proceso en el que se le pide al LLM que califique explícitamente la respuesta y declare explícitamente cuán confiada parece ser la calidad de esa respuesta.

  2. Predicción probabilística: Este es “un proceso en el que consideramos las probabilidades por token asignadas por un LLM mientras genera una respuesta basada en la solicitud (autorregrésivamente token por token)”.

  3. Consistencia observada: Esta puntuación es un proceso en el que el LLM genera probabilísticamente múltiples respuestas plausibles que cree podrían ser buenas, y medimos cuán contradictorias son esas respuestas entre sí (o con una respuesta dada).

¿Por qué importa esto?

Los despliegues tradicionales de LLM pueden alucinar hechos o dar información desactualizada/creíble pero falsa. Para usos críticos—investigación, salud, asesoría legal y técnica—la IA no verificable simplemente no es suficiente.

PAX trata de hacer que la confianza en la IA sea medible y explicable. Su enfoque:

  • Exige evidencia de “mostrar tu trabajo” para afirmaciones no triviales.
  • Cuantifica cuánta confianza colocar en cada salida.
  • Permite a los usuarios auditar y entender por qué una respuesta debería (o no) ser confiable.

Estado de la investigación y próximos pasos

PAX está actualmente en desarrollo activo como un proyecto de investigación privado bajo el paraguas de Osgil. Los enfoques clave incluyen:

  • Reducir la latencia de búsquedas externas y puntuación.
  • Experimentar con la percepción del usuario vs. puntuaciones de confianza automatizadas.
  • Construir complementos específicos de dominio para ciencia, noticias y usos regulatorios.
  • Preparar conjuntos de datos de referencia para investigación abierta y posible publicación.

Palabras finales

PAX trata de transformar los LLM de “generadores de caja negra plausibles” en asistentes transparentes, citables y numéricamente confiables lo cual es crucial para tareas del mundo real y de alto riesgo.

Si estás interesado en colaboración, auditorías, o deseas discutir el futuro de la IA generativa confiable, por favor contáctanos. ¡Gracias por leer!