IA Confiable con PAX | Mehmet Yilmaz

Antecedentes

PAX (Agente Proactivo para la Confiabilidad Ejemplar) comenzó como un gran cambio de mi proyecto anterior, TARS, que se centraba en pruebas de penetración de ciberseguridad autónomas. Mientras desarrollaba TARS, quedó claro que una de las mayores barreras para agentes de IA prácticos y confiables no era solo la automatización de tareas, sino establecer la confiabilidad de una respuesta generada por IA. Especialmente cuando esos resultados podrían impactar decisiones del mundo real que pueden tener consecuencias masivas.

En lugar de solo automatizar tareas de pruebas de penetración de ciberseguridad con TARS, quería abordar un problema fundamental: ¿Cómo sabemos que podemos confiar en lo que dice un LLM?

TARS fue desarrollado como un MVP para mi primera startup, Osgil, que cofundé. Nuestro objetivo era automatizar las pruebas de penetración de ciberseguridad utilizando agentes de IA. TARS nos permitió asegurar financiamiento pre-semilla del acelerador Forum Ventures. Sin embargo, cuando nos acercamos a empresas de defensa y ciberseguridad, descubrimos que esas organizaciones no confiaban en los agentes de IA para realizar e informar sobre tareas críticas como las pruebas de penetración. Además, casi todas ellas querían hacer negocios principalmente con empresas de ciberseguridad para tener un chivo expiatorio en caso de que las cosas salieran mal. Básicamente, a los tomadores de decisiones en estas empresas no les importaba su seguridad a menos que tuvieran que hacerlo, y cuando lo hacían, parte de sus criterios era tener un chivo expiatorio en caso de que algo saliera mal, como una forma de seguro. A finales de 2024, los ataques cibernéticos automatizados impulsados por IA aún no son una gran preocupación, por lo que los tomadores de decisiones no veían una necesidad real para nuestra solución. Debido a esta falta de demanda en el mercado, pivotamos para centrarnos en reducir las alucinaciones en los modelos de LLM. Al mejorar la confiabilidad de los LLM, creemos que nuestro trabajo puede beneficiar una amplia gama de aplicaciones futuras de agentes de IA más allá de la ciberseguridad.

Un Empujón de la Lore de Transformers

El nombre PAX es un guiño al universo de Transformers. Antes de convertirse en el icónico Optimus Prime, el nombre original del personaje era Orion Pax. Esta idea de transformación, de posibilidad a responsabilidad, inspiró la misión de PAX de pasar de la capacidad impresionante de los LLM a algo lo suficientemente confiable como para ser realmente utilizado.

Visión del Proyecto

PAX es un agente de investigación y un marco que sistemáticamente:

Mide la confiabilidad de cualquier respuesta de LLM.
Reduce las alucinaciones y declaraciones no respaldadas.
Obliga y rastrea la atribución a fuentes verificables.
Proporciona informes estructurados y explicables que puntúan tanto las respuestas como las afirmaciones.

El objetivo de este proyecto es hacer que los LLM no solo sean plausibles, sino demostrablemente confiables, con medidas transparentes de riesgo y confianza.

Demostración Rápida y Básica

Descripción General de Cómo Funciona PAX

1. Atribución Forzada

Para cualquier consulta de usuario, PAX dirige el aviso a través de un agente que distingue estrictamente entre conocimiento común e información que necesita validación. Cuando la respuesta contiene hechos o afirmaciones que no se consideran ampliamente conocimiento común (como estadísticas, eventos recientes, etc.), PAX asegura que el agente recupere y se refiera a fuentes externas confiables y actualizadas.

Pseudo-proceso:

Si la afirmación no es conocimiento común → ejecutar APIs de búsqueda externas

Recoger resultados, mapear cada declaración importante a referencias relevantes

Insertar marcadores estructurados en la respuesta (no URLs simples o notas al pie crudas)

2. Puntuación de Confianza Probabilística

PAX no solo se basa en la intuición humana. Mide cuán “confiado” estaba el modelo de lenguaje al generar cada parte de su respuesta, analizando las probabilidades internas utilizadas durante la generación de texto. Esto permite al sistema asignar un puntaje de confianza numérico a cada oración y a la respuesta en su conjunto. Las áreas de baja confianza pueden ser automáticamente señaladas.

Pseudo-proceso:

Para cada token/palabra de respuesta, recuperar la probabilidad del modelo para esa elección

Agregarse a través de las oraciones

Producir puntajes de confianza/confiabilidad por oración y en general

3. Consistencia Observada

En lugar de aceptar una respuesta, PAX pregunta al LLM la misma pregunta varias veces, utilizando embeddings (representaciones vectoriales de significado) para medir el acuerdo y la consistencia entre respuestas plausibles.

Un alto acuerdo sugiere que la respuesta es robusta/estable
Respuestas muy variadas son señales de advertencia: posible riesgo o ambigüedad

Pseudo-proceso:

Enviar la pregunta al LLM varias veces; recoger respuestas

Calcular puntajes de similitud semántica entre salidas

Informar un “puntaje de consistencia” para el usuario

4. Autoevaluación

PAX opcionalmente pide a otro LLM (o conjunto) que revise toda la interacción, citaciones y puntajes de probabilidad, y dé su propio veredicto final, tanto como un número (0-1) como una explicación narrativa. Esto añade una capa meta de autorreflexión.

Pseudo-proceso:

Alimentar la conversación/informe a un agente de evaluación (modelo diferente)

El agente critica la factualidad, coherencia, integridad de citación y confianza

Produce un puntaje de confianza final con explicación para auditoría

Flujo de Interacción

El flujo de interacción de PAX es el siguiente:

El usuario envía un aviso.
El agente PAX procesa el aviso, consulta APIs externas según sea necesario y construye una respuesta con atribuciones estructuradas.
El sistema:
- Asigna puntajes de confianza/confianza por declaración
- Registra qué partes están respaldadas por qué evidencia
- Opcionalmente, genera un resumen autorreflexivo y un puntaje de confianza

El resultado es una respuesta altamente transparente con un puntaje numérico y referencias vinculadas, junto con un registro auditable de todos los datos de apoyo.

Inspiración

Los métodos utilizados para hacer que PAX funcione fueron inspirados en gran medida por los trabajos realizados por CleanLabs. Especialmente, su algoritmo/método de puntuación como se detalla AQUÍ. Dentro de este algoritmo/método, se utiliza lo siguiente:

Autorreflexión: Este es un proceso en el que se le pide al LLM que califique explícitamente la respuesta y declare explícitamente cuán confiable parece ser esta respuesta.
Predicción Probabilística: Este es “un proceso en el que consideramos las probabilidades por token asignadas por un LLM a medida que genera una respuesta basada en la solicitud (auto-regresivamente token por token)”.
Consistencia Observada: Esta puntuación es un proceso en el que el LLM genera probabilísticamente múltiples respuestas plausibles que cree que podrían ser buenas, y medimos cuán contradictorias son estas respuestas entre sí (o una respuesta dada).

¿Por Qué Importa Esto?

Las implementaciones tradicionales de LLM pueden alucinar hechos o dar información desactualizada/creíble pero falsa. Para usos críticos—investigación, atención médica, asesoría legal y técnica—la IA no verificable simplemente no es suficiente.

PAX tiene como objetivo hacer que la confianza en la IA sea medible y explicable. Su enfoque:

Exige evidencia de “mostrar su trabajo” para afirmaciones no triviales.
Cuantifica cuánta confianza depositar en cada salida.
Permite a los usuarios auditar y entender por qué una respuesta debería (o no) ser confiable.

Estado de la Investigación y Próximos Pasos

PAX está actualmente en desarrollo activo como un proyecto de investigación privado bajo el paraguas de Osgil. Los enfoques clave incluyen:

Reducir la latencia de búsquedas externas y puntuaciones.
Experimentar con la percepción del usuario frente a puntuaciones de confianza automatizadas.
Construir complementos específicos de dominio para ciencia, noticias y usos regulatorios.
Preparar conjuntos de datos de referencia para investigación abierta y posible lanzamiento.

Palabras Finales

PAX se trata de transformar los LLM de “generadores plausibles de caja negra” en asistentes transparentes, citables y numéricamente confiables, lo cual es crucial para tareas del mundo real y de alto riesgo. Si estás interesado en colaborar, auditorías, o quieres discutir el futuro de la IA generativa confiable, por favor contáctame. ¡Gracias por leer!