IA confiable con PAX

Antecedentes

PAX (Agente Proactivo para la eXcelente Confiabilidad) comenzó como un giro importante de mi proyecto anterior, TARS, que se centraba en pruebas autónomas de penetración de ciberseguridad. Mientras desarrollaba TARS, quedó claro que una de las mayores barreras para agentes de IA prácticos y confiables no era solo la automatización de tareas, sino establecer la confiabilidad de una respuesta generada por IA. Especialmente cuando esas salidas podían influir en decisiones del mundo real que pueden tener consecuencias enormes.

En lugar de simplemente automatizar tareas de pruebas de penetración de ciberseguridad con TARS, quería abordar un problema fundamental: ¿Cómo sabemos que podemos confiar en lo que dice un LLM?

TARS se desarrolló como un MVP para mi primera startup, Osgil, que cofundé. Nuestro objetivo era automatizar las pruebas de penetración de ciberseguridad usando agentes de IA. TARS nos permitió conseguir financiación pre-semilla del acelerador Forum Ventures. Sin embargo, cuando nos acercamos a empresas de defensa y ciberseguridad, descubrimos que esas organizaciones no confiaban en que los agentes de IA realizaran e informaran sobre tareas críticas como las pruebas de penetración. Además, casi todas principalmente querían hacer negocios con empresas de ciberseguridad para tener a alguien a quien culpar en caso de que las cosas salieran mal. Básicamente, a los responsables de la toma de decisiones de estas empresas no les importaba su seguridad a menos que tuvieran que hacerlo, y cuando lo hacían, parte de sus criterios era contar con un chivo expiatorio en caso de que algo saliera mal, como una forma de seguro. A finales de 2024, los ciberataques automatizados impulsados por IA aún no son una preocupación importante, así que los responsables de la toma de decisiones no veían una necesidad real de nuestra solución. Debido a esta falta de demanda del mercado, giramos para centrarnos en reducir las alucinaciones en los modelos LLM. Al mejorar la fiabilidad de los LLM, creemos que nuestro trabajo puede beneficiar a una amplia gama de futuras aplicaciones de agentes de IA más allá de la ciberseguridad.

Un empujón desde la tradición de Transformers

El nombre PAX es un guiño al universo de Transformers. Antes de convertirse en el icónico Optimus Prime, el nombre original del personaje era Orion Pax. Esta idea de transformación, de posibilidad a responsabilidad, inspiró la misión de PAX de pasar de una capacidad bruta e impresionante de los LLM a algo lo suficientemente confiable como para depender verdaderamente de ello.

Visión del proyecto

PAX es un agente de investigación y un marco que sistemáticamente:

Mide la confiabilidad de cualquier respuesta de un LLM.
Reduce las alucinaciones y las afirmaciones sin respaldo.
Obliga y rastrea la atribución a fuentes verificables.
Proporciona informes explicables y estructurados que puntúan tanto las respuestas como las afirmaciones.

El objetivo de este proyecto es hacer que los LLM no solo sean plausibles, sino demostrablemente confiables, con medidas transparentes de riesgo y confianza.

Demostración rápida y básica

Panorama general de cómo funciona PAX

1. Atribución forzada

Para cualquier consulta del usuario, PAX enruta el prompt a través de un agente que distingue estrictamente entre el conocimiento común y la información que necesita validación. Cuando la respuesta contiene hechos o afirmaciones que no se consideran ampliamente conocimiento común (como estadísticas, eventos recientes, etc.), PAX se asegura de que el agente recupere y consulte fuentes externas confiables y actualizadas.

Pseudo-proceso:

Si la afirmación no es conocimiento común → ejecutar APIs de búsqueda externas

Recopilar resultados, mapear cada afirmación importante a referencias relevantes

Insertar marcadores estructurados en la respuesta (no URLs simples ni notas al pie sin procesar)

2. Puntuación probabilística de confianza

PAX no se basa solo en la intuición humana. Mide cuán “seguro” estaba el modelo de lenguaje al generar cada parte de su respuesta, analizando las probabilidades internas utilizadas durante la generación de texto. Esto permite que el sistema asigne una puntuación numérica de confianza a cada oración y a la respuesta en su conjunto. Las áreas con baja confianza pueden, por tanto, marcarse automáticamente.

Pseudo-proceso:

Para cada token/palabra de la respuesta, obtener la probabilidad del modelo para esa elección

Agregar los resultados a través de las oraciones

Generar puntuaciones de confianza/confiabilidad por oración y globales

3. Consistencia observada

En lugar de aceptar una sola respuesta, PAX le pregunta al LLM la misma cuestión varias veces, usando embeddings (representaciones vectoriales del significado) para medir el acuerdo y la consistencia entre respuestas plausibles.

Un alto grado de acuerdo sugiere que la respuesta es robusta/estable
Respuestas muy variables son señales de advertencia: posible riesgo o ambigüedad

Pseudo-proceso:

Enviar la pregunta al LLM varias veces; recopilar respuestas

Calcular puntuaciones de similitud semántica entre salidas

Informar una “puntuación de consistencia” al usuario

4. Autoevaluación

PAX opcionalmente le pide a otro LLM (o a un conjunto) que revise toda la interacción, las citas y las puntuaciones de probabilidad, y que emita su propio veredicto final, tanto como un número (0-1) como una explicación narrativa. Esto añade una capa meta de autorreflexión.

Pseudo-proceso:

Alimentar la conversación/informe a un agente de evaluación (modelo diferente)

El agente critica la factualidad, la coherencia, la integridad de las citas y la confianza

Genera una puntuación final de confianza con explicación para su auditabilidad

Flujo de interacción

El flujo de interacción de PAX es el siguiente:

El usuario envía un prompt.
El agente PAX procesa el prompt, consulta APIs externas según sea necesario y construye una respuesta con atribuciones estructuradas.
El sistema:
- Asigna puntuaciones de confianza/confiabilidad por afirmación
- Registra qué partes están respaldadas por qué evidencia
- Opcionalmente, genera un resumen autorreflexivo y una puntuación de confianza

El resultado es una respuesta altamente transparente con una puntuación numérica y referencias enlazadas, junto con un registro auditable de todos los datos de respaldo.

Inspiración

Los métodos utilizados para hacer que PAX funcione se inspiraron en gran medida en los trabajos realizados por CleanLabs. Especialmente, su algoritmo/método de puntuación, tal como se detalla AQUÍ. Dentro de este algoritmo/método, se utiliza lo siguiente:

Autorreflexión: Este es un proceso en el que se le pide al LLM que califique explícitamente la respuesta y que indique explícitamente cuán seguro parece ser este buen resultado.
Predicción probabilística: Esto es “un proceso en el que consideramos las probabilidades por token asignadas por un LLM mientras genera una respuesta basada en la solicitud (de forma autorregresiva, token por token)”.
Consistencia observada: Esta puntuación es un proceso en el que el LLM genera probabilísticamente múltiples respuestas plausibles que cree que podrían ser buenas, y medimos cuán contradictorias son estas respuestas entre sí (o con una respuesta dada).

¿Por qué importa esto?

Las implementaciones tradicionales de LLM pueden alucinar hechos o proporcionar información desactualizada, creíble pero falsa. Para usos críticos como la investigación, la salud, el ámbito legal y el asesoramiento técnico, una IA no verificable simplemente no es suficiente.

PAX pretende hacer que la confianza en la IA sea medible y explicable. Su enfoque:

Exige evidencia de “muestre su trabajo” para afirmaciones no triviales.
Cuantifica cuánta confianza depositar en cada salida.
Permite a los usuarios auditar y comprender por qué una respuesta debería (o no debería) ser confiable.

Estado de la investigación y próximos pasos

PAX se encuentra actualmente en desarrollo activo como un proyecto de investigación privado bajo el paraguas de Osgil. Los enfoques clave incluyen:

Reducir la latencia de las búsquedas externas y de la puntuación.
Experimentar con la percepción del usuario frente a las puntuaciones de confianza automatizadas.
Crear complementos específicos por dominio para ciencia, noticias y usos regulatorios.
Preparar conjuntos de datos de referencia para investigación abierta y posible publicación.

Palabras finales

PAX trata de transformar los LLM de “generadores plausibles de caja negra” en asistentes transparentes, citables y numéricamente confiables, lo cual es crucial para tareas del mundo real de alto riesgo. Si estás interesado en colaborar, en auditorías o quieres hablar sobre el futuro de la IA generativa confiable, por favor ponte en contacto. ¡Gracias por leer!