Достоверный ИИ с PAX

Предыстория

PAX (Proactive Agent for eXemplary Trustworthiness) начал свою жизнь как значительный поворот от моего предыдущего проекта, TARS, который нацеливался на автономное тестирование на проникновение в кибербезопасности. В процессе разработки TARS стало очевидно, что одной из самых больших преград для практических, надежных ИИ-агентов было не только автоматизация задач, но и установление надежности ответа, сгенерированного ИИ. Особенно когда эти результаты могут повлиять на реальные решения, которые могут иметь огромные последствия.

Вместо того чтобы просто автоматизировать задачи тестирования на проникновение в кибербезопасности с помощью TARS, я хотел решить основную проблему: Как мы можем знать, что можем доверять тому, что говорит LLM?

TARS был разработан как MVP для моего первого стартапа, Osgil, который я соучредил. Наша цель заключалась в автоматизации тестирования на проникновение в кибербезопасности с использованием ИИ-агентов. TARS позволил нам получить предварительное финансирование от акселератора Forum Ventures. Однако, когда мы обратились к компаниям в области обороны и кибербезопасности, мы обнаружили, что эти организации не доверяли ИИ-агентам для выполнения и отчетности по критическим задачам, таким как тестирование на проникновение. Кроме того, почти все они в основном хотели вести бизнес с компаниями в области кибербезопасности, чтобы иметь “козла отпущения” на случай, если что-то пойдет не так. В основном, лица, принимающие решения в этих компаниях, не заботились о своей безопасности, если это не было необходимо, и когда это было необходимо, частью их критериев было наличие “козла отпущения” на случай, если что-то пойдет не так, в качестве формы страхования. На конец 2024 года автоматизированные кибератаки на основе ИИ все еще не представляют собой серьезную проблему, поэтому лица, принимающие решения, не видели реальной необходимости в нашем решении. Из-за этого отсутствия рыночного спроса мы переключились на снижение галлюцинаций в моделях LLM. Улучшая надежность LLM, мы верим, что наша работа может принести пользу широкому спектру будущих приложений ИИ-агентов за пределами кибербезопасности.

Подсказка из Лора Трансформеров

Название PAX является отсылкой к вселенной Трансформеров. Прежде чем стать культовым Оптимусом Праймом, оригинальное имя персонажа было Орион Пакс. Эта идея трансформации, от возможности к ответственности, вдохновила миссию PAX по переходу от сырой, впечатляющей способности LLM к чему-то достаточно надежному, чтобы на это можно было полагаться.

Видение Проекта

PAX является исследовательским агентом и рамкой, которая систематически:

Измеряет надежность любого ответа LLM.
Снижает галлюцинации и неподтвержденные утверждения.
Принуждает и отслеживает атрибуцию к проверяемым источникам.
Предоставляет объяснимые, структурированные отчеты, оценивающие как ответы, так и утверждения.

Цель этого проекта — сделать LLM не просто правдоподобными, но доказуемо надежными, с прозрачными мерами риска и уверенности.

Быстрая и Основная Демонстрация

Обзор Работы PAX

1. Принудительная Атрибуция

Для любого пользовательского запроса PAX направляет запрос через агента, который строго различает общие знания и информацию, требующую проверки. Когда ответ содержит факты или утверждения, которые не считаются общими знаниями (такими как статистика, недавние события и т. д.), PAX гарантирует, что агент извлекает и ссылается на надежные, актуальные внешние источники.

Псевдопроцесс:

Если утверждение не является общим знанием → запустить внешние поисковые API

Собрать результаты, сопоставить каждое важное утверждение с соответствующими ссылками

Вставить структурированные заполнители в ответ (не простые URL или сырые сноски)

2. Вероятностная Оценка Доверия

PAX не полагается только на человеческую интуицию. Он измеряет, насколько “уверенной” была языковая модель в генерации каждой части своего ответа, анализируя внутренние вероятности, использованные во время генерации текста. Это позволяет системе присваивать числовой балл доверия каждому предложению и ответу в целом. Области с низкой уверенностью могут быть автоматически отмечены.

Псевдопроцесс:

Для каждого токена/слова ответа извлечь вероятность модели для этого выбора

Агрегировать по предложениям

Сформировать баллы доверия/надежности для каждого предложения и в целом

3. Наблюдаемая Согласованность

Вместо того чтобы принимать один ответ, PAX задает LLM один и тот же вопрос несколько раз, используя встраивания (векторные представления значений), чтобы измерить согласие и согласованность между правдоподобными ответами.

Высокое согласие указывает на то, что ответ надежен/стабилен
Широко варьирующиеся ответы являются предупреждающими знаками: возможный риск или неоднозначность

Псевдопроцесс:

Отправить вопрос в LLM несколько раз; собрать ответы

Вычислить баллы семантического сходства между выводами

Сообщить “балл согласованности” для пользователя

4. Самооценка

PAX по желанию запрашивает другой LLM (или ансамбль), чтобы просмотреть все взаимодействие, цитаты и вероятностные баллы, и дать свой окончательный вердикт, как в числовом (0-1), так и в нарративном объяснении. Это добавляет мета-уровень саморазмышления.

Псевдопроцесс:

Передать разговор/отчет агенту оценки (другая модель)

Агент критикует фактическую точность, согласованность, целостность цитирования и уверенность

Выводит окончательный балл доверия с объяснением для аудита

Поток Взаимодействия

Поток взаимодействия PAX выглядит следующим образом:

Пользователь отправляет запрос.
Агент PAX обрабатывает запрос, при необходимости консультируется с внешними API и формирует ответ со структурированными атрибуциями.
Система:
- Присваивает баллы доверия/уверенности для каждого утверждения
- Регистрирует, какие части поддерживаются какими доказательствами
- По желанию генерирует самоотчетный итог и балл доверия

Результат — это высокопрозрачный ответ с числовым баллом и связанными ссылками, а также аудируемая запись всех поддерживающих данных.

Вдохновение

Методы, использованные для работы PAX, были сильно вдохновлены работами CleanLabs. В частности, их алгоритм/метод оценки, как подробно описано ЗДЕСЬ. В этом алгоритме/методе используется следующее:

Саморазмышление: Это процесс, в котором LLM просят явно оценить ответ и явно указать, насколько уверенно этот ответ кажется хорошим.
Вероятностное Предсказание: Это “процесс, в котором мы рассматриваем вероятности для каждого токена, присвоенные LLM, когда он генерирует ответ на основе запроса (авто-регрессивно токен за токеном)”.
Наблюдаемая Согласованность: Эта оценка — это процесс, в котором LLM вероятностно генерирует несколько правдоподобных ответов, которые, по его мнению, могут быть хорошими, и мы измеряем, насколько противоречивы эти ответы друг другу (или данному ответу).

Почему Это Важно?

Традиционные развертывания LLM могут галлюцинировать факты или давать устаревшую/правдоподобную, но ложную информацию. Для критически важных задач — исследований, здравоохранения, юридических и технических консультаций — непроверяемый ИИ просто недостаточно хорош.

PAX стремится сделать доверие к ИИ измеримым и объяснимым. Его подход:

Требует “показать свою работу” в качестве доказательства для нетривиальных утверждений.
Квантифицирует, сколько уверенности следует вложить в каждый вывод.
Позволяет пользователям проводить аудит и понимать, почему ответ должен (или не должен) быть доверен.

Статус Исследования и Следующие Шаги

PAX в настоящее время находится в активной разработке как частный исследовательский проект в рамках Osgil. Ключевые направления включают:

Снижение задержки внешних поисков и оценок.
Эксперименты с восприятием пользователями против автоматизированных баллов доверия.
Создание плагинов, специфичных для домена, для науки, новостей и регуляторных нужд.
Подготовка эталонных наборов данных для открытых исследований и возможного выпуска.

Заключительные Слова

PAX направлен на преобразование LLM из “черных ящиков правдоподобных генераторов” в прозрачных, цитируемых и численно надежных помощников, что имеет решающее значение для реальных задач с высокими ставками. Если вы заинтересованы в сотрудничестве, аудитах или хотите обсудить будущее надежного генеративного ИИ, пожалуйста, свяжитесь. Спасибо за внимание!