Надежный ИИ с PAX

Предыстория

PAX (Проактивный Агент для eXemplary Trustworthiness) начал свое существование как крупный поворот от моего более раннего проекта, TARS, который был нацелен на автономное тестирование на проникновение в кибербезопасности. Когда я разрабатывал TARS, стало ясно, что одним из самых больших препятствий для практичных, надежных ИИ-агентов является не просто автоматизация задач, а обеспечение доверенности ответа, сгенерированного ИИ. Особенно когда эти результаты могут влиять на реальные решения, которые могут иметь огромные последствия.

Вместо того чтобы просто автоматизировать задачи тестирования на проникновение в кибербезопасности с помощью TARS, я хотел решить фундаментальную проблему: Как мы знаем, что можем доверять тому, что говорит LLM?

TARS был разработан как MVP для моего первого стартапа, Osgil, который я соосновал. Наша цель состояла в том, чтобы автоматизировать тестирование на проникновение в кибербезопасности с помощью ИИ-агентов. TARS позволил нам получить посевное финансирование от акселератора Forum Ventures. Однако, когда мы обратились к компаниям оборонного и кибербезопасностного сектора, мы обнаружили, что эти организации не доверяют ИИ-агентам выполнение и отчетность по критически важным задачам, таким как тестирование на проникновение. Кроме того, почти все они в основном хотели вести бизнес с компаниями в области кибербезопасности, чтобы иметь козла отпущения на случай, если что-то пойдет не так. По сути, лица, принимающие решения в этих компаниях, не заботились о своей безопасности, если только это не было необходимо, и когда это было необходимо, частью их критериев было наличие козла отпущения на случай, если что-то пойдет не так, в качестве формы страхования. По состоянию на конец 2024 года автоматизированные кибератаки на основе ИИ по-прежнему не являются серьезной проблемой, поэтому лица, принимающие решения, не видели реальной необходимости в нашем решении. Из-за отсутствия рыночного спроса мы сменили фокус на уменьшение галлюцинаций в моделях LLM. Повышая надежность LLM, мы верим, что наша работа может принести пользу широкому спектру будущих приложений ИИ-агентов за пределами кибербезопасности.

Подталкивание из лора Transformers

Название PAX — это отсылка к вселенной Transformers. До того как стать культовым Оптимусом Праймом, оригинальным именем персонажа было Orion Pax. Эта идея трансформации, от возможности к ответственности, вдохновила миссию PAX: перейти от сырой, впечатляющей способности LLM к чему-то достаточно надежному, чтобы на это действительно можно было положиться.

Видение проекта

PAX — это исследовательский агент и фреймворк, который систематически:

Измеряет доверенность любого ответа LLM.
Уменьшает галлюцинации и неподтвержденные утверждения.
Принуждает к указанию источников и отслеживает их.
Предоставляет объяснимые, структурированные отчеты, оценивающие как ответы, так и утверждения.

Цель этого проекта — сделать LLM не просто правдоподобными, а доказуемо заслуживающими доверия, с прозрачными мерами риска и уверенности.

Быстрая и базовая демонстрация

Обзор того, как работает PAX

1. Принудительная атрибуция

Для любого пользовательского запроса PAX направляет промпт через агента, который строго различает общеизвестные сведения и информацию, требующую проверки. Когда ответ содержит факты или утверждения, которые не считаются широко известными (например, статистику, недавние события и т. д.), PAX обеспечивает, чтобы агент извлекал и использовал надежные, актуальные внешние источники.

Псевдопроцесс:

Если утверждение не является общеизвестным → запустить внешние поисковые API

Собрать результаты, сопоставить каждое важное утверждение с соответствующими ссылками

Вставить в ответ структурированные заполнители (а не обычные URL или сырые сноски)

2. Вероятностная оценка уверенности

PAX не полагается только на человеческую интуицию. Он измеряет, насколько модель языка была «уверена» при генерации каждой части своего ответа, анализируя внутренние вероятности, использованные во время генерации текста. Это позволяет системе присваивать числовой показатель доверия каждой фразе и ответу в целом. Области с низкой уверенностью, таким образом, могут быть автоматически помечены.

Псевдопроцесс:

Для каждого токена/слова ответа получить вероятность модели для этого выбора

Агрегировать по предложениям

Сформировать оценки доверия/надежности для каждого предложения и в целом

3. Наблюдаемая согласованность

Вместо того чтобы принимать один ответ, PAX задает LLM один и тот же вопрос несколько раз, используя эмбеддинги (векторные представления смысла) для измерения согласия и согласованности между правдоподобными ответами.

Высокое согласие указывает на то, что ответ является надежным/устойчивым
Сильно различающиеся ответы — это предупреждающие сигналы: возможный риск или неоднозначность

Псевдопроцесс:

Отправить вопрос в LLM несколько раз; собрать ответы

Вычислить оценки семантического сходства между результатами

Предоставить пользователю “оценку согласованности”

4. Самооценка

PAX по желанию просит другую LLM (или ансамбль) просмотреть всю интеракцию, цитаты и оценки вероятностей, и вынести собственный окончательный вердикт, как в виде числа (0–1), так и в виде нарративного объяснения. Это добавляет мета-уровень саморефлексии.

Псевдопроцесс:

Передать разговор/отчет агенту оценки (другая модель)

Агент критикует фактическую точность, связность, целостность цитирования и уверенность

Выдает итоговую оценку доверия с объяснением для возможности аудита

Поток взаимодействия

Поток взаимодействия PAX выглядит следующим образом:

Пользователь отправляет промпт.
Агент PAX обрабатывает промпт, при необходимости обращается к внешним API и строит ответ со структурированными атрибуциями.
Система:
- Присваивает оценки доверия/уверенности для каждого утверждения
- Логирует, какие части подтверждаются какими доказательствами
- При желании генерирует саморефлексивное резюме и оценку доверия

Результат — это высоко прозрачный ответ с числовой оценкой и связанными ссылками, а также проверяемая запись всех подтверждающих данных.

Вдохновение

Методы, использованные для работы PAX, были в значительной степени вдохновлены работами, выполненными CleanLabs. В частности, их алгоритмом/методом оценки, как подробно описано ЗДЕСЬ. В рамках этого алгоритма/метода используется следующее:

Саморефлексия: это процесс, при котором LLM просят явно оценить ответ и явно указать, насколько уверенно хорошим кажется этот ответ.
Вероятностное предсказание: это “процесс, при котором мы рассматриваем вероятности по каждому токену, присвоенные LLM при генерации ответа на основе запроса (авторегрессивно, токен за токеном)”.
Наблюдаемая согласованность: эта оценка — это процесс, при котором LLM вероятностно генерирует несколько правдоподобных ответов, которые, по его мнению, могли бы быть хорошими, и мы измеряем, насколько эти ответы противоречат друг другу (или заданному ответу).

Почему это важно?

Традиционные развертывания LLM могут галлюцинировать факты или выдавать устаревшую, но правдоподобную и ложную информацию. Для задач, критически важных для миссии, таких как исследования, здравоохранение, право и технические советы, непроверяемый ИИ просто недостаточно хорош.

PAX стремится сделать доверие к ИИ измеримым и объяснимым. Его подход:

Требует доказательств в стиле “покажи свою работу” для нетривиальных утверждений.
Количественно определяет, сколько уверенности следует придавать каждому результату.
Позволяет пользователям проверять и понимать, почему ответ следует (или не следует) считать заслуживающим доверия.

Статус исследования и следующие шаги

В настоящее время PAX находится в активной разработке как частный исследовательский проект под эгидой Osgil. Основные направления:

Сокращение задержки внешнего поиска и оценки.
Эксперименты с восприятием пользователей по сравнению с автоматическими оценками доверия.
Создание плагинов, специфичных для областей науки, новостей и нормативного использования.
Подготовка эталонных наборов данных для открытых исследований и возможного выпуска.

Заключительные слова

PAX — это о превращении LLM из «правдоподобных генераторов в черном ящике» в прозрачных, цитируемых и численно надежных помощников, что имеет решающее значение для реальных задач с высокими ставками. Если вам интересны сотрудничество, аудиты или вы хотите обсудить будущее надежного генеративного ИИ, пожалуйста, свяжитесь со мной. Спасибо за чтение!