Достоверный ИИ с PAX
Предыстория
PAX (Proactive Agent for eXemplary Trustworthiness) начал свою жизнь как значительный поворот от моего предыдущего проекта, TARS, который нацеливался на автономное тестирование на проникновение в кибербезопасности. В процессе разработки TARS стало очевидно, что одной из самых больших преград для практических, надежных ИИ-агентов было не только автоматизация задач, но и установление надежности ответа, сгенерированного ИИ. Особенно когда эти результаты могут повлиять на реальные решения, которые могут иметь огромные последствия.
Вместо того чтобы просто автоматизировать задачи тестирования на проникновение в кибербезопасности с помощью TARS, я хотел решить основную проблему: Как мы можем знать, что можем доверять тому, что говорит LLM?
TARS был разработан как MVP для моего первого стартапа, Osgil, который я соучредил. Наша цель заключалась в автоматизации тестирования на проникновение в кибербезопасности с использованием ИИ-агентов. TARS позволил нам получить предварительное финансирование от акселератора Forum Ventures. Однако, когда мы обратились к компаниям в области обороны и кибербезопасности, мы обнаружили, что эти организации не доверяли ИИ-агентам для выполнения и отчетности по критическим задачам, таким как тестирование на проникновение. Кроме того, почти все они в основном хотели вести бизнес с компаниями в области кибербезопасности, чтобы иметь “козла отпущения” на случай, если что-то пойдет не так. В основном, лица, принимающие решения в этих компаниях, не заботились о своей безопасности, если это не было необходимо, и когда это было необходимо, частью их критериев было наличие “козла отпущения” на случай, если что-то пойдет не так, в качестве формы страхования. На конец 2024 года автоматизированные кибератаки на основе ИИ все еще не представляют собой серьезную проблему, поэтому лица, принимающие решения, не видели реальной необходимости в нашем решении. Из-за этого отсутствия рыночного спроса мы переключились на снижение галлюцинаций в моделях LLM. Улучшая надежность LLM, мы верим, что наша работа может принести пользу широкому спектру будущих приложений ИИ-агентов за пределами кибербезопасности.
Подсказка из Лора Трансформеров
Название PAX является отсылкой к вселенной Трансформеров. Прежде чем стать культовым Оптимусом Праймом, оригинальное имя персонажа было Орион Пакс. Эта идея трансформации, от возможности к ответственности, вдохновила миссию PAX по переходу от сырой, впечатляющей способности LLM к чему-то достаточно надежному, чтобы на это можно было полагаться.
Видение Проекта
PAX является исследовательским агентом и рамкой, которая систематически:
- Измеряет надежность любого ответа LLM.
- Снижает галлюцинации и неподтвержденные утверждения.
- Принуждает и отслеживает атрибуцию к проверяемым источникам.
- Предоставляет объяснимые, структурированные отчеты, оценивающие как ответы, так и утверждения.
Цель этого проекта — сделать LLM не просто правдоподобными, но доказуемо надежными, с прозрачными мерами риска и уверенности.
Быстрая и Основная Демонстрация
Обзор Работы PAX
1. Принудительная Атрибуция
Для любого пользовательского запроса PAX направляет запрос через агента, который строго различает общие знания и информацию, требующую проверки. Когда ответ содержит факты или утверждения, которые не считаются общими знаниями (такими как статистика, недавние события и т. д.), PAX гарантирует, что агент извлекает и ссылается на надежные, актуальные внешние источники.
Псевдопроцесс:
- Если утверждение не является общим знанием → запустить внешние поисковые API
- Собрать результаты, сопоставить каждое важное утверждение с соответствующими ссылками
- Вставить структурированные заполнители в ответ (не простые URL или сырые сноски)
2. Вероятностная Оценка Доверия
PAX не полагается только на человеческую интуицию. Он измеряет, насколько “уверенной” была языковая модель в генерации каждой части своего ответа, анализируя внутренние вероятности, использованные во время генерации текста. Это позволяет системе присваивать числовой балл доверия каждому предложению и ответу в целом. Области с низкой уверенностью могут быть автоматически отмечены.
Псевдопроцесс:
- Для каждого токена/слова ответа извлечь вероятность модели для этого выбора
- Агрегировать по предложениям
- Сформировать баллы доверия/надежности для каждого предложения и в целом
3. Наблюдаемая Согласованность
Вместо того чтобы принимать один ответ, PAX задает LLM один и тот же вопрос несколько раз, используя встраивания (векторные представления значений), чтобы измерить согласие и согласованность между правдоподобными ответами.
- Высокое согласие указывает на то, что ответ надежен/стабилен
- Широко варьирующиеся ответы являются предупреждающими знаками: возможный риск или неоднозначность
Псевдопроцесс:
- Отправить вопрос в LLM несколько раз; собрать ответы
- Вычислить баллы семантического сходства между выводами
- Сообщить “балл согласованности” для пользователя
4. Самооценка
PAX по желанию запрашивает другой LLM (или ансамбль), чтобы просмотреть все взаимодействие, цитаты и вероятностные баллы, и дать свой окончательный вердикт, как в числовом (0-1), так и в нарративном объяснении. Это добавляет мета-уровень саморазмышления.
Псевдопроцесс:
- Передать разговор/отчет агенту оценки (другая модель)
- Агент критикует фактическую точность, согласованность, целостность цитирования и уверенность
- Выводит окончательный балл доверия с объяснением для аудита
Поток Взаимодействия
Поток взаимодействия PAX выглядит следующим образом:
- Пользователь отправляет запрос.
- Агент PAX обрабатывает запрос, при необходимости консультируется с внешними API и формирует ответ со структурированными атрибуциями.
- Система:
- Присваивает баллы доверия/уверенности для каждого утверждения
- Регистрирует, какие части поддерживаются какими доказательствами
- По желанию генерирует самоотчетный итог и балл доверия
Результат — это высокопрозрачный ответ с числовым баллом и связанными ссылками, а также аудируемая запись всех поддерживающих данных.
Вдохновение
Методы, использованные для работы PAX, были сильно вдохновлены работами CleanLabs. В частности, их алгоритм/метод оценки, как подробно описано ЗДЕСЬ. В этом алгоритме/методе используется следующее:
-
Саморазмышление: Это процесс, в котором LLM просят явно оценить ответ и явно указать, насколько уверенно этот ответ кажется хорошим.
-
Вероятностное Предсказание: Это “процесс, в котором мы рассматриваем вероятности для каждого токена, присвоенные LLM, когда он генерирует ответ на основе запроса (авто-регрессивно токен за токеном)”.
-
Наблюдаемая Согласованность: Эта оценка — это процесс, в котором LLM вероятностно генерирует несколько правдоподобных ответов, которые, по его мнению, могут быть хорошими, и мы измеряем, насколько противоречивы эти ответы друг другу (или данному ответу).
Почему Это Важно?
Традиционные развертывания LLM могут галлюцинировать факты или давать устаревшую/правдоподобную, но ложную информацию. Для критически важных задач — исследований, здравоохранения, юридических и технических консультаций — непроверяемый ИИ просто недостаточно хорош.
PAX стремится сделать доверие к ИИ измеримым и объяснимым. Его подход:
- Требует “показать свою работу” в качестве доказательства для нетривиальных утверждений.
- Квантифицирует, сколько уверенности следует вложить в каждый вывод.
- Позволяет пользователям проводить аудит и понимать, почему ответ должен (или не должен) быть доверен.
Статус Исследования и Следующие Шаги
PAX в настоящее время находится в активной разработке как частный исследовательский проект в рамках Osgil. Ключевые направления включают:
- Снижение задержки внешних поисков и оценок.
- Эксперименты с восприятием пользователями против автоматизированных баллов доверия.
- Создание плагинов, специфичных для домена, для науки, новостей и регуляторных нужд.
- Подготовка эталонных наборов данных для открытых исследований и возможного выпуска.
Заключительные Слова
PAX направлен на преобразование LLM из “черных ящиков правдоподобных генераторов” в прозрачных, цитируемых и численно надежных помощников, что имеет решающее значение для реальных задач с высокими ставками. Если вы заинтересованы в сотрудничестве, аудитах или хотите обсудить будущее надежного генеративного ИИ, пожалуйста, свяжитесь. Спасибо за внимание!