Правдоподібний AI з PAX

Передумови

PAX (Proactive Agent for eXemplary Trustworthiness) почав своє життя як великий поворот від мого попереднього проєкту, TARS, який був спрямований на автономне пенетрацiйне тестування кібербезпеки. Коли я розробляв TARS, стало зрозуміло, що однією з найбільших перешкод для практичних, надійних AI-агентів є не лише автоматизація завдань, а встановлення надійності AI-згенерованої відповіді. Особливо тоді, коли ці результати можуть впливати на реальні рішення, що можуть мати величезні наслідки.

Замість того, щоб лише автоматизувати завдання пенетрацiйного тестування кібербезпеки за допомогою TARS, я хотів розв’язати фундаментальну проблему: Як ми знаємо, що можемо довіряти тому, що каже LLM?

TARS було розроблено як MVP для мого першого стартапу, Osgil, який я співзаснував. Наша мета полягала в тому, щоб автоматизувати пенетрацiйне тестування кібербезпеки за допомогою AI-агентів. TARS дозволив нам отримати передпосівне фінансування від акселератора Forum Ventures. Однак, коли ми звернулися до компаній оборонної та кібербезпекової сфери, ми виявили, що ці організації не довіряють AI-агентам виконувати та звітувати про критично важливі завдання, такі як пенетрацiйне тестування. Також майже всі з них переважно хотіли вести бізнес із компаніями з кібербезпеки, щоб мати цапа-відбувайла на випадок, якщо щось піде не так. По суті, особи, що ухвалюють рішення в цих компаніях, не дбали про свою безпеку, якщо не були змушені до цього, а коли дбали, частиною їхніх критеріїв було мати цапа-відбувайла на випадок, якщо щось піде не так, як форму страхування. Станом на кінець 2024 року автоматизовані кібератаки на базі AI досі не є серйозною проблемою, тож особи, що ухвалюють рішення, не бачили реальної потреби в нашому рішенні. Через цю відсутність ринкового попиту ми змінили напрямок на зосередження на зменшенні галюцинацій у моделях LLM. Покращуючи надійність LLM, ми вважаємо, що наша робота може принести користь широкому спектру майбутніх застосувань AI-агентів поза межами кібербезпеки.

Підштовх із лору Transformers

Назва PAX є відсиланням до всесвіту Transformers. До того, як стати культовим Оптимусом Праймом, початкове ім’я персонажа було Orion Pax. Ця ідея трансформації — від потенціалу до відповідальності — надихнула місію PAX: перейти від сирої, вражаючої здатності LLM до чогось достатньо надійного, щоб на це справді можна було покластися.

Бачення проєкту

PAX — це дослідницький агент і фреймворк, який систематично:

  • Вимірює надійність будь-якої відповіді LLM.
  • Зменшує галюцинації та необґрунтовані твердження.
  • Примушує до атрибуції та відстежує її до перевірюваних джерел.
  • Надає пояснювані, структуровані звіти з оцінюванням як відповідей, так і тверджень.

Мета цього проєкту — зробити LLM не просто правдоподібними, а доведено надійними, із прозорими мірами ризику та впевненості.

Швидка базова демонстрація

Огляд того, як працює PAX

1. Примусова атрибуція

Для будь-якого запиту користувача PAX пропускає підказку через агента, який суворо розрізняє загальновідомі знання та інформацію, що потребує перевірки. Коли відповідь містить факти або твердження, які не вважаються загальновідомими (наприклад, статистику, нещодавні події тощо), PAX забезпечує, щоб агент отримував і використовував надійні, актуальні зовнішні джерела.

Псевдопроцес:

  • Якщо твердження не є загальновідомим → запустити зовнішні пошукові API
  • Зібрати результати, зіставити кожне важливе твердження з відповідними посиланнями
  • Вставити структуровані заповнювачі в відповідь (а не прості URL чи сирі виноски)

2. Імовірнісне оцінювання впевненості

PAX не покладається лише на людську інтуїцію. Він вимірює, наскільки мовна модель була “впевнена” під час генерації кожної частини своєї відповіді, аналізуючи внутрішні ймовірності, використані під час генерації тексту. Це дає змогу системі призначати числовий бал довіри для кожного речення та для відповіді загалом. Області з низькою впевненістю можна автоматично позначати.

Псевдопроцес:

  • Для кожного токена/слова відповіді отримати ймовірність моделі для цього вибору
  • Агрегувати по реченнях
  • Сформувати бали довіри/надійності для кожного речення та загальний бал

3. Спостережувана узгодженість

Замість того, щоб приймати одну відповідь, PAX просить LLM кілька разів відповісти на те саме запитання, використовуючи ембедінги (векторні представлення значення) для вимірювання узгодженості між правдоподібними відповідями.

  • Висока узгодженість означає, що відповідь є стійкою/стабільною
  • Сильно відмінні відповіді — це попереджувальні сигнали: можливий ризик або неоднозначність

Псевдопроцес:

  • Надіслати запит до LLM кілька разів; зібрати відповіді
  • Обчислити оцінки семантичної схожості між результатами
  • Показати користувачеві “бал узгодженості”

4. Самооцінка

PAX за бажанням просить іншу LLM (або ансамбль) переглянути всю взаємодію, цитати та оцінки ймовірності й винести власний підсумковий вердикт — як у вигляді числа (0-1), так і у вигляді наративного пояснення. Це додає метарівень саморефлексії.

Псевдопроцес:

  • Передати розмову/звіт агенту оцінювання (іншій моделі)
  • Агент критикує фактичність, цілісність, цілісність цитування та впевненість
  • Повертає підсумковий бал довіри з поясненням для аудиту

Потік взаємодії

Потік взаємодії PAX виглядає так:

  • Користувач надсилає підказку.
  • Агент PAX обробляє підказку, за потреби звертається до зовнішніх API та формує відповідь зі структурованими атрибуціями.
  • Система:
    • Призначає бали довіри/впевненості для кожного твердження
    • Логує, які частини підтримуються якими доказами
    • За бажанням генерує саморефлексивний підсумок і бал довіри

Результат — це дуже прозора відповідь із числовим балом і пов’язаними посиланнями, а також аудиторський запис усіх підтримувальних даних.

Натхнення

Методи, використані для роботи PAX, були значною мірою натхненні роботами, виконаними CleanLabs. Особливо їхнім алгоритмом/методом оцінювання, як докладно описано ТУТ. У межах цього алгоритму/методу використовується таке:

  1. Саморефлексія: це процес, у якому LLM просять явно оцінити відповідь і явно вказати, наскільки впевнено добре вона виглядає.

  2. Імовірнісне передбачення: це “процес, у якому ми розглядаємо ймовірності для кожного токена, призначені LLM під час генерації відповіді на запит (авторегресивно, токен за токеном)”.

  3. Спостережувана узгодженість: це процес оцінювання, у якому LLM імовірнісно генерує кілька правдоподібних відповідей, які, на її думку, можуть бути хорошими, і ми вимірюємо, наскільки суперечать одна одній ці відповіді (або заданій відповіді).

Чому це має значення?

Традиційні розгортання LLM можуть галюцинувати факти або надавати застарілу, але правдоподібну, однак хибну інформацію. Для критично важливих застосувань, таких як дослідження, охорона здоров’я, право та технічні поради, неперевірений AI просто недостатньо хороший.

PAX прагне зробити довіру до AI вимірюваною та пояснюваною. Його підхід:

  • Вимагає доказів типу “покажіть свою роботу” для нетривіальних тверджень.
  • Кількісно визначає, скільки впевненості слід надавати кожному результату.
  • Дозволяє користувачам перевіряти та розуміти, чому відповіді слід (або не слід) довіряти.

Статус досліджень і наступні кроки

Наразі PAX перебуває в активній розробці як приватний дослідницький проєкт під егідою Osgil. Основні напрями роботи включають:

  • Зменшення затримки зовнішніх пошуків і оцінювання.
  • Експерименти зі сприйняттям користувачів проти автоматизованих балів довіри.
  • Створення доменно-специфічних плагінів для науки, новин і регуляторного використання.
  • Підготовку наборів бенчмарк-даних для відкритих досліджень і можливого випуску.

Заключне слово

PAX — це про перетворення LLM із “правдоподібних генераторів чорної скриньки” на прозорих, цитованих і чисельно надійних асистентів, що є критично важливим для реальних завдань із високими ставками. Якщо вас цікавить співпраця, аудит або ви хочете обговорити майбутнє надійного генеративного AI, будь ласка, зв’яжіться зі мною. Дякую за прочитання!