PAX
Фон
PAX (Proactive Agent for eXemplary Trustworthiness) розпочав своє існування як суттєвий поворот від мого попереднього проєкту, TARS, який був спрямований на автономне тестування безпеки кіберзлочинності. Під час розробки TARS стало очевидно, що одним із найбільших бар’єрів для практичних, надійних AI‑агентів є не лише автоматизація завдань, а встановлення довіреності до відповіді, згенерованої ШІ. Особливо коли такі результати можуть впливати на реальні рішення, які мають масивні наслідки.
Замість того, щоб просто автоматизувати завдання тестування безпеки кіберзлочинності за допомогою TARS, я хотів вирішити фундаментальну проблему: Як ми можемо знати, що можемо довіряти тому, що каже LLM?
TARS був розроблений як MVP для мого першого стартапу, Osgil, який я співзаснував. Наша мета полягала в автоматизації тестування безпеки кіберзлочинності за допомогою AI‑агентів. TARS дозволив нам отримати попереднє фінансування від акселератора Forum Ventures. Однак, коли ми зверталися до оборонних та кібербезпекових компаній, ми виявили, що ці організації не довіряють AI‑агентам у виконанні та звітуванні про критичні завдання, такі як тестування проникнення. Крім того, майже всі вони хотіли співпрацювати з компаніями з кібербезпеки, щоб мати «підстраховку» у випадку, якщо щось піде не так. По суті, рішеннявці в цих компаніях не піклувалися про свою безпеку, доки це не стало необхідністю, і коли це стало необхідністю, частина їхніх критеріїв полягала у наявності «підстраховки» у випадку проблеми, як форма страхування. Станом на кінець 2024 року автоматизовані кібератаки, керовані ШІ, все ще не є великою проблемою, тому рішеннявці не бачили реальної потреби в нашому рішенні. Через відсутність попиту на ринку ми переключилися на зменшення галюцинацій у моделях LLM. Покращуючи надійність LLM, ми віримо, що наша робота може принести користь широкому спектру майбутніх застосувань AI‑агентів поза межами кібербезпеки.
Підказка з всесвіту Transformers
Назва PAX є натяком на всесвіт Transformers. Перш ніж стати іконичним Оптимусом Праймом, оригінальне ім’я персонажа було Orion Pax. Ця ідея трансформації, від можливості до відповідальності, надихнула місію PAX – перейти від сирої, вражаючої здатності LLM до чогось настільки довіреного, що на нього можна справді покластися.
Бачення проєкту
PAX – це дослідницький агент і фреймворк, який систематично:
- Вимірює довіреність будь‑якої відповіді LLM.
- Зменшує галюцинації та непідтримувані твердження.
- Примушує та відстежує атрибуцію до перевірних джерел.
- Надає пояснювані, структуровані звіти, що оцінюють як відповіді, так і твердження.
Мета цього проєкту – зробити LLM не лише правдоподібними, а доказово довіреними, з прозорими мірами ризику та впевненості.
Швидка та базова демонстрація
Огляд того, як працює PAX
1. Примусове атрибутування
Для будь‑якого запиту користувача PAX направляє підказку через агента, який суворо розрізняє загальновідомі знання та інформацію, що потребує верифікації. Коли відповідь містить факти або твердження, які не вважаються загальновідомими (наприклад, статистика, недавні події тощо), PAX забезпечує, щоб агент отримував і посилався на надійні, актуальні зовнішні джерела.
Псевдо‑процес:
- Якщо твердження не є загальновідомим → запуск зовнішніх API пошуку
- Збирати результати, зіставляти кожне важливе твердження з відповідними посиланнями
- Вставляти структуровані заповнювачі у відповідь (не прості URL‑и чи сирі виноски)
2. Ймовірнісний бал оцінки впевненості
PAX не покладається лише на людську інтуїцію. Він вимірює, наскільки «впевненим» був мовний модель під час генерації кожної частини відповіді, аналізуючи внутрішні ймовірності, використані під час генерації тексту. Це дозволяє системі присвоювати числовий бал довіри кожному реченню та всій відповіді в цілому. Області з низькою впевненістю можуть автоматично позначатися.
Псевдо‑процес:
- Для кожного токену/слова відповіді отримати ймовірність моделі для цього вибору
- Агрегувати по реченнях
- Створювати оцінки довіри/надійності для кожного речення та загальну
3. Спостережувана послідовність
Замість прийняття однієї відповіді, PAX задає LLM одне й те саме питання кілька разів, використовуючи ембеддинги (векторні представлення значення) для вимірювання згоди та послідовності між правдоподібними відповідями.
- Висока згода свідчить про те, що відповідь є стабільною/надійною
- Широко різні відповіді – це сигнали попередження: можливий ризик або неоднозначність
Псевдо‑процес:
- Надіслати питання LLM кілька разів; зібрати відповіді
- Обчислити семантичні схожості між результатами
- Надати користувачу «бал послідовності»
4. Самооцінка
PAX за потреби запитує інший LLM (або ансамбль) переглянути всю взаємодію, цитати та ймовірнісні бали, і надати власний остаточний вердикт, як у вигляді числа (0‑1), так і у вигляді нарративного пояснення. Це додає мета‑рівень саморефлексії.
Псевдо‑процес:
- Передати розмову/звіт агенту оцінки (інша модель)
- Агент критикує фактичність, узгодженість, цілісність цитувань та впевненість
- Виводить остаточний бал довіри з поясненням для аудиту
Потік взаємодії
Потік взаємодії PAX виглядає наступним чином:
- Користувач надсилає підказку.
- Агент PAX обробляє підказку, за потреби консультується зі зовнішніми API та формує відповідь зі структурованими атрибуціями.
- Система:
- Присвоює бал довіри/впевненості кожному твердженню
- Реєструє, які частини підтримуються якими доказами
- За потреби генерує саморефлексивний підсумок та бал довіри
Результат – надзвичайно прозора відповідь з числовим балом і посиланнями, а також аудиторний запис усіх підтримуючих даних.
Натхнення
Методи, що дозволяють PAX працювати, були сильно натхненні роботами, виконаними CleanLabs. Зокрема, їхній алгоритм/метод оцінки, детально описаний ТУТ. У цьому алгоритмі/методі використовується наступне:
-
Само‑рефлексія: Це процес, у якому LLM просять явно оцінити відповідь і явно вказати, наскільки впевнено ця відповідь здається правильною.
-
Ймовірнісний прогноз: Це «процес, у якому ми розглядаємо ймовірності по токенах, призначені LLM під час генерації відповіді на запит (авторегресивно токен за токеном)».
-
Спостережувана послідовність: Це оцінка, у якій LLM ймовірнісно генерує кілька правдоподібних відповідей, які, на її думку, можуть бути хорошими, і ми вимірюємо, наскільки ці відповіді суперечать одна одній (або даній відповіді).
Чому це важливо?
Традиційні розгортання LLM можуть галюцинувати факти або надавати застарілу/правдоподібну, але хибну інформацію. Для критично важливих застосувань — дослідження, охорона здоров’я, юридичні та технічні консультації — неперевірений ШІ просто не підходить.
PAX прагне зробити довіру до ШІ вимірюваною та пояснюваною. Його підхід:
- Вимагає доказів «покажи свою роботу» для нетривіальних тверджень.
- Квантифікує, скільки впевненості слід покласти у кожен вихід.
- Дозволяє користувачам аудиту та розуміти, чому відповідь має (або не має) бути довіреною.
Стан досліджень та наступні кроки
PAX наразі знаходиться в активній розробці як приватний дослідницький проєкт під егідою Osgil. Основні напрямки включають:
- Зменшення затримки зовнішніх пошуків та оцінювання.
- Експерименти з сприйняттям користувачів проти автоматичних балів довіри.
- Створення плагінів для конкретних доменів: наука, новини та регуляторні застосування.
- Підготовка наборів даних для відкритих досліджень та можливого випуску.
Заключні слова
PAX – це перетворення LLM з «чорних ящиків‑правдоподібних генераторів» у прозорих, цитованих та чисельно довірених помічників, що є критично важливим для реальних, високострасних завдань.
Якщо ви зацікавлені у співпраці, аудитах або хочете обговорити майбутнє довірчого генеративного ШІ, будь ласка, зв’яжіться зі мною. Дякую за увагу!