Достовірний ШІ з PAX

Передумови

PAX (Proactive Agent for eXemplary Trustworthiness) почав своє життя як великий поворот від мого попереднього проєкту, TARS, який націлювався на автономне тестування проникнення в кібербезпеці. Під час розробки TARS стало зрозуміло, що однією з найбільших перешкод для практичних, надійних ШІ-агентів було не лише автоматизація завдань, а й встановлення надійності відповіді, згенерованої ШІ. Особливо коли ці результати можуть вплинути на реальні рішення, які можуть мати величезні наслідки.

Замість того, щоб просто автоматизувати завдання тестування проникнення в кібербезпеці за допомогою TARS, я хотів вирішити фундаментальну проблему: Як ми можемо знати, що можемо довіряти тому, що говорить LLM?

TARS був розроблений як MVP для мого першого стартапу, Osgil, який я співзаснував. Наша мета полягала в автоматизації тестування проникнення в кібербезпеці за допомогою ШІ-агентів. TARS дозволив нам отримати фінансування на початковому етапі від акселератора Forum Ventures. Однак, коли ми звернулися до компаній у сфері оборони та кібербезпеки, ми виявили, що ці організації не довіряли ШІ-агентам виконувати та звітувати про критичні завдання, такі як тестування проникнення. Крім того, майже всі вони в основному хотіли співпрацювати з компаніями з кібербезпеки, щоб мати “козла відпущення” на випадок, якщо щось піде не так. В основному, особи, які приймають рішення в цих компаніях, не піклувалися про свою безпеку, якщо не було необхідності, а коли це сталося, частиною їхніх критеріїв було мати “козла відпущення” на випадок, якщо щось піде не так, як форма страхування. Станом на кінець 2024 року автоматизовані кібернапади на основі ШІ все ще не є великою проблемою, тому особи, які приймають рішення, не бачили реальної потреби в нашому рішенні. Через цю відсутність попиту на ринку ми вирішили зосередитися на зменшенні галюцинацій у моделях LLM. Поліпшуючи надійність LLM, ми вважаємо, що наша робота може принести користь широкому спектру майбутніх застосувань ШІ-агентів за межами кібербезпеки.

Поштовх від Лору Трансформерів

Назва PAX є натяком на всесвіт Трансформерів. Перед тим, як стати іконічним Оптимусом Праймом, оригінальна назва персонажа була Оріон Пакс. Ця ідея трансформації, від можливості до відповідальності, надихнула місію PAX перейти від сирих, вражаючих можливостей LLM до чогось достатньо надійного, щоб на нього можна було дійсно покладатися.

Візія Проєкту

PAX є дослідницьким агентом і фреймворком, який систематично:

  • Вимірює надійність будь-якої відповіді LLM.
  • Зменшує галюцинації та непідтверджені твердження.
  • Примушує та відстежує атрибуцію до перевіряємих джерел.
  • Надає зрозумілі, структуровані звіти, оцінюючи як відповіді, так і твердження.

Мета цього проєкту полягає в тому, щоб зробити LLM не лише правдоподібними, а й достовірно надійними, з прозорими заходами ризику та впевненості.

Швидка та Основна Демонстрація

Огляд того, як працює PAX

1. Примусова Атрибуція

Для будь-якого запиту користувача PAX направляє запит через агента, який строго розрізняє між загальновідомими знаннями та інформацією, що потребує валідації. Коли відповідь містить факти або твердження, які не вважаються загальновідомими (такі як статистика, нещодавні події тощо), PAX забезпечує, щоб агент отримував і посилався на надійні, актуальні зовнішні джерела.

Псевдо-процес:

  • Якщо твердження не є загальновідомим → запустити зовнішні пошукові API
  • Зібрати результати, відобразити кожне важливе твердження на відповідні посилання
  • Вставити структуровані заповнювачі у відповідь (не прості URL або сирі примітки)

2. Ймовірнісна Оцінка Впевненості

PAX не покладається лише на людську інтуїцію. Він вимірює, наскільки “впевненим” була мовна модель у генерації кожної частини своєї відповіді, аналізуючи внутрішні ймовірності, що використовуються під час генерації тексту. Це дозволяє системі присвоювати числовий бал довіри кожному реченню та відповіді в цілому. Таким чином, зони з низькою впевненістю можуть бути автоматично позначені.

Псевдо-процес:

  • Для кожного токена/слова відповіді отримати ймовірність моделі для цього вибору
  • Агрегувати по реченнях
  • Виробити бали довіри/надійності для кожного речення та загалом

3. Спостережувана Узгодженість

Замість того, щоб приймати одну відповідь, PAX запитує LLM те саме питання кілька разів, використовуючи вбудовування (векторні представлення значення) для вимірювання згоди та узгодженості між правдоподібними відповідями.

  • Висока згода свідчить про те, що відповідь є надійною/стабільною
  • Широко варіюючі відповіді є знаками попередження: можливий ризик або неоднозначність

Псевдо-процес:

  • Надіслати питання до LLM кілька разів; зібрати відповіді
  • Обчислити бали семантичної схожості між виходами
  • Повідомити “бал узгодженості” для користувача

4. Самооцінка

PAX за бажанням запитує інший LLM (або ансамбль) переглянути всю взаємодію, цитати та ймовірнісні бали, і дати свій остаточний вердикт, як у числовому вигляді (0-1), так і у формі наративного пояснення. Це додає мета-рівень самоаналізу.

Псевдо-процес:

  • Передати розмову/звіт агенту оцінки (інша модель)
  • Агент критикує фактичність, узгодженість, цілісність цитування та впевненість
  • Виводить остаточний бал довіри з поясненням для аудиту

Потік Взаємодії

Потік взаємодії PAX виглядає наступним чином:

  • Користувач надсилає запит.
  • Агент PAX обробляє запит, консультується з зовнішніми API за потреби та формує відповідь зі структурованими атрибуціями.
  • Система:
    • Присвоює бали довіри/впевненості для кожного твердження
    • Фіксує, які частини підтримуються якими доказами
    • За бажанням генерує самоаналізуюче резюме та бал довіри

Результат - це надзвичайно прозора відповідь з числовим балом та пов’язаними посиланнями, а також аудиторський запис усіх підтримуючих даних.

Натхнення

Методи, використані для роботи PAX, були сильно натхнені роботами CleanLabs. Зокрема, їх алгоритм оцінки/метод, як детально описано ТУТ. У цьому алгоритмі/методі використовується наступне:

  1. Самоаналіз: Це процес, у якому LLM запитують явно оцінити відповідь і чітко вказати, наскільки впевненою виглядає ця відповідь.

  2. Ймовірнісне Прогнозування: Це “процес, у якому ми розглядаємо ймовірності для кожного токена, присвоєні LLM, коли він генерує відповідь на основі запиту (авто-регресивно токен за токеном)”.

  3. Спостережувана Узгодженість: Це оцінка, у якій LLM ймовірнісно генерує кілька правдоподібних відповідей, які, на його думку, можуть бути хорошими, і ми вимірюємо, наскільки суперечливими є ці відповіді одна одній (або даній відповіді).

Чому це важливо?

Традиційні розгортання LLM можуть галюцинувати факти або надавати застарілу/правдоподібну, але хибну інформацію. Для критично важливих застосувань — досліджень, охорони здоров’я, юридичних та технічних порад — неперевірений ШІ просто не є достатнім.

PAX прагне зробити достовірність у ШІ вимірювальною та зрозумілою. Його підхід:

  • Вимагає “показати свою роботу” як доказ для нетривіальних тверджень.
  • Кількісно оцінює, скільки впевненості слід покласти в кожен вихід.
  • Дозволяє користувачам перевіряти та розуміти, чому відповідь повинна (або не повинна) бути довіреною.

Статус Дослідження та Наступні Кроки

PAX наразі знаходиться в активній розробці як приватний дослідницький проєкт під егідою Osgil. Основні акценти включають:

  • Зменшення затримки зовнішніх пошуків та оцінок.
  • Експериментування з сприйняттям користувачів проти автоматизованих балів довіри.
  • Створення плагінів для конкретних доменів для науки, новин та регуляторних цілей.
  • Підготовка еталонних наборів даних для відкритих досліджень та можливого випуску.

Остаточні Слова

PAX полягає в перетворенні LLM з “чорних ящиків правдоподібних генераторів” на прозорих, цитованих та чисельно надійних асистентів, що є критично важливим для реальних, високих завдань. Якщо ви зацікавлені в співпраці, аудитах або хочете обговорити майбутнє надійного генеративного ШІ, будь ласка, зв’яжіться. Дякую за увагу!