PAXによる信頼できるAI

背景

PAX（Proactive Agent for eXemplary Trustworthiness）は、私の以前のプロジェクトである TARS からの大きな方向転換として始まりました。TARSは自律型のサイバーセキュリティ侵入テストを対象としていました。TARSを開発している間に、実用的で信頼できるAIエージェントに対する最大の障壁の一つは、単なるタスクの自動化ではなく、AI生成応答の信頼性を確立することであることが明らかになりました。特に、それらの出力が、重大な結果をもたらし得る現実世界の意思決定に影響を与える場合にはなおさらです。

TARSでサイバーセキュリティ侵入テストのタスクを単に自動化するのではなく、私は根本的な問題に取り組みたかったのです。LLMが言うことを信頼できると、どうやって分かるのか？

TARSは、私が共同創業した最初のスタートアップ Osgil のためのMVPとして開発されました。私たちの目標は、AIエージェントを用いてサイバーセキュリティ侵入テストを自動化することでした。TARSのおかげで、Forum Venturesアクセラレーターからプレシード資金を確保することができました。しかし、防衛・サイバーセキュリティ企業に接触した際、そうした組織は、侵入テストのような重要なタスクを実行し報告することにAIエージェントを信頼していないことが分かりました。また、ほぼ全ての企業が、事態が悪化したときの責任逃れのために、主としてサイバーセキュリティ企業と取引したがっていました。要するに、これらの企業の意思決定者は、何かしなければならない状況でない限り、自社のセキュリティを気にしておらず、気にする場合でも、何か問題が起きたときの責任逃れのために保険のような形でその条件の一部としていました。2024年後半時点では、自動化されたAI搭載のサイバー攻撃はまだ大きな懸念事項ではなく、意思決定者たちは私たちのソリューションに本当の必要性を見出していませんでした。この市場需要の不足により、私たちはLLMモデルにおける幻覚の削減に焦点を当てる方向へ転換しました。LLMの信頼性を向上させることで、私たちの取り組みはサイバーセキュリティを超えた幅広い将来のAIエージェント用途に役立つと考えています。

トランスフォーマーの伝承からの示唆

PAXという名前は、Transformers の世界観へのオマージュです。アイコニックなオプティマス・プライムになる前、キャラクターの元々の名前は Orion Pax でした。可能性から責任への変化というこの発想が、PAXの使命、すなわち生の印象的なLLM能力を、本当に頼れるだけの信頼性を持つものへと移行させることの着想源となりました。

プロジェクトのビジョン

PAXは、体系的に次のことを行う研究エージェント兼フレームワークです。

あらゆるLLM応答の信頼性を測定する。
幻覚や裏付けのない主張を減らす。
検証可能な情報源への帰属を強制し、追跡する。
応答と主張の両方を評価する、説明可能で構造化されたレポートを提供する。

このプロジェクトの目的は、LLMを単にもっともらしいだけでなく、証明可能に 信頼できるものにし、リスクと信頼度を透明に示すことです。

簡単で基本的なデモ

PAXの仕組みの概要

1. 強制された帰属

ユーザーのクエリに対して、PAXはプロンプトをエージェントに通し、一般的な知識と検証が必要な情報を厳密に区別します。応答に、広く一般的な知識と見なされない事実や主張（統計、最近の出来事など）が含まれる場合、PAXはエージェントが信頼できる最新の外部ソースを取得し、それに言及することを保証します。

疑似プロセス:

主張が一般的な知識でない場合 → 外部検索APIを実行する

結果を収集し、重要な各記述を関連する参照先に対応付ける

応答内に構造化されたプレースホルダーを挿入する（単なるURLや生の脚注ではない）

2. 確率的信頼度スコアリング

PAXは人間の直感だけに頼りません。テキスト生成中に使われる内部確率を分析することで、言語モデルが回答の各部分を生成する際にどれだけ「確信していたか」を測定します。これにより、システムは各文、ひいては回答全体に対して数値の信頼スコアを割り当てることができます。したがって、低信頼度の箇所は自動的にフラグ付けできます。

疑似プロセス:

応答の各トークン/単語について、その選択に対するモデルの確率を取得する

文ごとに集約する

文ごとの信頼/信頼性スコアと全体スコアを作成する

3. 観測された一貫性

1つの回答を受け入れる代わりに、PAXはLLMに同じ質問を複数回行い、埋め込み（意味のベクトル表現）を使って、もっともらしい応答間の一致度と一貫性を測定します。

高い一致は、その回答が堅牢/安定していることを示唆する
大きく異なる応答は警告サインであり、リスクまたは曖昧さの可能性を示す

疑似プロセス:

質問をLLMに複数回送信し、応答を収集する

出力間の意味的類似度スコアを計算する

ユーザー向けに「一貫性スコア」を報告する

4. 自己評価

PAXは必要に応じて、別のLLM（またはアンサンブル）に全体のやり取り、引用、確率スコアをレビューさせ、数値（0-1）と説明的な解釈の両方として最終判断を下させます。これにより、自己内省のメタ層が加わります。

疑似プロセス:

会話/レポートを評価エージェント（別モデル）に入力する

エージェントが事実性、一貫性、引用の整合性、信頼度を批評する

監査可能性のために説明付きの最終信頼スコアを出力する

インタラクションの流れ

PAXのインタラクションの流れは次のとおりです。

ユーザーがプロンプトを送信する。
PAXエージェントがプロンプトを処理し、必要に応じて外部APIを参照し、構造化された帰属付きの応答を構築する。
システムは以下を行う。
- 文ごとの信頼/信頼度スコアを割り当てる
- どの部分がどの証拠によって裏付けられているかを記録する
- 必要に応じて、自己省察的な要約と信頼スコアを生成する

その結果、数値スコアとリンクされた参照を備えた、非常に透明性の高い回答が得られ、さらに全ての裏付けデータの監査可能な記録も残ります。

着想

PAXを機能させるために使われた方法は、CleanLabs の取り組みに大きく着想を得ています。特に、こちらに詳述されているスコアリングアルゴリズム/手法です。このアルゴリズム/手法では、以下が利用されます。

自己省察: これは、LLMに応答を明示的に評価させ、この応答がどれほど自信を持って良いものに見えるかを明示的に述べさせるプロセスです。
確率的予測: これは、「LLMが要求に基づいて応答を生成する際に、各トークンに割り当てられた確率を考慮するプロセス（自己回帰的にトークンごと）」です。
観測された一貫性: このスコアリングは、LLMが良いと思う複数のもっともらしい応答を確率的に生成し、それらの応答が互いにどれほど矛盾しているか（または与えられた応答とどれほど矛盾しているか）を測定するプロセスです。

なぜこれが重要なのか？

従来のLLMの導入では、事実を幻覚したり、古くてもっともらしいが誤った情報を与えたりすることがあります。研究、医療、法務、技術的助言のようなミッションクリティカルな用途において、検証不可能なAIでは単純に不十分です。

PAXは、AIにおける_信頼_ を測定可能かつ説明可能にすることを目指しています。そのアプローチは次のとおりです。

自明でない主張に対して「作業過程を示せる」証拠を要求する。
各出力にどれだけの信頼を置くべきかを数値化する。
ユーザーが、なぜその回答を信頼すべきか、あるいは信頼すべきでないのかを監査し理解できるようにする。

研究の現状と次のステップ

PAXは現在、Osgil の枠組みの下で、私的な研究プロジェクトとして開発中です。主な焦点は以下のとおりです。

外部検索とスコアリングのレイテンシを削減すること。
ユーザーの認識と自動化された信頼スコアの差を実験すること。
科学、ニュース、規制用途向けのドメイン固有プラグインを構築すること。
オープンリサーチおよび公開の可能性に向けたベンチマークデータセットを準備すること。

最後に

PAXは、LLMを「ブラックボックスのもっともらしい生成器」から、透明で、引用可能で、数値的に信頼できるアシスタントへと変革することに関するものです。これは、現実世界の高リスクなタスクにとって極めて重要です。もし協業、監査、あるいは信頼できる生成AIの未来について議論したいとお考えでしたら、ぜひご連絡ください。お読みいただきありがとうございました！