PAXによる信頼できるAI

背景

PAX（Proactive Agent for eXemplary Trustworthiness）は、私の以前のプロジェクトであるTARSからの大きなピボットとして始まりました。TARSは自律的なサイバーセキュリティ侵入テストを対象としていました。TARSを開発しているうちに、実用的で信頼できるAIエージェントに対する最大の障壁の一つは、タスクの自動化だけでなく、AI生成の応答の信頼性を確立することであることが明らかになりました。特に、その出力が重大な結果をもたらす可能性のある現実の意思決定に影響を与える場合です。

TARSを使ってサイバーセキュリティ侵入テストのタスクを自動化するだけでなく、私は根本的な問題に取り組みたいと思いました：LLMが言うことをどうやって信頼できるとわかるのか？

TARSは、私が共同設立した最初のスタートアップであるOsgilのMVPとして開発されました。私たちの目標は、AIエージェントを使用してサイバーセキュリティ侵入テストを自動化することでした。TARSは、Forum Venturesアクセラレーターからプレシード資金を確保することを可能にしました。しかし、防衛およびサイバーセキュリティ企業にアプローチした際、私たちはそれらの組織が侵入テストのような重要なタスクを実行し報告するAIエージェントを信頼していないことを発見しました。また、ほとんどすべての企業は、問題が発生した場合のために「落ち度を持つ人」を持つためにサイバーセキュリティ企業と取引したいと考えていました。基本的に、これらの企業の意思決定者は、必要がない限り自社のセキュリティを気にしておらず、必要が生じたときには、何かがうまくいかなかった場合のために「落ち度を持つ人」を持つことが基準の一部でした。2024年末の時点で、自動化されたAI駆動のサイバー攻撃は依然として大きな懸念事項ではなく、意思決定者は私たちのソリューションの本当の必要性を感じていませんでした。この市場の需要の欠如により、私たちはLLMモデルの幻覚を減らすことに焦点を移しました。LLMの信頼性を向上させることで、私たちの作業がサイバーセキュリティを超えた将来のAIエージェントアプリケーションに利益をもたらすと信じています。

トランスフォーマーの伝説からのひと押し

名前のPAXは、_トランスフォーマー_の宇宙へのオマージュです。アイコニックなオプティマス・プライムになる前、キャラクターの元の名前はオリオン・パックスでした。この可能性から責任への変革のアイデアは、PAXの使命である生の印象的なLLM能力から、真に信頼できるものへと移行することにインスパイアされました。

プロジェクトビジョン

PAXは、体系的に以下を行う研究エージェントおよびフレームワークです：

どのLLM応答の信頼性を測定します。
幻覚や裏付けのない発言を減少させます。
検証可能なソースへの帰属を強制し、追跡します。
応答と主張の両方をスコアリングする説明可能で構造化されたレポートを提供します。

このプロジェクトの目的は、LLMを単に信頼できるものにするだけでなく、リスクと信頼の透明な測定を伴う_証明可能な_信頼性を持たせることです。

簡単で基本的なデモ

PAXの動作概要

1. 強制された帰属

ユーザーのクエリに対して、PAXはプロンプトを通じて、一般的な知識と検証が必要な情報を厳密に区別するエージェントにルーティングします。応答に広く一般的な知識と見なされない事実や主張（統計、最近の出来事など）が含まれている場合、PAXはエージェントが信頼できる最新の外部ソースを取得し参照することを保証します。

擬似プロセス：

主張が一般的な知識でない場合 → 外部検索APIを実行

結果を収集し、重要な発言を関連する参照にマッピング

応答に構造化されたプレースホルダーを挿入（単純なURLや生の脚注ではなく）

2. 確率的信頼スコアリング

PAXは単に人間の直感に依存するわけではありません。テキスト生成中に使用された内部確率を分析することで、言語モデルがその回答の各部分を生成する際に「どれだけ自信があったか」を測定します。これにより、システムは各文および全体の回答に数値的信頼スコアを割り当てることができます。低信頼度の領域は自動的にフラグを立てることができます。

擬似プロセス：

各応答トークン/単語について、その選択のモデルの確率を取得

文全体で集計

文ごとの信頼性/信頼スコアを生成

3. 観察された一貫性

PAXは一つの回答を受け入れるのではなく、同じ質問を複数回LLMに尋ね、埋め込み（意味のベクトル表現）を使用して、信頼できる応答間の合意と一貫性を測定します。

高い合意は、回答が堅牢/安定していることを示唆します
広く異なる応答は警告サインです：リスクまたは曖昧さの可能性

擬似プロセス：

質問をLLMに複数回送信し、応答を収集

出力間の意味的類似性スコアを計算

ユーザーに「一貫性スコア」を報告

4. 自己評価

PAXはオプションで別のLLM（またはアンサンブル）に全体のインタラクション、引用、確率スコアをレビューさせ、自身の最終的な判断を数値（0-1）とナarrative説明の両方で提供させます。これにより、自己反省のメタレイヤーが追加されます。

擬似プロセス：

会話/レポートを評価エージェント（異なるモデル）にフィード

エージェントが事実性、一貫性、引用の整合性、信頼性を批評

監査可能性のための説明と共に最終的な信頼スコアを出力

インタラクションフロー

PAXのインタラクションフローは次のようになります：

ユーザーがプロンプトを送信します。
PAXエージェントがプロンプトを処理し、必要に応じて外部APIに相談し、構造化された帰属を持つ応答を構築します。
システムは：
- 各文の信頼/信頼スコアを割り当てます
- どの部分がどの証拠によって支持されているかを記録します
- オプションで、自己反省的な要約と信頼スコアを生成します

その結果、数値スコアとリンクされた参照を持つ非常に透明な回答が得られ、すべての支持データの監査可能な記録が付随します。

インスピレーション

PAXを機能させるために使用される方法は、CleanLabsによって行われた作業に大きく触発されています。特に、彼らのスコアリングアルゴリズム/メソッドはこちらで詳述されています。このアルゴリズム/メソッドでは、以下が利用されています：

自己反省：これは、LLMに応答を明示的に評価させ、この応答がどれだけ自信を持って良いように見えるかを明示的に述べさせるプロセスです。
確率的予測：これは「LLMがリクエストに基づいて応答を生成する際に割り当てられたトークンごとの確率を考慮するプロセス」です（自己回帰的にトークンごとに）。
観察された一貫性：このスコアリングは、LLMが良いと思われる複数の妥当な応答を確率的に生成し、これらの応答が互いにどれだけ矛盾しているか（または特定の応答に対して）を測定するプロセスです。

これはなぜ重要なのか？

従来のLLMの展開は、事実を幻覚させたり、古くて信じられるが虚偽の情報を提供したりすることがあります。ミッションクリティカルな用途—研究、医療、法的および技術的アドバイス—において、検証不可能なAIは単に十分ではありません。

PAXはAIに対する_信頼_を測定可能で説明可能にすることを目指しています。そのアプローチは：

重要な主張に対して「作業を示せ」という証拠を要求します。
各出力にどれだけの信頼を置くべきかを定量化します。
ユーザーがなぜ回答を信頼すべき（または信頼すべきでない）かを監査し理解できるようにします。

研究状況と次のステップ

PAXは現在、Osgilの傘下でプライベートな研究プロジェクトとして積極的に開発中です。主な焦点は：

外部検索とスコアリングのレイテンシを減少させること。
ユーザーの認識と自動信頼スコアの実験。
科学、ニュース、規制用途のためのドメイン特化型プラグインの構築。
オープンリサーチと可能なリリースのためのベンチマークデータセットの準備。

最後の言葉

PAXは、LLMを「ブラックボックスの妥当な生成者」から透明で引用可能、数値的に信頼できるアシスタントに変革することに関するものであり、これは現実の高リスクなタスクにとって重要です。コラボレーション、監査に興味がある方、または信頼できる生成AIの未来について議論したい方は、ぜひご連絡ください。お読みいただきありがとうございます！