PAX

Project’s GitHub Repo

Background

PAX (Proactive Agent for eXemplary Trustworthiness) は、私の以前のプロジェクトである TARS から大きくピボットしたものとして始まりました。TARS は自律的なサイバーセキュリティ侵入テストを対象としていました。TARS を開発しているうちに、実用的で信頼できる AI エージェントに対する最大の障壁は、単なるタスク自動化ではなく、AI が生成した応答の信頼性を確立することであることが明らかになりました。特に、その出力が現実世界の意思決定に影響を与え、重大な結果をもたらす可能性がある場合です。

TARS でサイバーセキュリティ侵入テストのタスクを自動化するだけでなく、根本的な問題に取り組みたかったのです。LLM が言うことをどのように信頼できるか?

TARS は私が共同設立した最初のスタートアップ、Osgil の MVP として開発されました。私たちの目標は、AI エージェントを用いてサイバーセキュリティ侵入テストを自動化することでした。TARS は Forum Ventures アクセラレータからのシード前資金調達を実現しました。しかし、防衛・サイバーセキュリティ企業にアプローチしたところ、これらの組織は重要なタスクである侵入テストを実行・報告する AI エージェントを信頼していないことが判明しました。また、ほとんどの企業は、何か問題が起きたときのためにフォールバックできるサイバーセキュリティ会社と取引したがっていました。要するに、これらの企業の意思決定者は、必要がない限り自社のセキュリティに関心がなく、関心がある場合でも、何かがうまくいかないときの保険としてフォールバック先を求めていました。2024 年後半の時点で、AI を用いた自動サイバー攻撃はまだ大きな懸念事項ではないため、意思決定者は私たちのソリューションに実際のニーズを感じていませんでした。この市場需要の欠如により、私たちは LLM モデルの幻覚(ハルシネーション)削減に焦点を当てる方向へピボットしました。LLM の信頼性を向上させることで、サイバーセキュリティを超えた幅広い将来の AI エージェント応用に貢献できると考えています。

A Nudge from Transformers Lore

PAX という名前は Transformers の世界へのオマージュです。オプティマス・プライムになる前のキャラクターの元の名前は Orion Pax でした。この「可能性から責任への変容」という考え方が、PAX のミッションである、原始的で印象的な LLM の能力から、真に信頼できるものへと移行するインスピレーションとなっています。

Project Vision

PAX は研究エージェントかつフレームワークで、体系的に次のことを行います:

  • 任意の LLM 応答の信頼性を測定する。
  • 幻覚や裏付けのない主張を削減する。
  • 検証可能な情報源への帰属を強制し、追跡する。
  • 応答と主張の両方をスコアリングする、説明可能で構造化されたレポートを提供する。

このプロジェクトの目的は、LLM を単に妥当なものにするだけでなく、証明可能に 信頼できるものにし、リスクと信頼度の透明な指標を提供することです。

Quick & Basic Demo

Overview Of How PAX Works

1. Enforced Attribution

任意のユーザークエリに対して、PAX はエージェントを通じてプロンプトをルーティングし、一般常識と検証が必要な情報を厳密に区別します。応答に事実や主張が含まれ、かつそれが広く一般常識とみなされない場合(統計、最近の出来事など)、PAX はエージェントが信頼できる最新の外部情報源を取得し参照することを保証します。

Pseudo-process:

  • If claim is not common knowledge → run external search APIs
  • Collect results, map every important statement to relevant references
  • Insert structured placeholders in the response (not plain URLs or raw footnotes)

2. Probabilistic Confidence Scoring

PAX は単に人間の直感に頼るわけではありません。テキスト生成時に使用された内部確率を分析することで、言語モデルが各部分の回答を生成する際にどれだけ「自信」を持っていたかを測定します。これにより、システムは各文、そして全体の回答に対して 数値的な信頼スコア を割り当てることができます。低信頼領域は自動的にフラグ付けされます。

Pseudo-process:

  • For each response token/word, retrieve the model’s probability for that choice
  • Aggregate across sentences
  • Produce per-sentence and overall trust/reliability scores

3. Observed Consistency

単一の回答を受け入れる代わりに、PAX は同じ質問を複数回 LLM に投げかけ、埋め込み(意味のベクトル表現)を用いて妥当な回答間の合意と一貫性を測定します。

  • High agreement suggests the answer is robust/stable
  • Widely-varying responses are warning signs: possible risk or ambiguity

Pseudo-process:

  • Send the question to the LLM multiple times; collect responses
  • Compute semantic similarity scores between outputs
  • Report a “consistency score” for the user

4. Self-Assessment

PAX はオプションで別の LLM(またはエンセンブル)に対し、全対話、引用、確率スコアをレビューさせ、数値(0‑1)と説明的なナラティブの両方で最終的な判定を出させます。これにより、自己反省のメタ層が追加されます。

Pseudo-process:

  • Feed conversation/report to an assessment agent (different model)
  • Agent critiques factuality, coherence, citation integrity, and confidence
  • Outputs a final trust score with explanation for auditability

Interaction Flow

PAX のインタラクションフローは以下の通りです:

  • ユーザーがプロンプトを送信する。
  • PAX エージェントがプロンプトを処理し、必要に応じて外部 API に問い合わせ、構造化された帰属情報を含む応答を構築する。
  • システムは:
    • 各ステートメントに対して信頼/信念スコアを割り当てる
    • どの部分がどの証拠で裏付けられているかを記録する
    • 必要に応じて自己反省的な要約と信頼スコアを生成する

結果として、数値スコアとリンクされた参照を伴う高度に透明な回答が得られ、すべての支援データの監査可能な記録が残ります。

Inspiration

PAX の実装に使用された手法は、CleanLabs の取り組みから大きくインスパイアされています。特に、彼らのスコアリングアルゴリズム/手法は HERE に詳述されています。このアルゴリズム/手法では、以下が利用されています:

  1. Self-Reflection: LLM に対し、応答を明示的に評価し、どれだけ自信を持って良いと判断できるかを明示的に述べさせるプロセスです。

  2. Probabilistic Prediction: 「LLM がリクエストに基づいて応答を生成する際に、トークンごとに割り当てられる確率を考慮するプロセス」です(トークンごとに自己回帰的に生成)。

  3. Observed Consistency: このスコアリングは、LLM が確率的に複数の妥当な応答を生成し、それらが互いにどれだけ矛盾しているか(または特定の応答と)を測定するプロセスです。

Why Does This Matter?

従来の LLM デプロイは、事実を幻覚したり、古くて信頼できない情報を提供したりすることがあります。ミッションクリティカルな用途(研究、医療、法務、技術的助言)において、検証不可能な AI は決して十分ではありません。

PAX は AI への 信頼 を測定可能かつ説明可能にすることを目指します。そのアプローチは次のとおりです:

  • 非自明な主張に対して「作業過程」を示す証拠を要求する。
  • すべての出力に対してどれだけの信頼度を置くかを定量化する。
  • ユーザーがなぜある回答が(あるいはされない)べきかを監査・理解できるようにする。

Research Status & Next Steps

PAX は現在、Osgil の傘下でプライベートな研究プロジェクトとして 積極的に開発中 です。主な焦点は以下の通りです:

  • 外部検索とスコアリングのレイテンシ削減。
  • ユーザー認識と自動信頼スコアの比較実験。
  • 科学、ニュース、規制用途向けのドメイン固有プラグインの構築。
  • オープンリサーチ用ベンチマークデータセットの準備と公開の可能性。

Final Words

PAX は LLM を「ブラックボックス的な妥当な生成器」から、透明で引用可能、数値的に信頼できるアシスタント へと変革することを目指しています。これは、実世界のハイステークスなタスクにとって極めて重要です。

協業、監査、あるいは信頼できる生成 AI の未来について議論したい方は、ぜひご連絡ください。お読みいただきありがとうございました!