PAX

项目的 GitHub 仓库

背景

PAX(Proactive Agent for eXemplary Trustworthiness)最初是我早期项目 TARS 的一次重大转折,TARS 旨在实现自主网络安全渗透测试。当我在开发 TARS 时,显而易见,实际可用、可靠的 AI 代理面临的最大障碍并非仅是任务自动化,而是 建立 AI 生成响应的可信度。尤其是当这些输出可能影响现实世界决策并产生巨大后果时。

我并不只是想用 TARS 自动化网络安全渗透测试任务,而是想解决一个根本性问题:我们如何知道可以信任 LLM 所说的话?

TARS 是我共同创立的第一家初创公司 Osgil 的 MVP。我们的目标是使用 AI 代理实现网络安全渗透测试的自动化。TARS 帮助我们获得了 Forum Ventures 加速器的前期种子融资。然而,当我们向国防和网络安全公司推介时,发现这些组织并不信任 AI 代理执行并报告关键任务(如渗透测试)。几乎所有公司都更倾向于与网络安全公司合作,以便在出现问题时有“替罪羊”。基本上,这些公司的决策者除非必须,否则并不关心自身安全,而当他们确实关心时,往往会要求有一个“替罪羊”作为保险。到 2024 年底,自动化的 AI 驱动网络攻击仍未成为主要威胁,决策者因此看不到我们解决方案的真实需求。由于缺乏市场需求,我们转而专注于降低 LLM 模型的幻觉。通过提升 LLM 的可靠性,我们相信我们的工作能够惠及广泛的未来 AI 代理应用,而不仅限于网络安全领域。

来自《变形金刚》传说的启示

名称 PAX变形金刚 宇宙致敬。在成为标志性人物擎天柱(Optimus Prime)之前,这个角色的原名是 Orion Pax。从可能性到责任的这种转变理念,激发了 PAX 的使命——从原始、惊人的 LLM 能力转向足够可信、真正可以依赖的水平。

项目愿景

PAX 是一个研究代理和框架,系统地:

  • 衡量任何 LLM 响应的可信度。
  • 减少幻觉和无依据的陈述。
  • 强制并追踪对可验证来源的引用。
  • 提供可解释的结构化报告,对响应和声明进行评分。

本项目的目标是让 LLM 不仅看似合理,而是 可证明 可信,并提供透明的风险与置信度度量。

快速 & 基础演示

PAX 工作原理概览

1. 强制引用

对于任何用户查询,PAX 将提示路由至一个严格区分常识与需验证信息的代理。当响应包含非普遍常识的事实或主张(如统计数据、近期事件等)时,PAX 确保代理检索并引用可信、最新的外部来源。

伪流程:

  • 如果主张不是常识 → 运行外部搜索 API
  • 收集结果,将每条重要陈述映射到相关引用
  • 在响应中插入结构化占位符(而非普通 URL 或原始脚注)

2. 概率置信度评分

PAX 不仅依赖人类直觉。它通过分析文本生成过程中的内部概率,衡量语言模型在生成答案每一部分时的“置信度”。这使系统能够为每个句子以及整体答案分配 数值信任分数。低置信度区域因此可自动标记。

伪流程:

  • 对于每个响应 token/单词,获取模型对该选择的概率
  • 在句子层面聚合
  • 生成每句及整体的信任/可靠性分数

3. 观察一致性

PAX 不只接受单一答案,而是多次向 LLM 提出相同问题,利用嵌入(语义向量)衡量可行响应之间的一致性与协同程度。

  • 高度一致表明答案稳健/稳定
  • 响应差异大是警示信号:可能存在风险或歧义

伪流程:

  • 多次向 LLM 发送同一问题;收集响应
  • 计算输出之间的语义相似度分数
  • 为用户报告一个“连贯性分数”

4. 自我评估

PAX 可选地让另一个 LLM(或模型集合)审查整个交互、引用和概率分数,并给出最终判定,既以数值(0-1)呈现,也提供叙述性解释。这为自我反思增添了元层。

伪流程:

  • 将对话/报告输入评估代理(不同模型)
  • 代理批评事实性、连贯性、引用完整性和置信度
  • 输出最终信任分数并附带审计解释

交互流程

PAX 的交互流程如下:

  • 用户发送提示。
  • PAX 代理处理提示,必要时调用外部 API,并构建带结构化引用的响应。
  • 系统:
    • 为每条陈述分配信任/置信度分数
    • 记录哪些部分由哪些证据支持
    • 可选地生成自我反思的摘要和信任分数

最终得到的是一个高度透明的答案,附带数值分数和链接引用,以及所有支撑数据的可审计记录。

灵感来源

PAX 的实现方法深受 CleanLabs 的工作启发。特别是其在此处详细阐述的评分算法/方法 HERE。在该算法/方法中,利用了以下要素:

  1. 自我反思:让 LLM 明确对响应进行评分,并明确说明该响应看起来有多可信。

  2. 概率预测:即“在基于请求(自回归逐 token)生成响应时,考虑 LLM 为每个 token 分配的概率”。

  3. 观察一致性:该评分过程让 LLM 概率性地生成多个它认为可能好的响应,并衡量这些响应彼此之间(或相对于给定响应)的矛盾程度。

为什么这很重要?

传统的 LLM 部署可能会产生幻觉事实或提供过时但看似可信的错误信息。对于关键任务——研究、医疗、法律和技术咨询——不可验证的 AI 绝对不够。

PAX 旨在让 AI 的 信任 可度量、可解释。其方法:

  • 要求对非平凡主张提供“展示过程”的证据。
  • 量化对每个输出应赋予的置信度。
  • 让用户审计并理解为何某个答案应(或不应)被信任。

研究现状与后续计划

PAX 目前正作为 Osgil 私人研究项目 积极开发 中。关键关注点包括:

  • 降低外部搜索和评分的延迟。
  • 实验用户感知与自动化信任分数的关系。
  • 为科学、新闻和监管等领域构建专用插件。
  • 为开放研究准备基准数据集并可能发布。

结束语

PAX 致力于将 LLM 从“黑箱式的似是而非生成器”转变为 透明、可引用、数值可信赖的助手,这对于现实世界的高风险任务至关重要。

如果您对合作、审计或讨论可信生成式 AI 的未来感兴趣,请联系。感谢阅读!