PAX
背景
PAX(Proactive Agent for eXemplary Trustworthiness)最初是我早期项目 TARS 的一次重大转折,TARS 旨在实现自主网络安全渗透测试。当我在开发 TARS 时,显而易见,实际可用、可靠的 AI 代理面临的最大障碍并非仅是任务自动化,而是 建立 AI 生成响应的可信度。尤其是当这些输出可能影响现实世界决策并产生巨大后果时。
我并不只是想用 TARS 自动化网络安全渗透测试任务,而是想解决一个根本性问题:我们如何知道可以信任 LLM 所说的话?
TARS 是我共同创立的第一家初创公司 Osgil 的 MVP。我们的目标是使用 AI 代理实现网络安全渗透测试的自动化。TARS 帮助我们获得了 Forum Ventures 加速器的前期种子融资。然而,当我们向国防和网络安全公司推介时,发现这些组织并不信任 AI 代理执行并报告关键任务(如渗透测试)。几乎所有公司都更倾向于与网络安全公司合作,以便在出现问题时有“替罪羊”。基本上,这些公司的决策者除非必须,否则并不关心自身安全,而当他们确实关心时,往往会要求有一个“替罪羊”作为保险。到 2024 年底,自动化的 AI 驱动网络攻击仍未成为主要威胁,决策者因此看不到我们解决方案的真实需求。由于缺乏市场需求,我们转而专注于降低 LLM 模型的幻觉。通过提升 LLM 的可靠性,我们相信我们的工作能够惠及广泛的未来 AI 代理应用,而不仅限于网络安全领域。
来自《变形金刚》传说的启示
名称 PAX 向 变形金刚 宇宙致敬。在成为标志性人物擎天柱(Optimus Prime)之前,这个角色的原名是 Orion Pax。从可能性到责任的这种转变理念,激发了 PAX 的使命——从原始、惊人的 LLM 能力转向足够可信、真正可以依赖的水平。
项目愿景
PAX 是一个研究代理和框架,系统地:
- 衡量任何 LLM 响应的可信度。
- 减少幻觉和无依据的陈述。
- 强制并追踪对可验证来源的引用。
- 提供可解释的结构化报告,对响应和声明进行评分。
本项目的目标是让 LLM 不仅看似合理,而是 可证明 可信,并提供透明的风险与置信度度量。
快速 & 基础演示
PAX 工作原理概览
1. 强制引用
对于任何用户查询,PAX 将提示路由至一个严格区分常识与需验证信息的代理。当响应包含非普遍常识的事实或主张(如统计数据、近期事件等)时,PAX 确保代理检索并引用可信、最新的外部来源。
伪流程:
- 如果主张不是常识 → 运行外部搜索 API
- 收集结果,将每条重要陈述映射到相关引用
- 在响应中插入结构化占位符(而非普通 URL 或原始脚注)
2. 概率置信度评分
PAX 不仅依赖人类直觉。它通过分析文本生成过程中的内部概率,衡量语言模型在生成答案每一部分时的“置信度”。这使系统能够为每个句子以及整体答案分配 数值信任分数。低置信度区域因此可自动标记。
伪流程:
- 对于每个响应 token/单词,获取模型对该选择的概率
- 在句子层面聚合
- 生成每句及整体的信任/可靠性分数
3. 观察一致性
PAX 不只接受单一答案,而是多次向 LLM 提出相同问题,利用嵌入(语义向量)衡量可行响应之间的一致性与协同程度。
- 高度一致表明答案稳健/稳定
- 响应差异大是警示信号:可能存在风险或歧义
伪流程:
- 多次向 LLM 发送同一问题;收集响应
- 计算输出之间的语义相似度分数
- 为用户报告一个“连贯性分数”
4. 自我评估
PAX 可选地让另一个 LLM(或模型集合)审查整个交互、引用和概率分数,并给出最终判定,既以数值(0-1)呈现,也提供叙述性解释。这为自我反思增添了元层。
伪流程:
- 将对话/报告输入评估代理(不同模型)
- 代理批评事实性、连贯性、引用完整性和置信度
- 输出最终信任分数并附带审计解释
交互流程
PAX 的交互流程如下:
- 用户发送提示。
- PAX 代理处理提示,必要时调用外部 API,并构建带结构化引用的响应。
- 系统:
- 为每条陈述分配信任/置信度分数
- 记录哪些部分由哪些证据支持
- 可选地生成自我反思的摘要和信任分数
最终得到的是一个高度透明的答案,附带数值分数和链接引用,以及所有支撑数据的可审计记录。
灵感来源
PAX 的实现方法深受 CleanLabs 的工作启发。特别是其在此处详细阐述的评分算法/方法 HERE。在该算法/方法中,利用了以下要素:
-
自我反思:让 LLM 明确对响应进行评分,并明确说明该响应看起来有多可信。
-
概率预测:即“在基于请求(自回归逐 token)生成响应时,考虑 LLM 为每个 token 分配的概率”。
-
观察一致性:该评分过程让 LLM 概率性地生成多个它认为可能好的响应,并衡量这些响应彼此之间(或相对于给定响应)的矛盾程度。
为什么这很重要?
传统的 LLM 部署可能会产生幻觉事实或提供过时但看似可信的错误信息。对于关键任务——研究、医疗、法律和技术咨询——不可验证的 AI 绝对不够。
PAX 旨在让 AI 的 信任 可度量、可解释。其方法:
- 要求对非平凡主张提供“展示过程”的证据。
- 量化对每个输出应赋予的置信度。
- 让用户审计并理解为何某个答案应(或不应)被信任。
研究现状与后续计划
PAX 目前正作为 Osgil 私人研究项目 积极开发 中。关键关注点包括:
- 降低外部搜索和评分的延迟。
- 实验用户感知与自动化信任分数的关系。
- 为科学、新闻和监管等领域构建专用插件。
- 为开放研究准备基准数据集并可能发布。
结束语
PAX 致力于将 LLM 从“黑箱式的似是而非生成器”转变为 透明、可引用、数值可信赖的助手,这对于现实世界的高风险任务至关重要。
如果您对合作、审计或讨论可信生成式 AI 的未来感兴趣,请联系。感谢阅读!