具备 PAX 的可信 AI
背景
PAX(前瞻性卓越可信度智能体)最初是我早期项目 TARS 的一次重大转向,后者面向自主网络安全渗透测试。随着我开发 TARS,我逐渐清楚地意识到,实用且可靠的 AI 智能体面临的最大障碍之一,不仅仅是任务自动化,而是建立 AI 生成响应的可信度。尤其是当这些输出可能影响现实世界中的决策,而这些决策可能带来巨大的后果时。
与其仅仅用 TARS 自动化网络安全渗透测试任务,我更想解决一个根本性问题:我们如何知道我们可以信任 LLM 所说的话?
TARS 是为我共同创办的第一家创业公司 Osgil 开发的 MVP。我们的目标是使用 AI 智能体自动化网络安全渗透测试。TARS 使我们从 Forum Ventures 加速器获得了种子前融资。然而,当我们接触国防和网络安全公司时,我们发现这些组织并不信任 AI 智能体去执行和报告诸如渗透测试之类的关键任务。此外,他们几乎都主要希望与网络安全公司做生意,以便在事情变糟时有一个替罪羊。基本上,这些公司的决策者并不关心他们的安全,除非他们不得不关心;而当他们关心时,他们标准的一部分就是在出事时有一个替罪羊,作为一种保险。截至 2024 年底,自动化的、由 AI 驱动的网络攻击仍然不是主要担忧,因此决策者并没有看到我们解决方案的真正需求。由于缺乏市场需求,我们转向专注于减少 LLM 模型中的幻觉。通过提高 LLM 的可靠性,我们相信我们的工作可以使网络安全之外广泛的未来 AI 智能体应用受益。
来自变形金刚传说的一点灵感
PAX 这个名字致敬了 变形金刚 宇宙。在成为标志性的擎天柱(Optimus Prime)之前,这个角色最初的名字是 Orion Pax。这种从可能性到责任的转变理念,启发了 PAX 的使命:从原始而令人印象深刻的 LLM 能力,走向真正足以被依赖的可信之物。
项目愿景
PAX 是一个研究智能体和框架,系统地:
- 衡量任何 LLM 响应的可信度。
- 减少幻觉和缺乏依据的陈述。
- 强制并跟踪对可验证来源的归因。
- 提供可解释的、结构化的报告,对响应和声明进行评分。
这个项目的目标,是让 LLM 不仅看起来合理,而且在可证明的意义上可信,同时对风险和置信度提供透明的衡量。
简短基础演示
PAX 的工作方式概述
1. 强制归因
对于任何用户查询,PAX 会通过一个智能体来路由提示,该智能体严格区分常识与需要验证的信息。当响应包含不被广泛视为常识的事实或声明(例如统计数据、近期事件等)时,PAX 会确保智能体检索并引用可信的、最新的外部来源。
伪流程:
- 如果声明不是常识 → 运行外部搜索 API
- 收集结果,将每条重要陈述映射到相关参考
- 在响应中插入结构化占位符(而不是纯 URL 或原始脚注)
2. 概率置信度评分
PAX 不仅仅依赖人的直觉。它通过分析文本生成过程中使用的内部概率,来衡量语言模型在生成答案每一部分时有多“自信”。这使系统能够为每个句子以及整个答案分配一个数值化可信分数。因此,低置信度区域可以被自动标记。
伪流程:
- 对于响应中的每个 token/词,检索模型对此选择的概率
- 跨句子进行聚合
- 生成逐句以及整体的可信/可靠性评分
3. 观察到的一致性
PAX 不接受单一答案,而是使用嵌入(意义的向量表示)让 LLM 多次回答同一个问题,以衡量多个看似合理的响应之间的一致性与一致程度。
- 高度一致表明答案是稳健/稳定的
- 差异很大的响应是警示信号:可能存在风险或歧义
伪流程:
- 多次将问题发送给 LLM;收集响应
- 计算输出之间的语义相似度分数
- 向用户报告一个“一致性分数”
4. 自我评估
PAX 可选择让另一个 LLM(或模型集成)审查整个交互、引用和概率分数,并给出它自己的最终裁定,既包括一个数值(0-1),也包括叙述性解释。这增加了一层元自省。
伪流程:
- 将对话/报告输入到一个评估智能体(不同模型)
- 智能体批评事实性、一致性、引用完整性和置信度
- 输出带有解释的最终可信分数,以便审计
交互流程
PAX 的交互流程如下:
- 用户发送提示。
- PAX 智能体处理提示,按需调用外部 API,并构建带有结构化归因的响应。
- 系统:
- 为每条陈述分配可信/置信分数
- 记录哪些部分由哪些证据支持
- 可选地,生成自我反思摘要和可信分数
最终结果是一个高度透明的答案,带有数值分数和链接参考,以及一份可审计的全部支撑数据记录。
灵感来源
用于使 PAX 运作的方法,深受 CleanLabs 所做工作的启发。尤其是他们在 这里 详细说明的评分算法/方法。在这种算法/方法中,使用了以下内容:
-
自我反思:这是一个过程,在这个过程中,LLM 被要求明确地对响应进行评分,并明确说明这个响应看起来有多自信地优秀。
-
概率预测:这是“一个过程,在该过程中,我们考虑 LLM 在根据请求生成响应时分配给每个 token 的概率(以自回归方式逐个 token 生成)”。
-
观察到的一致性:这种评分是一个过程,在该过程中,LLM 以概率方式生成多个它认为可能不错的响应,我们衡量这些响应彼此之间(或与给定响应)的矛盾程度。
这为什么重要?
传统的 LLM 部署可能会编造事实,或提供过时但看似可信、实则错误的信息。对于研究、医疗、法律和技术建议等关键任务而言,不可验证的 AI 根本不够好。
PAX 旨在使 AI 中的 信任 变得可衡量且可解释。它的方法:
- 要求对非平凡声明提供“展示你的工作”式证据。
- 量化每个输出应被赋予多少置信度。
- 允许用户审计并理解为什么某个答案应该(或不应该)被信任。
研究状态与下一步
PAX 目前作为 Osgil 旗下的一个私人研究项目,处于积极开发中。重点包括:
- 降低外部搜索和评分的延迟。
- 试验用户感知与自动化可信分数之间的关系。
- 为科学、新闻和监管用途构建特定领域插件。
- 为开放研究和可能发布准备基准数据集。
结束语
PAX 的目标是将 LLM 从“黑箱式的合理生成器”转变为透明、可引用、并且在数值上可信的助手,这对于现实世界中的高风险任务至关重要。如果你有意合作、审计,或者想讨论可信生成式 AI 的未来,请联系我。感谢阅读!