具备 PAX 的可信 AI

背景

PAX（前瞻性卓越可信度智能体）最初是我早期项目 TARS 的一次重大转向，后者面向自主网络安全渗透测试。随着我开发 TARS，我逐渐清楚地意识到，实用且可靠的 AI 智能体面临的最大障碍之一，不仅仅是任务自动化，而是建立 AI 生成响应的可信度。尤其是当这些输出可能影响现实世界中的决策，而这些决策可能带来巨大的后果时。

与其仅仅用 TARS 自动化网络安全渗透测试任务，我更想解决一个根本性问题：我们如何知道我们可以信任 LLM 所说的话？

TARS 是为我共同创办的第一家创业公司 Osgil 开发的 MVP。我们的目标是使用 AI 智能体自动化网络安全渗透测试。TARS 使我们从 Forum Ventures 加速器获得了种子前融资。然而，当我们接触国防和网络安全公司时，我们发现这些组织并不信任 AI 智能体去执行和报告诸如渗透测试之类的关键任务。此外，他们几乎都主要希望与网络安全公司做生意，以便在事情变糟时有一个替罪羊。基本上，这些公司的决策者并不关心他们的安全，除非他们不得不关心；而当他们关心时，他们标准的一部分就是在出事时有一个替罪羊，作为一种保险。截至 2024 年底，自动化的、由 AI 驱动的网络攻击仍然不是主要担忧，因此决策者并没有看到我们解决方案的真正需求。由于缺乏市场需求，我们转向专注于减少 LLM 模型中的幻觉。通过提高 LLM 的可靠性，我们相信我们的工作可以使网络安全之外广泛的未来 AI 智能体应用受益。

来自变形金刚传说的一点灵感

PAX 这个名字致敬了 变形金刚 宇宙。在成为标志性的擎天柱（Optimus Prime）之前，这个角色最初的名字是 Orion Pax。这种从可能性到责任的转变理念，启发了 PAX 的使命：从原始而令人印象深刻的 LLM 能力，走向真正足以被依赖的可信之物。

项目愿景

PAX 是一个研究智能体和框架，系统地：

衡量任何 LLM 响应的可信度。
减少幻觉和缺乏依据的陈述。
强制并跟踪对可验证来源的归因。
提供可解释的、结构化的报告，对响应和声明进行评分。

这个项目的目标，是让 LLM 不仅看起来合理，而且在可证明的意义上可信，同时对风险和置信度提供透明的衡量。

简短基础演示

PAX 的工作方式概述

1. 强制归因

对于任何用户查询，PAX 会通过一个智能体来路由提示，该智能体严格区分常识与需要验证的信息。当响应包含不被广泛视为常识的事实或声明（例如统计数据、近期事件等）时，PAX 会确保智能体检索并引用可信的、最新的外部来源。

伪流程：

如果声明不是常识 → 运行外部搜索 API

收集结果，将每条重要陈述映射到相关参考

在响应中插入结构化占位符（而不是纯 URL 或原始脚注）

2. 概率置信度评分

PAX 不仅仅依赖人的直觉。它通过分析文本生成过程中使用的内部概率，来衡量语言模型在生成答案每一部分时有多“自信”。这使系统能够为每个句子以及整个答案分配一个数值化可信分数。因此，低置信度区域可以被自动标记。

伪流程：

对于响应中的每个 token/词，检索模型对此选择的概率

跨句子进行聚合

生成逐句以及整体的可信/可靠性评分

3. 观察到的一致性

PAX 不接受单一答案，而是使用嵌入（意义的向量表示）让 LLM 多次回答同一个问题，以衡量多个看似合理的响应之间的一致性与一致程度。

高度一致表明答案是稳健/稳定的
差异很大的响应是警示信号：可能存在风险或歧义

伪流程：

多次将问题发送给 LLM；收集响应

计算输出之间的语义相似度分数

向用户报告一个“一致性分数”

4. 自我评估

PAX 可选择让另一个 LLM（或模型集成）审查整个交互、引用和概率分数，并给出它自己的最终裁定，既包括一个数值（0-1），也包括叙述性解释。这增加了一层元自省。

伪流程：

将对话/报告输入到一个评估智能体（不同模型）

智能体批评事实性、一致性、引用完整性和置信度

输出带有解释的最终可信分数，以便审计

交互流程

PAX 的交互流程如下：

用户发送提示。
PAX 智能体处理提示，按需调用外部 API，并构建带有结构化归因的响应。
系统：
- 为每条陈述分配可信/置信分数
- 记录哪些部分由哪些证据支持
- 可选地，生成自我反思摘要和可信分数

最终结果是一个高度透明的答案，带有数值分数和链接参考，以及一份可审计的全部支撑数据记录。

灵感来源

用于使 PAX 运作的方法，深受 CleanLabs 所做工作的启发。尤其是他们在这里详细说明的评分算法/方法。在这种算法/方法中，使用了以下内容：

自我反思：这是一个过程，在这个过程中，LLM 被要求明确地对响应进行评分，并明确说明这个响应看起来有多自信地优秀。
概率预测：这是“一个过程，在该过程中，我们考虑 LLM 在根据请求生成响应时分配给每个 token 的概率（以自回归方式逐个 token 生成）”。
观察到的一致性：这种评分是一个过程，在该过程中，LLM 以概率方式生成多个它认为可能不错的响应，我们衡量这些响应彼此之间（或与给定响应）的矛盾程度。

这为什么重要？

传统的 LLM 部署可能会编造事实，或提供过时但看似可信、实则错误的信息。对于研究、医疗、法律和技术建议等关键任务而言，不可验证的 AI 根本不够好。

PAX 旨在使 AI 中的信任变得可衡量且可解释。它的方法：

要求对非平凡声明提供“展示你的工作”式证据。
量化每个输出应被赋予多少置信度。
允许用户审计并理解为什么某个答案应该（或不应该）被信任。

研究状态与下一步

PAX 目前作为 Osgil 旗下的一个私人研究项目，处于积极开发中。重点包括：

降低外部搜索和评分的延迟。
试验用户感知与自动化可信分数之间的关系。
为科学、新闻和监管用途构建特定领域插件。
为开放研究和可能发布准备基准数据集。

结束语

PAX 的目标是将 LLM 从“黑箱式的合理生成器”转变为透明、可引用、并且在数值上可信的助手，这对于现实世界中的高风险任务至关重要。如果你有意合作、审计，或者想讨论可信生成式 AI 的未来，请联系我。感谢阅读！