可信赖的人工智能与PAX

背景

PAX（积极代理以示范可信赖性）是我早期项目TARS的重大转型，TARS的目标是自主网络安全渗透测试。在开发TARS的过程中，显而易见，实用、可靠的人工智能代理面临的最大障碍之一不仅仅是任务自动化，而是建立人工智能生成响应的可信赖性。尤其是当这些输出可能影响现实世界的决策时，这些决策可能会产生巨大的后果。

我希望不仅仅是用TARS自动化网络安全渗透测试任务，而是解决一个根本性的问题：我们如何知道可以信任LLM所说的内容？

TARS是我共同创办的第一家初创公司Osgil的MVP。我们的目标是利用人工智能代理自动化网络安全渗透测试。TARS使我们能够从Forum Ventures加速器获得种子前融资。然而，当我们接触防御和网络安全公司时，我们发现这些组织并不信任人工智能代理执行和报告诸如渗透测试等关键任务。此外，几乎所有公司主要希望与网络安全公司合作，以便在事情出错时有一个替罪羊。基本上，这些公司的决策者并不关心他们的安全，除非他们必须这样做，而当他们这样做时，他们的部分标准是有一个替罪羊，以防万一出现问题，作为一种保险。截至2024年底，自动化的人工智能网络攻击仍然不是一个主要问题，因此决策者没有看到我们解决方案的真正需求。由于缺乏市场需求，我们转向专注于减少LLM模型中的幻觉。通过提高LLM的可靠性，我们相信我们的工作可以使未来的人工智能代理应用受益，超越网络安全领域。

来自变形金刚传说的启示

PAX这个名字是对_变形金刚_宇宙的致敬。在成为标志性的擎天柱之前，这个角色的原名是Orion Pax。这种从可能性到责任的转变的理念激励了PAX的使命，即从原始、令人印象深刻的LLM能力转变为足够可信赖的东西，以便真正依赖。

项目愿景

PAX是一个研究代理和框架，系统地：

测量任何LLM响应的可信赖性。
减少幻觉和不支持的陈述。
强制并跟踪对可验证来源的引用。
提供可解释的、结构化的报告，对响应和声明进行评分。

该项目的目标是使LLM不仅仅是可信的，而是_可证明_可信的，具有透明的风险和信心度量。

快速基础演示

PAX工作原理概述

1. 强制引用

对于任何用户查询，PAX通过一个代理严格区分常识和需要验证的信息。当响应包含不被广泛认为是常识的事实或声明（例如统计数据、最近事件等）时，PAX确保代理检索并引用可信的、最新的外部来源。

伪过程：

如果声明不是常识 → 运行外部搜索API

收集结果，将每个重要陈述映射到相关引用

在响应中插入结构化占位符（而不是普通的URL或原始脚注）

2. 概率信心评分

PAX不仅依赖于人类直觉。它通过分析文本生成过程中使用的内部概率，测量语言模型在生成每个部分答案时的“信心”。这使得系统能够为每个句子以及整个答案分配一个数值信任分数。因此，低信心区域可以自动标记。

伪过程：

对于每个响应标记/单词，检索模型对该选择的概率

在句子之间进行汇总

生成每句和整体的信任/可靠性评分

3. 观察一致性

PAX不是接受一个答案，而是多次询问LLM同样的问题，使用嵌入（意义的向量表示）来测量合理响应之间的一致性和一致性。

高一致性表明答案是稳健/稳定的
广泛变化的响应是警告信号：可能的风险或模糊性

伪过程：

多次将问题发送给LLM；收集响应

计算输出之间的语义相似性评分

为用户报告“一致性评分”

4. 自我评估

PAX可选择要求另一个LLM（或集成体）审查整个交互、引用和概率评分，并给出自己的最终裁决，既以数字（0-1）形式，也以叙述解释形式。这增加了自我反思的元层。

伪过程：

将对话/报告提供给评估代理（不同模型）

代理批评事实性、一致性、引用完整性和信心

输出最终信任分数及审计解释

交互流程

PAX的交互流程如下：

用户发送提示。
PAX代理处理提示，根据需要咨询外部API，并构建带有结构化引用的响应。
系统：
- 为每个陈述分配信任/信心评分
- 记录哪些部分由哪些证据支持
- 可选择生成自我反思的总结和信任分数

结果是一个高度透明的答案，带有数值评分和链接引用，以及所有支持数据的可审计记录。

灵感

使PAX运作的方法深受CleanLabs的工作启发。特别是，他们的评分算法/方法详见此处。在这个算法/方法中，利用了以下内容：

自我反思：这是一个过程，在这个过程中，LLM被要求明确评估响应，并明确说明这个响应看起来有多自信。
概率预测：这是“一个过程，在这个过程中，我们考虑LLM在根据请求生成响应时分配的每个标记的概率（自回归地逐标记生成）”。
观察一致性：这个评分是一个过程，在这个过程中，LLM概率性地生成多个它认为可能好的合理响应，我们测量这些响应之间的矛盾程度（或给定响应的矛盾程度）。

这为什么重要？

传统的LLM部署可能会幻觉事实或提供过时的/可信但错误的信息。对于任务关键的用途——研究、医疗、法律和技术建议——不可验证的人工智能显然是不够的。

PAX旨在使对人工智能的_信任_可测量和可解释。它的方法：

要求对非平凡声明提供“展示工作”证据。
量化对每个输出的信心程度。
允许用户审计和理解为什么一个答案应该（或不应该）被信任。

研究状态与下一步

PAX目前正在作为Osgil旗下的积极开发的私人研究项目。关键关注点包括：

减少外部搜索和评分的延迟。
实验用户感知与自动信任评分之间的差异。
为科学、新闻和监管用途构建特定领域的插件。
准备基准数据集以供开放研究和可能发布。

最后的话

PAX旨在将LLM从“黑箱可信生成器”转变为透明、可引用和数值可信的助手，这对于现实世界中的高风险任务至关重要。如果您对合作、审计感兴趣，或想讨论可信生成AI的未来，请与我们联系。感谢您的阅读！