PAX를 활용한 신뢰할 수 있는 AI
배경
PAX(능동적 모범 신뢰성을 위한 에이전트, Proactive Agent for eXemplary Trustworthiness)는 자율 사이버보안 침투 테스트를 목표로 했던 이전 프로젝트 TARS에서 크게 방향을 전환하면서 시작되었습니다. TARS를 개발하던 중, 실용적이고 신뢰할 수 있는 AI 에이전트의 가장 큰 장벽 중 하나는 단순한 작업 자동화가 아니라 AI가 생성한 응답의 신뢰성을 확립하는 것이라는 점이 분명해졌습니다. 특히 그 출력이 막대한 결과를 초래할 수 있는 현실 세계의 의사결정에 영향을 미칠 수 있을 때는 더욱 그렇습니다.
TARS로 사이버보안 침투 테스트 작업을 단순히 자동화하는 대신, 저는 근본적인 문제를 해결하고 싶었습니다: LLM이 말하는 것을 우리가 어떻게 신뢰할 수 있는지 어떻게 알 수 있을까?
TARS는 제가 공동 창업한 첫 스타트업 Osgil을 위한 MVP로 개발되었습니다. 우리의 목표는 AI 에이전트를 사용해 사이버보안 침투 테스트를 자동화하는 것이었습니다. TARS 덕분에 우리는 Forum Ventures 액셀러레이터로부터 프리시드 자금을 확보할 수 있었습니다. 그러나 방위 및 사이버보안 회사들과 접촉했을 때, 우리는 그런 조직들이 침투 테스트와 같은 중요한 작업을 수행하고 보고하는 데 AI 에이전트를 신뢰하지 않는다는 사실을 발견했습니다. 또한 거의 모든 회사는 일이 잘못될 경우 책임을 떠넘길 사람을 두기 위해 주로 사이버보안 회사와 거래하길 원했습니다. 기본적으로 이들 회사의 의사결정자들은 어쩔 수 없는 경우가 아니면 보안에 관심이 없었고, 관심을 가질 때조차도 무언가 잘못될 경우를 대비한 일종의 보험으로서 책임을 떠넘길 대상을 두는 것이 기준의 일부였습니다. 2024년 말 기준으로 자동화된 AI 기반 사이버 공격은 여전히 주요 우려 사항이 아니었기 때문에, 의사결정자들은 우리의 솔루션에 대한 실제 필요성을 느끼지 못했습니다. 이런 시장 수요 부족으로 인해 우리는 LLM 모델의 환각을 줄이는 데 집중하는 방향으로 전환했습니다. LLM의 신뢰성을 개선함으로써, 우리의 작업은 사이버보안을 넘어 미래의 다양한 AI 에이전트 응용 분야에 도움이 될 수 있다고 믿습니다.
트랜스포머 전설에서 얻은 영감
PAX라는 이름은 트랜스포머 세계관에 대한 오마주입니다. 상징적인 오토봇 리더 옵티머스 프라임이 되기 전, 캐릭터의 원래 이름은 Orion Pax였습니다. 가능성에서 책임으로의 이러한 변화라는 아이디어는, PAX의 사명인 원초적이고 인상적인 LLM 능력을 진정으로 신뢰할 수 있을 만큼 믿을 만한 것으로 전환하는 데 영감을 주었습니다.
프로젝트 비전
PAX는 체계적으로 다음을 수행하는 연구 에이전트이자 프레임워크입니다:
- 모든 LLM 응답의 신뢰성을 측정합니다.
- 환각과 근거 없는 진술을 줄입니다.
- 검증 가능한 출처에 대한 인용을 강제하고 추적합니다.
- 응답과 주장 모두를 점수화한 설명 가능한 구조화된 보고서를 제공합니다.
이 프로젝트의 목표는 LLM을 단지 그럴듯한 수준이 아니라 증명 가능하게 신뢰할 수 있도록 만들고, 위험과 신뢰도에 대한 투명한 지표를 제공하는 것입니다.
간단한 기본 데모
PAX의 작동 방식 개요
1. 강제된 출처 표기
사용자 쿼리마다 PAX는 프롬프트를 일반적 지식과 검증이 필요한 정보를 엄격히 구분하는 에이전트를 통해 전달합니다. 응답에 널리 알려진 상식으로 간주되지 않는 사실이나 주장(예: 통계, 최근 사건 등)이 포함되면, PAX는 에이전트가 신뢰할 수 있는 최신 외부 출처를 검색하고 참조하도록 보장합니다.
의사 프로세스:
- 주장이 일반적 지식이 아니면 → 외부 검색 API 실행
- 결과를 수집하고, 모든 중요한 진술을 관련 참고문헌에 매핑
- 응답에 구조화된 자리표시자를 삽입(단순 URL이나 원시 각주가 아님)
2. 확률적 신뢰도 점수화
PAX는 단지 인간의 직관에만 의존하지 않습니다. 텍스트 생성 중 사용된 내부 확률을 분석하여 언어 모델이 각 답변 부분을 생성할 때 얼마나 “확신”했는지를 측정합니다. 이를 통해 시스템은 각 문장과 전체 답변에 대해 숫자형 신뢰 점수를 부여할 수 있습니다. 따라서 신뢰도가 낮은 영역은 자동으로 표시할 수 있습니다.
의사 프로세스:
- 각 응답 토큰/단어마다, 해당 선택에 대한 모델의 확률을 가져옴
- 문장 단위로 집계
- 문장별 및 전체 신뢰/신뢰성 점수 생성
3. 관찰된 일관성
PAX는 한 번의 답을 받아들이는 대신, 임베딩(의미의 벡터 표현)을 사용하여 그럴듯한 응답들 간의 일치와 일관성을 측정하면서 LLM에 같은 질문을 여러 번 묻습니다.
- 일치도가 높다는 것은 답변이 견고/안정적임을 시사합니다
- 크게 달라지는 응답은 경고 신호입니다: 잠재적 위험 또는 모호성
의사 프로세스:
- 질문을 LLM에 여러 번 보내고 응답을 수집
- 출력 간 의미론적 유사도 점수 계산
- 사용자에게 “일관성 점수” 보고
4. 자기평가
PAX는 선택적으로 다른 LLM(또는 앙상블)에게 전체 상호작용, 인용, 확률 점수를 검토하게 하고, 숫자(0-1)와 서술적 설명의 형태로 자신의 최종 판단을 내리게 합니다. 이는 메타 수준의 자기성찰을 더합니다.
의사 프로세스:
- 대화/보고서를 평가 에이전트(다른 모델)에 입력
- 에이전트가 사실성, 일관성, 인용 무결성, 신뢰도를 비판
- 감사를 위한 설명과 함께 최종 신뢰 점수를 출력
상호작용 흐름
PAX의 상호작용 흐름은 다음과 같습니다:
- 사용자가 프롬프트를 보냅니다.
- PAX 에이전트가 프롬프트를 처리하고, 필요에 따라 외부 API를 조회한 뒤, 구조화된 출처 표기를 포함한 응답을 구성합니다.
- 시스템은:
- 진술별 신뢰/확신 점수를 할당합니다
- 어떤 부분이 어떤 증거로 뒷받침되는지 기록합니다
- 선택적으로 자기성찰적 요약과 신뢰 점수를 생성합니다
그 결과는 수치 점수와 연결된 참조를 갖춘 매우 투명한 답변이며, 모든 지원 데이터에 대한 감사 가능한 기록도 함께 제공됩니다.
영감
PAX를 작동시키는 데 사용된 방법들은 CleanLabs의 작업에서 크게 영감을 받았습니다. 특히, 여기에 자세히 설명된 그들의 점수화 알고리즘/방법에서 영감을 받았습니다. 이 알고리즘/방법에서는 다음이 활용됩니다:
-
자기성찰: LLM에게 응답을 명시적으로 평가하고, 이 응답이 얼마나 자신 있게 좋은 것으로 보이는지를 명시적으로 말하도록 요청하는 과정입니다.
-
확률적 예측: 이는 “요청에 기반하여 LLM이 응답을 생성할 때(토큰별로 자기회귀적으로) 각 토큰에 부여하는 확률을 고려하는 과정"입니다.
-
관찰된 일관성: 이 점수화는 LLM이 좋을 것 같다고 생각하는 여러 그럴듯한 응답을 확률적으로 생성하고, 이러한 응답들이 서로(또는 주어진 응답과) 얼마나 모순되는지를 측정하는 과정입니다.
이것이 왜 중요한가?
전통적인 LLM 배포는 사실을 환각할 수 있고, 오래되었거나 그럴듯하지만 거짓인 정보를 제공할 수 있습니다. 연구, 의료, 법률, 기술 조언과 같은 미션 크리티컬 용도에는 검증 불가능한 AI는 충분하지 않습니다.
PAX는 AI에 대한 _신뢰_를 측정 가능하고 설명 가능하게 만드는 것을 목표로 합니다. 그 접근 방식은 다음과 같습니다:
- 단순하지 않은 주장에 대해 “작업 과정을 보여주는” 증거를 요구합니다.
- 각 출력에 어느 정도의 신뢰를 둘지 정량화합니다.
- 사용자가 답변을 왜 신뢰해야 하는지, 혹은 왜 신뢰하면 안 되는지를 감사하고 이해할 수 있게 합니다.
연구 상태 및 다음 단계
PAX는 현재 Osgil 산하의 비공개 연구 프로젝트로 활발히 개발 중입니다. 주요 중점 사항은 다음과 같습니다:
- 외부 검색 및 점수화의 지연 시간 감소.
- 사용자 인식과 자동화된 신뢰 점수 간의 차이 실험.
- 과학, 뉴스, 규제 용도를 위한 도메인별 플러그인 구축.
- 공개 연구 및 잠재적 공개를 위한 벤치마크 데이터셋 준비.
마무리
PAX는 LLM을 “블랙박스의 그럴듯한 생성기”에서 투명하고, 인용 가능하며, 수치적으로 신뢰할 수 있는 비서로 바꾸는 것입니다. 이는 현실 세계의 고위험 작업에 매우 중요합니다. 협업, 감사에 관심이 있거나 신뢰할 수 있는 생성형 AI의 미래에 대해 논의하고 싶으시다면, 언제든지 연락해 주세요. 읽어 주셔서 감사합니다!