팩스로 신뢰할 수 있는 AI
배경
팩스(PAX, Proactive Agent for eXemplary Trustworthiness)는 본래 자율 사이버보안 침투 테스트를 목표로 했던 제 이전 프로젝트인 타르스에서 대대적으로 전환하면서 시작했습니다. 타르스를 개발하면서 실용적이고 신뢰할 수 있는 AI 에이전트에 대한 가장 큰 장벽 중 하나는 단순한 작업 자동화가 아니라 AI가 생성한 응답의 신뢰성을 확립하는 것이라는 점이 분명해졌습니다. 특히 그러한 출력이 현실 세계의 의사결정에 영향을 미쳐 막대한 결과를 초래할 수 있을 때 더욱 그러했습니다.
타르스는 제가 공동창업한 첫 스타트업인 오스길을 위해 MVP로 개발되었습니다. 우리의 목표는 AI 에이전트를 사용해 사이버보안 침투 테스트를 자동화하는 것이었습니다. 타르스는 Forum Ventures 액셀러레이터로부터 프리시드 자금을 확보할 수 있게 해주었습니다. 그러나 국방 및 사이버보안 업계에 접근했을 때, 그 조직들은 침투 테스트와 같은 중요한 작업을 수행하고 보고할 AI 에이전트를 신뢰하지 않는다는 사실을 알게 되었습니다. 또한 거의 모든 조직은 문제가 생길 경우 책임을 물릴 대상(대리인)을 확보하려는 목적에서 사이버보안 회사와 주로 거래하기를 원했습니다. 기본적으로 이러한 회사의 의사결정자들은 보안에 대해 자발적으로 신경 쓰지 않았고, 필요할 때에는 문제가 생겼을 때 책임을 맡길 수 있는 대리인을 보험 형태로 확보하는 것을 기준으로 삼았습니다. 2024년 말 현재, 자동화된 AI 기반 사이버 공격은 여전히 주요 우려사항이 아니어서 의사결정자들은 우리의 솔루션에 대한 실제 필요성을 느끼지 못했습니다. 시장 수요 부족으로 인해 우리는 LLM 모델의 허위 생성(환각)을 줄이는 데 초점을 맞추는 쪽으로 전환했습니다. LLM 신뢰성을 향상시키면 사이버보안을 넘어 광범위한 미래 AI 에이전트 응용에 이익이 될 것이라고 믿습니다.
트랜스포머스 전설에서의 힌트
이름 팩스는 트랜스포머 우주관에 대한 경의입니다. 상징적인 옵티머스 프라임이 되기 전, 그 캐릭터의 원래 이름은 오리온 팍스였습니다. 가능성에서 책임으로의 이 변형이라는 아이디어는 원시적이고 인상적인 LLM 능력에서 진정으로 의지할 수 있을 만큼 신뢰할 수 있는 무언가로 이동하려는 팩스의 사명에 영감을 주었습니다.
프로젝트 비전
팩스는 체계적으로 다음을 수행하는 연구 에이전트이자 프레임워크입니다:
- 모든 LLM 응답의 신뢰도를 측정합니다.
- 허위 생성 및 근거 없는 진술을 감소시킵니다.
- 검증 가능한 출처에 대한 귀속을 강제하고 추적합니다.
- 응답과 주장 모두를 점수화하는 설명 가능하고 구조화된 보고서를 제공합니다.
이 프로젝트의 목표는 LLM을 단순히 그럴듯하게 만드는 것이 아니라, 위험과 신뢰도의 투명한 척도를 통해 입증 가능하게 신뢰할 수 있게 만드는 것입니다.
빠르고 기본적인 데모
팩스 작동 개요
1. 귀속 강제화
사용자 쿼리에 대해, 팩스는 일반 지식과 검증이 필요한 정보를 엄격히 구분하는 에이전트를 통해 프롬프트를 라우팅합니다. 응답에 통계나 최신 사건과 같이 널리 알려진 일반 지식으로 간주되지 않는 사실이나 주장이 포함될 경우, 팩스는 에이전트가 신뢰할 수 있고 최신의 외부 출처를 검색하고 참조하도록 보장합니다.
의사-프로세스:
- 주장이 일반 지식이 아니면 → 외부 검색 API 실행
- 결과 수집, 모든 중요한 진술을 관련 참조에 매핑
- 응답에 구조화된 플레이스홀더 삽입(단순 URL이나 원시 각주 아님)
2. 확률적 신뢰도 점수화
팩스는 단지 인간의 직관에만 의존하지 않습니다. 텍스트 생성 중 사용되는 내부 확률을 분석하여 언어 모델이 답변의 각 부분을 생성할 때 얼마나 “자신 있었는지”를 측정합니다. 이를 통해 시스템은 각 문장과 전체 답변에 대해 숫자형 신뢰 점수를 할당할 수 있습니다. 신뢰도가 낮은 부분은 자동으로 표시될 수 있습니다.
의사-프로세스:
- 응답의 각 토큰/단어에 대해, 모델이 그 선택에 부여한 확률을 검색
- 문장 단위로 집계
- 문장별 및 전체 신뢰/신뢰성 점수 생성
3. 관찰된 일관성
하나의 답변을 수용하는 대신, 팩스는 임베딩(의미의 벡터 표현)을 사용하여 가능한 응답들 사이의 합의와 일관성을 측정하면서 LLM에 같은 질문을 여러 번 묻습니다.
- 높은 합의는 답변이 견고/안정적임을 시사
- 광범위한 변동이 있는 응답은 경고 신호: 잠재적 위험 또는 모호성
의사-프로세스:
- 질문을 LLM에 여러 번 전송; 응답 수집
- 출력 간의 의미적 유사도 점수 계산
- 사용자에게 “일관성 점수” 보고
4. 자기평가
팩스는 선택적으로 다른 LLM(또는 앙상블)에 전체 상호작용, 인용 및 확률 점수를 검토하고 자체 최종 평결을 수치(0-1)와 서술형 설명으로 제공하도록 요청합니다. 이는 자기 성찰의 메타 레이어를 추가합니다.
의사-프로세스:
- 대화/보고서를 평가 에이전트(다른 모델)에 전달
- 에이전트가 사실성, 일관성, 인용 무결성 및 신뢰도를 비판
- 감사 가능성을 위한 설명과 함께 최종 신뢰 점수 출력
상호작용 흐름
팩스의 상호작용 흐름은 다음과 같습니다:
- 사용자가 프롬프트를 보냅니다.
- 팩스 에이전트가 프롬프트를 처리하고, 필요시 외부 API를 조회하며 구조화된 귀속을 포함한 응답을 작성합니다.
- 시스템은:
- 진술별 신뢰/신뢰도 점수 할당
- 어떤 부분이 어떤 증거로 뒷받침되는지 기록
- 선택적으로 자기성찰 요약 및 신뢰 점수 생성
그 결과는 숫자 점수와 연결된 참조, 그리고 모든 지원 데이터를 감사할 수 있는 기록과 함께 매우 투명한 답변입니다.
영감
팩스를 작동시키기 위해 사용된 방법들은 클린랩스의 작업에 크게 영감을 받았습니다. 특히, 그들의 점수화 알고리즘/방법은 여기에 자세히 설명되어 있습니다. 이 알고리즘/방법에서는 다음이 활용됩니다:
-
자기성찰(Self-Reflection): LLM에게 응답을 명시적으로 평가하고 이 응답이 얼마나 자신 있게 좋게 보이는지 명시적으로 서술하도록 요구하는 과정입니다.
-
확률적 예측(Probabilistic Prediction): 이는 요청에 따라 LLM이 응답을 생성할 때 각 토큰에 대해 부여하는 확률을 고려하는 과정입니다(자동회귀적으로 토큰 단위로).
-
관찰된 일관성(Observed Consistency): 이 점수화는 LLM이 여러 개의 그럴듯한 응답을 확률적으로 생성하고, 이러한 응답들이 서로(또는 주어진 응답과) 얼마나 모순되는지를 측정하는 과정입니다.
이것이 왜 중요한가?
전통적인 LLM 배포는 사실을 허위로 생성하거나 오래되었거나 그럴듯하지만 잘못된 정보를 제공할 수 있습니다. 연구, 의료, 법률 및 기술 자문과 같은 미션 크리티컬 용도의 경우—검증 불가능한 AI는 단순히 충분하지 않습니다.
팩스의 목표는 AI에 대한 _신뢰_를 측정 가능하고 설명 가능하게 만드는 것입니다. 그 접근법은 다음과 같습니다:
- 비사소한 주장에 대해 “과정 보여주기” 증거를 요구합니다.
- 모든 출력에 얼마나 신뢰를 두어야 하는지를 정량화합니다.
- 사용자가 답변을 감사하고 왜 신뢰해야(또는 신뢰하지 말아야) 하는지 이해할 수 있게 합니다.
연구 현황 및 향후 계획
팩스는 현재 오스길 산하의 비공개 연구 프로젝트로서 활발히 개발 중입니다. 주요 초점은 다음과 같습니다:
- 외부 검색 및 점수화의 지연 시간(latency) 감소
- 사용자 인식과 자동화된 신뢰 점수 간의 실험
- 과학, 뉴스 및 규제용 도메인 특화 플러그인 구축
- 공개 연구 및 가능한 공개를 위한 벤치마크 데이터셋 준비
맺는 말
팩스는 LLM을 “블랙박스처럼 그럴듯한 생성기”에서 투명하고 인용 가능하며 수치적으로 신뢰할 수 있는 어시스턴트로 변화시키는 데 관한 것입니다. 이는 현실 세계의 고위험 작업에 필수적입니다. 협업, 감사 또는 신뢰할 수 있는 생성 AI의 미래에 대해 논의하고 싶다면 연락해 주세요. 읽어주셔서 감사합니다!