AI Đáng Tin Cậy với PAX

Bối cảnh

PAX (Tác nhân Chủ động cho Độ Tin Cậy Gương Mẫu) bắt đầu như một bước chuyển lớn từ dự án trước đây của tôi, TARS, vốn nhằm vào việc tự động hóa kiểm thử xâm nhập an ninh mạng. Khi tôi phát triển TARS, rõ ràng rằng một trong những rào cản lớn nhất đối với các tác nhân AI thực tiễn và đáng tin cậy không chỉ là tự động hóa nhiệm vụ, mà là thiết lập độ tin cậy của một phản hồi do AI tạo ra. Đặc biệt khi những kết quả đó có thể ảnh hưởng đến các quyết định trong thế giới thực với hậu quả lớn.

Thay vì chỉ tự động hóa các nhiệm vụ kiểm thử xâm nhập an ninh mạng với TARS, tôi muốn giải quyết một vấn đề cơ bản: Làm thế nào để biết chúng ta có thể tin vào những gì một LLM nói?

TARS được phát triển như một MVP cho công ty khởi nghiệp đầu tiên của tôi, Osgil, mà tôi đồng sáng lập. Mục tiêu của chúng tôi là tự động hóa kiểm thử xâm nhập an ninh mạng sử dụng các tác nhân AI. TARS đã giúp chúng tôi giành được vốn tiền hạt giống từ chương trình tăng tốc Forum Ventures. Tuy nhiên, khi tiếp cận các công ty an ninh quốc phòng và an ninh mạng, chúng tôi phát hiện ra rằng những tổ chức đó không tin tưởng các tác nhân AI để thực hiện và báo cáo các nhiệm vụ quan trọng như kiểm thử xâm nhập. Hơn nữa, hầu hết trong số họ chủ yếu muốn làm ăn với các công ty an ninh mạng để có một người chịu trách nhiệm nếu mọi việc đi sai hướng. Về cơ bản, những người ra quyết định ở các công ty này không quan tâm đến an ninh của họ trừ khi họ buộc phải làm, và khi họ làm, một phần tiêu chí của họ là có một người chịu trách nhiệm nếu có điều gì đó sai sót, như một hình thức bảo hiểm. Tính đến cuối năm 2024, các cuộc tấn công mạng tự động do AI điều khiển vẫn chưa là mối quan ngại lớn, vì vậy những người ra quyết định không thấy nhu cầu thực sự cho giải pháp của chúng tôi. Do thiếu nhu cầu thị trường này, chúng tôi chuyển hướng tập trung vào việc giảm các thông tin bịa đặt trong các mô hình LLM. Bằng cách cải thiện độ tin cậy của LLM, chúng tôi tin rằng công việc của mình có thể mang lại lợi ích cho nhiều ứng dụng tác nhân AI trong tương lai ngoài lĩnh vực an ninh mạng.

Một gợi ý từ truyền thuyết Transformers

Tên PAX là một lời gợi nhắc tới vũ trụ Transformers. Trước khi trở thành biểu tượng Optimus Prime, tên ban đầu của nhân vật là Orion Pax. Ý tưởng chuyển đổi này, từ khả năng sang trách nhiệm, đã truyền cảm hứng cho sứ mệnh của PAX là chuyển từ năng lực thô sơ, ấn tượng của LLM sang một thứ đủ đáng tin cậy để có thể thực sự dựa vào.

Tầm nhìn dự án

PAX là một tác nhân nghiên cứu và khung làm việc hệ thống hóa để:

Đo lường độ tin cậy của bất kỳ phản hồi LLM nào.
Giảm các thông tin bịa đặt và các tuyên bố không có cơ sở.
Ép buộc và theo dõi việc trích dẫn đến các nguồn có thể xác minh.
Cung cấp các báo cáo có thể giải thích, có cấu trúc chấm điểm cả phản hồi lẫn các tuyên bố.

Mục tiêu của dự án này là làm cho LLM không chỉ có vẻ hợp lý, mà là có thể chứng minh được độ tin cậy, với các phép đo rủi ro và độ tự tin minh bạch.

Demo Nhanh & Cơ Bản

Tổng quan về cách PAX hoạt động

1. Bắt buộc trích dẫn nguồn

Với bất kỳ truy vấn người dùng nào, PAX chuyển prompt qua một tác nhân phân biệt nghiêm ngặt giữa kiến thức chung và thông tin cần xác minh. Khi phản hồi chứa các dữ kiện hoặc tuyên bố không được coi là kiến thức chung rộng rãi (chẳng hạn như thống kê, sự kiện gần đây, v.v.), PAX đảm bảo tác nhân truy xuất và tham chiếu đến các nguồn bên ngoài đáng tin cậy, cập nhật.

Quy trình giả định:

Nếu tuyên bố không phải là kiến thức chung → chạy các API tìm kiếm bên ngoài

Thu thập kết quả, ánh xạ mọi phát biểu quan trọng tới các tham chiếu liên quan

Chèn các chỗ giữ có cấu trúc trong phản hồi (không phải URL trần hoặc chú thích chân trang thô)

2. Chấm điểm độ tin cậy xác suất

PAX không chỉ dựa vào trực giác của con người. Nó đo lường mức “độ tự tin” mà mô hình ngôn ngữ có khi tạo mỗi phần của câu trả lời, bằng cách phân tích xác suất nội tại được sử dụng trong quá trình sinh văn bản. Điều này cho phép hệ thống gán một điểm tin cậy số cho mỗi câu, và cho câu trả lời tổng thể. Những khu vực có độ tự tin thấp do đó có thể tự động được đánh dấu.

Quy trình giả định:

Với mỗi token/từ phản hồi, lấy xác suất mà mô hình gán cho lựa chọn đó

Tổng hợp qua các câu

Tạo điểm tin cậy/độ đáng tin cậy theo câu và tổng thể

3. Tính nhất quán quan sát được

Thay vì chấp nhận một câu trả lời duy nhất, PAX hỏi LLM cùng một câu hỏi nhiều lần, sử dụng embeddings (các biểu diễn vectơ của ý nghĩa) để đo mức đồng thuận và tính nhất quán giữa các phản hồi khả dĩ.

Độ đồng thuận cao cho thấy câu trả lời ổn định/vững chắc
Những phản hồi khác nhau nhiều là dấu hiệu cảnh báo: có thể rủi ro hoặc mơ hồ

Quy trình giả định:

Gửi câu hỏi tới LLM nhiều lần; thu thập các phản hồi

Tính điểm tương đồng ngữ nghĩa giữa các đầu ra

Báo cáo “điểm nhất quán” cho người dùng

4. Tự đánh giá

PAX tùy chọn yêu cầu một LLM khác (hoặc một tổ hợp mô hình) xem xét toàn bộ tương tác, trích dẫn, và điểm xác suất, và đưa ra phán quyết cuối cùng của riêng nó, cả dưới dạng số (0-1) và giải thích bằng đoạn văn. Điều này thêm một lớp meta tự phản chiếu.

Quy trình giả định:

Đưa cuộc hội thoại/báo cáo cho một tác nhân đánh giá (mô hình khác)

Tác nhân phê bình tính xác thực, tính mạch lạc, tính toàn vẹn của trích dẫn, và độ tự tin

Xuất một điểm tin cậy cuối cùng kèm giải thích để phục vụ kiểm toán

Luồng tương tác

Luồng tương tác của PAX diễn ra như sau:

Người dùng gửi một prompt.
Tác nhân PAX xử lý prompt, tham khảo các API bên ngoài khi cần, và xây dựng phản hồi với các trích dẫn có cấu trúc.
Hệ thống:
- Gán điểm tin cậy/độ tự tin cho từng phát biểu
- Ghi lại những phần nào được hỗ trợ bởi bằng chứng nào
- Tùy chọn, tạo một bản tóm tắt tự phản chiếu và điểm tin cậy

Kết quả là một câu trả lời rất minh bạch với một điểm số số và các tham chiếu liên kết, cùng với hồ sơ có thể kiểm toán của tất cả dữ liệu hỗ trợ.

Cảm hứng

Các phương pháp được sử dụng để làm PAX hoạt động được truyền cảm hứng nặng nề từ các công trình do CleanLabs thực hiện. Cụ thể, thuật toán/phương pháp chấm điểm của họ như chi tiết TẠI ĐÂY. Trong thuật toán/phương pháp này, các điều sau được sử dụng:

Tự phản chiếu: Đây là một quá trình trong đó LLM được yêu cầu đánh giá rõ ràng phản hồi và nêu rõ mức độ tự tin rằng phản hồi đó tốt đến mức nào.
Dự đoán xác suất: Đây là “một quá trình trong đó chúng ta xem xét các xác suất theo từng token mà một LLM gán khi nó tạo phản hồi dựa trên yêu cầu (tự hồi quy, token từng token)”.
Tính nhất quán quan sát được: Việc chấm điểm này là một quá trình trong đó LLM tạo xác suất nhiều phản hồi khả dĩ mà nó cho là có thể tốt, và chúng tôi đo mức độ mâu thuẫn giữa những phản hồi này với nhau (hoặc với một phản hồi nhất định).

Tại sao điều này quan trọng?

Triển khai LLM truyền thống có thể tạo ra các thông tin bịa đặt hoặc cung cấp thông tin lỗi thời/hợp lý nhưng sai. Đối với các ứng dụng quan trọng—nghiên cứu, y tế, pháp lý và tư vấn kỹ thuật—AI không thể xác minh được đơn giản là không đủ tốt.

PAX nhằm làm cho niềm tin vào AI có thể đo lường và giải thích được. Cách tiếp cận của nó:

Yêu cầu bằng chứng “hiển thị cách làm” cho các tuyên bố không tầm thường.
Định lượng mức độ tin cậy nên đặt vào từng đầu ra.
Cho phép người dùng kiểm toán và hiểu tại sao một câu trả lời nên (hoặc không nên) được tin tưởng.

Tình trạng nghiên cứu & Các bước tiếp theo

PAX hiện đang trong giai đoạn phát triển tích cực như một dự án nghiên cứu nội bộ dưới mái nhà của Osgil. Các trọng tâm chính bao gồm:

Giảm độ trễ của các truy vấn tìm kiếm bên ngoài và việc chấm điểm.
Thử nghiệm với nhận thức của người dùng so với các điểm tin cậy tự động.
Xây dựng plugin chuyên ngành cho khoa học, tin tức và ứng dụng quy định.
Chuẩn bị các bộ dữ liệu chuẩn hóa cho nghiên cứu mở và khả năng phát hành.

Lời cuối

PAX là về việc biến LLM từ “hộp đen tạo ra những kết quả có vẻ hợp lý” thành các trợ lý minh bạch, có thể trích dẫn và có thể tin cậy về mặt số, điều này rất quan trọng cho các nhiệm vụ thật, có rủi ro cao. Nếu bạn quan tâm hợp tác, kiểm toán, hoặc muốn thảo luận về tương lai của AI tạo sinh đáng tin cậy, hãy liên hệ. Cảm ơn bạn đã đọc!