AI đáng tin cậy với PAX

Bối cảnh

PAX (Proactive Agent for eXemplary Trustworthiness) ra đời như một bước chuyển hướng lớn từ dự án trước đây của tôi, TARS, vốn nhắm đến kiểm thử xâm nhập an ninh mạng tự động. Khi tôi đang phát triển TARS, ngày càng rõ rằng một trong những rào cản lớn nhất đối với các tác nhân AI thực tiễn, đáng tin cậy không chỉ là tự động hóa tác vụ, mà còn là xác lập tính đáng tin cậy của một phản hồi do AI tạo ra. Đặc biệt là khi những đầu ra đó có thể ảnh hưởng đến các quyết định trong thế giới thực, vốn có thể kéo theo hậu quả rất lớn.

Thay vì chỉ tự động hóa các tác vụ kiểm thử xâm nhập an ninh mạng với TARS, tôi muốn giải quyết một vấn đề nền tảng: Làm sao chúng ta biết mình có thể tin vào những gì một LLM nói?

TARS được phát triển như một MVP cho công ty khởi nghiệp đầu tiên của tôi, Osgil, mà tôi là đồng sáng lập. Mục tiêu của chúng tôi là tự động hóa kiểm thử xâm nhập an ninh mạng bằng các tác nhân AI. TARS đã giúp chúng tôi giành được khoản tài trợ pre-seed từ chương trình tăng tốc Forum Ventures. Tuy nhiên, khi chúng tôi tiếp cận các công ty quốc phòng và an ninh mạng, chúng tôi phát hiện rằng các tổ chức đó không tin các tác nhân AI có thể thực hiện và báo cáo những nhiệm vụ quan trọng như kiểm thử xâm nhập. Ngoài ra, gần như tất cả họ chủ yếu muốn làm ăn với các công ty an ninh mạng để có một người chịu tội trong trường hợp mọi chuyện xấu đi. Về cơ bản, những người ra quyết định ở các công ty này không quan tâm đến an ninh của họ trừ khi họ buộc phải quan tâm, và khi họ quan tâm thì một phần tiêu chí của họ là phải có một người chịu tội trong trường hợp có sự cố, như một hình thức bảo hiểm. Tính đến cuối năm 2024, các cuộc tấn công mạng tự động được hỗ trợ bởi AI vẫn chưa phải là mối lo ngại lớn, nên những người ra quyết định không thấy nhu cầu thực sự đối với giải pháp của chúng tôi. Do thiếu nhu cầu thị trường này, chúng tôi đã chuyển hướng tập trung vào việc giảm ảo giác trong các mô hình LLM. Bằng cách cải thiện độ tin cậy của LLM, chúng tôi tin rằng công việc của mình có thể mang lại lợi ích cho nhiều ứng dụng tác nhân AI tương lai, vượt ra ngoài an ninh mạng.

Một lời gợi nhắc từ truyền thuyết Transformers

Cái tên PAX là một sự gợi nhắc đến vũ trụ Transformers. Trước khi trở thành Optimus Prime mang tính biểu tượng, tên gốc của nhân vật là Orion Pax. Ý tưởng về sự chuyển hóa này, từ tiềm năng sang trách nhiệm, đã truyền cảm hứng cho sứ mệnh của PAX: chuyển từ năng lực LLM thô, ấn tượng sang thứ đủ đáng tin cậy để thực sự có thể dựa vào.

Tầm nhìn dự án

PAX là một tác nhân nghiên cứu và khung làm việc, có chức năng một cách hệ thống:

Đo lường mức độ đáng tin cậy của bất kỳ phản hồi LLM nào.
Giảm ảo giác và các tuyên bố không có căn cứ.
Buộc và theo dõi việc ghi công đến các nguồn có thể xác minh.
Cung cấp các báo cáo có cấu trúc, có thể giải thích, chấm điểm cả phản hồi lẫn các tuyên bố.

Mục tiêu của dự án này là làm cho LLM không chỉ hợp lý bề ngoài, mà còn có thể chứng minh được là đáng tin cậy, với các thước đo minh bạch về rủi ro và độ tự tin.

Bản demo nhanh & cơ bản

Tổng quan về cách PAX hoạt động

1. Ghi công bắt buộc

Với bất kỳ truy vấn nào của người dùng, PAX định tuyến lời nhắc qua một tác nhân phân biệt nghiêm ngặt giữa kiến thức phổ thông và thông tin cần xác thực. Khi phản hồi chứa các sự kiện hoặc tuyên bố không được xem rộng rãi là kiến thức phổ thông (như số liệu thống kê, sự kiện gần đây, v.v.), PAX đảm bảo tác nhân truy xuất và tham chiếu đến các nguồn bên ngoài đáng tin cậy, cập nhật.

Quy trình giả:

Nếu tuyên bố không phải kiến thức phổ thông → chạy các API tìm kiếm bên ngoài

Thu thập kết quả, ánh xạ mọi câu quan trọng với các tham chiếu liên quan

Chèn các chỗ giữ chỗ có cấu trúc vào phản hồi (không phải các URL thô hoặc chú thích cuối trang thô)

2. Chấm điểm độ tự tin xác suất

PAX không chỉ dựa vào trực giác con người. Nó đo xem mô hình ngôn ngữ đã “tự tin” đến mức nào khi tạo ra từng phần của câu trả lời, bằng cách phân tích các xác suất nội tại được dùng trong quá trình sinh văn bản. Điều này cho phép hệ thống gán một điểm tin cậy số cho từng câu, và cho toàn bộ câu trả lời. Vì vậy, các phần có độ tự tin thấp có thể được tự động gắn cờ.

Quy trình giả:

Đối với mỗi token/từ trong phản hồi, truy xuất xác suất mà mô hình gán cho lựa chọn đó

Tổng hợp trên các câu

Tạo ra điểm tin cậy/độ tin cậy theo từng câu và toàn cục

3. Tính nhất quán quan sát được

Thay vì chấp nhận một câu trả lời, PAX yêu cầu LLM trả lời cùng một câu hỏi nhiều lần, sử dụng embedding (biểu diễn vectơ của ý nghĩa) để đo mức độ đồng thuận và nhất quán giữa các phản hồi hợp lý.

Mức độ đồng thuận cao cho thấy câu trả lời vững chắc/ổn định
Các phản hồi thay đổi rộng rãi là dấu hiệu cảnh báo: có thể có rủi ro hoặc sự mơ hồ

Quy trình giả:

Gửi câu hỏi tới LLM nhiều lần; thu thập các phản hồi

Tính điểm tương đồng ngữ nghĩa giữa các đầu ra

Báo cáo một “điểm nhất quán” cho người dùng

4. Tự đánh giá

PAX tùy chọn yêu cầu một LLM khác (hoặc một tổ hợp) xem xét toàn bộ tương tác, các trích dẫn và điểm xác suất, rồi đưa ra phán quyết cuối cùng của riêng nó, cả dưới dạng một con số (0-1) lẫn một giải thích tường thuật. Điều này bổ sung một lớp siêu phản tư.

Quy trình giả:

Đưa cuộc hội thoại/báo cáo cho một tác nhân đánh giá (mô hình khác)

Tác nhân phê bình tính chính xác, tính mạch lạc, tính toàn vẹn của trích dẫn và độ tự tin

Đầu ra một điểm tin cậy cuối cùng kèm giải thích để có thể kiểm toán

Luồng tương tác

Luồng tương tác của PAX diễn ra như sau:

Người dùng gửi một lời nhắc.
Tác nhân PAX xử lý lời nhắc, tham khảo các API bên ngoài khi cần, và xây dựng một phản hồi với các ghi công có cấu trúc.
Hệ thống:
- Gán điểm tin cậy/độ tự tin cho từng phát biểu
- Ghi lại phần nào được hỗ trợ bởi bằng chứng nào
- Tùy chọn, tạo một bản tóm tắt tự phản tư và điểm tin cậy

Kết quả là một câu trả lời có độ minh bạch rất cao với điểm số dạng số và các tham chiếu được liên kết, cùng với một bản ghi có thể kiểm toán của toàn bộ dữ liệu hỗ trợ.

Cảm hứng

Các phương pháp được dùng để làm cho PAX hoạt động phần lớn được truyền cảm hứng từ các công trình do CleanLabs thực hiện. Cụ thể là thuật toán/phương pháp chấm điểm của họ như được trình bày chi tiết TẠI ĐÂY. Với thuật toán/phương pháp này, các yếu tố sau được sử dụng:

Tự phản tư: Đây là một quy trình trong đó LLM được yêu cầu đánh giá rõ ràng phản hồi và nêu rõ mức độ tự tin rằng phản hồi này trông tốt đến mức nào.
Dự đoán xác suất: Đây là “một quy trình trong đó chúng ta xem xét các xác suất theo từng token do một LLM gán khi nó tạo ra một phản hồi dựa trên yêu cầu (tự hồi quy theo từng token)”.
Tính nhất quán quan sát được: Việc chấm điểm này là một quy trình trong đó LLM tạo ra theo xác suất nhiều phản hồi hợp lý mà nó nghĩ có thể tốt, và chúng ta đo mức độ mâu thuẫn giữa các phản hồi này với nhau (hoặc với một phản hồi đã cho).

Tại sao điều này quan trọng?

Các triển khai LLM truyền thống có thể ảo giác về các sự kiện hoặc đưa ra thông tin lỗi thời, nghe có vẻ hợp lý nhưng sai. Với các mục đích trọng yếu như nghiên cứu, y tế, pháp lý và tư vấn kỹ thuật, AI không thể xác minh được đơn giản là chưa đủ tốt.

PAX hướng tới việc làm cho niềm tin vào AI trở nên có thể đo lường và có thể giải thích. Cách tiếp cận của nó:

Đòi hỏi bằng chứng “cho thấy cách bạn làm” đối với các tuyên bố không tầm thường.
Định lượng mức độ tự tin nên đặt vào từng đầu ra.
Cho phép người dùng kiểm toán và hiểu vì sao một câu trả lời nên (hoặc không nên) được tin cậy.

Trạng thái nghiên cứu & các bước tiếp theo

PAX hiện đang trong giai đoạn phát triển tích cực như một dự án nghiên cứu riêng tư dưới sự bảo trợ của Osgil. Các trọng tâm chính bao gồm:

Giảm độ trễ của tìm kiếm và chấm điểm bên ngoài.
Thử nghiệm sự khác biệt giữa cảm nhận của người dùng và các điểm tin cậy tự động.
Xây dựng các plugin chuyên biệt theo miền cho khoa học, tin tức và các mục đích quản lý/quy định.
Chuẩn bị các bộ dữ liệu chuẩn để nghiên cứu mở và có thể công bố.

Lời kết

PAX hướng đến việc biến LLM từ “những bộ tạo sinh có vẻ hợp lý như một hộp đen” thành những trợ lý minh bạch, có thể trích dẫn, và có thể tin cậy theo con số — điều vốn rất quan trọng cho các nhiệm vụ thực tế, rủi ro cao. Nếu bạn quan tâm đến hợp tác, kiểm toán, hoặc muốn thảo luận về tương lai của AI tạo sinh đáng tin cậy, xin hãy liên hệ. Cảm ơn bạn đã đọc!