AI Terpercaya dengan PAX

Latar Belakang

PAX (Proactive Agent for eXemplary Trustworthiness) lahir sebagai sebuah pivot besar dari proyek saya sebelumnya, TARS, yang menargetkan pengujian penetrasi keamanan siber otomatis. Saat saya mengembangkan TARS, menjadi jelas bahwa salah satu penghalang terbesar bagi agen AI yang praktis dan dapat diandalkan bukan hanya otomatisasi tugas, tetapi menetapkan keterpercayaan dari sebuah respons yang dihasilkan AI. Terutama ketika keluaran tersebut dapat memengaruhi keputusan dunia nyata yang dapat memiliki konsekuensi besar.

Daripada hanya mengotomatisasi tugas pengujian penetrasi keamanan siber dengan TARS, saya ingin menangani masalah mendasar: Bagaimana kita tahu bahwa kita dapat mempercayai apa yang dikatakan oleh LLM?

TARS dikembangkan sebagai MVP untuk startup pertama saya, Osgil, yang saya dirikan bersama. Tujuan kami adalah mengotomatisasi pengujian penetrasi keamanan siber menggunakan agen AI. TARS memungkinkan kami mengamankan pendanaan pra-seed dari akselerator Forum Ventures. Namun, ketika kami mendekati perusahaan pertahanan dan keamanan siber, kami menemukan bahwa organisasi-organisasi tersebut tidak mempercayai agen AI untuk melakukan dan melaporkan tugas kritis seperti pengujian penetrasi. Selain itu, hampir semuanya terutama ingin berbisnis dengan perusahaan keamanan siber untuk memiliki pihak yang disalahkan jika sesuatu berjalan buruk. Pada dasarnya, pengambil keputusan di perusahaan-perusahaan ini tidak mempedulikan keamanan mereka kecuali jika harus, dan ketika mereka peduli, bagian dari kriteria mereka adalah memiliki pihak yang disalahkan jika sesuatu salah, sebagai bentuk asuransi. Hingga akhir 2024, serangan siber otomatis bertenaga AI masih belum menjadi kekhawatiran besar, sehingga pengambil keputusan tidak melihat kebutuhan nyata untuk solusi kami. Karena kurangnya permintaan pasar ini, kami berputar menuju fokus mengurangi halusinasi pada model LLM. Dengan meningkatkan keandalan LLM, kami percaya pekerjaan kami dapat memberi manfaat bagi berbagai aplikasi agen AI masa depan di luar keamanan siber.

Dorongan dari Lore Transformers

Nama PAX adalah penghormatan kepada semesta Transformers. Sebelum menjadi ikon Optimus Prime, nama asli karakter itu adalah Orion Pax. Ide transformasi ini, dari kemungkinan menjadi tanggung jawab, menginspirasi misi PAX untuk bergerak dari kemampuan LLM yang mentah dan mengesankan menuju sesuatu yang cukup dapat dipercaya untuk benar-benar diandalkan.

Visi Proyek

PAX adalah agen riset dan kerangka kerja yang secara sistematis:

  • Mengukur keterpercayaan dari setiap respons LLM.
  • Mengurangi halusinasi dan pernyataan yang tidak didukung.
  • Memaksa dan melacak atribusi ke sumber yang dapat diverifikasi.
  • Menyediakan laporan terstruktur yang dapat dijelaskan yang menilai baik respons maupun klaim.

Tujuan proyek ini adalah membuat LLM tidak hanya tampak masuk akal, tetapi terbukti dapat dipercaya, dengan ukuran risiko dan kepercayaan yang transparan.

Demo Singkat & Dasar

Ikhtisar Cara Kerja PAX

1. Atribusi yang Ditegakkan

Untuk setiap kueri pengguna, PAX mengarahkan prompt melalui agen yang secara ketat membedakan antara pengetahuan umum dan informasi yang membutuhkan validasi. Ketika respons berisi fakta atau klaim yang tidak secara luas dianggap pengetahuan umum (seperti statistik, peristiwa terkini, dll), PAX memastikan agen mengambil dan merujuk ke sumber eksternal tepercaya dan terbaru.

Pseudo-proses:

  • Jika klaim bukan pengetahuan umum → jalankan API pencarian eksternal
  • Kumpulkan hasil, kaitkan setiap pernyataan penting ke referensi yang relevan
  • Masukkan placeholder terstruktur dalam respons (bukan URL biasa atau catatan kaki mentah)

2. Skor Kepercayaan Probabilistik

PAX tidak hanya bergantung pada intuisi manusia. PAX mengukur seberapa “percaya diri” model bahasa saat menghasilkan setiap bagian dari jawabannya, dengan menganalisis probabilitas internal yang digunakan selama pembuatan teks. Ini memungkinkan sistem memberi skor kepercayaan numerik untuk setiap kalimat, dan untuk jawaban secara keseluruhan. Area dengan kepercayaan rendah dapat secara otomatis ditandai.

Pseudo-proses:

  • Untuk setiap token/kata respons, ambil probabilitas model untuk pilihan tersebut
  • Agregasi di seluruh kalimat
  • Hasilkan skor kepercayaan/keandalan per-kalimat dan keseluruhan

3. Konsistensi yang Diamati

Alih-alih menerima satu jawaban, PAX menanyakan LLM pertanyaan yang sama beberapa kali, menggunakan embeddings (representasi vektor makna) untuk mengukur kesepakatan dan konsistensi antara respons yang masuk akal.

  • Kesepakatan tinggi menunjukkan jawaban yang kuat/stabil
  • Respons yang sangat bervariasi adalah tanda peringatan: kemungkinan risiko atau ambiguitas

Pseudo-proses:

  • Kirim pertanyaan ke LLM beberapa kali; kumpulkan respons
  • Hitung skor kesamaan semantik antar keluaran
  • Laporkan “skor konsistensi” untuk pengguna

4. Penilaian Diri

PAX secara opsional meminta LLM lain (atau ensemble) untuk meninjau seluruh interaksi, sitasi, dan skor probabilitas, dan memberikan putusan akhirnya sendiri, baik sebagai angka (0-1) maupun penjelasan naratif. Ini menambahkan lapisan meta refleksi diri.

Pseudo-proses:

  • Masukkan percakapan/laporan ke agen penilai (model yang berbeda)
  • Agen mengkritik faktualitas, koherensi, integritas sitasi, dan kepercayaan
  • Mengeluarkan skor kepercayaan akhir dengan penjelasan untuk auditabilitas

Alur Interaksi

Alur interaksi PAX berjalan sebagai berikut:

  • Pengguna mengirim prompt.
  • Agen PAX memproses prompt, berkonsultasi dengan API eksternal jika diperlukan, dan membangun respons dengan atribusi terstruktur.
  • Sistem:
    • Menetapkan skor kepercayaan/kepercayaan per-pernyataan
    • Mencatat bagian mana yang didukung oleh bukti mana
    • Secara opsional, menghasilkan ringkasan reflektif-diri dan skor kepercayaan

Hasilnya adalah jawaban yang sangat transparan dengan skor numerik dan referensi yang ditautkan, beserta catatan audit dari semua data pendukung.

Inspirasi

Metode yang digunakan untuk membuat PAX bekerja sangat terinspirasi oleh karya-karya yang dilakukan oleh CleanLabs. Khususnya, algoritme/metode penilaian mereka seperti yang dirinci DI SINI. Dalam algoritme/metode ini, yang berikut digunakan:

  1. Refleksi Diri: Ini adalah proses di mana LLM diminta secara eksplisit untuk menilai respons dan secara eksplisit menyatakan seberapa yakin bahwa respons ini tampak baik.

  2. Prediksi Probabilistik: Ini adalah “proses di mana kita mempertimbangkan probabilitas per-token yang diberikan oleh sebuah LLM saat menghasilkan respons berdasarkan permintaan (auto-regresif token demi token)”.

  3. Konsistensi yang Diamati: Skor ini adalah proses di mana LLM secara probabilistik menghasilkan beberapa respons yang mungkin dianggap baik, dan kita mengukur seberapa kontradiktif respons-respons ini satu sama lain (atau terhadap respons tertentu).

Mengapa Ini Penting?

Penempatan LLM tradisional dapat menghasilkan halusinasi fakta atau memberikan informasi yang usang/terlihat meyakinkan tetapi salah. Untuk penggunaan yang kritis misi—penelitian, kesehatan, hukum, dan nasihat teknis—AI yang tidak dapat diverifikasi jelas tidak cukup baik.

PAX bertujuan membuat kepercayaan pada AI dapat diukur dan dijelaskan. Pendekatannya:

  • Menuntut bukti “tunjukkan caramu bekerja” untuk klaim yang tidak sepele.
  • Mengkuantifikasi seberapa besar kepercayaan yang harus ditempatkan pada setiap keluaran.
  • Memungkinkan pengguna mengaudit dan memahami mengapa sebuah jawaban harus (atau tidak harus) dipercaya.

Status Penelitian & Langkah Selanjutnya

PAX saat ini dalam pengembangan aktif sebagai proyek riset pribadi di bawah payung Osgil. Fokus utama meliputi:

  • Mengurangi latensi pencarian eksternal dan pemeringkatan.
  • Bereksperimen dengan persepsi pengguna vs. skor kepercayaan otomatis.
  • Membangun plugin spesifik-domain untuk sains, berita, dan penggunaan regulatori.
  • Mempersiapkan dataset tolok ukur untuk riset terbuka dan kemungkinan rilis.

Kata Penutup

PAX bertujuan mengubah LLM dari “kotak hitam pembuat yang tampak masuk akal” menjadi asisten yang transparan, dapat disitasi, dan dapat dipercaya secara numerik yang krusial untuk tugas dunia nyata berisiko tinggi. Jika Anda tertarik untuk berkolaborasi, melakukan audit, atau ingin membahas masa depan AI generatif yang dapat dipercaya, silakan hubungi. Terima kasih telah membaca!