AI yang Tepercaya dengan PAX

Latar Belakang

PAX (Proactive Agent for eXemplary Trustworthiness) dimulai sebagai sebuah perubahan arah besar dari proyek saya sebelumnya, TARS, yang menargetkan pengujian penetrasi keamanan siber otonom. Saat saya mengembangkan TARS, menjadi jelas bahwa salah satu hambatan terbesar bagi agen AI yang praktis dan andal bukan hanya otomatisasi tugas, melainkan membangun kepercayaan terhadap respons yang dihasilkan AI. Terutama ketika keluaran tersebut dapat memengaruhi keputusan dunia nyata yang bisa membawa konsekuensi besar.

Alih-alih hanya mengotomatiskan tugas pengujian penetrasi keamanan siber dengan TARS, saya ingin menangani sebuah masalah fundamental: Bagaimana kita tahu bahwa kita bisa mempercayai apa yang dikatakan sebuah LLM?

TARS dikembangkan sebagai MVP untuk startup pertama saya, Osgil, yang saya dirikan bersama. Tujuan kami adalah mengotomatiskan pengujian penetrasi keamanan siber menggunakan agen AI. TARS memungkinkan kami memperoleh pendanaan pre-seed dari akselerator Forum Ventures. Namun, ketika kami mendekati perusahaan pertahanan dan keamanan siber, kami menemukan bahwa organisasi-organisasi tersebut tidak mempercayai agen AI untuk menjalankan dan melaporkan tugas-tugas kritis seperti pengujian penetrasi. Selain itu, hampir semuanya pada dasarnya ingin berbisnis dengan perusahaan keamanan siber untuk memiliki kambing hitam jika keadaan memburuk. Pada dasarnya, para pengambil keputusan di perusahaan-perusahaan ini tidak peduli terhadap keamanan mereka kecuali jika terpaksa, dan ketika mereka peduli, salah satu kriteria mereka adalah memiliki kambing hitam jika terjadi sesuatu yang salah, sebagai bentuk asuransi. Hingga akhir 2024, serangan siber otomatis yang didukung AI masih belum menjadi perhatian utama, sehingga para pengambil keputusan tidak melihat kebutuhan nyata akan solusi kami. Karena kurangnya permintaan pasar ini, kami beralih fokus untuk mengurangi halusinasi pada model LLM. Dengan meningkatkan keandalan LLM, kami percaya pekerjaan kami dapat memberi manfaat pada berbagai aplikasi agen AI di masa depan di luar keamanan siber.

Dorongan dari Lore Transformers

Nama PAX adalah rujukan ke semesta Transformers. Sebelum menjadi Optimus Prime yang ikonik, nama asli karakter tersebut adalah Orion Pax. Ide transformasi ini, dari potensi menjadi tanggung jawab, menginspirasi misi PAX untuk bergerak dari kemampuan LLM mentah yang mengesankan menjadi sesuatu yang cukup tepercaya untuk benar-benar diandalkan.

Visi Proyek

PAX adalah agen riset dan kerangka kerja yang secara sistematis:

  • Mengukur tingkat kepercayaan terhadap respons LLM apa pun.
  • Mengurangi halusinasi dan pernyataan yang tidak didukung.
  • Memaksa dan melacak atribusi ke sumber yang dapat diverifikasi.
  • Menyediakan laporan yang dapat dijelaskan, terstruktur, dan memberi skor baik pada respons maupun klaim.

Tujuan proyek ini adalah menjadikan LLM bukan hanya masuk akal, tetapi secara dapat dibuktikan tepercaya, dengan ukuran risiko dan kepercayaan yang transparan.

Demo Cepat & Dasar

Ikhtisar Cara Kerja PAX

1. Atribusi yang Diberlakukan

Untuk setiap kueri pengguna, PAX mengarahkan prompt melalui agen yang secara ketat membedakan antara pengetahuan umum dan informasi yang memerlukan validasi. Ketika respons berisi fakta atau klaim yang tidak dianggap sebagai pengetahuan umum secara luas (seperti statistik, peristiwa terkini, dll), PAX memastikan agen mengambil dan merujuk sumber eksternal yang tepercaya dan terkini.

Proses semu:

  • Jika klaim bukan pengetahuan umum → jalankan API pencarian eksternal
  • Kumpulkan hasil, petakan setiap pernyataan penting ke referensi yang relevan
  • Sisipkan placeholder terstruktur dalam respons (bukan URL biasa atau catatan kaki mentah)

2. Penilaian Kepercayaan Probabilistik

PAX tidak hanya bergantung pada intuisi manusia. PAX mengukur seberapa “percaya diri” model bahasa dalam menghasilkan setiap bagian dari jawabannya, dengan menganalisis probabilitas internal yang digunakan selama pembuatan teks. Ini memungkinkan sistem memberikan skor kepercayaan numerik untuk setiap kalimat, dan untuk keseluruhan jawaban. Area dengan kepercayaan rendah dapat secara otomatis ditandai.

Proses semu:

  • Untuk setiap token/kata respons, ambil probabilitas model untuk pilihan tersebut
  • Gabungkan di seluruh kalimat
  • Hasilkan skor kepercayaan/keandalan per kalimat dan keseluruhan

3. Konsistensi yang Diamati

Alih-alih menerima satu jawaban, PAX meminta LLM pertanyaan yang sama beberapa kali, menggunakan embedding (representasi vektor dari makna) untuk mengukur kesepakatan dan konsistensi di antara respons yang masuk akal.

  • Kesepakatan yang tinggi menunjukkan jawaban kuat/stabil
  • Respons yang sangat bervariasi adalah tanda peringatan: kemungkinan risiko atau ambiguitas

Proses semu:

  • Kirim pertanyaan ke LLM beberapa kali; kumpulkan respons
  • Hitung skor kemiripan semantik antar keluaran
  • Laporkan “skor konsistensi” untuk pengguna

4. Penilaian Diri

PAX secara opsional meminta LLM lain (atau ensembel) untuk meninjau seluruh interaksi, sitasi, dan skor probabilitas, lalu memberikan penilaian akhirnya sendiri, baik sebagai angka (0-1) maupun penjelasan naratif. Ini menambahkan lapisan meta untuk refleksi diri.

Proses semu:

  • Berikan percakapan/laporan kepada agen penilaian (model yang berbeda)
  • Agen mengkritik faktualitas, koherensi, integritas sitasi, dan kepercayaan
  • Menghasilkan skor kepercayaan akhir beserta penjelasan untuk keterlacakan audit

Alur Interaksi

Alur interaksi PAX berlangsung sebagai berikut:

  • Pengguna mengirim prompt.
  • Agen PAX memproses prompt, berkonsultasi dengan API eksternal sesuai kebutuhan, dan menyusun respons dengan atribusi terstruktur.
  • Sistem:
    • Memberikan skor kepercayaan/keandalan per pernyataan
    • Mencatat bagian mana yang didukung oleh bukti mana
    • Secara opsional, menghasilkan ringkasan reflektif diri dan skor kepercayaan

Hasilnya adalah jawaban yang sangat transparan dengan skor numerik dan referensi tertaut, bersama dengan catatan yang dapat diaudit dari semua data pendukung.

Inspirasi

Metode yang digunakan untuk membuat PAX bekerja sangat terinspirasi oleh karya-karya yang dilakukan oleh CleanLabs. Khususnya, algoritma/metode penilaian mereka sebagaimana dirinci DI SINI. Dalam algoritma/metode ini, hal-hal berikut digunakan:

  1. Refleksi Diri: Ini adalah proses di mana LLM diminta untuk secara eksplisit menilai respons dan secara eksplisit menyatakan seberapa yakin respons ini tampak baik.

  2. Prediksi Probabilistik: Ini adalah “proses di mana kita mempertimbangkan probabilitas per-token yang diberikan oleh sebuah LLM saat ia menghasilkan respons berdasarkan permintaan (secara autoregresif token demi token)”.

  3. Konsistensi yang Diamati: Penilaian ini adalah proses di mana LLM secara probabilistik menghasilkan beberapa respons masuk akal yang menurutnya bisa bagus, dan kita mengukur seberapa kontradiktif respons-respons ini satu sama lain (atau terhadap respons tertentu).

Mengapa Ini Penting?

Penerapan LLM tradisional dapat menghalusinasi fakta atau memberikan informasi yang kedaluwarsa, meyakinkan, tetapi salah. Untuk penggunaan yang sangat penting seperti riset, kesehatan, hukum, dan saran teknis, AI yang tidak dapat diverifikasi memang tidak cukup baik.

PAX bertujuan menjadikan kepercayaan pada AI terukur dan dapat dijelaskan. Pendekatannya:

  • Menuntut bukti “tunjukkan prosesnya” untuk klaim nontrivial.
  • Mengkuantifikasi seberapa besar kepercayaan yang harus diberikan pada setiap keluaran.
  • Memungkinkan pengguna mengaudit dan memahami mengapa sebuah jawaban seharusnya (atau tidak seharusnya) dipercaya.

Status Riset & Langkah Berikutnya

PAX saat ini sedang dalam pengembangan aktif sebagai proyek riset privat di bawah naungan Osgil. Fokus utamanya meliputi:

  • Mengurangi latensi pencarian eksternal dan penilaian.
  • Mencoba persepsi pengguna vs. skor kepercayaan otomatis.
  • Membangun plugin khusus domain untuk sains, berita, dan penggunaan regulasi.
  • Menyiapkan dataset tolok ukur untuk riset terbuka dan kemungkinan dirilis.

Kata Penutup

PAX adalah tentang mengubah LLM dari “penghasil kemungkinan kotak hitam” menjadi asisten yang transparan, dapat dikutip, dan dapat dipercaya secara numerik, yang sangat penting untuk tugas-tugas dunia nyata dengan risiko tinggi. Jika Anda tertarik untuk berkolaborasi, melakukan audit, atau ingin mendiskusikan masa depan AI generatif yang tepercaya, silakan hubungi saya. Terima kasih telah membaca!