Mapagkakatiwalaang AI gamit ang PAX

Kaligiran

Nagsimula ang PAX (Proactive Agent for eXemplary Trustworthiness) bilang isang malaking paglihis mula sa nauna kong proyekto, ang TARS, na nakatuon sa autonomous na cybersecurity penetration testing. Habang dinedevelop ko ang TARS, naging malinaw na isa sa pinakamalaking hadlang sa praktikal at maasahang AI agents ay hindi lang awtomasyon ng gawain, kundi ang pagpapatatag kung mapagkakatiwalaan ba ang isang tugon na nilikha ng AI. Lalo na kapag ang mga output na iyon ay maaaring makaapekto sa mga desisyong totoong may malaking kahihinatnan.

Sa halip na simpleng i-automate ang mga gawain ng cybersecurity penetration testing gamit ang TARS, gusto kong tugunan ang isang pangunahing problema: Paano natin malalaman na mapagkakatiwalaan ang sinasabi ng isang LLM?

Ang TARS ay dinevelop bilang isang MVP para sa aking unang startup, ang Osgil, na aking kinopot. Ang aming layunin ay i-automate ang cybersecurity penetration testing gamit ang mga AI agent. Pinayagan kami ng TARS na makakuha ng pre-seed funding mula sa Forum Ventures accelerator. Gayunpaman, nang nilapitan namin ang mga kumpanya sa depensa at cybersecurity, natuklasan naming hindi pinagkakatiwalaan ng mga organisasyong iyon ang mga AI agent na magsagawa at mag-ulat ng mga kritikal na gawain tulad ng penetration testing. Bukod pa rito, halos lahat sa kanila ay pangunahing nais makipag-negosyo sa mga kumpanya ng cybersecurity upang magkaroon ng isang sisihin sakaling magkamali. Sa madaling salita, hindi pinapahalagahan ng mga tagagawa ng desisyon sa mga kumpanyang ito ang kanilang seguridad maliban na lang kung kinakailangan, at kapag kinakailangan, bahagi ng kanilang pamantayan ay magkaroon ng isang sisihin sakaling may mangyaring mali, bilang isang uri ng seguro. Hanggang huling bahagi ng 2024, ang awtomatikong mga cyber attack na pinapagana ng AI ay hindi pa isang malaking alalahanin, kaya hindi nakita ng mga tagagawa ng desisyon ang tunay na pangangailangan para sa aming solusyon. Dahil sa kakulangan ng demand sa merkado, lumiko kami upang tumutok sa pagbabawas ng mga halusinasyon sa mga LLM na modelo. Sa pamamagitan ng pagpapabuti ng pagiging maaasahan ng LLM, naniniwala kami na makikinabang ang aming gawain sa malawak na hanay ng mga hinaharap na aplikasyon ng AI agent lampas sa cybersecurity.

Isang Patulak mula sa Kwento ng Transformers

Ang pangalan PAX ay isang pagpugay sa uniberso ng Transformers. Bago naging iconic na Optimus Prime, ang orihinal na pangalan ng karakter ay Orion Pax. Ang ideyang ito ng pagbabago, mula sa posibilidad tungo sa responsibilidad, ang nagbigay-inspirasyon sa misyon ng PAX na ilipat mula sa hilaw at kahanga-hangang kakayahan ng LLM tungo sa isang bagay na sapat na mapagkakatiwalaan upang tunay na mapagkatiwalaan.

Bisyon ng Proyekto

Ang PAX ay isang research agent at framework na sistematikong:

Sinusukat ang pagiging mapagkakatiwalaan ng anumang tugon mula sa LLM.
Nagbabawas ng mga halusinasyon at mga pahayag na walang suportang ebidensya.
Pinipilit at sinusubaybayan ang atribusyon sa mga mapapatunayang pinagkukunan.
Nagbibigay ng maipapaliwanag, istrukturadong mga ulat na nagmamarka parehong mga tugon at mga pahayag.

Ang layunin ng proyektong ito ay gawing hindi lamang kahina-hinala, kundi napatutunayan na mapagkakatiwalaan ang mga LLM, na may transparent na mga sukatan ng panganib at kumpiyansa.

Mabilis at Pangunahing Demo

Pangkalahatang-ideya Kung Paano Gumagana ang PAX

1. Sapilitang Pagkilala sa Pinagmulan

Para sa anumang query ng gumagamit, pinapadaan ng PAX ang prompt sa pamamagitan ng isang agent na mahigpit na naghihiwalay sa karaniwang kaalaman at impormasyong nangangailangan ng beripikasyon. Kapag ang tugon ay naglalaman ng mga katotohanan o pahayag na hindi itinuturing na karaniwang kaalaman (tulad ng mga estadistika, mga kamakailang kaganapan, atbp.), tinitiyak ng PAX na kinukuha at tinutukoy ng agent ang mga pinagkakatiwalaang, napapanahong panlabas na pinagkukunan.

Pseudo-proseso:

Kung ang pahayag ay hindi karaniwang kaalaman → patakbuhin ang mga panlabas na search API

Kolektahin ang mga resulta, i-map ang bawat mahalagang pahayag sa mga kaugnay na sanggunian

Mag-insert ng istrukturadong mga placeholder sa tugon (hindi mga simpleng URL o raw na footnote)

2. Probabilistikong Pagmamarka ng Kumpiyansa

Hindi lang umaasa ang PAX sa hidwa-hidwa ng tao. Sinusukat nito kung gaano “kumpyansa” ang language model sa pagbuo ng bawat bahagi ng sagot nito, sa pamamagitan ng pagsusuri ng panloob na mga probabilidad na ginamit habang gumagawa ng teksto. Pinahihintulutan nito ang sistema na magbigay ng isang numerikal na marka ng tiwala sa bawat pangungusap, at sa kabuuan ng sagot. Ang mga lugar na may mababang kumpiyansa ay maaaring awtomatikong i-flag.

Pseudo-proseso:

Para sa bawat token/salita ng tugon, kunin ang probabilidad ng modelo para sa pagpiling iyon

I-aggregate sa buong mga pangungusap

Gumawa ng per-pangungusap at pangkalahatang mga marka ng tiwala/katibayan

3. Naobserbahang Pagkakapareho

Sa halip na tanggapin ang isang sagot lamang, tinatanong ng PAX ang LLM ng parehong tanong nang maraming beses, gamit ang embeddings (mga vector na representasyon ng kahulugan) upang sukatin ang pagkakasundo at pagkakapare-pareho sa pagitan ng mga plausible na tugon.

Ang mataas na pagkakasundo ay nagpapahiwatig na matatag/steady ang sagot
Ang malawak na pagkakaiba-iba ng mga tugon ay mga babalang palatandaan: posibleng panganib o ambigwedad

Pseudo-proseso:

Ipadala ang tanong sa LLM nang maraming beses; kolektahin ang mga tugon

Kalkulahin ang mga semantic similarity score sa pagitan ng mga output

Iulat ang isang “consistency score” para sa gumagamit

4. Pagsusuri sa Sarili

Opsyonal na humihiling ang PAX sa isa pang LLM (o ensemble) na suriin ang buong interaksyon, mga citation, at mga probability score, at magbigay ng sarili nitong panghuling hatol, parehong bilang isang numero (0-1) at isang narratibong paliwanag. Nagdaragdag ito ng meta na layer ng pagsusuri sa sarili.

Pseudo-proseso:

I-feed ang pag-uusap/ulat sa isang assessment agent (ibang modelo)

Sinusuri ng agent ang pagiging makatotohanan, kohirensya, integridad ng citation, at kumpiyansa

Naglalabas ng isang panghuling trust score na may paliwanag para sa auditability

Daloy ng Pakikipag-ugnayan

Ganito ang daloy ng pakikipag-ugnayan ng PAX:

Nagpapadala ang gumagamit ng prompt.
Pinoproseso ng PAX agent ang prompt, kumukonsulta sa mga panlabas na API kung kinakailangan, at bumubuo ng tugon na may istrukturadong mga atribusyon.
Ang sistema:
- Nag-aassign ng per-pahayag na mga marka ng tiwala/kumpiyansa
- Nagtatala kung aling mga bahagi ang sinusuportahan ng anong ebidensya
- Opsyonal, bumubuo ng isang self-reflective na buod at trust score

Ang resulta ay isang lubos na transparent na sagot na may numerikal na marka at naka-link na mga sanggunian, kasabay ng masusing rekord ng lahat ng sumusuportang data.

Inspirasyon

Ang mga metodong ginamit upang gumana ang PAX ay malaki ang pagkakainspire sa mga gawa ng CleanLabs. Partikular, ang kanilang scoring algorithm/metodo tulad ng detalyado DITO. Sa loob ng algorithm/metodong ito, ang mga sumusunod ay ginagamit:

Pagsusuri sa Sarili: Ito ay isang proseso kung saan hinihingi sa LLM na tahasang i-rate ang tugon at tahasang sabihin kung gaano ito kumpiyansang mabuti ang tugon na ito.
Probabilistikong Prediksyon: Ito ay “isang proseso kung saan isinasaalang-alang natin ang per-token na mga probabilidad na inilalaan ng isang LLM habang nagbuo ito ng tugon batay sa kahilingan (auto-regressively token by token)”.
Naobserbahang Pagkakapareho: Ang pagmamarkang ito ay isang proseso kung saan probabilistikong bumubuo ang LLM ng maraming mga plausible na tugon na iniisip nitong maaaring maging maganda, at sinusukat natin kung gaano kasalungat ang mga tugon na ito sa isa’t isa (o sa isang ibinigay na tugon).

Bakit Mahalaga Ito?

Ang tradisyonal na pag-deploy ng LLM ay maaaring mag-hallucinate ng mga katotohanan o magbigay ng lipas/kapani-paniwala ngunit maling impormasyon. Para sa mga gamit na kritikal sa misyon—pananaliksik, pangangalagang pangkalusugan, legal at teknikal na payo—ang hindi mapapatunayan na AI ay hindi sapat.

Nilalayon ng PAX na gawing masusukat at maipapaliwanag ang tiwala sa AI. Ang paraan nito:

Nanghihingi ng “ipakita-ang-iyong-gawain” na ebidensya para sa mga hindi-maliit na pahayag.
Sinusukat kung gaano kalaki ang kumpiyansa na dapat ilagay sa bawat output.
Pinahihintulutan ang mga gumagamit na i-audit at maunawaan kung bakit dapat (o hindi dapat) pagkatiwalaan ang isang sagot.

Katayuan ng Pananaliksik at Mga Susunod na Hakbang

Ang PAX ay kasalukuyang nasa aktibong pag-develop bilang isang pribadong research project sa ilalim ng payong ng Osgil. Pangunahing mga pokus ay kinabibilangan ng:

Pagbabawas ng latency ng mga panlabas na paghahanap at pagmamarka.
Pagsubok sa persepsyon ng gumagamit kumpara sa awtomatikong mga trust score.
Pagtatayo ng mga domain-specific plugin para sa agham, balita, at mga regulasyon.
Paghahanda ng mga benchmark dataset para sa bukas na pananaliksik at posibleng pag-release.

Huling Mga Salita

Ang PAX ay tungkol sa pag-transform ng mga LLM mula sa “black box plausible generators” tungo sa transparent, maipapasipi, at numerikal na mapagkakatiwalaang mga katulong na mahalaga para sa totoong mundo, mataas na pusta na mga gawain. Kung interesado kang makipagtulungan, magsagawa ng audit, o gustong talakayin ang hinaharap ng mapagkakatiwalaang generative AI, mangyaring makipag-ugnayan. Salamat sa pagbabasa!