Mapagkakatiwalaang AI kasama ang PAX

Pinagmulan

Ang PAX (Proactive Agent for eXemplary Trustworthiness) ay nagsimula bilang isang malaking paglihis mula sa aking naunang proyekto, TARS, na nakatuon sa awtonomong cybersecurity penetration testing. Habang binubuo ko ang TARS, naging malinaw na isa sa pinakamalalaking hadlang sa praktikal at maaasahang mga AI agent ay hindi lamang ang pag-aautomat ng mga gawain, kundi ang pagtatatag ng mapagkakatiwalaan ng isang tugon na nalikha ng AI. Lalo na kapag ang mga output na iyon ay maaaring makaapekto sa mga desisyong pang- totoong mundo na maaaring magkaroon ng napakalalaking kahihinatnan.

Sa halip na basta i-automate ang mga gawain sa cybersecurity penetration testing gamit ang TARS, nais kong tugunan ang isang pundamental na problema: Paano natin malalaman na mapagkakatiwalaan natin ang sinasabi ng isang LLM?

Binuo ang TARS bilang isang MVP para sa una kong startup, Osgil, na aking kapwa itinatag. Ang layunin namin ay i-automate ang cybersecurity penetration testing gamit ang mga AI agent. Nakatulong ang TARS upang makakuha kami ng pre-seed funding mula sa Forum Ventures accelerator. Gayunpaman, nang lumapit kami sa mga kumpanya sa depensa at cybersecurity, natuklasan namin na hindi nagtitiwala ang mga organisasyong iyon sa mga AI agent upang magsagawa at mag-ulat ng mga kritikal na gawain tulad ng penetration testing. Gayundin, halos lahat sa kanila ay pangunahing gustong makipagnegosyo sa mga kumpanya ng cybersecurity upang may masisisi sakaling may magkaproblema. Sa madaling sabi, ang mga gumagawa ng desisyon sa mga kumpanyang ito ay hindi pinapahalagahan ang kanilang seguridad maliban na lamang kung kinakailangan, at kapag ginawa nila ito, bahagi ng kanilang mga pamantayan ang magkaroon ng masasandigang sisihin sakaling may magkamali, bilang isang anyo ng insurance. Sa pagtatapos ng 2024, hindi pa rin malaking alalahanin ang mga awtomatikong cyber attack na pinapagana ng AI, kaya hindi nakakita ang mga gumagawa ng desisyon ng tunay na pangangailangan para sa aming solusyon. Dahil sa kawalan ng demand sa merkado na ito, lumihis kami upang tumuon sa pagbawas ng mga hallucination sa mga modelo ng LLM. Sa pagpapahusay ng pagiging maaasahan ng LLM, naniniwala kami na ang aming trabaho ay makikinabang sa napakaraming hinaharap na aplikasyon ng AI agent lampas sa cybersecurity.

Isang Pagtango mula sa Kaalaman ng Transformers

Ang pangalang PAX ay isang pagtango sa uniberso ng Transformers. Bago maging ang iconic na Optimus Prime, ang orihinal na pangalan ng karakter ay Orion Pax. Ang ideyang ito ng pagbabagong-anyo, mula sa posibilidad tungo sa pananagutan, ang nagbigay-inspirasyon sa misyon ng PAX na lumipat mula sa hilaw at kahanga-hangang kakayahan ng LLM tungo sa isang bagay na sapat na mapagkakatiwalaan upang tunay na maasahan.

Bisyon ng Proyekto

Ang PAX ay isang research agent at framework na sistematikong:

Sinusukat ang mapagkakatiwalaan ng anumang tugon ng LLM.
Binabawasan ang mga hallucination at mga pahayag na walang suporta.
Pinipilit at sinusubaybayan ang pag-uugnay sa mga nabeberipikang sanggunian.
Nagbibigay ng mga maipapaliwanag at istrukturadong ulat na nagmamarka sa parehong mga tugon at mga claim.

Ang layunin ng proyektong ito ay gawing hindi lamang kapani-paniwala ang mga LLM, kundi mapatutunayang mapagkakatiwalaan, na may malinaw na mga sukat ng panganib at kumpiyansa.

Mabilis at Batayang Demo

Pangkalahatang-ideya ng Kung Paano Gumagana ang PAX

1. Ipinasang Pag-uugnay

Para sa anumang tanong ng user, idinadaan ng PAX ang prompt sa isang agent na mahigpit na naghihiwalay sa karaniwang kaalaman at impormasyong nangangailangan ng beripikasyon. Kapag ang tugon ay naglalaman ng mga katotohanan o claim na hindi malawakang itinuturing na karaniwang kaalaman (tulad ng estadistika, kamakailang mga pangyayari, atbp), tinitiyak ng PAX na kumukuha at tumutukoy ang agent sa mapagkakatiwalaan at napapanahong panlabas na mga sanggunian.

Pseudo-process:

Kung ang claim ay hindi karaniwang kaalaman → patakbuhin ang mga external search API

Kolektahin ang mga resulta, i-map ang bawat mahalagang pahayag sa kaugnay na mga reperensiya

Magpasok ng mga istrukturadong placeholder sa tugon (hindi simpleng mga URL o hilaw na footnote)

2. Probabilistikong Confidence Scoring

Hindi lamang umaasa ang PAX sa intuwisyon ng tao. Sinusukat nito kung gaano “kumpiyansa” ang language model sa paglikha ng bawat bahagi ng sagot nito, sa pamamagitan ng pagsusuri sa panloob na mga probabilidad na ginamit habang bumubuo ng teksto. Nagbibigay-daan ito sa sistema upang magtalaga ng numerikong trust score sa bawat pangungusap, at sa kabuuan ng sagot. Kaya ang mga bahaging mababa ang kumpiyansa ay maaaring awtomatikong ma-flag.

Pseudo-process:

Para sa bawat token/salita ng tugon, kunin ang probabilidad ng modelo para sa pagpiling iyon

I-aggregate sa kabuuan ng mga pangungusap

Bumuo ng mga per-sentence at pangkalahatang trust/reliability score

3. Napagmamasdang Pagkakatugma

Sa halip na tanggapin ang isang sagot, tinatanong ng PAX ang LLM ng parehong tanong nang maraming beses, gamit ang mga embedding (mga representasyong berktoral ng kahulugan) upang sukatin ang pagkakatugma at pagkakapareho sa pagitan ng mga kapani-paniwalang tugon.

Ang mataas na pagkakatugma ay nagpapahiwatig na matibay/stable ang sagot
Ang malalaking pagkakaiba-ibang tugon ay mga babalang palatandaan: posibleng panganib o kalabuan

Pseudo-process:

Ipadala ang tanong sa LLM nang maraming beses; kolektahin ang mga tugon

Kuwentahin ang mga semantic similarity score sa pagitan ng mga output

Mag-ulat ng isang “consistency score” para sa user

4. Self-Assessment

Opsyonal na ipinapatanong ng PAX sa isa pang LLM (o ensemble) na repasuhin ang buong interaksyon, mga pagsisipi, at mga score ng probabilidad, at magbigay ng sarili nitong panghuling pasya, kapwa bilang isang numero (0-1) at isang salaysay na paliwanag. Nagdaragdag ito ng meta layer ng pagmumuni-muni sa sarili.

Pseudo-process:

I-feed ang usapan/ulat sa isang assessment agent (ibang modelo)

Kritikal na sinusuri ng agent ang pagiging makatotohanan, pagkakaugnay-ugnay, integridad ng pagsisipi, at kumpiyansa

Naglalabas ng panghuling trust score na may paliwanag para sa auditability

Daloy ng Interaksyon

Ang daloy ng interaksyon ng PAX ay sumusunod dito:

Nagpapadala ang user ng prompt.
Pinoproseso ng PAX agent ang prompt, kumokonsulta sa mga external API kung kinakailangan, at bumubuo ng tugon na may mga istrukturadong pag-uugnay.
Ang sistema:
- Nagtatalaga ng per-statement na trust/confidence score
- Nagtatala kung aling mga bahagi ang sinusuportahan ng aling ebidensiya
- Opsyonal, bumubuo ng isang self-reflective na buod at trust score

Ang resulta ay isang napakalinaw na sagot na may numerikong score at mga naka-link na reperensiya, kasama ang isang ma-audit na tala ng lahat ng sumusuportang datos.

Inspirasyon

Ang mga pamamaraang ginamit upang mapagana ang PAX ay malaki ang naging inspirasyon mula sa mga gawa ng CleanLabs. Lalo na, ang kanilang scoring algorithm/paraan gaya ng detalyadong inilalarawan DITO. Sa loob ng algorithm/paraan na ito, ginagamit ang sumusunod:

Self-Reflection: Ito ay isang proseso kung saan hinihiling sa LLM na tahasang i-rate ang tugon at tahasang sabihin kung gaano ito mukhang mabuti nang may kumpiyansa.
Probabilistic Prediction: Ito ay “isang proseso kung saan isinaalang-alang namin ang per-token na mga probabilidad na itinalaga ng isang LLM habang bumubuo ito ng tugon batay sa kahilingan (auto-regressively token by token)”.
Napagmamasdang Pagkakatugma: Ang scoring na ito ay isang proseso kung saan ang LLM ay probabilistikong bumubuo ng maraming kapani-paniwalang tugon na sa tingin nito ay maaaring maging maganda, at sinusukat namin kung gaano kasalungat ang mga tugong ito sa isa’t isa (o sa isang ibinigay na tugon).

Bakit Ito Mahalaga?

Ang tradisyonal na mga deployment ng LLM ay maaaring mag-hallucinate ng mga katotohanan o magbigay ng luma/kapanipaniwala ngunit maling impormasyon. Para sa mga gamit na kritikal sa misyon tulad ng pananaliksik, pangangalagang pangkalusugan, legal, at teknikal na payo, ang hindi nabeberipikang AI ay simpleng hindi sapat.

Nilalayon ng PAX na gawing masusukat at maipapaliwanag ang tiwala sa AI. Ang pamamaraang nito:

Nangangailangan ng ebidensiyang “ipakita ang iyong gawa” para sa mga hindi-trivial na claim.
Binibilang kung gaano karaming kumpiyansa ang dapat ilagay sa bawat output.
Nagbibigay-daan sa mga user na i-audit at maunawaan kung bakit dapat (o hindi dapat) pagkatiwalaan ang isang sagot.

Kalagayan ng Pananaliksik at Mga Susunod na Hakbang

Ang PAX ay kasalukuyang nasa aktibong pagbuo bilang isang pribadong proyekto sa pananaliksik sa ilalim ng payong ng Osgil. Kabilang sa mga pangunahing pokus ang:

Pagbabawas ng latency ng mga external search at scoring.
Pagsubok sa persepsyon ng user laban sa mga awtomatikong trust score.
Pagbuo ng mga domain-specific plugin para sa agham, balita, at mga paggamit na pang-regulasyon.
Paghahanda ng mga benchmark dataset para sa bukas na pananaliksik at posibleng paglalabas.

Pangwakas na Mga Salita

Ang PAX ay tungkol sa pagbabago ng mga LLM mula sa “black box na mga kapani-paniwalang generator” tungo sa transparent, mapagsisipi, at numerikong mapagkakatiwalaang mga katulong na napakahalaga para sa mga totoong-buhay na gawain na mataas ang panganib. Kung interesado ka sa pakikipagtulungan, mga audit, o nais mong talakayin ang hinaharap ng mapagkakatiwalaang generative AI, mangyaring makipag-ugnayan. Salamat sa pagbabasa!