AI ya Kuaminika na PAX
Usuli
PAX (Proactive Agent for eXemplary Trustworthiness) ilianza kama mabadiliko makubwa kutoka mradi wangu wa awali, TARS, ambao ulilenga upimaji wa kupenya wa usalama wa mtandao kwa njia ya kiotomatiki. Nilipokuwa nikitengeneza TARS, ilidhihirika kuwa mojawapo ya vikwazo vikubwa zaidi kwa mawakala wa AI wa vitendo na wa kuaminika haikuwa tu uotomatishaji wa kazi, bali kuanzisha uaminifu wa jibu lililotokana na AI. Hasa pale matokeo hayo yanapoweza kuathiri maamuzi ya ulimwengu halisi ambayo yanaweza kuwa na athari kubwa sana.
Badala ya kuotomatisha tu kazi za upimaji wa kupenya wa usalama wa mtandao kwa TARS, nilitaka kushughulikia tatizo la msingi: Tunawezaje kujua kwamba tunaweza kuamini kile LLM inachosema?
TARS ilitengenezwa kama MVP kwa kampuni yangu ya kwanza ya kuanzisha, Osgil, ambayo niliianzisha pamoja na wengine. Lengo letu lilikuwa kuotomatisha upimaji wa kupenya wa usalama wa mtandao kwa kutumia mawakala wa AI. TARS ilituwezesha kupata ufadhili wa awali kutoka kwa kiinuzi cha Forum Ventures. Hata hivyo, tulipowafikia kampuni za ulinzi na usalama wa mtandao, tuligundua kuwa mashirika hayo hayakuwaamini mawakala wa AI kutekeleza na kuripoti kazi muhimu kama upimaji wa kupenya. Pia, karibu wote hasa walitaka kufanya biashara na kampuni za usalama wa mtandao ili kuwa na mtu wa kulaumiwa iwapo mambo yataenda vibaya. Kimsingi, watoa maamuzi katika kampuni hizi hawakujali usalama wao isipokuwa walilazimika, na walipojali, sehemu ya vigezo vyao ilikuwa kuwa na mtu wa kulaumiwa iwapo jambo lolote litaenda vibaya, kama aina ya bima. Kufikia mwishoni mwa 2024, mashambulizi ya mtandao ya kiotomatiki yanayoendeshwa na AI bado si wasiwasi mkubwa, hivyo watoa maamuzi hawakuona hitaji la kweli la suluhisho letu. Kwa sababu ya ukosefu huu wa mahitaji ya soko, tulibadilisha mwelekeo wetu na kuzingatia kupunguza uwekaji fikira potofu katika miundo ya LLM. Kwa kuboresha uaminifu wa LLM, tunaamini kazi yetu inaweza kunufaisha anuwai pana ya matumizi ya baadaye ya mawakala wa AI zaidi ya usalama wa mtandao.
Msukumo Kutoka kwa Mambo ya Transformers
Jina PAX ni rejeleo la ulimwengu wa Transformers. Kabla ya kuwa Optimus Prime wa kiikoniki, jina la awali la mhusika huyo lilikuwa Orion Pax. Wazo hili la mabadiliko, kutoka uwezekano hadi uwajibikaji, lilihamasisha dhamira ya PAX ya kuhamia kutoka uwezo ghafi, wa kushangaza wa LLM hadi kitu cha kuaminika vya kutosha ili kitegemeewe kweli.
Dira ya Mradi
PAX ni wakala wa utafiti na mfumo ambao kwa utaratibu:
- Hupima uaminifu wa jibu lolote la LLM.
- Hupunguza uwekaji fikira potofu na kauli zisizo na msingi.
- Hulazimisha na kufuatilia uwajibikaji kwa vyanzo vinavyoweza kuthibitishwa.
- Hutoa ripoti zinazoelezeka, zilizopangwa, zikitoa alama kwa majibu na madai yote mawili.
Lengo la mradi huu ni kufanya LLMs ziwe si tu za kuonekana za msingi, bali zinazoweza kuthibitishwa kuwa za kuaminika, zikiwa na vipimo vya uwazi vya hatari na uhakika.
Onyesho Fupi na la Msingi
Muhtasari wa Jinsi PAX Inavyofanya Kazi
1. Uwajibikaji Uliolazimishwa
Kwa swali lolote la mtumiaji, PAX hupitisha ombi kupitia wakala ambaye hutofautisha kwa uthabiti kati ya maarifa ya kawaida na taarifa zinazohitaji uthibitishaji. Jibu linapokuwa na ukweli au madai ambayo hayachukuliwi kwa kiasi kikubwa kama maarifa ya kawaida (kama takwimu, matukio ya hivi karibuni, n.k), PAX huhakikisha kwamba wakala anatafuta na kurejelea vyanzo vya nje vinavyoaminika na vilivyosasishwa.
Mchakato wa mfano:
- Ikiwa dai si maarifa ya kawaida → endesha API za utafutaji wa nje
- Kusanya matokeo, linganisha kila kauli muhimu na marejeleo husika
- Weka viholda nafasi vilivyopangwa katika jibu (si URL zisizoandaliwa au tanbihi mbichi)
2. Uwekaji Alama wa Uhakika wa Kihisabati wa Uwezekano
PAX haitegemei tu hisia za kibinadamu. Hupima jinsi modeli ya lugha “ilivyokuwa na uhakika” wakati wa kuzalisha kila sehemu ya jibu lake, kwa kuchanganua uwezekano wa ndani uliotumiwa wakati wa uzalishaji wa maandishi. Hii inawezesha mfumo kupewa alama ya nambari ya uaminifu kwa kila sentensi, na kwa jibu zima kwa ujumla. Maeneo yenye uhakika mdogo yanaweza hivyo kuwekewa bendera kiotomatiki.
Mchakato wa mfano:
- Kwa kila tokeni/neno la jibu, pata uwezekano wa modeli kwa chaguo hilo
- Kusanya kwa pamoja juu ya sentensi
- Toa alama za uaminifu/utegemewaji kwa kila sentensi na kwa ujumla
3. Uthabiti Uliobainika
Badala ya kukubali jibu moja, PAX hulimuuliza LLM swali lilelile mara nyingi, ikitumia embeddings (uwakilishi wa vekta wa maana) kupima makubaliano na uthabiti kati ya majibu yanayowezekana.
- Makubaliano ya juu yanaashiria kwamba jibu ni imara/thabiti
- Majibu yanayotofautiana kwa kiasi kikubwa ni ishara za onyo: hatari au utata unaowezekana
Mchakato wa mfano:
- Tuma swali kwa LLM mara nyingi; kukusanya majibu
- Hesabu alama za ufanano wa kisemantiki kati ya matokeo
- Ripoti “alama ya uthabiti” kwa mtumiaji
4. Tathmini ya Kibinafsi
PAX kwa hiari humwomba LLM mwingine (au mkusanyiko) kupitia mwingiliano mzima, marejeleo, na alama za uwezekano, na kutoa hukumu yake ya mwisho, kwa nambari (0-1) na kwa maelezo ya masimulizi. Hii huongeza tabaka la meta la kujitafakari.
Mchakato wa mfano:
- Lisha mazungumzo/ripoti kwa wakala wa tathmini (modeli tofauti)
- Wakala anakosoa uhalisia wa kifaktori, ulinganifu, uadilifu wa marejeleo, na uhakika
- Hutoa alama ya mwisho ya uaminifu pamoja na maelezo kwa ajili ya ukaguzikazi
Mtiririko wa Mwingiliano
Mtiririko wa mwingiliano wa PAX unaendelea kama ifuatavyo:
- Mtumiaji hutuma ombi.
- Wakala wa PAX husindika ombi, hushauriana na API za nje inapohitajika, na hujenga jibu lenye uwajibikaji uliopangwa.
- Mfumo:
- Hutoa alama za uaminifu/uhakika kwa kila kauli
- Hurekodi ni sehemu gani zinaungwa mkono na ushahidi upi
- Kwa hiari, huzalisha muhtasari wa kujitafakari na alama ya uaminifu
Matokeo ni jibu lenye uwazi mkubwa lenye alama ya nambari na marejeleo yaliyounganishwa, pamoja na rekodi inayoweza kukaguliwa ya data yote inayoauni.
Msukumo
Mbinu zilizotumiwa kufanya PAX ifanye kazi zilihamasishwa sana na kazi zilizofanywa na CleanLabs. Hasa, algoriti/mbinu yao ya uwekaji alama kama ilivyoelezewa HAPA. Ndani ya algoriti/mbinu hii, yafuatayo hutumiwa:
-
Kujitafakari: Huu ni mchakato ambapo LLM huombwa ipime jibu kwa uwazi na ibainishe kwa uwazi jinsi jibu hili linavyoonekana kuwa zuri kwa kiwango cha uhakika.
-
Utabiri wa Kihisabati wa Uwezekano: Huu ni “mchakato ambao ndani yake tunazingatia uwezekano wa kila tokeni unaotolewa na LLM inapozalisha jibu kulingana na ombi (kwa kujirejelea kwa tokeni moja baada ya nyingine)”.
-
Uthabiti Uliobainika: Uwekaji alama huu ni mchakato ambao LLM huzalisha kwa uwezekano majibu mengi yanayowezekana ambayo inaona yanaweza kuwa mazuri, na tunapima jinsi majibu haya yanavyopingana yenyewe (au na jibu fulani).
Kwa Nini Hili Ni Muhimu?
Usambazaji wa jadi wa LLM unaweza kuibua fikira potofu za ukweli au kutoa taarifa zilizopitwa na wakati/zinazoaminika lakini za uongo. Kwa matumizi muhimu sana kama vile utafiti, afya, sheria, na ushauri wa kiufundi, AI isiyoweza kuthibitishwa si ya kutosha.
PAX inalenga kufanya uaminifu katika AI upimwe na uweze kuelezeka. Njia yake:
- Inadai ushahidi wa “onyesha kazi yako” kwa madai yasiyo ya kawaida.
- Hupima ni kiasi gani cha uhakika kinapaswa kuwekwa katika pato kila moja.
- Huwaruhusu watumiaji kukagua na kuelewa ni kwa nini jibu linapaswa (au halipaswi) kuaminiwa.
Hali ya Utafiti na Hatua Zifuatazo
PAX kwa sasa iko katika maendeleo hai kama mradi wa utafiti wa faragha chini ya mwamvuli wa Osgil. Mwelekeo muhimu ni pamoja na:
- Kupunguza ucheleweshaji wa utafutaji wa nje na uwekaji alama.
- Kujaribu mtazamo wa mtumiaji dhidi ya alama za uaminifu za kiotomatiki.
- Kujenga programu-jalizi mahususi za kikoa kwa sayansi, habari, na matumizi ya udhibiti.
- Kuandaa seti za data za viwango (benchmark) kwa utafiti wa wazi na uwezekano wa kutolewa.
Maneno ya Mwisho
PAX inahusu kubadilisha LLMs kutoka “vizalishaji vya uwezekano vya kisanduku cheusi” kuwa wasaidizi wenye uwazi, wanaoweza kurejelewa, na wanaoaminika kwa nambari ambayo ni muhimu kwa kazi za ulimwengu halisi zenye viwango vya juu vya hatari. Ikiwa una nia ya ushirikiano, ukaguzi, au unataka kujadili mustakabali wa AI generative inayoaminika, tafadhali wasiliana nasi. Asante kwa kusoma!