AI Inayoweza Kuaminika na PAX

Asili

PAX (Wakala Anayochukua Hatua kwa Uaminifu wa Mfano) alianza maisha yake kama mabadiliko makubwa kutoka mradi wangu wa awali, TARS, ambao ulilenga upimaji wa uingiaji wa usalama wa mtandao kwa njia ya kujitegemea. Nilipokuwa nikitengeneza TARS, ilikuwa wazi kwamba mojawapo ya vikwazo vikuu kwa mawakala wa AI ya vitendo na ya kuaminika haikuwa tu uendeshaji kazi, bali ni kuanzisha uaminifu wa jibu lililotengenezwa na AI. Hasa pale matokeo hayo yanaweza kuathiri maamuzi ya ulimwengu halisi ambayo yanaweza kuwa na madhara makubwa.

Badala ya kuzunguka tu kuendesha kazi za upimaji wa uingiaji wa usalama wa mtandao kwa TARS, nilitaka kushughulikia tatizo la msingi: Je, tunajua vipi tunaweza kumwamini kile LLM inachosema?

TARS ilitengenezwa kama MVP kwa kampuni yangu ya kwanza, Osgil, ambayo niliianzisha pamoja na wenzangu. Lengo letu lilikuwa kuendesha kazi za upimaji wa uingiaji wa usalama wa mtandao kwa kutumia mawakala wa AI. TARS ilituwezesha kupata ufadhili wa awali kutoka kwa kichocheo cha Forum Ventures. Hata hivyo, tulipokaribia kampuni za ulinzi na usalama wa mtandao, tuligundua kwamba mashirika hayo hayakumwamini mawakala wa AI kufanya na kuripoti kazi muhimu kama upimaji wa uingiaji. Pia, karibu wote walikuwa hasa wanataka kufanya biashara na kampuni za usalama wa mtandao ili kuwa na mtu wa kubeba lawama endapo mambo yatakwenda mrama. Kwa msingi huo, wataalamu wa kufanya maamuzi katika kampuni hizi hawakuzingatia usalama wao isipokuwa wanapobidi, na walipobidi, sehemu ya vigezo vyao ilikuwa kuwa na mtu wa kubeba lawama ikiwa kitu kitakwenda vibaya, kama aina ya bima. Hadi mwishoni mwa 2024, mashambulizi ya kiberespoti yaliyotolewa na AI bado hayakuwa wasiwasi mkubwa, hivyo wataalamu wa kufanya maamuzi hawakuona hitaji halisi la suluhisho letu. Kutokana na ukosefu huu wa mahitaji ya soko, tulibadilisha mwelekeo na kuzingatia kupunguza dhana potofu (hallucinations) katika miundo ya LLM. Kwa kuboresha uaminifu wa LLM, tunaamini kazi yetu inaweza kunufaisha matumizi mbalimbali ya mawakala wa AI ya baadaye zaidi ya usalama wa mtandao.

Msukumo kutoka katika Aldhabu za Transformers

Jina PAX linarejea ulimwengu wa Transformers. Kabla ya kuwa ikoni ya Optimus Prime, jina la awali la mhusika lilikuwa Orion Pax. Wazo hili la mabadiliko, kutoka uwezekano hadi uwajibikaji, liliipa PAX dhamira ya kusonga kutoka kwa uwezo mbichi, wa kuvutia wa LLM hadi kitu kinachoweza kuaminika vya kutosha kuutegemewa kweli.

Maono ya Mradi

PAX ni wakala wa utafiti na mfumo ambao kwa mfumo:

  • Kupima uaminifu wa jibu lolote la LLM.
  • Kupunguza dhana potofu na taarifa zisizo na msaada.
  • Kufanya na kufuatilia unatokana wa marejeleo kwa vyanzo vinavyothibitishwa.
  • Kutoa ripoti zinazoweza kuelezewa, zenye muundo zinazopewa alama kwa majibu na madai.

Lengo la mradi huu ni kufanya LLMs zisibaki tu kuwa za kuonekana kuwa za kweli, bali ziwe zinaweza kuthibitishwa kuwa za kuaminika, zikiwa na vipimo wazi vya hatari na ujasiri.

Demo ya Haraka & Msingi

Muhtasari wa Jinsi PAX Inavyofanya Kazi

1. Unatokana Iliyowekwa Lazima

Kwa swali lolote la mtumiaji, PAX inapitia ombi kupitia wakala ambaye anatafsiri kwa uwazi tofauti kati ya maarifa ya kawaida na taarifa zinazohitaji kuthibitishwa. Wakati jibu lina ukweli au madai ambayo hayachukuliwi kama maarifa ya kawaida kwa wengi (kama takwimu, matukio ya karibuni, nk), PAX inahakikisha wakala anachukua na kurejea kwa vyanzo vya kuaminika, vya kisasa.

Mchakato wa mfano:

  • Ikiwa dai sio maarifa ya kawaida → endesha API za utafutaji za nje
  • Kusanya matokeo, tambua kila taarifa muhimu na marejeleo yanayofaa
  • Weka nafasi zilizopangwa ndani ya jibu (si URL za wazi au viambatisho visivyo vya muundo)

2. Upimaji wa Ujasiri kwa Uwezekano

PAX haitegemei tu hisia za binadamu. Inapima jinsi model ya lugha ilivyokuwa “na ujasiri” katika kuzalisha kila sehemu ya jibu lake, kwa kuchanganua uwezekano wa ndani ulio tumika wakati wa kizazi cha maandishi. Hii inamruhusu mfumo kutoa alama ya kuaminika ya nambari kwa kila sentensi, na kwa jibu kwa ujumla. Maeneo ya ujasiri mdogo yanaweza kutambulishwa moja kwa moja.

Mchakato wa mfano:

  • Kwa kila token/ngenzi ya jibu, chukua uwezekano wa modeli kwa chaguo hilo
  • Jumlisha kwa sentensi
  • Toa alama za kuaminika/utabiri kwa kila sentensi na kwa jumla

3. Ulinganifu Uliodhihirika

Badala ya kukubali jibu moja, PAX humuuliza LLM swali lile lile mara nyingi, ikitumia embeddings (uwakilishi wa vekta wa maana) kupima makubaliano na ulinganifu kati ya majibu yanayowezekana.

  • Makubaliano makubwa yanapendekeza jibu ni imara/stable
  • Majibu yanayotofautiana sana ni alama za onyo: hatari au kutokuwa na elezo

Mchakato wa mfano:

  • Tuma swali kwa LLM mara nyingi; kusanya majibu
  • Hesabu alama za ulinganifu wa maana kati ya matokeo
  • Ripoti “alama ya ulinganifu” kwa mtumiaji

4. Tathmini ya Kibinafsi

PAX kwa hiari inauliza LLM nyingine (au kundi la modeli) kukagua mwingiliano mzima, nukuu, na alama za uwezekano, na kutoa hukumu yake ya mwisho, sawa kwa nambari (0-1) na maelezo ya kifungu. Hii inaongeza safu ya meta ya kujitathmini.

Mchakato wa mfano:

  • Weka mazungumzo/ripoti kwa wakala wa tathmini (modeli tofauti)
  • Wakala anakosoa uhalisia, muundo, uadilifu wa marejeleo, na ujasiri
  • Hutoa alama ya mwisho ya uaminifu na maelezo kwa ajili ya ukaguzi

Mtiririko wa Muingiliano

Mtiririko wa muingiliano wa PAX ni kama ifuatavyo:

  • Mtumiaji anatumia ombi.
  • Wakala wa PAX anashughulikia ombi, anashauriana na API za nje inapohitajika, na kujenga jibu lenye unatokana uliopangwa.
  • Mfumo:
    • Unaweka alama za uaminifu/uhakika kwa kila taarifa
    • Inaandika kumbukumbu sehemu zilizoungwa mkono na ushahidi gani
    • Kwa hiari, inatengeneza muhtasari wa kujitathmini na alama ya uaminifu

Matokeo ni jibu lenye uwazi mkubwa pamoja na alama ya nambari na marejeleo yaliyounganishwa, pamoja na rekodi inayoweza kukaguliwa ya data zote za kuunga mkono.

Msukumo

Njia zilizotumika kufanya PAX zifanye kazi zilichochewa sana na kazi zilizofanywa na CleanLabs. Hasa, algoriti/mbinu yao ya kuteua kama ilivyoelezwa HAPA. Ndani ya algoriti/mbinu hii, yafuatayo yanatumika:

  1. Tafakari Binafsi: Hii ni mchakato ambapo LLM inaombwa kutathmini wazi jibu na kusema wazi jinsi inavyosadifu kuwa jibu hili linaonekana kuwa zuri kwa ujasiri.

  2. Utabiri wa Uwezekano: Huu ni “mchakato ambapo tuko tayari kuzingatia uwezekano kwa tokeni zinazotengwa na LLM wakati inazalisha jibu kwa kuzingatia ombi (kwa njia ya auto-regressive token kwa tokeni)”.

  3. Ulinganifu Uliodhihirika: Upimaji huu ni mchakato ambapo LLM kwa mujibu wa uwezekano uzalisha majibu mengi yanayoweza kuwa mazuri, na tunapima jinsi majibu haya yanavyoanaiana au kutokana kwa kila mmoja (au kwa jibu fulani).

Kwanini Hii Inahusu?

Matumizi ya jadi ya LLM yanaweza kuzalisha dhana potofu au kutoa taarifa za zamani/zinazoonekana kuwa za kweli lakini ni za uongo. Kwa matumizi yenye jukumu la juu—tafiti, afya, sheria na ushauri wa kiufundi—AI isiyoweza kuthibitishwa haiwezi kukidhi mahitaji.

PAX inalenga kufanya imani kwa AI iweze kupimika na kuelezwa. Njia yake:

  • Inadai ushahidi wa “onyesha kazi yako” kwa madai si madogo.
  • Inahesabu kiasi cha ujasiri cha kuweka katika kila toleo.
  • Inamruhusu mtumiaji kukagua na kuelewa kwa nini jibu linapaswa (au halipaswi) kuaminiwa.

Hali ya Utafiti & Hatua Zinazofuata

PAX kwa sasa iko katika maendeleo ya vitendo kama mradi wa utafiti wa kibinafsi chini ya jukwaa la Osgil. Mambo muhimu yanayolengwa ni:

  • Kupunguza ucheleweshaji wa utafutaji wa nje na upimaji.
  • Kufanya majaribio na mtazamo wa mtumiaji dhidi ya alama za uaminifu zinazotolewa kiotomatiki.
  • Kujenga programu-jalizi maalum kwa nyanja za sayansi, habari, na matumizi ya udhibiti.
  • Kuandaa seti za data za kumbukumbu kwa ajili ya utafiti wazi na uwezekano wa kutolewa.

Maneno ya Mwisho

PAX inahusu kubadilisha LLMs kutoka “vifaa vya visanduku vya giza vinavyoweza kuonekana kuwa vinafaa” kuwa msaidizi wa uwazi, anayestahiki kutajwa, na anayepimika kwa nambari ambayo ni muhimu kwa kazi za ulimwengu halisi zenye viwango vya juu vya hatari. Ikiwa una nia ya kushirikiana, ukaguzi, au unataka kujadili mustakabali wa AI inayoweza kuaminika, tafadhali wasiliana. Asante kwa kusoma!