PAX के साथ विश्वसनीय AI

पृष्ठभूमि

PAX (Proactive Agent for eXemplary Trustworthiness) मेरे पहले प्रोजेक्ट, TARS से एक प्रमुख बदलाव के रूप में शुरू हुआ, जो स्वायत्त साइबर सुरक्षा पेनिट्रेशन परीक्षण को लक्षित करता था। जब मैं TARS का विकास कर रहा था, तो यह स्पष्ट हो गया कि व्यावहारिक, विश्वसनीय AI एजेंटों के लिए सबसे बड़ी बाधाओं में से एक केवल कार्य स्वचालन नहीं था, बल्कि AI-जनित उत्तर की विश्वसनीयता स्थापित करना था। विशेष रूप से जब ये आउटपुट वास्तविक दुनिया के निर्णयों को प्रभावित कर सकते हैं जिनके बड़े परिणाम हो सकते हैं।

TARS के साथ साइबर सुरक्षा पेनिट्रेशन परीक्षण कार्यों को स्वचालित करने के बजाय, मैं एक मौलिक समस्या को संबोधित करना चाहता था: हम कैसे जान सकते हैं कि हम LLM द्वारा कहे गए पर भरोसा कर सकते हैं?

TARS को मेरे पहले स्टार्टअप, Osgil के लिए एक MVP के रूप में विकसित किया गया था, जिसे मैंने सह-स्थापित किया था। हमारा लक्ष्य AI एजेंटों का उपयोग करके साइबर सुरक्षा पेनिट्रेशन परीक्षण को स्वचालित करना था। TARS ने हमें फोरम वेंचर्स एक्सेलेरेटर से प्री-सीड फंडिंग सुरक्षित करने में सक्षम बनाया। हालाँकि, जब हम रक्षा और साइबर सुरक्षा कंपनियों के पास गए, तो हमें पता चला कि उन संगठनों ने AI एजेंटों पर भरोसा नहीं किया कि वे महत्वपूर्ण कार्यों जैसे पेनिट्रेशन परीक्षण को निष्पादित और रिपोर्ट कर सकें। इसके अलावा, लगभग सभी मुख्य रूप से साइबर सुरक्षा कंपनियों के साथ व्यापार करना चाहते थे ताकि अगर चीजें गलत हों तो एक गिरने वाला व्यक्ति हो। मूल रूप से, इन कंपनियों के निर्णय लेने वालों को उनकी सुरक्षा की परवाह नहीं थी जब तक कि उन्हें करना न पड़े, और जब उन्होंने किया, तो उनके मानदंडों में से एक यह था कि अगर कुछ गलत हो गया तो एक गिरने वाला व्यक्ति हो, एक प्रकार के बीमा के रूप में। 2024 के अंत तक, स्वचालित AI-संचालित साइबर हमले अभी भी एक प्रमुख चिंता का विषय नहीं हैं, इसलिए निर्णय लेने वालों ने हमारे समाधान की वास्तविक आवश्यकता नहीं देखी। इस बाजार की मांग की कमी के कारण, हमने LLM मॉडलों में भ्रांतियों को कम करने पर ध्यान केंद्रित करने के लिए बदलाव किया। LLM की विश्वसनीयता में सुधार करके, हमें विश्वास है कि हमारा काम साइबर सुरक्षा के अलावा भविष्य के AI एजेंट अनुप्रयोगों की एक विस्तृत श्रृंखला को लाभ पहुंचा सकता है।

ट्रांसफार्मर्स की कथा से एक संकेत

नाम PAX Transformers ब्रह्मांड की ओर एक संकेत है। आइकॉनिक ऑप्टिमस प्राइम बनने से पहले, चरित्र का मूल नाम ओरियन पैक्स था। संभावना से जिम्मेदारी की ओर इस परिवर्तन का विचार PAX के मिशन को कच्ची, प्रभावशाली LLM क्षमता से कुछ ऐसा बनाने के लिए प्रेरित करता है जिस पर वास्तव में भरोसा किया जा सके।

प्रोजेक्ट दृष्टि

PAX एक शोध एजेंट और ढांचा है जो प्रणालीबद्ध रूप से:

  • किसी भी LLM उत्तर की विश्वसनीयता को मापता है।
  • भ्रांतियों और असमर्थित बयानों को कम करता है।
  • सत्यापित स्रोतों के लिए श्रेय को मजबूर और ट्रैक करता है।
  • उत्तरों और दावों दोनों को स्कोर करने वाले स्पष्ट, संरचित रिपोर्ट प्रदान करता है।

इस प्रोजेक्ट का उद्देश्य LLMs को केवल संभाव्य नहीं, बल्कि सिद्ध रूप से विश्वसनीय बनाना है, जिसमें जोखिम और विश्वास के पारदर्शी माप होते हैं।

त्वरित और बुनियादी डेमो

PAX कैसे काम करता है इसका अवलोकन

1. लागू श्रेय

किसी भी उपयोगकर्ता प्रश्न के लिए, PAX प्रॉम्प्ट को एक एजेंट के माध्यम से रूट करता है जो सामान्य ज्ञान और सत्यापन की आवश्यकता वाली जानकारी के बीच सख्ती से अंतर करता है। जब उत्तर में तथ्य या दावे होते हैं जो सामान्य ज्ञान के रूप में व्यापक रूप से नहीं माने जाते (जैसे सांख्यिकी, हाल की घटनाएँ, आदि), PAX सुनिश्चित करता है कि एजेंट विश्वसनीय, अद्यतन बाहरी स्रोतों को पुनः प्राप्त और संदर्भित करे।

छद्म-प्रक्रिया:

  • यदि दावा सामान्य ज्ञान नहीं है → बाहरी खोज API चलाएँ
  • परिणाम एकत्र करें, प्रत्येक महत्वपूर्ण बयान को प्रासंगिक संदर्भों से मानचित्रित करें
  • उत्तर में संरचित प्लेसहोल्डर डालें (साधारण URL या कच्चे फुटनोट नहीं)

2. संभाव्य विश्वास स्कोरिंग

PAX केवल मानव अंतर्ज्ञान पर निर्भर नहीं करता। यह मापता है कि भाषा मॉडल ने अपने उत्तर के प्रत्येक भाग को उत्पन्न करने में कितना “विश्वास” किया, पाठ उत्पादन के दौरान उपयोग की गई आंतरिक संभावनाओं का विश्लेषण करके। यह प्रणाली को प्रत्येक वाक्य और पूरे उत्तर को एक संख्यात्मक विश्वास स्कोर सौंपने की अनुमति देती है। इस प्रकार, कम-विश्वास वाले क्षेत्रों को स्वचालित रूप से चिह्नित किया जा सकता है।

छद्म-प्रक्रिया:

  • प्रत्येक उत्तर टोकन/शब्द के लिए, उस विकल्प के लिए मॉडल की संभावना प्राप्त करें
  • वाक्यों में एकत्रित करें
  • प्रति-वाक्य और समग्र विश्वास/विश्वसनीयता स्कोर उत्पन्न करें

3. अवलोकित स्थिरता

एक उत्तर को स्वीकार करने के बजाय, PAX LLM से एक ही प्रश्न को कई बार पूछता है, संभाव्य उत्तरों के बीच सहमति और स्थिरता को मापने के लिए एम्बेडिंग (अर्थ के वेक्टर प्रतिनिधित्व) का उपयोग करता है।

  • उच्च सहमति सुझाव देती है कि उत्तर मजबूत/स्थिर है
  • व्यापक रूप से भिन्न उत्तर चेतावनी के संकेत हैं: संभावित जोखिम या अस्पष्टता

छद्म-प्रक्रिया:

  • प्रश्न को LLM को कई बार भेजें; उत्तर एकत्र करें
  • आउटपुट के बीच अर्थ संबंधी समानता स्कोर की गणना करें
  • उपयोगकर्ता के लिए “स्थिरता स्कोर” की रिपोर्ट करें

4. आत्म-मूल्यांकन

PAX वैकल्पिक रूप से एक अन्य LLM (या एन्सेम्बल) से पूरे इंटरैक्शन, संदर्भों और संभावना स्कोर की समीक्षा करने के लिए कहता है, और इसका अपना अंतिम निर्णय देता है, दोनों एक संख्या (0-1) और एक वर्णनात्मक व्याख्या के रूप में। यह आत्म-प्रतिबिंब का एक मेटा स्तर जोड़ता है।

छद्म-प्रक्रिया:

  • बातचीत/रिपोर्ट को एक मूल्यांकन एजेंट (विभिन्न मॉडल) को फीड करें
  • एजेंट तथ्यात्मकता, संगति, संदर्भ की अखंडता, और विश्वास की आलोचना करता है
  • ऑडिट करने की क्षमता के लिए व्याख्या के साथ एक अंतिम विश्वास स्कोर आउटपुट करता है

इंटरैक्शन प्रवाह

PAX का इंटरैक्शन प्रवाह इस प्रकार है:

  • उपयोगकर्ता एक प्रॉम्प्ट भेजता है।
  • PAX एजेंट प्रॉम्प्ट को संसाधित करता है, आवश्यकतानुसार बाहरी API से परामर्श करता है, और संरचित श्रेय के साथ एक उत्तर बनाता है।
  • प्रणाली:
    • प्रति-स्टेटमेंट विश्वास/विश्वास स्कोर सौंपती है
    • यह लॉग करती है कि कौन से भाग किस साक्ष्य द्वारा समर्थित हैं
    • वैकल्पिक रूप से, एक आत्म-प्रतिबिंबित सारांश और विश्वास स्कोर उत्पन्न करती है

परिणाम एक अत्यधिक पारदर्शी उत्तर है जिसमें एक संख्यात्मक स्कोर और लिंक किए गए संदर्भ होते हैं, साथ ही सभी समर्थन डेटा का एक ऑडिट करने योग्य रिकॉर्ड होता है।

प्रेरणा

PAX को काम करने के लिए जो तरीके उपयोग किए गए थे, वे CleanLabs द्वारा किए गए कार्यों से भारी प्रेरित थे। विशेष रूप से, उनके स्कोरिंग एल्गोरिदम/पद्धति जैसा कि यहाँ विस्तृत किया गया है। इस एल्गोरिदम/पद्धति में निम्नलिखित का उपयोग किया गया है:

  1. आत्म-प्रतिबिंब: यह एक प्रक्रिया है जिसमें LLM से स्पष्ट रूप से उत्तर को रेट करने और स्पष्ट रूप से यह बताने के लिए कहा जाता है कि यह उत्तर कितना आत्मविश्वास से अच्छा लगता है।

  2. संभाव्य भविष्यवाणी: यह “एक प्रक्रिया है जिसमें हम एक LLM द्वारा उत्पन्न उत्तर के अनुरोध के आधार पर प्रति-टोकन संभावनाओं पर विचार करते हैं (स्वचालित रूप से टोकन द्वारा टोकन)"।

  3. अवलोकित स्थिरता: यह स्कोरिंग एक प्रक्रिया है जिसमें LLM संभाव्य रूप से कई संभाव्य उत्तर उत्पन्न करता है जो इसे अच्छे लगते हैं, और हम मापते हैं कि ये उत्तर एक-दूसरे (या एक दिए गए उत्तर) के प्रति कितने विरोधाभासी हैं।

यह क्यों महत्वपूर्ण है?

पारंपरिक LLM तैनाती तथ्य या पुरानी/विश्वसनीय लेकिन गलत जानकारी को भ्रांतित कर सकती है। मिशन-क्रिटिकल उपयोगों के लिए—शोध, स्वास्थ्य देखभाल, कानूनी और तकनीकी सलाह—असत्यापित AI बस पर्याप्त अच्छा नहीं है।

PAX का लक्ष्य AI में विश्वास को मापने योग्य और स्पष्ट बनाना है। इसका दृष्टिकोण:

  • गैर-तुच्छ दावों के लिए “अपने काम को दिखाओ” साक्ष्य की मांग करता है।
  • प्रत्येक आउटपुट में विश्वास रखने के लिए कितनी मात्रा को मापता है।
  • उपयोगकर्ताओं को ऑडिट करने और समझने की अनुमति देता है कि एक उत्तर पर भरोसा क्यों किया जाना चाहिए (या नहीं)।

अनुसंधान स्थिति और अगले कदम

PAX वर्तमान में Osgil के तहत एक निजी शोध परियोजना के रूप में सक्रिय विकास में है। प्रमुख फोकस में शामिल हैं:

  • बाहरी खोजों और स्कोरिंग की देरी को कम करना।
  • उपयोगकर्ता-धारणाओं बनाम स्वचालित विश्वास स्कोर के साथ प्रयोग करना।
  • विज्ञान, समाचार, और नियामक उपयोगों के लिए डोमेन-विशिष्ट प्लगइन्स बनाना।
  • ओपन रिसर्च और संभावित रिलीज के लिए बेंचमार्क डेटासेट तैयार करना।

अंतिम शब्द

PAX का उद्देश्य LLMs को “काले बॉक्स संभाव्य जनरेटर” से पारदर्शी, संदर्भित, और संख्यात्मक रूप से विश्वसनीय सहायक में बदलना है, जो वास्तविक दुनिया के उच्च-दांव कार्यों के लिए महत्वपूर्ण है। यदि आप सहयोग, ऑडिट में रुचि रखते हैं, या विश्वसनीय जनरेटिव AI के भविष्य पर चर्चा करना चाहते हैं, तो कृपया संपर्क करें। पढ़ने के लिए धन्यवाद!