PAX

प्रोजेक्ट का GitHub रेपो

पृष्ठभूमि

PAX (Proactive Agent for eXemplary Trustworthiness) का जन्म मेरे पहले प्रोजेक्ट, TARS, से एक बड़े बदलाव के रूप में हुआ, जिसका लक्ष्य स्वायत्त साइबरसुरक्षा पेनिट्रेशन टेस्टिंग था। जब मैं TARS विकसित कर रहा था, तो यह स्पष्ट हो गया कि व्यावहारिक, विश्वसनीय AI एजेंटों के सामने सबसे बड़ी बाधाओं में से एक केवल कार्य स्वचालन नहीं, बल्कि AI‑जनित प्रतिक्रिया की विश्वसनीयता स्थापित करना था। विशेष रूप से जब ये आउटपुट वास्तविक‑विश्व निर्णयों को प्रभावित कर सकते हैं जिनके बड़े परिणाम हो सकते हैं।

सिर्फ TARS के साथ साइबरसुरक्षा पेनिट्रेशन टेस्टिंग कार्यों को स्वचालित करने के बजाय, मैं एक मूलभूत समस्या को संबोधित करना चाहता था: हम कैसे जानें कि हम किसी LLM कहे हुए पर भरोसा कर सकते हैं?

TARS को मेरे पहले स्टार्ट‑अप, Osgil, के लिए एक MVP के रूप में विकसित किया गया, जिसे मैंने सह‑स्थापित किया था। हमारा लक्ष्य AI एजेंटों का उपयोग करके साइबरसुरक्षा पेनिट्रेशन टेस्टिंग को स्वचालित करना था। TARS ने हमें Forum Ventures एक्सेलेरेटर से प्री‑सीड फंडिंग सुरक्षित करने में मदद की। हालांकि, जब हमने रक्षा और साइबरसुरक्षा कंपनियों से संपर्क किया, तो हमें पता चला कि वे AI एजेंटों पर महत्वपूर्ण कार्यों जैसे पेनिट्रेशन टेस्टिंग को करने और रिपोर्ट करने के लिए भरोसा नहीं करते थे। साथ ही, लगभग सभी कंपनियां मुख्यतः साइबरसुरक्षा फर्मों के साथ व्यापार करना चाहती थीं ताकि चीज़ें बिगड़ने पर एक “फॉल गाइ” हो। मूलतः, इन कंपनियों के निर्णय‑निर्माताओं को तब तक अपनी सुरक्षा की परवाह नहीं थी जब तक उन्हें ज़रूरत न पड़े, और जब पड़ती थी, तो उनका मानदंड यह था कि अगर कुछ गलत हो जाए तो एक “फॉल गाइ” मौजूद हो, यानी बीमा के रूप में। 2024 के अंत तक, स्वचालित AI‑संचालित साइबर हमले अभी भी बड़ी चिंता नहीं थे, इसलिए निर्णय‑निर्माताओं ने हमारे समाधान की वास्तविक आवश्यकता नहीं देखी। इस बाजार मांग की कमी के कारण, हमने LLM मॉडलों में भ्रम (हैलुसिनेशन) को कम करने पर ध्यान केंद्रित करने के लिए दिशा बदली। LLM की विश्वसनीयता को सुधारकर, हमारा मानना है कि हमारा काम साइबरसुरक्षा से परे भविष्य के विभिन्न AI एजेंट अनुप्रयोगों को लाभ पहुँचा सकता है।

ट्रांसफ़ॉर्मर्स कथा से एक प्रेरणा

PAX नाम Transformers ब्रह्मांड को एक संकेत देता है। आइकॉनिक Optimus Prime बनने से पहले, इस पात्र का मूल नाम Orion Pax था। संभावना से जिम्मेदारी की ओर परिवर्तन का यह विचार PAX के मिशन को प्रेरित करता है—कच्ची, प्रभावशाली LLM क्षमता से ऐसी चीज़ की ओर जो भरोसेमंद हो और जिस पर वास्तव में भरोसा किया जा सके।

प्रोजेक्ट विज़न

PAX एक शोध एजेंट और फ्रेमवर्क है जो व्यवस्थित रूप से:

  • किसी भी LLM प्रतिक्रिया की विश्वसनीयता को मापता है।
  • भ्रम (हैलुसिनेशन) और असमर्थित बयानों को कम करता है।
  • सत्यापनीय स्रोतों को उद्धरण के रूप में अनिवार्य करता है और उनका ट्रैक रखता है।
  • व्याख्यात्मक, संरचित रिपोर्ट प्रदान करता है जो दोनों, प्रतिक्रियाओं और दावों को स्कोर करती है।

इस प्रोजेक्ट का लक्ष्य LLM को केवल संभावित नहीं, बल्कि साबित रूप से भरोसेमंद बनाना है, जिसमें जोखिम और विश्वास के स्पष्ट मापदंड हों।

त्वरित एवं बुनियादी डेमो

PAX कैसे काम करता है – अवलोकन

1. अनिवार्य उद्धरण

किसी भी उपयोगकर्ता प्रश्न के लिए, PAX प्रॉम्प्ट को एक एजेंट के माध्यम से रूट करता है जो सामान्य ज्ञान और सत्यापन‑आवश्यक जानकारी के बीच सख्ती से अंतर करता है। जब प्रतिक्रिया में ऐसे तथ्य या दावे होते हैं जो व्यापक रूप से सामान्य ज्ञान नहीं माने जाते (जैसे आँकड़े, हालिया घटनाएँ, आदि), तो PAX सुनिश्चित करता है कि एजेंट विश्वसनीय, अद्यतन बाहरी स्रोतों को प्राप्त करे और उनका उल्लेख करे।

Pseudo-process:

  • यदि दावा सामान्य ज्ञान नहीं है → बाहरी खोज API चलाएँ
  • परिणाम एकत्र करें, प्रत्येक महत्वपूर्ण कथन को संबंधित संदर्भों से मैप करें
  • प्रतिक्रिया में संरचित प्लेसहोल्डर डालें (सिर्फ URLs या कच्चे फुटनोट नहीं)

2. संभाव्यात्मक विश्वास स्कोरिंग

PAX केवल मानव अंतर्ज्ञान पर निर्भर नहीं करता। यह प्रत्येक उत्तर भाग को उत्पन्न करने में भाषा मॉडल की “विश्वास” को मापता है, टेक्स्ट जनरेशन के दौरान उपयोग की गई आंतरिक संभावनाओं का विश्लेषण करके। इससे सिस्टम प्रत्येक वाक्य और पूरे उत्तर को एक संख्यात्मक विश्वास स्कोर असाइन कर सकता है। कम‑विश्वास वाले क्षेत्रों को स्वचालित रूप से चिह्नित किया जा सकता है।

Pseudo-process:

  • प्रत्येक उत्तर टोकन/शब्द के लिए, मॉडल की उस चयन की संभाव्यता प्राप्त करें
  • वाक्यों के बीच समेकित करें
  • प्रति‑वाक्य और समग्र विश्वास/विश्वसनीयता स्कोर उत्पन्न करें

3. देखी गई स्थिरता

एक ही उत्तर को स्वीकार करने के बजाय, PAX समान प्रश्न को कई बार LLM को पूछता है, एम्बेडिंग्स (अर्थ के वेक्टर प्रतिनिधित्व) का उपयोग करके संभाव्य उत्तरों के बीच सहमति और स्थिरता को मापता है।

  • उच्च सहमति संकेत देती है कि उत्तर मजबूत/स्थिर है
  • बहुत विविध उत्तर चेतावनी संकेत हैं: संभावित जोखिम या अस्पष्टता

Pseudo-process:

  • प्रश्न को कई बार LLM को भेजें; प्रतिक्रियाएँ एकत्र करें
  • आउटपुट के बीच अर्थात्मक समानता स्कोर गणना करें
  • उपयोगकर्ता के लिए एक “स्थिरता स्कोर” रिपोर्ट करें

4. आत्म‑मूल्यांकन

PAX वैकल्पिक रूप से एक अन्य LLM (या एन्सेम्बल) को पूरी बातचीत, उद्धरण, और संभाव्यता स्कोर की समीक्षा करने के लिए कहता है, और अपना अंतिम निर्णय देता है, दोनों एक संख्या (0‑1) और एक वर्णनात्मक व्याख्या के रूप में। यह एक मेटा‑परत की आत्म‑चिंतन जोड़ता है।

Pseudo-process:

  • संवाद/रिपोर्ट को एक मूल्यांकन एजेंट (भिन्न मॉडल) को फीड करें
  • एजेंट तथ्यात्मकता, संगति, उद्धरण अखंडता, और विश्वास का मूल्यांकन करता है
  • ऑडिटेबिलिटी के लिए व्याख्या के साथ अंतिम विश्वास स्कोर आउटपुट करता है

इंटरैक्शन फ्लो

PAX का इंटरैक्शन फ्लो इस प्रकार है:

  • उपयोगकर्ता एक प्रॉम्प्ट भेजता है।
  • PAX एजेंट प्रॉम्प्ट को प्रोसेस करता है, आवश्यकतानुसार बाहरी API को परामर्श देता है, और संरचित उद्धरणों के साथ एक प्रतिक्रिया बनाता है।
  • सिस्टम:
    • प्रत्येक कथन के लिए विश्वास/विश्वास स्कोर असाइन करता है
    • कौन‑से भाग किस प्रमाण द्वारा समर्थित हैं, इसका लॉग रखता है
    • वैकल्पिक रूप से एक आत्म‑परावर्तक सारांश और विश्वास स्कोर उत्पन्न करता है

परिणाम एक अत्यधिक पारदर्शी उत्तर है जिसमें संख्यात्मक स्कोर और लिंक्ड रेफ़रेंसेज़ होते हैं, साथ ही सभी सहायक डेटा का ऑडिटेबल रिकॉर्ड भी।

प्रेरणा

PAX को काम करने के लिए उपयोग किए गए तरीकों पर भारी रूप से CleanLabs द्वारा किए गए कार्यों से प्रेरणा ली गई। विशेष रूप से, उनका स्कोरिंग एल्गोरिद्म/विधि जैसा कि यहाँ विस्तृत है, इस एल्गोरिद्म/विधि में निम्नलिखित का उपयोग किया गया है:

  1. स्व‑परावर्तन: यह एक प्रक्रिया है जिसमें LLM को स्पष्ट रूप से प्रतिक्रिया को रेट करने और यह बताने को कहा जाता है कि वह कितनी आत्मविश्वास से अच्छा दिखता है।

  2. संभाव्यात्मक भविष्यवाणी: यह “एक प्रक्रिया है जिसमें हम LLM द्वारा अनुरोध के आधार पर (ऑटो‑रेग्रेसीव टोकन‑बाय‑टोकन) प्रतिक्रिया उत्पन्न करते समय असाइन किए गए प्रति‑टोकन संभावनाओं पर विचार करते हैं”।

  3. देखी गई स्थिरता: यह स्कोरिंग एक प्रक्रिया है जिसमें LLM संभाव्यात्मक रूप से कई संभाव्य उत्तर उत्पन्न करता है जो वह अच्छा मानता है, और हम मापते हैं कि ये उत्तर एक‑दूसरे (या किसी दिए गए उत्तर) के प्रति कितने विरोधाभासी हैं।

यह क्यों महत्वपूर्ण है?

परम्परागत LLM डिप्लॉयमेंट्स तथ्यात्मक भ्रम (हैलुसिनेशन) या पुरानी/विश्वसनीय लेकिन गलत जानकारी दे सकते हैं। मिशन‑क्रिटिकल उपयोगों—शोध, स्वास्थ्य‑सेवा, कानूनी और तकनीकी सलाह—के लिए अपर्याप्त AI बस पर्याप्त नहीं है।

PAX का लक्ष्य AI में विश्वास को मापनीय और व्याख्यात्मक बनाना है। इसका दृष्टिकोण:

  • गैर‑त्रिवियल दावों के लिए “अपना काम दिखाएँ” प्रमाण की मांग करता है।
  • प्रत्येक आउटपुट में कितना विश्वास रखा जाए, इसे मात्रात्मक बनाता है।
  • उपयोगकर्ताओं को ऑडिट करने और समझने की अनुमति देता है कि कोई उत्तर क्यों (या क्यों नहीं) भरोसेमंद होना चाहिए।

शोध स्थिति एवं अगले कदम

PAX वर्तमान में सक्रिय विकास चरण में है, जो एक निजी शोध प्रोजेक्ट के रूप में Osgil के अंतर्गत चल रहा है। प्रमुख फोकस में शामिल हैं:

  • बाहरी खोजों और स्कोरिंग की लेटेंसी को कम करना।
  • उपयोगकर्ता‑धारणा बनाम स्वचालित विश्वास स्कोरों का प्रयोग करना।
  • विज्ञान, समाचार, और नियामक उपयोगों के लिए डोमेन‑विशिष्ट प्लगइन्स बनाना।
  • खुले शोध के लिए बेंचमार्क डेटासेट तैयार करना और संभावित रिलीज़।

अंतिम शब्द

PAX LLM को “ब्लैक बॉक्स संभावित जनरेटर” से पारदर्शी, उद्धरण‑योग्य, और संख्यात्मक रूप से भरोसेमंद सहायक में बदलने के बारे में है, जो वास्तविक‑विश्व, उच्च‑दांव कार्यों के लिए अत्यावश्यक है।

यदि आप सहयोग, ऑडिट, या भरोसेमंद जनरेटिव AI के भविष्य पर चर्चा करना चाहते हैं, तो कृपया संपर्क करें। पढ़ने के लिए धन्यवाद!