PAX के साथ विश्वसनीय AI

पृष्ठभूमि

PAX (Proactive Agent for eXemplary Trustworthiness) मेरे पहले प्रोजेक्ट, TARS, से एक बड़े मोड़ के रूप में शुरू हुआ, जिसका लक्ष्य स्वायत्त साइबरसुरक्षा पेनिट्रेशन टेस्टिंग था। जैसे-जैसे मैं TARS विकसित कर रहा था, यह स्पष्ट हो गया कि व्यावहारिक, विश्वसनीय AI एजेंटों के लिए सबसे बड़ी बाधाओं में से एक केवल कार्य स्वचालन नहीं था, बल्कि AI-जनित उत्तर की विश्वसनीयता स्थापित करना था। विशेष रूप से तब, जब वे आउटपुट वास्तविक दुनिया के निर्णयों को प्रभावित कर सकते थे, जिनके बहुत बड़े परिणाम हो सकते हैं।

TARS के साथ केवल साइबरसुरक्षा पेनिट्रेशन टेस्टिंग कार्यों को स्वचालित करने के बजाय, मैं एक मौलिक समस्या को संबोधित करना चाहता था: हमें कैसे पता चले कि हम LLM द्वारा कही गई बात पर भरोसा कर सकते हैं?

TARS को मेरे पहले स्टार्टअप, Osgil, के लिए एक MVP के रूप में विकसित किया गया था, जिसकी मैंने सह-स्थापना की थी। हमारा लक्ष्य AI एजेंटों का उपयोग करके साइबरसुरक्षा पेनिट्रेशन टेस्टिंग को स्वचालित करना था। TARS ने हमें Forum Ventures accelerator से pre-seed funding सुरक्षित करने में सक्षम बनाया। हालांकि, जब हमने defense और cybersecurity कंपनियों से संपर्क किया, तो हमने पाया कि वे संगठन AI agents पर पेनिट्रेशन टेस्टिंग जैसे महत्वपूर्ण कार्य करने और उनकी रिपोर्ट देने के लिए भरोसा नहीं करते थे। साथ ही, उनमें से लगभग सभी मुख्यतः cybersecurity कंपनियों के साथ व्यवसाय करना चाहते थे ताकि चीजें बिगड़ने की स्थिति में उनके पास एक बलि का बकरा हो। मूल रूप से, इन कंपनियों के निर्णय-निर्माताओं को अपनी सुरक्षा की परवाह नहीं थी, जब तक कि उन्हें करनी न पड़े, और जब वे करते भी, तो उनके मानदंडों का एक हिस्सा यह था कि कुछ गलत होने पर उनके पास एक बलि का बकरा हो, बीमा के एक रूप के तौर पर। 2024 के अंत तक, स्वचालित AI-संचालित साइबर हमले अभी भी कोई बड़ी चिंता नहीं हैं, इसलिए निर्णय-निर्माताओं ने हमारे समाधान की वास्तविक आवश्यकता नहीं देखी। बाज़ार की मांग की इस कमी के कारण, हम LLM मॉडलों में hallucinations कम करने पर ध्यान केंद्रित करने की ओर मुड़ गए। LLM की विश्वसनीयता में सुधार करके, हमें विश्वास है कि हमारा काम साइबरसुरक्षा से परे भविष्य के AI agent अनुप्रयोगों की एक विस्तृत श्रृंखला को लाभ पहुँचा सकता है।

Transformers की कथा से एक प्रेरणा

PAX नाम Transformers ब्रह्मांड के प्रति एक संकेत है। प्रतिष्ठित Optimus Prime बनने से पहले, इस चरित्र का मूल नाम Orion Pax था। परिवर्तन के इस विचार ने—संभावना से जिम्मेदारी की ओर—PAX के मिशन को प्रेरित किया: कच्ची, प्रभावशाली LLM क्षमता से ऐसी चीज़ की ओर बढ़ना जिस पर सचमुच भरोसा किया जा सके।

परियोजना की दृष्टि

PAX एक शोध एजेंट और framework है जो व्यवस्थित रूप से:

  • किसी भी LLM उत्तर की विश्वसनीयता को मापता है।
  • hallucinations और असमर्थित कथनों को कम करता है।
  • सत्यापन योग्य स्रोतों के लिए attribution को बाध्य और ट्रैक करता है।
  • उत्तरों और दावों, दोनों के लिए explainable, संरचित रिपोर्ट प्रदान करता है।

इस परियोजना का उद्देश्य LLMs को केवल plausible नहीं, बल्कि साबित रूप से विश्वसनीय बनाना है, जोखिम और विश्वास के पारदर्शी मापों के साथ।

त्वरित और बुनियादी डेमो

PAX कैसे काम करता है, इसका अवलोकन

1. अनिवार्य Attributions

किसी भी उपयोगकर्ता query के लिए, PAX prompt को ऐसे agent के माध्यम से route करता है जो common knowledge और सत्यापन की आवश्यकता वाली जानकारी के बीच सख्ती से अंतर करता है। जब response में ऐसे तथ्य या दावे होते हैं जिन्हें व्यापक रूप से common knowledge नहीं माना जाता (जैसे statistics, हाल की घटनाएँ, आदि), तो PAX सुनिश्चित करता है कि agent trusted, up-to-date बाहरी स्रोतों को retrieve करे और उनका संदर्भ दे।

Pseudo-process:

  • यदि दावा common knowledge नहीं है → बाहरी search APIs चलाएँ
  • परिणाम एकत्र करें, हर महत्वपूर्ण कथन को संबंधित references से map करें
  • response में संरचित placeholders डालें (साधारण URLs या raw footnotes नहीं)

2. प्रायिकात्मक Confidence Scoring

PAX केवल मानवीय intuition पर निर्भर नहीं करता। यह text generation के दौरान उपयोग की गई आंतरिक probabilities का विश्लेषण करके मापता है कि भाषा मॉडल अपने उत्तर के प्रत्येक भाग को उत्पन्न करते समय कितना “confident” था। इससे system को हर sentence और पूरे उत्तर के लिए एक संख्यात्मक trust score असाइन करने में मदद मिलती है। कम-confidence वाले क्षेत्रों को इस तरह स्वतः flag किया जा सकता है।

Pseudo-process:

  • प्रत्येक response token/word के लिए, उस विकल्प के लिए model की probability प्राप्त करें
  • वाक्यों के across aggregate करें
  • प्रति-वाक्य और समग्र trust/reliability scores उत्पन्न करें

3. अवलोकित संगतता

एक उत्तर स्वीकार करने के बजाय, PAX embeddings (अर्थ के vector representations) का उपयोग करके एक ही प्रश्न कई बार LLM से पूछता है, ताकि plausible responses के बीच agreement और consistency मापी जा सके।

  • उच्च agreement यह संकेत देता है कि उत्तर मजबूत/स्थिर है
  • बहुत भिन्न responses चेतावनी संकेत हैं: संभावित जोखिम या अस्पष्टता

Pseudo-process:

  • प्रश्न को LLM को कई बार भेजें; responses एकत्र करें
  • outputs के बीच semantic similarity scores की गणना करें
  • उपयोगकर्ता के लिए एक “consistency score” रिपोर्ट करें

4. आत्म-मूल्यांकन

PAX वैकल्पिक रूप से किसी अन्य LLM (या ensemble) से पूरी interaction, citations, और probability scores की समीक्षा करने, और अपना अंतिम निर्णय देने के लिए कहता है, संख्या (0-1) और narrative explanation, दोनों के रूप में। यह आत्म-चिंतन की एक meta परत जोड़ता है।

Pseudo-process:

  • conversation/report को एक assessment agent (भिन्न model) को feed करें
  • Agent factuality, coherence, citation integrity, और confidence की आलोचना करता है
  • auditability के लिए explanation के साथ final trust score outputs

इंटरैक्शन प्रवाह

PAX का interaction flow इस प्रकार होता है:

  • उपयोगकर्ता एक prompt भेजता है।
  • PAX agent prompt को process करता है, आवश्यकतानुसार external APIs से परामर्श करता है, और structured attributions के साथ एक response बनाता है।
  • System:
    • प्रति-कथन trust/confidence scores असाइन करता है
    • लॉग करता है कि कौन से भाग किस evidence द्वारा समर्थित हैं
    • वैकल्पिक रूप से, एक self-reflective summary और trust score उत्पन्न करता है

परिणाम एक अत्यंत पारदर्शी उत्तर होता है, जिसमें एक numerical score और जुड़े हुए references होते हैं, साथ ही सभी supporting data का एक auditable record भी होता है।

प्रेरणा

PAX को कार्यशील बनाने के लिए उपयोग की गई विधियाँ CleanLabs द्वारा किए गए कार्यों से बहुत अधिक प्रेरित थीं। विशेष रूप से, उनकी scoring algorithm/method, जैसा कि HERE में विस्तार से बताया गया है। इस algorithm/method में, निम्नलिखित का उपयोग किया जाता है:

  1. Self-Reflection: यह एक प्रक्रिया है जिसमें LLM से स्पष्ट रूप से उत्तर को रेट करने और स्पष्ट रूप से यह बताने के लिए कहा जाता है कि यह उत्तर कितना आत्मविश्वासपूर्ण रूप से अच्छा दिखता है।

  2. प्रायिकात्मक Prediction: यह “एक प्रक्रिया है जिसमें हम प्रति-token probabilities पर विचार करते हैं जो एक LLM द्वारा दिए जाते हैं, जब वह अनुरोध के आधार पर एक response उत्पन्न करता है (auto-regressively token by token)"।

  3. Observed Consistency: यह scoring एक ऐसी प्रक्रिया है जिसमें LLM प्रायिकात्मक रूप से कई plausible responses उत्पन्न करता है जिन्हें वह अच्छा मानता है, और हम मापते हैं कि ये responses एक-दूसरे से (या किसी दिए गए response से) कितने विरोधाभासी हैं।

यह क्यों महत्वपूर्ण है?

पारंपरिक LLM deployments तथ्यों को hallucinate कर सकते हैं या पुरानी/विश्वसनीय लेकिन गलत जानकारी दे सकते हैं। शोध, स्वास्थ्य सेवा, कानून, और तकनीकी सलाह जैसे mission-critical उपयोगों के लिए, असत्यापनीय AI बस पर्याप्त नहीं है।

PAX AI में trust को मापनीय और explainable बनाने का लक्ष्य रखता है। इसका दृष्टिकोण:

  • गैर-तुच्छ दावों के लिए “show-your-work” साक्ष्य की माँग करता है।
  • प्रत्येक output में रखे जाने वाले confidence की मात्रा को quantifies करता है।
  • उपयोगकर्ताओं को audit करने और समझने की अनुमति देता है कि किसी उत्तर पर भरोसा क्यों करना चाहिए (या नहीं करना चाहिए)।

शोध स्थिति और अगले कदम

PAX वर्तमान में Osgil के umbrella के तहत एक निजी शोध परियोजना के रूप में सक्रिय विकास में है। प्रमुख फोकस क्षेत्रों में शामिल हैं:

  • बाहरी searches और scoring की latency कम करना।
  • user-perception बनाम automated trust scores के साथ प्रयोग करना।
  • science, news, और regulatory उपयोगों के लिए domain-specific plugins बनाना।
  • खुले शोध और संभावित release के लिए benchmark datasets तैयार करना।

अंतिम शब्द

PAX का उद्देश्य LLMs को “black box plausible generators” से बदलकर पारदर्शी, citeable, और संख्यात्मक रूप से भरोसेमंद assistants में बदलना है, जो वास्तविक दुनिया के, उच्च-दांव वाले कार्यों के लिए महत्वपूर्ण है। यदि आप collaboration, audits, या trustworthy generative AI के भविष्य पर चर्चा में रुचि रखते हैं, तो कृपया संपर्क करें। पढ़ने के लिए धन्यवाद!