الذكاء الاصطناعي الموثوق مع PAX

الخلفية

بدأ PAX ‏(الوكيل الاستباقي للموثوقية النموذجية) حياته بوصفه تحوّلًا كبيرًا عن مشروعي السابق، TARS، الذي كان يهدف إلى اختبار الاختراق الأمني السيبراني الذاتي. أثناء تطويري لـ TARS، اتضح أن أحد أكبر العوائق أمام وكلاء الذكاء الاصطناعي العمليين والموثوقين لم يكن مجرد أتمتة المهام، بل إثبات موثوقية استجابة مولَّدة بواسطة الذكاء الاصطناعي. خصوصًا عندما يمكن أن تؤثر تلك المخرجات في قرارات واقعية قد تكون لها عواقب هائلة.

بدلًا من مجرد أتمتة مهام اختبار الاختراق الأمني السيبراني باستخدام TARS، أردت معالجة مشكلة أساسية: كيف نعرف أننا نستطيع الوثوق بما يقوله نموذج لغوي كبير؟

تم تطوير TARS بوصفه الحد الأدنى من المنتج القابل للتطبيق (MVP) لأول شركة ناشئة لي، Osgil، التي شاركت في تأسيسها. كان هدفنا أتمتة اختبار الاختراق الأمني السيبراني باستخدام وكلاء الذكاء الاصطناعي. مكّننا TARS من تأمين تمويل أولي مبكر من مسرّعة Forum Ventures. ومع ذلك، عندما تواصلنا مع شركات الدفاع والأمن السيبراني، اكتشفنا أن تلك المؤسسات لا تثق في وكلاء الذكاء الاصطناعي لتنفيذ مهام حرجة مثل اختبار الاختراق والإبلاغ عنها. كذلك، كانت الغالبية العظمى منهم تريد أساسًا التعامل مع شركات الأمن السيبراني لكي يكون لديها كبش فداء في حال ساءت الأمور. وبشكل أساسي، لم يكن صناع القرار في هذه الشركات يهتمون بأمنهم إلا إذا اضطروا إلى ذلك، وعندما كانوا يفعلون، كان جزء من معاييرهم أن يكون لديهم كبش فداء في حال حدث خطأ ما، كنوع من التأمين. وحتى أواخر عام 2024، لا تزال الهجمات السيبرانية الآلية المدعومة بالذكاء الاصطناعي ليست مصدر قلق رئيسيًا، لذلك لم يرَ صناع القرار حاجة حقيقية لحلنا. بسبب هذا النقص في طلب السوق، تحوّلنا إلى التركيز على تقليل الهلوسات في نماذج LLM. ومن خلال تحسين موثوقية LLM، نعتقد أن عملنا يمكن أن يفيد طيفًا واسعًا من تطبيقات وكلاء الذكاء الاصطناعي المستقبلية بما يتجاوز الأمن السيبراني.

لمسة من تقاليد المتحوّلين

اسم PAX هو إشارة إلى عالم Transformers. قبل أن يصبح أوتوبوتيموس برايم الأيقوني، كان الاسم الأصلي للشخصية هو Orion Pax. هذه الفكرة المتعلقة بالتحول، من الإمكان إلى المسؤولية، ألهمت مهمة PAX في الانتقال من قدرة خام ومبهرة لنماذج LLM إلى شيء موثوق بما يكفي للاعتماد عليه فعلًا.

رؤية المشروع

PAX هو وكيل أبحاث وإطار عمل يقوم بشكل منهجي بما يلي:

  • قياس موثوقية أي استجابة من نموذج لغوي كبير.
  • تقليل الهلوسات والعبارات غير المدعومة.
  • فرض تتبّع الإسناد إلى مصادر قابلة للتحقق ومراقبته.
  • تقديم تقارير قابلة للشرح ومهيكلة تُقيِّم كلًا من الاستجابات والادعاءات.

هدف هذا المشروع هو جعل نماذج LLM ليست فقط معقولة الظاهر، بل قابلة للإثبات على أنها موثوقة، مع مقاييس شفافة للمخاطر والثقة.

عرض توضيحي سريع وأساسي

نظرة عامة على كيفية عمل PAX

1. الإسناد المفروض

في أي استعلام من المستخدم، يمرر PAX الطلب عبر وكيل يميّز بدقة بين المعرفة العامة والمعلومات التي تحتاج إلى تحقق. عندما تحتوي الاستجابة على حقائق أو ادعاءات لا تُعدّ على نطاق واسع معرفة عامة (مثل الإحصاءات، الأحداث الحديثة، إلخ)، يضمن PAX أن يسترجع الوكيل مصادر خارجية موثوقة وحديثة ويشير إليها.

العملية شبه البرمجية:

  • إذا كان الادعاء ليس من المعرفة العامة → شغّل واجهات برمجة تطبيقات البحث الخارجية
  • اجمع النتائج، واربط كل بيان مهم بالمراجع ذات الصلة
  • أدرج عناصر نائبة مهيكلة في الاستجابة (وليس مجرد عناوين URL أو حواشٍ سفلية خام)

2. تسجيل الثقة الاحتمالي

لا يعتمد PAX على الحدس البشري فقط. بل يقيس مدى “ثقة” نموذج اللغة أثناء توليد كل جزء من إجابته، من خلال تحليل الاحتمالات الداخلية المستخدمة أثناء توليد النص. يتيح هذا للنظام تعيين درجة ثقة رقمية لكل جملة، وللإجابة ككل. وبالتالي يمكن وضع علامات تلقائيًا على المناطق منخفضة الثقة.

العملية شبه البرمجية:

  • لكل رمز/كلمة في الاستجابة، استرجع احتمال النموذج لذلك الخيار
  • اجمع القيم عبر الجمل
  • أنتج درجات ثقة/موثوقية لكل جملة وللإجابة بشكل عام

3. الاتساق الملحوظ

بدلًا من قبول إجابة واحدة، يطرح PAX على نموذج LLM السؤال نفسه عدة مرات، باستخدام التضمينات (تمثيلات المتجهات للمعنى) لقياس الاتفاق والاتساق بين الاستجابات الممكنة.

  • يشير الاتفاق العالي إلى أن الإجابة متينة/مستقرة
  • الاستجابات المتباينة على نطاق واسع هي إشارات تحذير: احتمال وجود خطر أو غموض

العملية شبه البرمجية:

  • أرسل السؤال إلى نموذج LLM عدة مرات؛ واجمع الاستجابات
  • احسب درجات التشابه الدلالي بين المخرجات
  • أبلغ عن “درجة الاتساق” للمستخدم

4. التقييم الذاتي

يمكن لـ PAX اختياريًا أن يطلب من نموذج LLM آخر (أو مجموعة نماذج) مراجعة التفاعل الكامل، والاستشهادات، ودرجات الاحتمال، وإعطاء حكمه النهائي الخاص، سواء كرقم (0-1) أو كتفسير سردي. يضيف هذا طبقة ميتا من التأمل الذاتي.

العملية شبه البرمجية:

  • مرّر المحادثة/التقرير إلى وكيل تقييم (نموذج مختلف)
  • ينتقد الوكيل الدقة الواقعية، والترابط، وسلامة الاستشهاد، والثقة
  • يُخرج درجة ثقة نهائية مع تفسير لأجل قابلية التدقيق

تدفق التفاعل

يجري تدفق التفاعل في PAX كما يلي:

  • يرسل المستخدم طلبًا.
  • يعالج وكيل PAX الطلب، ويستشير واجهات برمجة التطبيقات الخارجية عند الحاجة، ويبني استجابة مع إسنادات مهيكلة.
  • يقوم النظام بما يلي:
    • يعيّن درجات الثقة/الاعتماد لكل بيان
    • يسجل الأجزاء المدعومة بأي الأدلة
    • اختياريًا، يولد ملخصًا تأمليًا ذاتيًا ودرجة ثقة

والنتيجة هي إجابة عالية الشفافية مع درجة رقمية ومراجع مرتبطة، إلى جانب سجل قابل للتدقيق لجميع البيانات الداعمة.

الإلهام

كانت الطرق المستخدمة لجعل PAX يعمل مستوحاة بشكل كبير من الأعمال التي قام بها CleanLabs. وبشكل خاص، خوارزمية/منهجية التسجيل لديهم كما هو موضح هنا. وفي هذه الخوارزمية/المنهجية، يُستخدم ما يلي:

  1. التأمل الذاتي: وهي عملية يُطلب فيها من نموذج LLM أن يقيم الاستجابة صراحةً وأن يحدد صراحةً مدى الثقة التي يبدو بها هذا الرد جيدًا.

  2. التنبؤ الاحتمالي: وهي “عملية نأخذ فيها احتمالات كل رمز على حدة التي يخصصها نموذج LLM أثناء توليده استجابةً مبنية على الطلب (بشكل تتابعي تلقائيًا رمزًا بعد رمز)”.

  3. الاتساق الملحوظ: هذا التسجيل هو عملية يولد فيها نموذج LLM احتماليًا عدة استجابات ممكنة يظن أنها قد تكون جيدة، ونقيس مدى تناقض هذه الاستجابات مع بعضها البعض (أو مع استجابة معينة).

لماذا هذا مهم؟

يمكن لنشر نماذج LLM التقليدية أن يهلوِس حقائق أو يقدم معلومات قديمة أو تبدو مقنعة لكنها خاطئة. بالنسبة للاستخدامات الحرجة مثل البحث، والرعاية الصحية، والقانون، والنصيحة التقنية، فإن الذكاء الاصطناعي غير القابل للتحقق ليس جيدًا بما يكفي ببساطة.

يهدف PAX إلى جعل الثقة في الذكاء الاصطناعي قابلة للقياس والتفسير. نهجه:

  • يطلب أدلة من نوع “أرِ عملك” بالنسبة للادعاءات غير البديهية.
  • يكمّم مقدار الثقة الواجب وضعها في كل مخرج.
  • يتيح للمستخدمين تدقيق وفهم سبب وجوب الثقة في الإجابة أو عدم الثقة بها.

حالة البحث والخطوات التالية

يخضع PAX حاليًا للتطوير النشط بوصفه مشروعًا بحثيًا خاصًا تحت مظلة Osgil. وتركّز الأولويات الرئيسية على:

  • تقليل زمن استجابة عمليات البحث الخارجية وعمليات التسجيل.
  • التجريب بمقارنة إدراك المستخدم مقابل درجات الثقة الآلية.
  • بناء إضافات خاصة بالمجالات للعلوم والأخبار والاستخدامات التنظيمية.
  • إعداد مجموعات بيانات معيارية للبحث المفتوح والإصدار المحتمل.

كلمات أخيرة

يدور PAX حول تحويل نماذج LLM من “مولدات معقولة الظاهر تعمل كصندوق أسود” إلى مساعدين شفافين، وقابلين للاستشهاد، ويمكن الوثوق بهم رقميًا، وهو أمر بالغ الأهمية للمهام الواقعية عالية المخاطر. إذا كنت مهتمًا بالتعاون أو التدقيق أو ترغب في مناقشة مستقبل الذكاء الاصطناعي التوليدي الموثوق، فالرجاء التواصل. شكرًا لقراءتك!