الذكاء الاصطناعي الموثوق مع PAX
الخلفية
بدأت PAX (الوكيل الاستباقي للموثوقية النموذجية) كتحول كبير من مشروعي السابق، TARS، الذي استهدف اختبار اختراق الأمن السيبراني بشكل مستقل. بينما كنت أطور TARS، أصبح من الواضح أن أحد أكبر الحواجز أمام الوكلاء الذكيين الموثوقين ليس مجرد أتمتة المهام، ولكن إثبات موثوقية الاستجابة التي ينتجها الذكاء الاصطناعي. خاصة عندما يمكن أن تؤثر تلك المخرجات على قرارات العالم الحقيقي التي يمكن أن تكون لها عواقب كبيرة.
بدلاً من مجرد أتمتة مهام اختبار اختراق الأمن السيبراني باستخدام TARS، أردت معالجة مشكلة أساسية: كيف نعرف أننا يمكن أن نثق بما يقوله LLM؟
تم تطوير TARS كنموذج أولي لشركتي الناشئة الأولى، Osgil، التي شاركت في تأسيسها. كان هدفنا هو أتمتة اختبار اختراق الأمن السيبراني باستخدام الوكلاء الذكيين. مكننا TARS من تأمين تمويل أولي من مسرعة Forum Ventures. ومع ذلك، عندما اقتربنا من شركات الدفاع والأمن السيبراني، اكتشفنا أن تلك المنظمات لم تثق في الوكلاء الذكيين لأداء وإبلاغ المهام الحرجة مثل اختبار الاختراق. أيضًا، أراد معظمهم بشكل أساسي القيام بأعمال مع شركات الأمن السيبراني ليكون لديهم شخص يتحمل المسؤولية في حال حدوث شيء خاطئ. بشكل أساسي، لم يكن صناع القرار في هذه الشركات يهتمون بأمنهم إلا إذا كان عليهم ذلك، وعندما فعلوا، كان جزء من معاييرهم هو وجود شخص يتحمل المسؤولية في حال حدوث خطأ، كنوع من التأمين. اعتبارًا من أواخر عام 2024، لا تزال الهجمات السيبرانية الآلية المدعومة بالذكاء الاصطناعي ليست مصدر قلق كبير، لذا لم يرَ صناع القرار حاجة حقيقية لحلنا. بسبب هذا النقص في الطلب في السوق، تحولنا للتركيز على تقليل الهلوسات في نماذج LLM. من خلال تحسين موثوقية LLM، نعتقد أن عملنا يمكن أن يفيد مجموعة واسعة من تطبيقات الوكلاء الذكيين المستقبلية خارج الأمن السيبراني.
دفعة من أسطورة المحولات
اسم PAX هو إشارة إلى عالم Transformers. قبل أن يصبح الشخصية الأيقونية أوبتيموس برايم، كان الاسم الأصلي للشخصية هو أوريون باكس. ألهمت فكرة التحول، من الإمكانية إلى المسؤولية، مهمة PAX في الانتقال من القدرة المثيرة للإعجاب لـ LLM إلى شيء موثوق به بما يكفي للاعتماد عليه حقًا.
رؤية المشروع
PAX هو وكيل بحث وإطار عمل يقيس بشكل منهجي:
- موثوقية أي استجابة من LLM.
- تقليل الهلوسات والبيانات غير المدعومة.
- فرض وتتبع الاقتباسات من مصادر قابلة للتحقق.
- تقديم تقارير منظمة وقابلة للتفسير تقيم كل من الاستجابات والمطالبات.
الهدف من هذا المشروع هو جعل LLMs ليست فقط قابلة للتصديق، ولكن موثوقة بشكل يمكن إثباته، مع مقاييس شفافة للمخاطر والثقة.
عرض سريع وأساسي
نظرة عامة على كيفية عمل PAX
1. فرض الاقتباس
بالنسبة لأي استفسار من المستخدم، يقوم PAX بتوجيه الطلب من خلال وكيل يميز بدقة بين المعرفة العامة والمعلومات التي تحتاج إلى تحقق. عندما تحتوي الاستجابة على حقائق أو مطالبات لا تعتبر على نطاق واسع معرفة عامة (مثل الإحصائيات، الأحداث الأخيرة، إلخ)، يضمن PAX أن الوكيل يسترجع ويشير إلى مصادر خارجية موثوقة ومحدثة.
العملية الافتراضية:
- إذا كانت المطالبة ليست معرفة عامة → تشغيل واجهات برمجة التطبيقات للبحث الخارجي
- جمع النتائج، ربط كل بيان مهم بالمراجع ذات الصلة
- إدراج عناصر مكانية منظمة في الاستجابة (ليس مجرد روابط أو ملاحظات خام)
2. تقييم الثقة الاحتمالية
لا يعتمد PAX فقط على الحدس البشري. يقيس مدى “ثقة” نموذج اللغة في توليد كل جزء من إجابته، من خلال تحليل الاحتمالات الداخلية المستخدمة أثناء توليد النص. يسمح هذا النظام بتعيين درجة ثقة عددية لكل جملة، وللإجابة ككل. يمكن بالتالي الإشارة تلقائيًا إلى المناطق ذات الثقة المنخفضة.
العملية الافتراضية:
- لكل رمز/كلمة في الاستجابة، استرجع احتمال النموذج لذلك الاختيار
- تجميع عبر الجمل
- إنتاج درجات الثقة/الموثوقية لكل جملة وعمومًا
3. الاتساق الملحوظ
بدلاً من قبول إجابة واحدة، يسأل PAX LLM نفس السؤال عدة مرات، باستخدام التضمينات (تمثيلات المعنى) لقياس الاتفاق والاتساق بين الاستجابات المحتملة.
- الاتفاق العالي يشير إلى أن الإجابة قوية/مستقرة
- الاستجابات المتباينة على نطاق واسع هي علامات تحذيرية: خطر محتمل أو غموض
العملية الافتراضية:
- إرسال السؤال إلى LLM عدة مرات؛ جمع الاستجابات
- حساب درجات التشابه الدلالي بين المخرجات
- تقرير “درجة الاتساق” للمستخدم
4. التقييم الذاتي
يسأل PAX اختياريًا LLM آخر (أو مجموعة) لمراجعة التفاعل بالكامل، والاقتباسات، ودرجات الاحتمالية، وإعطاء حكمه النهائي، سواء كرقم (0-1) أو تفسير سردي. يضيف هذا طبقة ميتا من التأمل الذاتي.
العملية الافتراضية:
- تغذية المحادثة/التقرير إلى وكيل التقييم (نموذج مختلف)
- يقيّم الوكيل الحقائق، والتماسك، وسلامة الاقتباس، والثقة
- يخرج درجة ثقة نهائية مع تفسير للتدقيق
تدفق التفاعل
تدفق التفاعل لـ PAX يسير كما يلي:
- يرسل المستخدم طلبًا.
- يقوم وكيل PAX بمعالجة الطلب، واستشارة واجهات برمجة التطبيقات الخارجية حسب الحاجة، وبناء استجابة مع اقتباسات منظمة.
- يقوم النظام:
- بتعيين درجات الثقة/الثقة لكل بيان
- تسجيل الأجزاء المدعومة بواسطة الأدلة
- اختياريًا، توليد ملخص تأملي ودرجة ثقة
النتيجة هي إجابة شفافة للغاية مع درجة عددية ومراجع مرتبطة، بالإضافة إلى سجل قابل للتدقيق لجميع البيانات الداعمة.
الإلهام
استلهمت الطرق المستخدمة لجعل PAX تعمل بشكل كبير من الأعمال التي قامت بها CleanLabs. بشكل خاص، خوارزمية/طريقة التقييم الخاصة بهم كما هو موضح هنا. في هذه الخوارزمية/الطريقة، يتم استخدام ما يلي:
-
التأمل الذاتي: هذه عملية يُطلب فيها من LLM تقييم الاستجابة بشكل صريح وبيان مدى ثقة هذه الاستجابة.
-
التنبؤ الاحتمالي: هذه “عملية نعتبر فيها الاحتمالات المعينة لكل رمز من قبل LLM أثناء توليد استجابة بناءً على الطلب (بشكل تلقائي رمزًا تلو الآخر)”.
-
الاتساق الملحوظ: هذه الدرجة هي عملية يقوم فيها LLM بتوليد عدة استجابات محتملة بشكل احتمالي يعتقد أنها جيدة، ونقيس مدى تناقض هذه الاستجابات مع بعضها البعض (أو مع استجابة معينة).
لماذا يهم هذا؟
يمكن أن تتخيل عمليات نشر LLM التقليدية حقائق أو تعطي معلومات قديمة/قابلة للتصديق ولكنها خاطئة. للاستخدامات الحرجة - البحث، الرعاية الصحية، المشورة القانونية والتقنية - فإن الذكاء الاصطناعي غير القابل للتحقق ببساطة ليس جيدًا بما فيه الكفاية.
تهدف PAX إلى جعل الثقة في الذكاء الاصطناعي قابلة للقياس والتفسير. نهجها:
- يتطلب “إظهار العمل” كدليل للمطالبات غير التافهة.
- يحدد مقدار الثقة التي يجب وضعها في كل مخرج.
- يسمح للمستخدمين بتدقيق وفهم سبب وجوب (أو عدم وجوب) الثقة في إجابة ما.
حالة البحث والخطوات التالية
PAX حاليًا في تطوير نشط كمشروع بحث خاص تحت مظلة Osgil. تشمل النقاط الرئيسية:
- تقليل زمن البحث الخارجي والتقييم.
- التجريب مع إدراك المستخدم مقابل درجات الثقة الآلية.
- بناء إضافات محددة المجال للاستخدامات العلمية، والأخبار، والتنظيمية.
- إعداد مجموعات بيانات مرجعية للبحث المفتوح وإمكانية الإصدار.
الكلمات الأخيرة
تتعلق PAX بتحويل LLMs من “مولدات قابلة للتصديق في الصندوق الأسود” إلى مساعدين شفافين، يمكن الاقتباس منهم، وموثوقين عددياً، وهو أمر حاسم للمهام عالية المخاطر في العالم الحقيقي. إذا كنت مهتمًا بالتعاون، أو التدقيق، أو ترغب في مناقشة مستقبل الذكاء الاصطناعي التوليدي الموثوق، يرجى التواصل. شكرًا لقراءتك!