Güvenilir AI ile PAX
Arka Plan
PAX (Örnek Güvenilirlik için Proaktif Ajan), önceki projem olan TARS ile büyük bir yön değişikliği olarak hayatına başladı; bu proje otonom siber güvenlik penetrasyon testlerine odaklanıyordu. TARS’ı geliştirirken, pratik, güvenilir AI ajanlarının önündeki en büyük engellerden birinin sadece görev otomasyonu değil, aynı zamanda AI tarafından üretilen bir yanıtın güvenilirliğini sağlamanın gerekliliği olduğu netleşti. Özellikle bu çıktılar, büyük sonuçlar doğurabilecek gerçek dünya kararlarını etkileyebileceğinde.
TARS ile siber güvenlik penetrasyon test görevlerini otomatikleştirmekle kalmayıp, temel bir sorunu ele almak istedim: LLM’nin söylediklerine güvenip güvenemeyeceğimizi nasıl bilebiliriz?
TARS, benim kurucu ortağı olduğum ilk girişimim olan Osgil için bir MVP olarak geliştirildi. Amacımız, AI ajanları kullanarak siber güvenlik penetrasyon testlerini otomatikleştirmekti. TARS, Forum Ventures hızlandırıcısından ön tohum finansmanı almamıza olanak tanıdı. Ancak, savunma ve siber güvenlik şirketlerine yaklaştığımızda, bu kuruluşların AI ajanlarına penetrasyon testi gibi kritik görevleri yerine getirme ve raporlama konusunda güvenmediğini keşfettik. Ayrıca, neredeyse hepsi, kötü bir durumla karşılaştıklarında bir günah keçisi bulmak için siber güvenlik şirketleriyle iş yapmayı istiyordu. Temelde, bu şirketlerin karar vericileri, güvenlikleriyle ilgilenmiyordu; ancak ilgilendiklerinde, kriterlerinden biri bir şeyler ters gittiğinde bir günah keçisine sahip olmaktı, bu da bir tür sigorta işlevi görüyordu. 2024 sonu itibarıyla, otomatik AI destekli siber saldırılar hala büyük bir endişe kaynağı değil, bu nedenle karar vericiler çözümümüze gerçek bir ihtiyaç görmediler. Bu pazar talebinin eksikliği nedeniyle, LLM modellerindeki halüsinasyonları azaltmaya odaklanmaya yöneldik. LLM güvenilirliğini artırarak, çalışmalarımızın siber güvenliğin ötesinde geniş bir yelpazede gelecekteki AI ajanı uygulamalarına fayda sağlayabileceğine inanıyoruz.
Transformers Efsanesinden Bir İpucu
PAX ismi, Transformers evrenine bir göndermedir. İkonik Optimus Prime olmadan önce, karakterin orijinal adı Orion Pax idi. Olasılıktan sorumluluğa dönüşüm fikri, PAX’ın ham, etkileyici LLM yeteneklerinden gerçekten güvenilir bir şeye geçiş misyonunu ilham etti.
Proje Vizyonu
PAX, sistematik olarak:
- Herhangi bir LLM yanıtının güvenilirliğini ölçer.
- Halüsinasyonları ve desteklenmeyen ifadeleri azaltır.
- Doğrulanabilir kaynaklara atıf yapmayı zorunlu kılar ve takip eder.
- Hem yanıtları hem de iddiaları puanlayan açıklanabilir, yapılandırılmış raporlar sunar.
Bu projenin amacı, LLM’leri sadece olası değil, kanıtlanabilir güvenilir hale getirmek, risk ve güven ölçümlerini şeffaf bir şekilde sağlamaktır.
Hızlı ve Temel Demo
PAX’ın Çalışma Şekli Üzerine Genel Bakış
1. Zorunlu Atıf
Herhangi bir kullanıcı sorgusu için, PAX, yaygın bilgi ile doğrulama gerektiren bilgiyi kesin bir şekilde ayıran bir ajan aracılığıyla istemi yönlendirir. Yanıt, yaygın olarak kabul edilen bilgi olarak düşünülmeyen (istatistikler, son olaylar vb. gibi) gerçekler veya iddialar içeriyorsa, PAX, ajanın güvenilir, güncel dış kaynakları almasını ve atıfta bulunmasını sağlar.
Sahte süreç:
- Eğer iddia yaygın bilgi değilse → dış arama API’lerini çalıştır
- Sonuçları topla, her önemli ifadeyi ilgili referanslarla eşleştir
- Yanıtta yapılandırılmış yer tutucular ekle (sade URL’ler veya ham dipnotlar değil)
2. Olasılıksal Güven Puanlaması
PAX, sadece insan sezgisine dayanmaz. Dil modelinin yanıtının her parçasını üretirken ne kadar “güvenli” olduğunu ölçer; bu, metin üretimi sırasında kullanılan iç olasılıkları analiz ederek yapılır. Bu, sistemin her cümleye ve yanıtın tamamına bir sayısal güven puanı atamasını sağlar. Düşük güven alanları otomatik olarak işaretlenebilir.
Sahte süreç:
- Her yanıt tokeni/keliimesi için, o seçimin modelin olasılığını al
- Cümleler arasında toplulaştır
- Cümle başına ve genel güven/güvenilirlik puanları üret
3. Gözlemlenen Tutarlılık
PAX, bir yanıtı kabul etmek yerine, LLM’ye aynı soruyu birden fazla kez sorar ve olası yanıtlar arasındaki anlaşmayı ve tutarlılığı ölçmek için gömme (anlamın vektör temsilleri) kullanır.
- Yüksek anlaşma, yanıtın sağlam/stabil olduğunu gösterir
- Geniş değişkenlikteki yanıtlar, olası risk veya belirsizlik için uyarı işaretleridir
Sahte süreç:
- Soruyu LLM’ye birden fazla kez gönder; yanıtları topla
- Çıktılar arasındaki anlamsal benzerlik puanlarını hesapla
- Kullanıcı için bir “tutarlılık puanı” raporla
4. Öz Değerlendirme
PAX, isteğe bağlı olarak başka bir LLM’ye (veya topluluğa) tüm etkileşimi, alıntıları ve olasılık puanlarını gözden geçirmesini ve kendi nihai hükmünü vermesini ister; bu, hem bir sayı (0-1) hem de bir anlatı açıklaması olarak sunulur. Bu, öz yansıtma için bir meta katman ekler.
Sahte süreç:
- Konuşmayı/raporu bir değerlendirme ajanına (farklı model) besle
- Ajan, gerçeklik, tutarlılık, alıntı bütünlüğü ve güveni eleştirir
- Denetim için açıklama ile birlikte nihai bir güven puanı verir
Etkileşim Akışı
PAX’ın etkileşim akışı şu şekildedir:
- Kullanıcı bir istem gönderir.
- PAX ajanı istemi işler, gerektiğinde dış API’lerle danışır ve yapılandırılmış atıflarla bir yanıt oluşturur.
- Sistem:
- Her ifade için güven/güven puanları atar
- Hangi kısımların hangi kanıtlarla desteklendiğini kaydeder
- İsteğe bağlı olarak, öz yansıtıcı bir özet ve güven puanı oluşturur
Sonuç, sayısal bir puan ve bağlantılı referanslarla birlikte, tüm destekleyici verilerin denetlenebilir bir kaydını içeren son derece şeffaf bir yanıttır.
İlham
PAX’ı çalıştırmak için kullanılan yöntemler, CleanLabs tarafından yapılan çalışmalardan büyük ölçüde ilham aldı. Özellikle, BURADA detaylandırılan puanlama algoritmaları/yöntemleri. Bu algoritma/yöntemde aşağıdakiler kullanılmaktadır:
-
Öz Yansıtma: Bu, LLM’nin yanıtı açıkça puanlaması ve bu yanıtın ne kadar güvenilir göründüğünü açıkça belirtmesi için sorulduğu bir süreçtir.
-
Olasılıksal Tahmin: Bu, “bir LLM’nin bir yanıt üretirken (otomatik olarak token token) isteğe dayalı olarak atanan her token için olasılıkları dikkate aldığı bir süreçtir”.
-
Gözlemlenen Tutarlılık: Bu puanlama, LLM’nin olasılıksal olarak iyi olabileceğini düşündüğü birden fazla olası yanıt ürettiği ve bu yanıtların birbirine (veya belirli bir yanıta) ne kadar çelişkili olduğunu ölçtüğümüz bir süreçtir.
Neden Bu Önemli?
Geleneksel LLM dağıtımları, gerçekleri halüsinasyon yapabilir veya güncel olmayan/inanılır ama yanlış bilgiler verebilir. Görev kritik kullanımlar için—araştırma, sağlık hizmetleri, hukuki ve teknik danışmanlık—doğrulanamaz AI yeterince iyi değildir.
PAX, AI’da güveni ölçülebilir ve açıklanabilir hale getirmeyi amaçlar. Yaklaşımı:
- Önemli iddialar için “çalışmanızı gösterin” kanıtı talep eder.
- Her çıktıya ne kadar güvenileceğini nicelendirir.
- Kullanıcıların bir yanıtın neden güvenilir (veya güvenilir olmaması gerektiğini) denetlemesine ve anlamasına olanak tanır.
Araştırma Durumu ve Sonraki Adımlar
PAX şu anda Osgil çatısı altında özel bir araştırma projesi olarak aktif geliştirme aşamasındadır. Ana odaklar şunlardır:
- Dış aramaların ve puanlamanın gecikmesini azaltmak.
- Kullanıcı algısı ile otomatik güven puanları arasındaki denemeler.
- Bilim, haber ve düzenleyici kullanımlar için alan spesifik eklentiler oluşturmak.
- Açık araştırma ve olası yayın için benchmark veri setleri hazırlamak.
Son Sözler
PAX, LLM’leri “kara kutu olası üreticilerden” şeffaf, alıntılanabilir ve sayısal olarak güvenilir asistanlara dönüştürmekle ilgilidir; bu, gerçek dünya, yüksek riskli görevler için kritik öneme sahiptir. İş birliği, denetimler veya güvenilir üretken AI’nın geleceğini tartışmak isterseniz, lütfen benimle iletişime geçin. Okuduğunuz için teşekkür ederim!