PAX ile Güvenilir Yapay Zeka

Arka Plan

PAX (Örnek Güvenilirlik İçin Proaktif Ajan), özerk siber güvenlik sızma testi hedefleyen daha önceki projem TARS’dan yapılan büyük bir yön değişikliği olarak ortaya çıktı. TARS’ı geliştirirken, pratik ve güvenilir yapay zeka ajanlarının önündeki en büyük engellerden birinin yalnızca görev otomasyonu değil, aynı zamanda bir yapay zeka tarafından üretilmiş yanıtın güvenilirliğini tesis etmek olduğu netleşti. Özellikle de bu çıktılar, büyük sonuçlar doğurabilecek gerçek dünya kararlarını etkileyebildiğinde.

TARS ile yalnızca siber güvenlik sızma testi görevlerini otomatikleştirmek yerine, temel bir sorunu ele almak istedim: Bir LLM’in söylediğine güvenebileceğimizi nasıl biliriz?

TARS, birlikte kurduğum ilk girişimim Osgil için bir MVP olarak geliştirildi. Amacımız, siber güvenlik sızma testini yapay zeka ajanları kullanarak otomatikleştirmekti. TARS, Forum Ventures hızlandırıcısından tohum öncesi finansman almamızı sağladı. Ancak savunma ve siber güvenlik şirketleriyle görüştüğümüzde, bu kuruluşların sızma testi gibi kritik görevleri yerine getirmek ve raporlamak için yapay zeka ajanlarına güvenmediğini keşfettik. Ayrıca, neredeyse hepsinin esas olarak siber güvenlik şirketleriyle iş yaparak işler ters giderse suçu başkasına atacak bir günah keçisine sahip olmak istediğini gördük. Temel olarak, bu şirketlerdeki karar vericiler, mecbur kalmadıkça güvenlikleriyle ilgilenmiyordu ve ilgilendiklerinde de kriterlerinin bir parçası, bir şey ters giderse sigorta niteliğinde bir günah keçisine sahip olmaktı. 2024 sonu itibarıyla, otomatik yapay zeka destekli siber saldırılar hâlâ büyük bir endişe kaynağı değil, bu yüzden karar vericiler çözümümüz için gerçek bir ihtiyaç görmüyordu. Bu piyasa talebi eksikliği nedeniyle, LLM modellerindeki halüsinasyonları azaltmaya odaklanmaya yöneldik. LLM güvenilirliğini iyileştirerek, çalışmamızın siber güvenliğin ötesinde gelecekteki çok çeşitli yapay zeka ajanı uygulamalarına fayda sağlayabileceğine inanıyoruz.

Transformers Hikâyesinden Gelen Bir İlham

PAX adı, Transformers evrenine bir göndermedir. İkonik Optimus Prime olmadan önce karakterin orijinal adı Orion Pax idi. Ham, etkileyici LLM yeteneğinden gerçekten güvenilebilecek kadar güvenilir bir şeye dönüşüm fikri, yani olasılıktan sorumluluğa geçiş, PAX’in misyonuna ilham verdi.

Proje Vizyonu

PAX, sistematik olarak şunları yapan bir araştırma ajanı ve çerçevesidir:

  • Herhangi bir LLM yanıtının güvenilirliğini ölçer.
  • Halüsinasyonları ve desteklenmeyen ifadeleri azaltır.
  • Doğrulanabilir kaynaklara atfı zorunlu kılar ve izler.
  • Hem yanıtları hem de iddiaları puanlayan açıklanabilir, yapılandırılmış raporlar sağlar.

Bu projenin amacı, LLM’leri sadece makul değil, kanıtlanabilir biçimde güvenilir hale getirmektir; risk ve güven düzeylerine ilişkin şeffaf ölçüler sunar.

Hızlı ve Temel Demo

PAX’in Nasıl Çalıştığına Genel Bakış

1. Zorunlu Atıf

Her kullanıcı sorgusu için PAX, istemi genel bilgi ile doğrulama gerektiren bilgiyi sıkı biçimde ayıran bir ajan üzerinden yönlendirir. Yanıt, yaygın biçimde genel bilgi olarak kabul edilmeyen olgular veya iddialar içerdiğinde (örneğin istatistikler, yakın tarihli olaylar vb.), PAX ajanın güvenilir, güncel dış kaynakları almasını ve bunlara atıf yapmasını sağlar.

Sözde süreç:

  • İddia genel bilgi değilse → harici arama API’lerini çalıştır
  • Sonuçları topla, her önemli ifadeyi ilgili referanslarla eşleştir
  • Yanıta yapılandırılmış yer tutucular ekle (düz URL’ler veya ham dipnotlar değil)

2. Olasılıksal Güven Puanlaması

PAX yalnızca insan sezgisine dayanmaz. Metin üretimi sırasında kullanılan iç olasılıkları analiz ederek dil modelinin yanıtının her bir bölümünü oluştururken ne kadar “kendinden emin” olduğunu ölçer. Bu, sistemin her cümleye ve yanıtın bütünü için bir sayısal güven puanı atamasını sağlar. Böylece düşük güvenli alanlar otomatik olarak işaretlenebilir.

Sözde süreç:

  • Her yanıt belirteci/kelimesi için modelin o seçime verdiği olasılığı al
  • Cümleler boyunca birleştir
  • Cümle bazında ve genel güven/güvenilirlik puanları üret

3. Gözlemlenen Tutarlılık

PAX, tek bir yanıtı kabul etmek yerine, olası yanıtlar arasındaki uyumu ve tutarlılığı ölçmek için gömlemeleri (anlamın vektör temsilleri) kullanarak LLM’ye aynı soruyu birden çok kez sorar.

  • Yüksek uyum, cevabın sağlam/kararlı olduğunu gösterir
  • Geniş ölçüde değişen yanıtlar uyarı işaretleridir: olası risk veya belirsizlik

Sözde süreç:

  • Soruyu LLM’ye birden çok kez gönder; yanıtları topla
  • Çıktılar arasında anlamsal benzerlik puanlarını hesapla
  • Kullanıcı için bir “tutarlılık puanı” raporla

4. Öz-Değerlendirme

PAX, isteğe bağlı olarak başka bir LLM’den (veya bir ensemble’dan) tüm etkileşimi, atıfları ve olasılık puanlarını incelemesini ve hem bir sayı (0-1) hem de anlatısal bir açıklama olarak kendi nihai değerlendirmesini vermesini ister. Bu, bir öz-yansıtma üst katmanı ekler.

Sözde süreç:

  • Konuşmayı/raporu bir değerlendirme ajanına (farklı model) aktar
  • Ajan, olgusal doğruluğu, tutarlılığı, atıf bütünlüğünü ve güveni eleştirir
  • Denetlenebilirlik için açıklamayla birlikte nihai bir güven puanı üretir

Etkileşim Akışı

PAX’in etkileşim akışı şu şekildedir:

  • Kullanıcı bir istem gönderir.
  • PAX ajanı istemi işler, gerektiğinde dış API’lere danışır ve yapılandırılmış atıflarla bir yanıt oluşturur.
  • Sistem:
    • Her ifade için güven/güven puanları atar
    • Hangi kısımların hangi kanıtlarla desteklendiğini kaydeder
    • İsteğe bağlı olarak, öz-yansıtmalı bir özet ve güven puanı üretir

Sonuç, sayısal bir puan ve bağlantılı referanslarla birlikte son derece şeffaf bir yanıttır; ayrıca tüm destekleyici verilerin denetlenebilir bir kaydı da bulunur.

İlham

PAX’i çalışır hâle getirmek için kullanılan yöntemler büyük ölçüde CleanLabs tarafından yapılan çalışmalardan ilham aldı. Özellikle, BURADA ayrıntılı olarak açıklanan puanlama algoritmaları/yöntemleri. Bu algoritma/yöntem içinde aşağıdakiler kullanılır:

  1. Öz-Yansıtma: Bu, LLM’ye yanıtı açıkça puanlamasının ve bu yanıtın ne kadar güvenle iyi göründüğünü açıkça belirtmesinin istendiği bir süreçtir.

  2. Olasılıksal Tahmin: Bu, “bir LLM’nin talebe dayanarak bir yanıt üretirken atadığı token başına olasılıkları (otokovaryant olarak token token) dikkate aldığımız bir süreçtir”.

  3. Gözlemlenen Tutarlılık: Bu puanlama, LLM’nin iyi olabileceğini düşündüğü birden fazla makul yanıtı olasılıksal olarak üretmesi ve bu yanıtların birbirleriyle (veya verilen bir yanıtla) ne kadar çeliştiğini ölçmemiz sürecidir.

Bu Neden Önemli?

Geleneksel LLM dağıtımları olguları halüsinasyon olarak üretebilir ya da güncel olmayan ama inandırıcı, fakat yanlış bilgi verebilir. Araştırma, sağlık, hukuk ve teknik tavsiye gibi kritik kullanım alanlarında, doğrulanamaz yapay zeka yeterli değildir.

PAX, yapay zekadaki güveni ölçülebilir ve açıklanabilir hâle getirmeyi amaçlar. Yaklaşımı:

  • Önemsiz olmayan iddialar için “işini göster” türünde kanıt talep eder.
  • Her çıktıya ne kadar güvenileceğini nicel olarak belirler.
  • Kullanıcıların bir cevaba neden güvenilmesi gerektiğini (veya güvenilmemesi gerektiğini) denetlemesine ve anlamasına olanak tanır.

Araştırma Durumu ve Sonraki Adımlar

PAX şu anda Osgil çatısı altında özel bir araştırma projesi olarak aktif geliştirme aşamasındadır. Başlıca odak alanları şunlardır:

  • Harici aramaların ve puanlamanın gecikmesini azaltmak.
  • Kullanıcı algısı ile otomatik güven puanlarını denemek.
  • Bilim, haber ve düzenleyici kullanımlar için alan özelinde eklentiler oluşturmak.
  • Açık araştırma ve olası yayın için kıyaslama veri kümeleri hazırlamak.

Son Sözler

PAX, LLM’leri “kara kutu gibi makul görünen üreticiler”den şeffaf, atıf yapılabilir ve sayısal olarak güvenilebilir asistanlara dönüştürmekle ilgilidir; bu da gerçek dünya, yüksek riskli görevler için kritik önemdedir. İş birliği, denetimler veya güvenilir üretken yapay zekanın geleceğini tartışmak isterseniz, lütfen iletişime geçin. Okuduğunuz için teşekkürler!