PAX

Projenin GitHub Deposu

Arka Plan

PAX (Proaktif Güvenilirlik İçin Örnek Ajan) hayatına, daha önceki projem olan TARS, otomatik siber güvenlik penetrasyon testine odaklanan bir büyük yön değişikliği olarak başladı. TARS’ı geliştirirken, pratik ve güvenilir AI ajanlarının karşılaştığı en büyük engellerden birinin sadece görev otomasyonu değil, AI tarafından üretilen bir yanıtın güvenilirliğinin sağlanması olduğu ortaya çıktı. Özellikle bu çıktılar, büyük sonuçlar doğurabilecek gerçek dünya kararlarını etkileyebildiğinde.

TARS ile sadece siber güvenlik penetrasyon testi görevlerini otomatikleştirmek yerine, temel bir sorunu ele almak istedim: Bir LLM’nin söylediğine nasıl güvenebileceğimizi nasıl bilebiliriz?

TARS, ilk girişimim olan Osgil için bir MVP olarak geliştirildi; bu şirketi ortak kurdum. Amacımız AI ajanlarıyla siber güvenlik penetrasyon testini otomatikleştirmekti. TARS, Forum Ventures hızlandırıcısından ön tohum finansmanı almamızı sağladı. Ancak savunma ve siber güvenlik şirketlerine yaklaştığımızda, bu kuruluşların AI ajanlarına penetrasyon testi gibi kritik görevleri yerine getirmesi ve raporlaması konusunda güvenmediğini keşfettik. Ayrıca, neredeyse hepsi, işler kötü gittiğinde bir sorumlu kişi (fall guy) bulmak amacıyla siber güvenlik şirketleriyle iş yapmak istiyordu. Temelde, bu şirketlerin karar vericileri, güvenliklerine ancak zorunlu olduğunda önem veriyordu ve gerektiğinde bir “sigorta” olarak bir sorumlu kişi talep ediyorlardı. 2024 sonlarına doğru, otomatik AI destekli siber saldırılar hâlâ büyük bir endişe kaynağı olmadığından, karar vericiler çözümümüze gerçek bir ihtiyaç görmediler. Bu pazar talebi eksikliği nedeniyle, LLM modellerindeki halüsinasyonları azaltmaya odaklanarak yön değiştirdik. LLM güvenilirliğini artırarak, çalışmamızın siber güvenliğin ötesinde gelecekteki AI ajan uygulamalarının geniş bir yelpazesine fayda sağlayabileceğine inanıyoruz.

Transformers Evreninden Bir İpucu

PAX adı, Transformers evrenine bir gönderme. İkonik Optimus Prime olmadan önce karakterin orijinal adı Orion Pax idi. Olasılıktan sorumluluğa dönüşüm fikri, PAX’in ham, etkileyici LLM yeteneğinden gerçekten güvenilir bir şeye geçiş misyonunu ilham verdi.

Proje Vizyonu

PAX, sistematik olarak:

  • Herhangi bir LLM yanıtının güvenilirliğini ölçer.
  • Halüsinasyonları ve desteklenmemiş ifadeleri azaltır.
  • Doğrulanabilir kaynaklara atıf yapılmasını zorunlu kılar ve izler.
  • Yanıtları ve iddiaları puanlayan açıklanabilir, yapılandırılmış raporlar sunar.

Bu projenin amacı, LLM’leri sadece makul değil, kanıtlanabilir şekilde güvenilir kılmak; risk ve güven ölçütlerini şeffaf bir şekilde sunmaktır.

Hızlı ve Temel Demo

PAX Nasıl Çalışır Genel Bakış

1. Zorunlu Atıf

Her kullanıcı sorgusu için, PAX istemi, ortak bilgi ile doğrulama gerektiren bilgi arasında kesin bir ayrım yapan bir ajan üzerinden yönlendirir. Yanıt, yaygın olarak ortak bilgi olarak kabul edilmeyen (istatistikler, güncel olaylar vb.) gerçekler veya iddialar içerdiğinde, PAX ajanının güvenilir, güncel dış kaynakları alıp referans göstermesini sağlar.

Sahte süreç:

  • İddia ortak bilgi değilse → dış arama API’lerini çalıştır
  • Sonuçları topla, her önemli ifadeyi ilgili referanslarla eşle
  • Yanıta yapılandırılmış yer tutucular ekle (düz URL’ler veya ham dipnotlar yerine)

2. Olasılıksal Güven Skorlaması

PAX sadece insan sezgisine dayanmaz. Dil modelinin yanıtının her bölümü için “ne kadar emin” olduğunu, metin üretimi sırasında kullanılan iç olasılıkları analiz ederek ölçer. Bu, sistemin her cümleye ve bütün yanıtın tamamına sayısal güven skoru atamasını sağlar. Düşük güvenli alanlar otomatik olarak işaretlenebilir.

Sahte süreç:

  • Her yanıt token/kelimesi için modelin o seçime atadığı olasılığı al
  • Cümleler arasında toplulaştır
  • Cümle bazında ve genel güven/sağlamlık skorları üret

3. Gözlemlenen Tutarlılık

Tek bir yanıtı kabul etmek yerine, PAX aynı soruyu LLM’ye birden çok kez sorar, gömme vektörleri (anlam temsilleri) kullanarak makul yanıtlar arasındaki anlaşma ve tutarlılığı ölçer.

  • Yüksek anlaşma, yanıtın sağlam/kararlı olduğunu gösterir
  • Geniş ölçüde farklı yanıtlar uyarı işaretidir: olası risk veya belirsizlik

Sahte süreç:

  • Soruyu LLM’ye birden çok kez gönder; yanıtları topla
  • Çıktılar arasındaki anlamsal benzerlik skorlarını hesapla
  • Kullanıcıya bir “tutarlılık skoru” raporla

4. Öz-Değerlendirme

PAX isteğe bağlı olarak başka bir LLM’yi (veya topluluğu) tüm etkileşimi, atıfları ve olasılık skorlarını gözden geçirmesi ve hem sayı (0‑1) hem de anlatımsal açıklama şeklinde kendi nihai kararını vermesi için sorar. Bu, meta bir öz‑refleksiyon katmanı ekler.

Sahte süreç:

  • Konuşmayı/raporu farklı bir model (değerlendirme ajanı) ile besle
  • Ajan, gerçeklik, tutarlılık, atıf bütünlüğü ve güveni eleştirir
  • Denetlenebilirlik için açıklamalı nihai bir güven skoru üretir

Etkileşim Akışı

PAX’in etkileşim akışı şu şekildedir:

  • Kullanıcı bir istem gönderir.
  • PAX ajanı istemi işler, gerektiğinde dış API’lere danışır ve yapılandırılmış atıflarla bir yanıt oluşturur.
  • Sistem:
    • Her ifade için güven/eminlik skorları atar
    • Hangi bölümlerin hangi kanıtlarla desteklendiğini kaydeder
    • İsteğe bağlı olarak öz‑reflektif bir özet ve güven skoru üretir

Sonuç, sayısal bir skor ve bağlantılı referanslarla son derece şeffaf bir yanıt; ayrıca tüm destekleyici verilerin denetlenebilir bir kaydıdır.

İlham

PAX’in çalışmasını sağlayan yöntemler, büyük ölçüde CleanLabs tarafından yapılan çalışmalardan ilham almıştır. Özellikle, aşağıdaki algoritma/yöntem detaylı olarak BURADA açıklanmıştır. Bu algoritma/yöntemde şunlar kullanılır:

  1. Öz‑Yansıtma: LLM’den yanıtı açıkça puanlaması ve bu yanıtın ne kadar güvenilir göründüğünü açıkça belirtmesi istenir.

  2. Olasılıksal Tahmin: Bu, LLM’nin isteğe (otomatik‑geriye‑dönüşlü token‑token) yanıt üretirken atadığı token‑başına olasılıkları değerlendirdiğimiz bir süreçtir.

  3. Gözlemlenen Tutarlılık: Bu puanlama, LLM’nin olasılıksal olarak birden çok makul yanıt üretmesi ve bu yanıtların birbirine (veya verilen bir yanıtla) ne kadar çelişkili olduğunu ölçmemiz sürecidir.

Bu Neden Önemli?

Geleneksel LLM dağıtımları gerçekleri halüsinasyon yapabilir veya güncel olmayan/ikna edici ama yanlış bilgiler verebilir. Görev‑kritik kullanım alanları—araştırma, sağlık, hukuk ve teknik danışmanlık—için doğrulanamayan AI kesinlikle yeterli değildir.

PAX, AI’ye olan güveni ölçülebilir ve açıklanabilir hâle getirmeyi amaçlar. Yaklaşımı:

  • Önemsiz iddialar için “çalışmanızı gösterin” kanıtı talep eder.
  • Her çıktıya ne kadar güven duyulması gerektiğini nicelendirir.
  • Kullanıcıların bir yanıtın neden (veya neden) güvenilir olduğunu denetlemesini ve anlamasını sağlar.

Araştırma Durumu ve Sonraki Adımlar

PAX şu anda aktif geliştirme aşamasında ve Osgil çatısı altında özel bir araştırma projesidir. Ana odaklar şunlardır:

  • Dış aramaların ve puanlamanın gecikmesini azaltmak.
  • Kullanıcı algısı ile otomatik güven skorları arasındaki ilişkiyi denemek.
  • Bilim, haber ve düzenleyici kullanım alanları için alan‑özel eklentiler oluşturmak.
  • Açık araştırma ve olası yayın için kıyaslama veri setleri hazırlamak.

Son Sözler

PAX, LLM’leri “kara kutu makul üreticiler”den şeffaf, atıflanabilir ve sayısal olarak güvenilir asistanlar hâline dönüştürmeyi hedefler; bu, gerçek dünya, yüksek riskli görevler için kritik öneme sahiptir.

Eğer iş birliği, denetim veya güvenilir üretken AI geleceği üzerine tartışmak isterseniz, lütfen iletişime geçin. Okuduğunuz için teşekkürler!