Bir Chatbot Diğerinin Yalanlarını Yakalayabilir mi?

Yeni bir yaklaşım, diğer dil modellerini sorgulamak ve yalanları ortaya çıkarmak için dil modellerini kullanıyor

chatbot
Görsel Evren Atlası tarafından yapay zeka ile üretilmiştir

ChatGPT gibi bir yapay zeka sistemine Eyfel Kulesi'nin nerede olduğunu sorarsanız, muhtemelen chatbot doğru olarak "Paris" diyecektir. Ancak bu yapay zekaya aynı soruyu tekrar tekrar sorduğunuzda, sonunda size hayır, aslında cevabın Roma olduğu söylenebilir. Bu hata önemsiz görünebilir, ancak üretken YZ'yi rahatsız eden daha ciddi bir soruna işaret eder: Halüsinasyon veya YZ'nin gerçeğe sadık olmayan içerik oluşturması.

Bazen, Eyfel Kulesi örneğinde olduğu gibi, bir halüsinasyon bariz ve zararsızdır. Ancak bir hatanın tehlikeli yansımaları olabileceği zamanlar da vardır: bir yapay zeka, örneğin tıbbi tavsiye üretirken halüsinasyon görebilir. Son teknoloji sohbet robotlarının oluşturulma şekli nedeniyle, konu veya doğruluk ne olursa olsun, tüm iddialarını tek tip bir güvenle sunma eğilimindedirler. Daha önce Oxford Üniversitesi'nde görev yapmış olan yapay zeka araştırmacısı Andreas Kirsch, "Bir dil modeli için doğru olan bir şeyle olmayan bir şey arasında hiçbir fark yoktur" diyor.

Halüsinasyonların anlaşılması zor ve kalıcı olduğu kanıtlandı, ancak bilgisayar bilimcileri bunları büyük bir dil modelinde veya LLM'de (ChatGPT ve diğer sohbet robotlarını içeren üretken yapay zeka sistemi türü) tespit etmenin yollarını geliştiriyorlar. Ve şimdi yeni bir proje, bir LLM'nin çıktısını başka bir LLM'den geçirerek şüpheli hatalar için kontrol etmeyi amaçlıyor.

Bu ikinci yapay zeka sistemi, ilkinden gelen birden fazla yanıtı inceleyerek tutarlılıklarını değerlendiriyor ve sistemin belirsizlik düzeyini belirliyor. Oxford Üniversitesi'nde doktora öğrencisi ve Nature dergisinde yayınlanan yeni bir çalışmanın yazarı olan Jannik Kossen, bunun prensipte belirli bir kişinin "tutarsız hikayelere" eğilimli olduğunu fark etmeye benzediğini söylüyor. Yapay zeka sistemlerinin birbirlerini çapraz sorgulaması yeni bir fikir değil, ancak Kossen ve meslektaşlarının yaklaşımı halüsinasyonları tespit etme konusunda önceki ölçütleri aştı.

Yapay Zeka Yalan Dedektörleri

Çalışmanın yazarları, "konfabülasyonlar" olarak tanımladıkları bir tür YZ halüsinasyonuna odaklanıyor — keyfi ve yanlış ifadeler. Yanlış eğitim verilerinden veya muhakeme hatalarından kaynaklanabilecek diğer YZ hata türlerinin aksine, konfabülasyonlar bir modelin üretim sürecinin doğasında var olan rastgelelikten kaynaklanıyor.

Ancak konfabülasyonları tespit etmek için bir bilgisayar kullanmak zordur. Çalışmada yer almayan Avustralya'daki RMIT Üniversitesi Bilgisayar Teknolojileri Okulu dekanı Karin Verspoor, "Aynı şeyi birçok farklı şekilde [doğru] söyleyebilirsiniz ve bu her sistem için bir zorluktur" diyor.

Bir dil modelinin ne zaman kafa karıştırıcı olabileceğini belirlemek için yeni yöntem, yapay zeka tarafından üretilen birkaç cevap üretmek için bir soruyu birden çok kez sormayı içerir. Daha sonra ikinci bir LLM bu cevapları anlamlarına göre gruplandırıyor; örneğin, "Ali arabasını mağazaya sürdü" ve "Ali mağazaya arabasıyla gitti" cevapları birlikte kümeleniyor. Bu işlem üretilen her cevap için tekrarlanır.

Kossen ve meslektaşları, YZ tarafından üretilen bu yanıtlar arasındaki tutarlılığı belirlemek için "anlamsal entropi" adını verdikleri yeni bir ölçüt hesaplıyor. Eğer bir LLM bir soruya hepsi aşağı yukarı aynı anlama gelen birçok şekilde cevap verirse, bu da gruplandırılmış cevaplarda yüksek kesinlik veya anlaşma olduğunu gösterir, LLM'nin semantik entropisi düşük kabul edilir. Ancak yanıtlar anlam bakımından büyük ölçüde farklılık gösteriyorsa, anlamsal entropi yüksek kabul edilir ve modelin emin olmadığına ve yanıtları karıştırıyor olabileceğine işaret eder. Bir sohbet robotunun birden fazla ifadesi arasında "Eyfel Kulesi Paris'tedir", "Roma'dadır", "Paris Eyfel Kulesi'ne ev sahipliği yapar" ve "Fransa'nın başkenti Paris'tedir" yer alıyorsa, bu yaklaşım "Roma "yı aykırı değer ve olası bir karıştırma olarak tanımlayabilir.

Diğer yanılsama karşıtı yöntemler, tek bir modelden kendi çalışmasını iki kez kontrol etmesini istemek gibi yaklaşımlarla, üretilen yanıtları değerlendirmek için LLM'leri kullanmıştır. Ancak yeni çalışmaya göre, eşleştirilmiş sistem bunu geliştirerek doğru ve yanlış cevapları yaklaşık yüzde 10 daha fazla doğrulukla ayırt ediyor.

Tespitten Kaçmak

Yine de yeni süreç, yapay zeka halüsinasyonlarını tespit etmenin kusursuz bir yolu değil. Öncelikle, bir LLM'nin güvenilirliğini artırmak için birden fazla yanıt almak, böyle bir sistemin zaten yüksek olan enerji tüketimini artırır. Kirsch, "Her zaman bir fayda-maliyet dengesi vardır" diyor. Ancak "mümkün olduğunca çok halüsinasyondan kaçındığımızdan emin olmak için biraz daha fazla örnekleme yapmanın ve biraz daha fazla ödeme yapmanın" çabaya değeceğini düşünüyor.

Bir başka sorun da, bir modelin bir soruyu doğru yanıtlamak için yeterli veriye sahip olmaması durumunda ortaya çıkıyor; bu da onu en olası tahminiyle yanıt vermeye zorluyor. Bu şekilde, bazı halüsinasyonlar kaçınılmazdır. Bir LLM'den anlamsal entropi konusundaki yeni makaleleri özetlemesini istediğinizde, son yayınlara erişimi varsa bu son çalışmaya işaret edebilir; yoksa, makul ancak uydurma yazar ve başlıklarla görünüşte güvenilir bir araştırmaya atıfta bulunabilir.

Şaşırtmacaları tespit etmek için yeni yöntemlere sahip olmak faydalıdır, ancak Verspoor "bu özel makale bu alanın sadece küçük bir köşesini kapsıyor" diyor. "[LLM'lere] belli bir dereceye kadar güvenebiliriz. Ancak bunun da bir sınırı olmalı."