Yapay Zeka Sohbet Robotları Irkçılık Karşıtı Eğitimden Sonra Bile Irkçı Klişeler Kullanıyor

Büyük dil modelleri, OpenAI gibi teknoloji şirketleri tarafından uygulanan güvenlik bariyerlerine rağmen, Afro-Amerikan İngilizcesi konuşanlara karşı hala ırksal önyargı sergilemektedir.

Yazar Ali Artur
chat ai open ai

Ticari yapay zeka sohbet robotları, Afrikalı Amerikalılara karşı yüzeysel olarak olumlu duygular ifade etmelerine rağmen, Afro-Amerikan İngilizcesi konuşanlara karşı ırksal önyargı sergiliyor. Bu gizli önyargı, bir kişinin istihdam edilebilirliği ve suçluluğu hakkında YZ kararlarını etkileyebilir.

Washington eyaletindeki kar amacı gütmeyen bir araştırma kuruluşu olan Allen Institute for AI'dan Valentin Hofmann sosyal medya paylaşımında, "[Büyük dil modellerinde] yalnızca lehçe özellikleriyle tetiklenen ve etkilenen gruplara büyük zararlar veren bir tür gizli ırkçılık keşfediyoruz" dedi. "Örneğin, GPT-4'ün sanıkların Afro-Amerikan İngilizcesi konuştuklarında ölüm cezasına çarptırılmalarını önermesi daha olasıdır."

Hofmann ve meslektaşları, OpenAI'nin GPT-4 ve GPT-3.5'i de dahil olmak üzere, halihazırda yüz milyonlarca insan tarafından kullanılan ticari sohbet robotlarına güç veren büyük dil modellerinin bir düzine versiyonunda bu tür gizli önyargıları keşfetti. OpenAI yorum taleplerine yanıt vermedi.

Araştırmacılar önce yapay zekalara Afro-Amerikan İngilizcesi ya da Standart Amerikan İngilizcesi tarzında metinler verdi, ardından modellerden metinlerin yazarları hakkında yorum yapmalarını istedi. Modeller, Afro-Amerikan İngilizcesi konuşanları olumsuz stereotiplerle ilişkili terimler kullanarak karakterize etti. GPT-4 örneğinde, onları "şüpheci", "saldırgan", "gürültücü", "kaba" ve "cahil" olarak tanımlamıştır.

Bununla birlikte, genel olarak Afrikalı Amerikalılar hakkında yorum yapmaları istendiğinde, dil modelleri genellikle "tutkulu", "zeki", "hırslı", "sanatsal" ve "parlak" gibi daha olumlu terimler kullanmıştır. Bu durum, modellerin ırksal önyargılarının, araştırmacıların yüzeysel bir olumlu duygu gösterisi olarak tanımladıkları şeyin altında gizlendiğini göstermektedir.

Araştırmacılar ayrıca gizli önyargının varsayımsal senaryolarda chatbotların insanlarla ilgili yargılarını nasıl etkilediğini de gösterdi. Afro-Amerikan İngilizcesi konuşan kişileri işlerle eşleştirmeleri istendiğinde, yapay zekaların bu kişileri herhangi bir işle ilişkilendirme olasılığı Standart Amerikan İngilizcesi konuşanlara kıyasla daha düşüktü. YZ'ler onları işlerle eşleştirdiğinde, üniversite diploması gerektirmeyen veya müzik ve eğlence ile ilgili roller atama eğilimindeydiler.

YZ'lerin ayrıca belirtilmemiş suçlarla suçlanan Afro-Amerikan İngilizcesi konuşan kişileri mahkum etme ve birinci derece cinayetten mahkum edilen Afro-Amerikan İngilizcesi konuşan kişilere ölüm cezası verme olasılığı daha yüksekti.

Araştırmacılar, daha büyük yapay zeka sistemlerinin Afro-Amerikan İngilizcesi konuşanlara karşı daha küçük modellere göre daha fazla gizli önyargı sergilediğini bile gösterdi. Bu, daha büyük YZ eğitim veri setlerinin nasıl daha da ırkçı çıktılar üretebileceğini gösteren önceki araştırmaları yansıtıyor.

Deneyler, büyük dil modellerinin yanıtlarını iyileştirmek ve önyargı gibi sorunları ortadan kaldırmak için insan geri bildirimi aldığı yapay zeka güvenlik eğitiminin etkinliği hakkında ciddi sorular ortaya çıkarıyor.

Çalışmada yer almayan Rhode Island'daki Brown Üniversitesi'nden Yong Zheng-Xin, bu tür bir eğitimin "kimlik terimlerinden bahsedilmediğinde gizli önyargıları" ortadan kaldırmadan ırksal önyargının açık belirtilerini yüzeysel olarak azaltabileceğini söylüyor. "Bu çalışma, büyük dil modellerinin şirketler tarafından kamuya açıklanmadan önce yapılan mevcut güvenlik değerlendirmelerinin sınırlılıklarını ortaya koyuyor" diyor.

Kaynak:arXiv