Bu durum YZ modellerinin, özellikle de büyük dil modellerinin büyümesini yavaşlatabilir ve hatta YZ devriminin yörüngesini değiştirebilir. Peki, internette ne kadar çok veri olduğu düşünüldüğünde potansiyel veri eksikliği neden bir sorun teşkil ediyor? Ve bu riski ele almanın bir yolu var mı?
Yüksek Kaliteli Veriler YZ için Neden Önemli?
Güçlü, doğru ve yüksek kaliteli yapay zeka algoritmalarını eğitmek için çok fazla veriye ihtiyacımız var. Örneğin, ChatGPT 570 gigabayt metin verisi veya yaklaşık 300 milyar kelime üzerinde eğitildi.
Benzer şekilde, kararlı difüzyon algoritması (DALL-E, Lensa ve Midjourney gibi birçok yapay zeka görüntü oluşturma uygulamasının arkasında yer alır) 5,8 milyar görüntü-metin çiftinden oluşan LIAON-5B veri kümesi üzerinde eğitilmiştir. Bir algoritma yetersiz miktarda veri üzerinde eğitilirse, hatalı veya düşük kaliteli çıktılar üretecektir.
Eğitim verilerinin kalitesi de önemlidir. Sosyal medya gönderileri veya bulanık fotoğraflar gibi düşük kaliteli verilerin kaynağı kolaydır, ancak yüksek performanslı yapay zeka modellerini eğitmek için yeterli değildir.
Sosyal medya platformlarından alınan metinler önyargılı veya taraflı olabilir ya da model tarafından kopyalanabilecek dezenformasyon veya yasadışı içerik içerebilir. Örneğin, Microsoft yapay zeka botunu Twitter içeriğini kullanarak eğitmeye çalıştığında, bot ırkçı ve kadın düşmanı çıktılar üretmeyi öğrendi.
Bu nedenle yapay zeka geliştiricileri kitap metinleri, çevrimiçi makaleler, bilimsel makaleler, Wikipedia ve belirli filtrelenmiş web içerikleri gibi yüksek kaliteli içerikler aramaktadır. Google Asistan, daha diyalogsal hale getirmek için bağımsız yayıncılık sitesi Smashwords'ten alınan 11.000 aşk romanı üzerinde eğitildi.
Elimizde Yeterli Veri Var mı?
YZ endüstrisi, YZ sistemlerini giderek daha büyük veri kümeleri üzerinde eğitiyor, bu nedenle şu anda ChatGPT veya DALL-E 3 gibi yüksek performanslı modellerimiz var. Aynı zamanda, araştırmalar çevrimiçi veri stoklarının YZ'yi eğitmek için kullanılan veri kümelerinden çok daha yavaş büyüdüğünü gösteriyor.
Geçen yıl yayınlanan bir makalede, bir grup araştırmacı, mevcut YZ eğitim trendleri devam ederse 2026'dan önce yüksek kaliteli metin verilerinin tükeneceğini öngördü. Ayrıca düşük kaliteli dil verilerinin 2030 ile 2050 yılları arasında, düşük kaliteli görüntü verilerinin ise 2030 ile 2060 yılları arasında tükeneceğini tahmin ettiler.
Muhasebe ve danışmanlık grubu PwC'ye göre, yapay zeka 2030 yılına kadar dünya ekonomisine 15,7 trilyon ABD dolarına (24,1 trilyon A$) kadar katkıda bulunabilir. Ancak kullanılabilir verilerin tükenmesi gelişimini yavaşlatabilir.
Endişelenmeli miyiz?
Yukarıdaki noktalar bazı YZ hayranlarını endişelendirse de, durum göründüğü kadar kötü olmayabilir. Gelecekte YZ modellerinin nasıl gelişeceğine dair pek çok bilinmeyenin yanı sıra veri kıtlığı riskini ele almanın birkaç yolu var.
Fırsatlardan biri, YZ geliştiricilerinin algoritmaları iyileştirerek halihazırda sahip oldukları verileri daha verimli kullanmalarıdır.
Muhtemelen önümüzdeki yıllarda daha az veri ve muhtemelen daha az hesaplama gücü kullanarak yüksek performanslı YZ sistemlerini eğitebilecekler. Bu aynı zamanda YZ'nin karbon ayak izini azaltmaya da yardımcı olacaktır.
Bir başka seçenek de sistemleri eğitmek üzere sentetik veriler oluşturmak için yapay zekayı kullanmaktır. Başka bir deyişle, geliştiriciler ihtiyaç duydukları verileri, kendi YZ modellerine uyacak şekilde düzenlenmiş olarak üretebilirler.
Birçok proje halihazırda, genellikle Mostly AI gibi veri üreten hizmetlerden elde edilen sentetik içeriği kullanıyor. Bu gelecekte daha yaygın hale gelecektir.
Geliştiriciler ayrıca büyük yayıncıların ve çevrimdışı depoların elinde bulunanlar gibi ücretsiz çevrimiçi alanın dışında da içerik arıyorlar. İnternetten önce yayınlanmış milyonlarca metni düşünün. Dijital olarak erişilebilir hale getirildiklerinde, yapay zeka projeleri için yeni bir veri kaynağı sağlayabilirler.
Dünyanın en büyük haber içeriği sahiplerinden biri olan News Corp (içeriğinin çoğunu bir ödeme duvarının arkasında tutuyor) kısa süre önce YZ geliştiricileriyle içerik anlaşmaları müzakere ettiğini söyledi. Bu tür anlaşmalar yapay zeka şirketlerini eğitim verileri için ödeme yapmaya zorlayacaktır – oysa şimdiye kadar bu verileri çoğunlukla internetten ücretsiz olarak topladılar.
İçerik oluşturucular, içeriklerinin yapay zeka modellerini eğitmek için izinsiz kullanılmasını protesto etti ve bazıları Microsoft, OpenAI ve Stability AI gibi şirketlere dava açtı. Çalışmalarının karşılığını almaları, içerik üreticileri ile yapay zeka şirketleri arasında var olan güç dengesizliğini bir nebze olsun gidermeye yardımcı olabilir.