ChatGPT üzere yapay zeka takviyeli araçlar, destekledikleri lisanı biliyorsanız şahane fırsatlar sunuyor.
Ancak Etiyopya’nın başşehri Addis Ababa’da bulunan Ashagari danışmanlık şirketinin kurucusu Mekdes Gebrewold, Amharca lisanında makine çevirisinin imkansız olduğunu söylüyor. DW’ye konuşan Gebrewold, “Google Çeviri üzere araçlar Amharca için uygun yapılandırılmamış. Bunun yerine profesyonellere para ödüyoruz” diyor.
Mekdes Gebrewold üzere milyarlarca insan, yapay zeka dayanaklı araçlardan anadillerinde yararlanamıyor.
Bu durum sırf ChatGPT üzere üretken yapay zeka dayanaklı araçlar veya Google Çeviri (Translate) üzere çeviri hizmetlerine has değil. Otomatik tamamlama, metin çözümleme, sesli asistanlar ve toplumsal medyadaki içerik kontrolü üzere birçok yapay zeka dayanaklı araç, farklı lisanlarda hizmet verme konusunda yetersiz.
Ancak birtakım şirketler bunu değiştirmeye çalışıyor.
Yapay zeka dayanaklı araçlar nasıl çalışıyor?
Aslında çağdaş yapay zeka araçları, aldıkları girdiye nazaran en muhtemel karşılığı kestirim ediyor. Gelişmiş otomatik tamamlama araçlarının yaptığı bu iddialar, yapay zeka mühendislerinin modellerini oluşturmak için kullandıkları “eğitim verilerine” dayanıyor. Dijital içerik koleksiyonlarından oluşan bu eğitim bilgileri çok büyük yer kaplıyor.
Common Crawl, bu eğitim dataları için kıymetli bir kaynak. Common Crawl, internetteki milyarlarca web sayfasından oluşan bir data kümesi ve açık kaynak olarak erişilebiliyor. Yapay zeka takviyeli ChatGPT- 3.5 sürümünü eğitmek için kullanılan dataların yaklaşık yüzde 60’ı bu koleksiyondan alınmıştı.
Yapay zeka araçları, kimi lisanlardaki eğitim dataları kısıtlı olduğu için farklı lisanlarda birebir performansla çalışmıyor. İnternetteki içerikler ağır olarak birkaç lisanda oluşturulduğu için, birçok lisanda yapay zeka eğitim verisi bulmak bir sorun.
Örneğin İngilizce, Common Crawl’daki tüm içeriklerin neredeyse yarısını oluşturuyor.
Öte yandan öbür tüm Afrika, Amerika ve Okyanusya lisanlarıyla birlikte Amharca, Common Crawl datalarının yüzde 0,1’inden azını oluşturuyor. Amharca çok az dijital bilgi üretilen, düşük kaynaklı bir lisan olarak biliniyor. Dünyada milyarlarca insan düşük kaynaklı lisanları konuşuyor. Çok sayıda kişinin konuştuğu Hintçe, Arapça ve Bengalce üzere lisanlar bile düşük kaynaklı lisan olarak görülüyor.
Avrupa lisanları ise Asya ve Afrika lisanlarının birçoklarına kıyasla eğitim bilgilerinde daha fazla içerik sahibi. Örneğin Flemenkçe, Amharca’ya misal formda 20 milyondan fazla kişi tarafından anadil olarak konuşuluyor. Lakin Flemenkçe, Common Crawl bilgi setinde Amharca’ya kıyasla neredeyse 700 kat daha fazla yer alıyor. Flemenkçe, Common Crawl bilgi setinde 300 milyondan fazla kişinin anadili Hintçe’den bile yüzlerce kat daha fazla içeriğe sahip.
Ancak bu bilgi eksikliğini gidermenin yolları var.
Silikon Vadisi’ndeki teknoloji devlerinin dışında, dünyanın her yerindeki makine tahsili araştırmacıları, kendi lisanları için yapay zeka dayanaklı araçlar geliştiriyor.
Yapay zeka takviyeli araçlarda lisan açığı nasıl kapatılır?
Asmelash Teka Hadgu, Etiyopya’daki Amharca ve Tigrinya lisanlarında makine çevirisi ve konuşma teknolojisi sağlayan bir startup olan Lesan’ın kurucu ortağı. Bu lisanlarda çok büyük ölçüde online kaynak bulunmadığından, Hadgu’nun takımı direkt bu lisanları konuşan topluluklarla çalışıyor ve bilgi toplamanın yaratıcı yollarını buluyor.
DW’ye konuşan Hadgu, “Genellikle kendi lisanlarını seven öğrencilerle çalışıyoruz” diyor. Öğrenciler için Hadgu, “Onlara bu türlü bir şey ürettiğimizi söylediğimizde etkileniyorlar ve katkıda bulunmak istiyorlar. Bu yüzden kendi lisanımızda içerik toplamak için vazifeler belirledik. Onlara yardımcı oluyoruz ve finansal olarak çalışmalarının karşılığını veriyoruz” tabirlerini kullanıyor.
Böylesi bir data toplama süreci çok fazla el emeği gerektiriyor. Katkıda bulunan şahıslar, öncelikle emniyetli kitaplar yahut gazeteler üzere yüksek kaliteli data kümelerini belirliyor ve akabinde bunları dijitalleştirerek maksat lisanlara çeviriyorlar. Son olarak bu bireyler, makine tahsili sürecine rehberlik etmek için özgün ve çevrilmiş versiyonları cümle cümle sıralıyorlar.
Bu metot, Lesan üzere şirketleri, milyarlarca sayfa İngilizce içeriğe sahip araçlara rakip hale getirmez. Lakin öbür avantajlar sağiayabilir. Örneğin Lesan, hem Amharca hem de Tigrinya’da Google Çeviri’den daha uygun performans gösteriyor.
Asmelash Teka Hadgu, bu durumu “Küçük, dikkatle seçilmiş data kümelerini kullanarak kullanışlı modeller oluşturulabileceğini gösterdik” diye açıklıyor. Hadgu, bu modeller için “Sınırlamalarını ve yeteneklerini anlıyoruz. Bu esnada Microsoft yahut Google çoklukla tüm lisanlar için tek, devasa bir model oluşturuyor, münasebetiyle bu modelin denetlenmesi neredeyse imkansız” diye ekliyor.
Daha fazla lisanın dijital dayanağa muhtaçlığı var
Lesan bu çalışma usulüne sahip tek şirket değil. Benzeri projeler, dijital ayak izi daha küçük olan lisanlar için bile tüm dünyada muvaffakiyetle uygulanıyor.
Hristiyan bir sivil toplum kuruluşu olan SIL International’ın yürüttüğü global bir lisan veritabanı olan Ethnologue, Amharca’yı “önemli” lisan takviyesine sahip lisanlar ortasında listeliyor. Bu, en azından Amharca’da kimi makine çeviri araçlarının, yazım kontrolünün ve konuşma işlemenin mevcut olduğu manasına geliyor.
Birçoğunun bir milyonun üzerinde kullanıcısı olan lisanların de ortalarında yer aldığı binlerce lisanda, çok daha az içerik ve daha az dijital araç sunuluyor.
Asmelash Teka Hadgu, yapay zeka konusunda Afrikalı önde gelen isimlerden oluşan bir ağın kesimi. Hadgu, Afrika, Avrupa ve Kuzey Amerika’dan bir küme araştırmacının yer aldığı Dağıtılmış Yapay Zeka Araştırma Enstitüsü’nde (DAIR) araştırma vazifelisi. Birebir vakitte Hadgu, GanaNLP ve Afrikalı halk kolektifi Masakhane üzere kümelerle da nizamlı temas halinde.
Hadgu DW’ye “Afrikalı kurucuların bu teknolojileri sahiplenmesine imkan sağlıyoruz” diyor. Hadgu, “Bu araçlar, bu topluluklardan beşerler tarafından üretiliyor ve hizmet veriyor. Yani mali karşılığı da direkt onlara geri dönecek” tabirlerini kullanıyor.
Afrika dışında da dünyanın dört bir yanındaki araştırmacılar Jamaika Patois lisanı, Katalanca, Sudan lisanı ve Maori lisanı üzere öteki lisanları yapay zekaya eklemenin yolları üzerine çalışıyor.
ChatGPT’nin OpenAI’si üzere teknoloji devleri modellerini saklı ve anlaşılmaz tutarken, global yapay zeka kolektifi Hugging Face üzere teşebbüsler bilgilerini ve yapay zeka modellerini özgürce paylaşıyor. Böylelikle, rastgele bir araştırmacının kendi lisanları için tahlil üretmesini kolaylaştırıyorlar.
Asmelash Teka Hadgu, “Yetenek her yerdedir, fırsat yoktur” diyor. Hadgu, “Diyelim ki Gana’daki bir lisan için en güzel çeşitte makine çevirisi teknolojisini yaratmak istiyorsanız, bunu tutkuyla isteyen ve bunu güzel yapabilecek bir Ganalı kesinlikle vardır. Buna fırsat sağlamak lazım” diye ekliyor.
Hanna Demissie bu habere Etiyopya’dan katkıda bulundu.
– Bu haber İngilizce’den Türkçe’ye adapte edilmiştir.