Teknolojinin süratle gelişmesiyle birlikte yapay zeka araçları da her alanda hayatımızda daha çok yer edinmeye başladı. Google, Microsoft, Facebook’un sahibi olan Meta ve OpenAI üzere dünyanın önde gelen teknoloji devleri, yapay zeka alanında ağır bir formda çalışmalar yürütüyor. Pekala yapay zeka araçları için en başarılı lisan modeli hangi şirkete ilişkin? Yapılan bir araştırma, bu soruya yanıt verdi.
En başarılı lisan modelleri, OpenAI’a ait!
Verilere geçmeden evvel bilmeyenler için LLM ya da Türkçe ismiyle Büyük Lisan Modeli, doğal lisan sürece alanında kullanılan yapay zeka sistemlerinden birisi. Büyük ölçüdeki metin ve data ile eğitilerek lisanın kullanımını ve bağlamını anlamayı öğrenirler. Yani örnek vermek gerekirse yapay zeka aracı ChatGPT‘nin verdiği karşılıklar, lisan modeline bağlı. O halde en başarılı lisan modellerine geçelim.

Kasım 2023 itibariyle Simon Hughes isimli bir bilgi bilimcisi ve yapay zeka uzmanı tarafından hazırlanan rapor, en tesirli LLM’lerin gerçek bilgi sağlama konusunda ne kadar başarılı olduğunu gözler önüne serdi. Bu raporda OpenAI hayli öne çıktı.
Verilere nazaran OpenAI‘a ilişkin GPT 4 lisan modeli, yüzde 97 oranında gerçek bilgi sağlıyor. Bu da yüzde 3 oranında halüsinasyon durumu yaşandığı yani bir bilgi uydurduğu manasına geliyor. En başarılı ikinci lisan modeli ise yeniden OpenAI tarafından geliştirilen GPT 4 Turbo. Bu da yanlışsız bilgi sağlama konusunda GPT 4 ile tıpkı orana sahip. Bu iki lisan modeline fiyat ödeyerek erişilebildiğini belirtmekte yarar var.
Dil Modeli | Doğru Bilgi Verme Oranı | Yanlış Bilgi Verme Oranı | Cevap Verebilme Oranı | Ortalama Cevap Uzunluğu (Kelime) |
---|---|---|---|---|
GPT 4 | Yüzde 97 | Yüzde 3.0 | Yüzde 100.0 | 81.1 |
GPT 4 Turbo | Yüzde 97 | Yüzde 3.0 | Yüzde 100.0 | 94.3 |
GPT 3.5 Turbo | Yüzde 96.5 | Yüzde 3.5 | Yüzde 99.6 | 84.1 |
Llama 2 70B | Yüzde 94.9 | Yüzde 5.1 | Yüzde 99.9 | 84.9 |
Llama 2 7B | Yüzde 94.4 | Yüzde 5.6 | Yüzde 99.6 | 119.9 |
Llama 2 13B | Yüzde 94.1 | Yüzde 5.9 | Yüzde 99.8 | 82.1 |
Cohere-Chat | Yüzde 92.5 | Yüzde 7.5 | Yüzde 98.0 | 74.4 |
Cohere | Yüzde 91.5 | Yüzde 8.5 | Yüzde 99.8 | 59.8 |
Anthropic Claude 2 | Yüzde 91.5 | Yüzde 8.5 | Yüzde 99.3 | 87.5 |
Mistral 7B | Yüzde 90.6 | Yüzde 9.4 | Yüzde 98.7 | 96.1 |
Google Palm 2 | Yüzde 87.9 | Yüzde 12.1 | Yüzde 92.4 | 36.2 |
Google Palm 2 Chat | Yüzde 72.8 | Yüzde 27.2 | Yüzde 88.8 | 221.1 |
Yukarıdan ayrıntılıca inceleyebileceğiniz tablonun biraz aşağısına yanlışsız göz kaydırdığımızda Google‘a ilişkin Palm 2 lisan modeli tarafından sağlanan bilgilerin yüzde 12.1‘inin uydurma olduğunu görüyoruz. Bu da doğruluk oranının yüzde 87.9 olduğu manasına geliyor. Google Palm 2 lisan modelinin yapay zeka aracı Google Bard‘a dayanak verdiğini belirtelim.