-
Yapay Zeka Modellerinin Performansı Karşılaştırıldı: Gemini Önde!
Teste dahil edilen ChatGPT-5 (OpenAI), Gemini 2.5 Flash (Google), Claude 4.5 Sonnet (Anthropic), DeepSeek V3.2 (DeepSeek AI) ve Grok-4 (xAI) modelleri, aynı sorularla karşı karşıya geldi. Doğruluk oranları yüzde 45 ile 63 arasında değişkenlik gösterdi.
-
Gemini, En Yüksek Başarıyı Elde Etti
En yüksek başarı yüzde 63 ile Gemini tarafından yakalandı. Ancak, yaklaşık her 10 sorudan 4’ünün yanlış cevaplandığı görüldü. Grok, yüzde 62,8 ile ikinci sırada yer aldı. DeepSeek yüzde 52 ile üçüncü, ChatGPT ise yüzde 49,4’lük doğruluk oranıyla dördüncü sırada yer aldı. Listenin sonunda ise yüzde 45,2 ile Claude bulunuyor.
-
Kategoriler Arasındaki Performans Farkı Gözlemlendi
Özellikle matematik ve dönüşüm konularında Gemini, yüzde 83’lük bir doğrulukla öne çıktı. Grok yüzde 76,9 ve DeepSeek ise yüzde 74,1 ile takip etti. Bu kategoride ortalama doğruluk oranı yüzde 72,1 olarak kaydedildi.
-
Fizik Alanında En Düşük Başarı Oranı
Fizik alanı, en düşük başarı oranının görüldüğü kategori oldu. 128 sorunun sorulduğu bu alanda ortalama doğruluk yüzde 35,8’de kaldı. Grok, yüzde 43,8 ile liderliği sürdürürken, Claude sadece yüzde 26,6 doğruluk oranına ulaşabildi.
-
DeepSeek’in Biyoloji ve Kimya Başarısı Düşük
DeepSeek, biyoloji ve kimya gibi alanlarda başarılı olamadı ve yalnızca yüzde 10,6’lık bir doğruluk oranı elde edebildi. Finans ve ekonomi alanlarında ise Grok ve Gemini, yüzde 76,7’lik en yüksek doğruluk oranlarına ulaştı.
-
‘Çapraz Kontrol Şart!’
Araştırmanın yazarı Dawid Siuda, yapay zeka modellerinin doğruluğunun hala sınırlı olduğunu belirterek, görev kritikse çapraz kontrol yapılması gerektiğini vurguladı.
-
Araştırmanın Ortaya Koyduğu Hatalar
Araştırma, yapay zekaların yaptığı hataları “özensiz matematik” (%68), “hatalı mantık” (%26), “talimatı yanlış anlama” (%5) ve “vazgeçme” olarak dört başlık altında topladı. Kullanıcıların sonuçları kontrol etmesi önem taşıyor.
Matematikte sınıfta kaldılar: ‘Mutlaka hesap makinesi ile kontrol edin’