Matematikte sınıfta kaldılar: ‘Mutlaka hesap makinesi ile kontrol edin’

  • Yapay Zeka Modellerinin Performansı Karşılaştırıldı: Gemini Önde!

    Teste dahil edilen ChatGPT-5 (OpenAI), Gemini 2.5 Flash (Google), Claude 4.5 Sonnet (Anthropic), DeepSeek V3.2 (DeepSeek AI) ve Grok-4 (xAI) modelleri, aynı sorularla karşı karşıya geldi. Doğruluk oranları yüzde 45 ile 63 arasında değişkenlik gösterdi.

  • Gemini, En Yüksek Başarıyı Elde Etti

    En yüksek başarı yüzde 63 ile Gemini tarafından yakalandı. Ancak, yaklaşık her 10 sorudan 4’ünün yanlış cevaplandığı görüldü. Grok, yüzde 62,8 ile ikinci sırada yer aldı. DeepSeek yüzde 52 ile üçüncü, ChatGPT ise yüzde 49,4’lük doğruluk oranıyla dördüncü sırada yer aldı. Listenin sonunda ise yüzde 45,2 ile Claude bulunuyor.

  • Kategoriler Arasındaki Performans Farkı Gözlemlendi

    Özellikle matematik ve dönüşüm konularında Gemini, yüzde 83’lük bir doğrulukla öne çıktı. Grok yüzde 76,9 ve DeepSeek ise yüzde 74,1 ile takip etti. Bu kategoride ortalama doğruluk oranı yüzde 72,1 olarak kaydedildi.

  • Fizik Alanında En Düşük Başarı Oranı

    Fizik alanı, en düşük başarı oranının görüldüğü kategori oldu. 128 sorunun sorulduğu bu alanda ortalama doğruluk yüzde 35,8’de kaldı. Grok, yüzde 43,8 ile liderliği sürdürürken, Claude sadece yüzde 26,6 doğruluk oranına ulaşabildi.

  • DeepSeek’in Biyoloji ve Kimya Başarısı Düşük

    DeepSeek, biyoloji ve kimya gibi alanlarda başarılı olamadı ve yalnızca yüzde 10,6’lık bir doğruluk oranı elde edebildi. Finans ve ekonomi alanlarında ise Grok ve Gemini, yüzde 76,7’lik en yüksek doğruluk oranlarına ulaştı.

  • ‘Çapraz Kontrol Şart!’

    Araştırmanın yazarı Dawid Siuda, yapay zeka modellerinin doğruluğunun hala sınırlı olduğunu belirterek, görev kritikse çapraz kontrol yapılması gerektiğini vurguladı.

  • Araştırmanın Ortaya Koyduğu Hatalar

    Araştırma, yapay zekaların yaptığı hataları “özensiz matematik” (%68), “hatalı mantık” (%26), “talimatı yanlış anlama” (%5) ve “vazgeçme” olarak dört başlık altında topladı. Kullanıcıların sonuçları kontrol etmesi önem taşıyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

footer link
Deneme bonusu veren siteler
What is notes.io? Notes LogoNotes brand slogan Notes - notes.io Popular notes Notes I'm Feeling Lucky repost for Instagram Tiktok Video Downloader - SaveTik - (free for limited time) Paste Keyboard iOS - Quick Replies v 2.7.6 We'd love to hear from you. Please email us at [email protected] Copyright 2025 Metromedya ios uygulama geliştirme