ARC-AGI-3

Yapay Zeka

15 Ağustos 2025

En kritik soruyu sorarak başlayalım: En zeki insandan daha zeki olan silikon bazlı bir sistem yaratabilir miyiz? Cevabını kesin olarak veremediğimiz bu soru son 50 yıldır gündemden hiç düşmedi. Medya da bu hayalimizin ‘harlanmasında’ önemli rol oynadı, özellikle Matrix ve Terminatör gibi filmlerle. Her ne kadar yapay genel zekâ hayali günümüzde ticari popülizme yem edilmeye çalışılsa da bu konuda samimiyetle uğraşan, ideallerini paranın üzerinde tutan bir zümre hep oldu. CYC gibi öncü projelerle az da olsa yol almayı başardık. Fakat hala emekleme dönemindeyiz. Bırakın en zeki insandan daha zeki olmayı, elimizde zeki bir sistem bile yok.

Fakat yapay genel zekânın ortaya çıkması kadar onun var olduğunu idrak edebilmemiz de önemli. Şu ana kadar bunun için pek çok test geliştirildi. François Chollet ve ekibi tarafından hazırlanan ARC bulmacaları bu testlerin başında geliyor. Zekâyı yeni ortamlara uyum sağlama becerisi olarak tanımlayan bu ekip ilk bulmaca setini (ARC-AGI-1) derin öğrenmenin ne derece hatmedildiğini ölçmek için geliştirdi. OpenAI’ın o3’ü tarafından %88’lik doğruluk oranı ile amiyane tabirle “paramparça” edildi, her ne kadar oldukça pahalıya patlasa da. Hemen akabinde geliştirilen ikinci bulmaca seti (ARC-AGI-2) ise YZ sistemlerinin sorgulama yetilerini ölçmeyi amaçlıyordu. Bunun için zekânın ayrılmaz bileşenleri olduğu düşünülen üç yetiyi (Sembolik Yorumlama, Bileşimsel Akıl Yürütme ve Bağlamsal Kural Uygulaması) ölçmeyi amaçlayan özel bulmacalar tasarlandı. Aynı o3 burada %4 ile duvara tosladı. Yarışma hala devam ediyor ve şu ana kadar büyük dil modelleri arasında en yüksek skor %15.9 ile Grok-4’e ait. Hâlâ oldukça yetersiz ama etkileyici bir gelişme.

Fakat teknolojinin baş döndürücü bir hızla ilerleyeceğini öngören Chollet ve ekibi daha ARC-AGI-2’nin tamamlanmasını beklemeden ARC-AGI-3 için kolları sıvadı bile, üstelik köklü bir revizyona giderek. 2025 yılında hazırlanmaya başlanan, 2026 yılı içerisinde de yayınlanması planlanan ARC-AGI-3’ün ana teması “oyunlar” olacak. Oyun derken aklınıza bildiğiniz bilgisayar oyunları gelmesin. En fazla 64x64’lük bir grid içinde 2 boyutlu ve 10 farklı renkten oluşan karelerin “hareket ettirilmesinden” bahsediyorum. Oyuna başladığınız anda tek başınasınız. Yardım yok. Bir kural kitabı yok. Yönerge yok. Tabii ki arka planda bir mantıksal süreç var, yani her oyunun bir amacı var, ama bunu sizin keşfetmeniz bekleniyor. Kurallar için de aynı şey geçerli. Üstelik en önemli tarafı her bir oyunun kelimenin tam anlamıyla benzersiz oluşu. Yepyeni bir ortamda oyunun amacını anlamanız, yapılması/yapılmaması gerekenleri belirlemeniz ve çözümü bulmanız bekleniyor. Daha doğrusu tüm bunları geliştirdiğiniz YZ sisteminin tek başına yapması bekleniyor. Kendinizi Netflix’te 2020 yılında yayınlanan ve Haro Aso’nun aynı isimli mangasından uyarlanan Alice in Borderland dizisinde hayal edin. Bu ideal bir örnek.

İlk yayınlanan set 3 oyun ve toplam 27 bölümden oluşuyor (İlk oyunun 8, ikinci oyunun 10, üçüncü oyunun ise 9 bölümü var). İkinci set de 3 oyundan oluşacak ve Ağustos ayı içerisinde yayınlanacak. Ayrıca, geliştiricileri teşvik etmek amaçlı 18 Temmuz’da Hugging Face ile toplam 3 hafta sürecek ve 10.000 dolar ödüllü ortak bir yarışma düzenlendi. YZ ajanlarının halka açıklanan 3 oyun ile 2 gizli oyun üzerindeki performansları değerlendirilecek ve kazananlar 19 Ağustos’ta açıklanacak.

Tıpkı ilk iki versiyonda olduğu gibi ARC-AGI-3’ün bu önizlemesinde de insanların performansı oldukça etkileyici. An itibarıyla ARC-AGI-3’ün liderlik tablosunda insanların tamamı yayınlanan 3 oyunu ve 27 bölümü de doğru tamamlamış. Toplam hamle sayısı 511 ile 620 arasında değişiyor. Gelgelelim, geliştirilen yapay zekâ ajanlarının yalnızca bir tanesi 3 oyun-27 bölümü doğru tamamlarken çoğunluk tek biri oyunu bile bitirememiş, yalnızca tek bir bölüm geçebilmiş. Büyük dil modellerinin ise skoru %0!

Mesele oyunları doğru yapıp yapamayacağınız değil, hepsini yapacağınızdan emin olabilirsiniz. Mesele, tüm bu oyunları doğru şekilde bitirebilecek bir sistem kurup kuramayacağınız. Eğer bunu başarırsanız yapay genel zekâ hayalimize bir adım daha yaklaşmış olacağız.

Teşekkürler,
Barış Yalın Uzunlu & Melis Eryiğit Samir

KAYNAKLAR
https://hbrturkiye.com/blog/imkansiz-gorev-cyc-projesi
https://hbrturkiye.com/blog/yapay-genel-zekayi-fark-edebilecek-miyiz
https://hbrturkiye.com/blog/arc-yapay-zekanin-iq-testi
https://hbrturkiye.com/blog/arc-agi-2-yapay-genel-zeka-hayallerinin-tosladigi-duvar
https://tr.wikipedia.org/wiki/Alice_in_Borderland
https://huggingface.co/
https://three.arcprize.org/leaderboard