OpenAI, ChatGPT’nin görüntü üretme ve düzenleme yeteneklerini ciddi biçimde güçlendirdi. Yeni duyurulan güncelleme ile birlikte GPT-4o modeli, metin oluşturmanın ötesine geçerek artık yerel olarak görsel üretimi ve düzenlemesi de yapabiliyor. Bu gelişme, şirketin yapay zeka alanındaki yaratıcı uygulamalarını daha ileriye taşıyan en büyük yükseltmelerden biri olarak değerlendiriliyor.
Bu yetenek, yalnızca yeni içerik üretmekle sınırlı değil; aynı zamanda mevcut görsellerin düzenlenmesini, dönüştürülmesini ve “inpainting” yöntemiyle görsellerin içindeki eksik ya da değiştirilmesi istenen alanların otomatik olarak tamamlanmasını da kapsıyor. Özellikle insan içeren görsellerde daha gerçekçi sonuçlar sunan GPT-4o, aynı zamanda metin içeren görsellerde de yüksek doğrulukla çalışıyor. Artık grafiklerde yer alan yazıların netliği ya da yanlış yorumlanması gibi problemler geride kalıyor.
Dün gerçekleşen canlı etkinlikte OpenAI CEO’su Sam Altman, bu yeniliği “ChatGPT’nin görsel zekasında bir dönüm noktası” olarak tanımladı. Yeni görüntü oluşturma yeteneği, şimdilik ChatGPT’nin Pro kullanıcılarına ve şirketin AI video üretim aracı Sora kullanıcılarına sunulmuş durumda. Yakın zamanda bu özelliklerin Plus aboneleri ve ücretsiz kullanıcılar için de erişime açılması planlanıyor. Ayrıca OpenAI’ın API kullanıcıları da bu yeni görüntü özelliklerinden yararlanabilecek.
OpenAI, bu güncellemeyle birlikte yalnızca teknik kapasiteyi artırmakla kalmıyor; aynı zamanda içerik üreticilerinin telif hakkı haklarını da gözeten bir yaklaşım izliyor. Görsel üretim sistemlerinin eğitimi için Shutterstock gibi platformlarla yapılan lisans anlaşmaları sayesinde modelin yalnızca yasal olarak izin verilen veri setleri üzerinde eğitildiği belirtiliyor. OpenAI, “çıktının nasıl üretildiğine” dair şeffaflığı artırırken, sanatçıların istekleri doğrultusunda içeriklerinin sistemden çıkarılması için devre dışı bırakma formu da sunuyor.
OpenAI’ın İşletme Müdürü Brad Lightcap, bu süreçte etik çizgiyi korumanın önemini şu sözlerle vurguluyor:
"Çıktıyı nasıl yaptığımız konusunda sanatçıların haklarına saygı duyuyoruz ve yaşayan herhangi bir sanatçının eserini doğrudan taklit eden görüntüler üretmemizi engelleyen politikalarımız var.”
Gemini 2.0 Flash’ın benzer bir görüntü üretme yeteneği kazanmasının ardından gelen bu hamle, OpenAI ile Google arasında yapay zekâ alanında yükselen rekabetin yeni bir safhaya geçtiğini de gösteriyor. GPT-4o’nun sunduğu yüksek kaliteli ve kullanıcı dostu görsel üretim kapasitesi, ChatGPT’yi yalnızca metin odaklı bir sohbet botu değil, aynı zamanda yaratıcı üretim için güçlü bir görsel platform haline getiriyor.