OpenAl Sora: Nasıl çalışıyor ve nereye evrilecek?
CGTN
OpenAI, basit yazılı açıklamalarla gerçek videolar üreten yeni yapay zekâ sistemi Sora’yı tanıtarak tüm dünyayı şaşkına çevirdi.
Yapay zekânın getirdiği yeniliklerle yakından ilgilenmeyenler için şu açıklamayı yapmak önem taşıyor: Sora, birçok görüntüyü basit bir şekilde birleştirmiyor, hareketli videolu hikâyeler oluşturuyor. Sora, bu özelliğiyle mevcut diğer modeller arasında öne çıkıyor.
Sora saniyelerle sınırlı diğer modellerden farklı olarak, uzunluğu 1 dakikaya ulaşan videolar üretebiliyor. Pan çekimler, yakın çekimler, geniş çekimler ve sabit çekimleri kullanan modelin kullandığı görüntülerdeki nesne ve arka planlar da videonun tamamıyla uyum sağlıyor. Videolarda parmak sayısının değişmesi gibi rahatsız edici tutarsızlıklar da görülmüyor.
Yapay zekâ alanında büyük ilerlemeler kaydedilmesine rağmen, bu Sora’nın kusursuz olduğu anlamına gelmiyor. Arka plan gerçekçi görünse de, mağaza tabelaları gibi yazılı unsurlar çoğu zaman bir mantık barındırmıyor. Doğru ifadeler yerine mantıksız ve anlamsız sözcükler kullanılabiliyor. Bu eksiklik, Sora’nın sayfasında açıklanan ve sokakta yürüyen kadın konulu ilk videoda rahatlıkla fark edilebiliyor.
Detaylarda büyük bir avantaj ortaya koymasına rağmen, Sora’nın yaptığı videolarda da hatalar bulunuyor. Sokakta yürüyen kadın konulu videoda kalabalık içindeki kişilerin ayaklarının düzgün görünmemesi dikkat çekiyor.
Fakat tüm bu aksaklıklar, Sora’nın taşıdığı dev potansiyeli gölgelemiyor. Model, video üretiminde yeni bir sayfa açıyor. Bilgisayarın canlı girdilere dayanarak durmadan video ürettiğini hayal edebiliriz. Bunun video oyunları ve eğlence sektöründe devrim yaratacağına kuşku yok.
Bu hayalin gerçekleşmesi için ciddi bir bilgi işleme gücüne ihtiyaç var. 1 saniyelik video üretmek için en az bir düzine kare gerekli. Şu an yaygın olarak kullanılan bilgisayarlarda bir mesajın görüntüye dönüştürülmesinde bir karenin işlenmesi birkaç saniye alıyor. Bilgi işlemeye dönük ihtiyacın artması, donanım sağlayıcıları için yeni ve dev bir pazar yaratacak.
Sonuç olarak, Sora gibi metinden video oluşturma modellerinde kritik bir eşiğin geçildiği söylenebilir. Model, kolay kullanım özelliğine ve heyecan verici potansiyele sahip. Teknik ve etik açılarından bulunan engellere rağmen, bu gelişme, yapay zekâ piyasasını yeni bir düzeye taşıyor.