6 dk okuma
Yapay zeka neden el ve yazıda zorlanır
Altı parmaklı eller ve anlamsız tabelalar yapay zeka görsellerinin klasik işaretiydi. İşte ellerin ve okunabilir yazının üretken modeller için neden bu kadar zor olduğunun dürüst, doğru açıklaması ve yeni modellerin nasıl iyileştiği.
Bir yapay zeka görselinin iki klasik işareti
Birkaç yıl boyunca iki kusur neredeyse her yapay zeka görselini ele veriyordu: altı parmaklı bir el ve kendinden emin görünen saçmalıklarla dolu bir dükkan tabelası. İnsanlar yapay zekanın fotogerçekçi bir ejderha çizebildiğini ama beşe kadar sayamadığını ya da tek bir kelimeyi heceleyemediğini söyleyip duruyordu.
Bunun nedenini anlamakta fayda var, çünkü mesele modellerin tembel ya da aptal olması değil. Her iki sorun da aynı kökten geliyor: metinden görsele bir model, nesneleri veya dili sizin gibi anlamaz. Piksellerin istatistiksel örüntülerini öğrenir. Bu tek gerçek hem eller hem de yazı hakkında çok şeyi açıklar ve en yeni modellerin bunları nasıl düzeltmeye başladığını da gösterir.
Modeller kavramları değil örüntüleri çizer
Modern bir görsel üreticisi genellikle bir difüzyon modelidir. Eğitim sırasında her biri bir metin açıklamasıyla eşleştirilmiş milyarlarca görsel görür. Rastgele gürültüden başlayıp onu kademeli olarak temizleyerek kelimelerle eşleşen bir resme dönüştürmeyi öğrenir. Aslında öğrendiği şey, hangi piksel düzenlerinin hangi kelimelerle bir arada bulunma eğiliminde olduğudur.
Önemli olan şu: altta sembolik bir anlama yoktur. Model, bir elin bir avuç içine bağlı tam beş parmaklı katı bir yapı olduğu fikrini ya da bir kelimenin belirli harflerin sıralı bir dizisi olduğu fikrini taşımaz. Yalnızca bunların eğitim verisinde nasıl göründüğünü bilir. Bir şey istediğinizde, gördüğü her şeyin makul bir ortalamasını üretir; akıl yürüterek bir yapı kurmaz. Bu, dokular, ışık ve yüzler için harika çalışır. Doğru yanıt tam sayma ya da tam yazıma bağlı olduğunda ise kötü çalışır.
Eller neden özellikle zor
Eller üç sorunu aynı anda bir araya getirir. Birincisi, son derece değişkendir: bir el yumruk, el sallama, işaret eden bir parmak, iç içe geçmiş parmaklar ya da bir nesnenin arkasında büyük ölçüde gizli olabilir. Aynı el düzinelerce farklı biçimde görünür, bu yüzden model tutarlı tek bir şablon öğrenmekte zorlanır.
İkincisi, eller genellikle küçüktür ve fotoğrafın odağı değildir. Stability AI'nin de belirttiği gibi, görsel veri kümelerinde eller yüzlerden çok daha az net görünür, dolayısıyla öğrenilecek iyi yakın çekim örneği daha azdır. Üçüncüsü, modelin alttaki üç boyutlu anatomiyi gerçek anlamda kavrayışı yoktur. Elin nasıl göründüğünü bilir, nasıl yapıldığını değil; bu yüzden onu beş parmakta durduran içsel bir kuralı yoktur. Sonuç o meşhur fazladan parmaklardı. Britannica, dişlerin ve kulakların da küçük ve değişken olduğu için aynı nedenlerle bozulduğunu belirtiyor.
İyileştirmenin bir kısmı daha iyi veriden geldi. Midjourney, Mart 2023'te daha net el görsellerini önceliklendiren ve gizlenmiş olanların ağırlığını azaltan bir güncelleme yayınladı; eller gözle görülür biçimde düzeldi, ama anında kusursuz olmadılar.
Okunabilir yazı neden daha da kötüydü
Yazı, ellerden bile daha az affedicidir. Bir elin resmi biraz yanlış olsa da yine de el olarak okunur. Biraz yanlış olan bir kelime ise sadece yanlış yazılmıştır ve gözünüz bunu hemen yakalar. Yazımın, difüzyon modellerinin çok iyi yaptığı türden makul ortalamaya hiç toleransı yoktur.
Mimari bir neden de var. Birçok erken metinden görsele sistem, isteminizi içsel bir sayısal temsile çeviren bir dil kodlayıcıyı, çekici resimler yapmak için eğitilmiş ama heceleme için eğitilmemiş bir görsel kod çözücüyle eşleştirir. Anlamı tekrar tam harflere çeviren özel bir dil kod çözücü yoktu. Bu yüzden model harfleri dekoratif şekiller gibi ele aldı; doğru yerde yazıya benzeyen bir şey çiziyor ama doğru sırada belirli harflere bağlı kalmıyordu. Tokenizasyon durumu kötüleştirdi, çünkü model genellikle temiz harf harf yazım yerine kelime parçalarıyla çalışır. Araştırmacılar DALL-E'nin saçmalıklarının bile içsel olarak tutarlı olduğunu buldu: bu saçmalığı geri verdiğinizde bazen gerçek kavramlara karşılık geliyordu.
Yeni modeller nasıl iyileşti
Her iki cephedeki ilerleme esas olarak ölçek, daha temiz veri ve dil ile görsel üretimi arasındaki daha sıkı bağdan geldi. Daha fazla, daha çeşitli ve daha iyi açıklanmış görsellerle eğitilen büyük modeller kelimeleri ve elleri çok daha fazla bağlamda gördü, bu da içsel örüntülerini iyileştirdi.
Özellikle yazı, kabaca 2023 ile 2025 arasında çok iyileşti. DALL-E 3, önceki modellerin bozduğu kısa kelimeleri ve ifadeleri çizebiliyordu; tipografiyle bilinen sistemler ve daha yeni genel modeller artık çoğu zaman okunabilir tabelalar ve kısa açıklamalar üretiyor. Eğilimin gerçek ama çözülmüş olmadığını söylemek dürüstçedir: uzun metinler, alışılmadık yazı tipleri ve Latin dışı yazılar hâlâ modelleri yanıltır; bu yüzden yapay zekanın bir görsele koyduğu her yazıyı mutlaka kontrol edin.
Burada e-ticaret için pratik bir ders var. Ürün fotoğrafları için en güvenilir yaklaşım, kamerayı dürüst tutmak ve yapay zekanın gerçekten iyi olduğu kısımları ona bırakmaktır; temiz arka planlar, tutarlı beyaz arka planlar ve kare çerçeveleme gibi. Bir üreticiden ambalajdaki yazıyı uydurmasını ya da ürününüzü tutan elin biçimini düzeltmesini istemek yerine. Renderivo gibi araçlar bu güce yaslanır: gerçek ürün, düzenli sunum, uydurma etiket yok.
Sık sorulan sorular
Yapay zeka ellere neden fazladan parmak ekliyordu?
Çünkü model ellerin anatomisini değil, görünümünü istatistiksel olarak öğrenir. Eller çoğu fotoğrafta küçüktür, düzinelerce pozda görünür ve modelin bir elin tam beş parmağı olduğuna dair içsel bir kuralı yoktur. Bu yüzden bazen altı veya yedi parmaklı, makul görünen bir bulanıklık üretiyordu.
Okunabilir yazı görsel üreticileri için neden bu kadar zor?
Yazım, doğru harflerin doğru sırada olmasını gerektirir, ama difüzyon modelleri yazıyı şekil olarak ele alır ve yazının nasıl göründüğünün makul bir ortalamasını üretir. Birçok sistemde özel bir dil kod çözücü de yoktu, bu yüzden harfler bağlı ve doğru sıralı simgeler yerine dekoratif örüntüler olarak çıkıyordu.
Yeni modeller elleri ve yazıyı düzeltti mi?
Çok daha iyiler ama kusursuz değiller. Daha fazla veri ve daha büyük, daha iyi açıklanmış modeller elleri iyileştirdi; yazı çizimi ise yaklaşık 2023'ten 2025'e kadar belirgin şekilde gelişti. Kısa kelimeler ve tabelalar artık çoğu zaman okunabilir, ama uzun metin, alışılmadık yazı tipleri ve Latin dışı yazılar hâlâ başarısız olur, bu yüzden mutlaka kontrol edin.
Ürün görsellerime yazı eklemesi için yapay zekaya güvenmeli miyim?
Dikkatli olun. Marka adı, fiyat veya etiket gibi tam olması gereken her şey için yazıyı kendiniz eklemeniz daha güvenlidir; yapay zekayı ise fotoğrafı temizleme ve standartlaştırma gibi güvenilir biçimde yaptığı işler için kullanın.
Halüsinasyon olmadan temiz ürün fotoğrafları
Renderivo, görsel yapay zekanın iyi yaptığı işe odaklanır: gerçek ürünleriniz için temiz arka planlar, gerçek beyaz arka planlar ve kare çerçeveleme. Yeni hesaplar ücretsiz kredi kazanır.