7 dk okuma

GAN ve Difüzyon: Yapay Zeka Görsel Üretmeyi Nasıl Öğrendi

Yapay zeka görsel üretiminin iki büyük yaklaşımının net ve doğru bir tarihçesi: GAN ve difüzyon modelleri. Her birinin nasıl çalıştığı, difüzyonun neden büyük ölçüde kazandığı ve hâlâ önemli olan ödünleşimler.

İki fikir, tek zor problem

Bilgisayar tarihinin büyük bölümünde yazılım görselleri düzenleyebiliyordu ama icat edemiyordu. Bir makineye hiç var olmamış bir şeyin inandırıcı bir fotoğrafını ürettirmek gerçekten zor bir problemdir, çünkü kopyalanacak tek bir doğru cevap yoktur. Modelin makul görsellerin nasıl göründüğünü öğrenip o uzaydan örnekleme yapması gerekir.

Son on yılda iki ana yöntem ailesi bunu çözdü. İlki 2014'te tanıtılan GAN'lardı. İkincisi ise 2020 civarında pratik hâle gelen ve bugün tanıdığımız görsel üreticilerinin çoğunu çalıştıran difüzyon modelleriydi. Aradaki farkı anlamak, yapay zeka görsellerinin neden birdenbire bu kadar iyileştiğini açıklar.

GAN: bir sahteci ve bir dedektif

Çekişmeli Üretici Ağlar (GAN), Ian Goodfellow önderliğinde 2014'te yayımlanan bir makaleyle tanıtıldı. Eş yazarlar arasında Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville ve Yoshua Bengio vardı. Makale o yıl NIPS konferansında yayımlandı.

Temel fikir iki sinir ağı arasındaki bir yarışmadır. Üretici sahte görseller üretmeye çalışır, ayırt edici ise gerçek görselleri sahtelerinden ayırmaya çalışır. Üretici, ayırt ediciyi kandırarak gelişir; ayırt edici ise üreticiyi yakalayarak gelişir. Bunu, yarışarak keskinleşen bir sahteci ile dedektif gibi düşünün. Makale bunu, teoride üreticinin gerçek veri dağılımını yeniden ürettiği ve dedektifin yazı turadan daha iyisini yapamadığı bir minimaks oyunu olarak tanımlar.

GAN'lar çarpıcı sonuçlar üretti ve yıllarca görsel üretiminde baskın oldu. Ama çekişmeli kurulum kırılgandır. Eğitim kararsız olabilir, iki ağ dengeyi tutturamayabilir ve GAN'lar mod çökmesine yatkındır; bu durumda üretici, verideki tüm çeşitlilik yerine dar bir güvenli görsel kümesi üretmeyi öğrenir. Bir GAN'ı iyi eğitmek çoğu zaman dikkatli ince ayar gerektirirdi.

Difüzyon: gürültüyü geri almayı öğrenmek

Difüzyon modelleri tamamen farklı bir yol izler. Temel fikir, dengesizlik termodinamiğinden ilham alınarak Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan ve Surya Ganguli tarafından 2015 tarihli bir makalede tanıtıldı. Yöntem, Jonathan Ho ve meslektaşlarının Gürültü Giderici Difüzyon Olasılıksal Modeller (DDPM) makalesini yayımladığı 2020'de yüksek kaliteli görseller için pratik hâle geldi.

Numara neredeyse sezgiye aykırıdır. Gerçek bir görseli alırsınız ve adım adım yavaşça rastgele gürültü eklersiniz, ta ki saf parazite dönüşene kadar. Sonra bir ağı bu süreci tersine çevirmek için eğitirsiniz: gürültülü bir görsel verildiğinde, biraz daha az gürültülü bir sürümü tahmin etmesi gerekir. Tersine adımı defalarca tekrarlayın; model saf gürültüden başlayıp tutarlı, yepyeni bir görsele doğru kademeli olarak gürültü giderebilir.

Ağın yalnızca tek ve iyi tanımlı bir görevi (her seferinde biraz gürültü gidermeyi) öğrenmesi gerektiğinden, eğitim bir GAN'ın çekişmeli çekiştirmesinden çok daha kararlıdır. Dengelenecek ikinci bir ağ yoktur ve yaklaşım mod çökmesine çok daha az yatkındır.

Difüzyon neden büyük ölçüde kazandı

Dönüm noktası 2021'de geldi; OpenAI araştırmacıları Prafulla Dhariwal ve Alex Nichol, Difüzyon Modelleri Görsel Sentezde GAN'ları Yener başlıklı bir makale yayımladı. Doğru mimari ve sınıflandırıcı yönlendirmesi adlı bir teknikle difüzyon modellerinin, ImageNet gibi zorlu kıyaslamalarda en iyi GAN'ların görsel kalitesini yakalayabileceğini veya aşabileceğini gösterdiler.

Difüzyonun avantajları buradan itibaren katlandı. Eğitim kararlılığı devasa veri kümelerine ölçeklenmeyi kolaylaştırdı ve gürültü giderme yaklaşımı doğal olarak daha çeşitli çıktı üretti. Ayrıca metin komutlarıyla temiz biçimde eşleşir; Stable Diffusion gibi sistemlerin bir cümleyi görsele çevirmesi de böyle oldu. Bugün tanınan görsel üreticilerinin çoğu difüzyon üzerine kuruludur.

GAN'lar kaybolmadı. Hızın önemli olduğu yerlerde hâlâ yararlıdır, çünkü bir GAN görseli tek bir ileri geçişte üretir. Ancak ham kalite, kontrol edilebilirlik ve güvenilirlik açısından difüzyon varsayılan hâline geldi.

Hâlâ önemli olan ödünleşimler

Difüzyonun en büyük kusuru hızdır. Bir görsel üretmek, gürültü giderme adımını defalarca çalıştırmak demektir; bu nedenle üretim, tek atışlık bir GAN'a kıyasla doğası gereği daha yavaş ve daha fazla işlem gücü ister. Son dönem araştırmaların çoğu, kaliteyi kaybetmeden adım sayısını azaltmaya odaklanıyor ve ilerleme gerçek; ama maliyet farkı somut bir mühendislik kısıtı.

Dürüst kalmak adına daha derin bir nokta da var: hiçbir yaklaşım bir ürünü, bir markayı ya da bir gerçeği anlamaz. Bu modeller görsellerin nasıl göründüğüne dair istatistiksel örüntüleri öğrenir. Üretilen sahnelerin ince hatalar içerebilmesinin ve ince ayrıntıların çoğu zaman insan gözüne ihtiyaç duymasının nedeni budur. Teknoloji etkileyicidir, ama sihir değildir.

Özellikle e-ticaret için Renderivo'yu, uçu açık icat yerine güvenilir ve tekrarlanabilir düzenlemeler etrafında bunun için tasarladık. Bir arka planı temizlemek, ürünü temiz beyaz bir arka plana yerleştirmek, pazar yeri için kareye almak ya da gerçek fotoğrafınızın etrafında zevkli bir sahne üretmek; sürprizleri değil, tutarlılığı istediğiniz görevlerdir. Aynı difüzyon dönemi gelişmeleri bu düzenlemeleri daha keskin yapar, ama hedef kullanılabilir bir ürün görseli, kurnazca bir uydurma değil.

Sık sorulan sorular

Görsel üretmenin tek yolu GAN ve difüzyon modelleri mi?

Hayır, ama fotogerçekçi üretim için en etkili iki yaklaşım bunlar. Değişimsel otokodlayıcılar ve özbağlanımlı dönüştürücü tabanlı görsel modeller gibi başka yöntemler de var; ancak son yıllardaki görünür ilerlemenin çoğunu GAN ve difüzyon sağladı.

Difüzyon her zaman GAN'lardan daha mı iyi?

Her kullanım için değil. Difüzyon genel olarak görsel kalitesi, çeşitlilik ve eğitim kararlılığında öne çıkar ve bu yüzden bugün baskındır. Ama GAN'lar görseli tek geçişte üretir, bu yüzden çok daha hızlı olabilirler; bu da bazı gerçek zamanlı veya düşük maliyetli uygulamalarda hâlâ önemlidir.

Difüzyonla üretilen görseller bazen neden yavaş oluşur?

Bir difüzyon modeli, görseli birçok adımda tekrar tekrar gürültü gidererek oluşturur. Her adım ağdan ayrı bir geçiştir, dolayısıyla tek bir görsel onlarca geçiş alabilir. Yeni teknikler adım sayısını azaltır, ama yine de tek atışlık bir yöntemden daha fazla işlem gücü gerektirir.

Renderivo bu modelleri ürün uydurmak için mi kullanıyor?

Hayır. Renderivo gerçek ürün fotoğraflarınızı düzenler: arka planları temizler, temiz beyaz arka planlar oluşturur, kareye alır ve gerçek ürününüzün etrafında sahneler üretir. Amaç, gerçekten sattığınız ürünün doğru ve pazar yerine hazır bir görselidir, uydurma bir ürün değil.

Ürün fotoğraflarınızı temiz, pazar yerine hazır görsellere dönüştürün

Yeni hesaplar ücretsiz kredi kazanır. Arka plan temizleme, beyaz arka plan ve kare çerçevelemeyi kendi fotoğraflarınızda dakikalar içinde deneyin.

Ücretsiz başla Ücretsiz araçları dene