← Tüm yazılar

6 dk okuma

Yapay zeka görüntü üretiminin arkasındaki sudaki mürekkep fiziği

Modern yapay zeka görüntü araçları, fizikten ödünç alınmış 2015 tarihli bir fikre dayanıyor: gürültünün bir görüntüyü nasıl yok ettiğini izleyin, sonra bu süreci tersine çevirmeyi öğrenin. İşte bunun şaşırtıcı derecede basit hikâyesi.

Bir damla mürekkep ve çok iyi bir soru

Bir bardak suya mürekkep damlatın; ne olacağını zaten biliyorsunuz. Koyu girdap yayılır, incelir ve solar; ta ki bardağın tamamı eşit, bulanık bir griye dönüşene kadar. Bunun tersini ise hiç görmediniz: gri suyun aniden toplanıp keskin, koyu bir damla hâline gelmesini. Düzenden dağınıklığa doğru olan bu tek yönlü akış, fiziğin en güvenilir kurallarından biridir.

Şaşırtıcı olan kısım şu: adını duyduğunuz neredeyse her yapay zeka görüntü üretecinin arkasındaki teknoloji, yani DALL-E, Stable Diffusion ve Midjourney gibi araçların temelindeki aynı model ailesi, tuhaf bir sorunun zekice cevabı üzerine kurulu: Ya bir bilgisayara, o sudaki mürekkep sürecini tersine işletmeyi öğretebilseydiniz?

Resmi bilerek yok et, sonra geri getirmeyi öğren

Temel fikir neredeyse fazla basit geliyor. Normal bir fotoğraf alın ve adım adım içine rastgele gürültü ekleyin; ta ki görüntü tamamen görsel parazite, yani o eşit şekilde karışmış gri bardağa dönüşene kadar. Fizikçiler bu tür yayılma sürecine difüzyon (yayınım) diyor ve bu konu, denge dışı termodinamik adlı bir alanda inceleniyor.

İleri yönde, fotoğraftan parazite gitmek kolay ve öngörülebilir. Zor ve değerli kısım ise ters yöne gitmek. Eğer bir model her adımda küçük bir miktar gürültüyü temizlemeyi öğrenebilirse ve siz bu binlerce küçük temizleme adımını arka arkaya bağlarsanız, saf rastgele gürültüden başlayıp yepyeni, tutarlı bir görüntüyle bitirebilirsiniz. Model bir fotoğrafı kopyalamıyor; rastgelelikten yapıyı, her seferinde dikkatli bir adımla yeniden inşa ediyor.

Başka bir deyişle, görüntü üretimi mürekkebin geri ayrıştırılmasıdır; bu ters yolculuğu milyonlarca kez prova etmiş bir sistem tarafından yapılır.

Neredeyse kimsenin fark etmediği 2015 makalesi

Bu yaklaşım, 2015 yılında Jascha Sohl-Dickstein ve meslektaşları tarafından, ürkütücü derecede gösterişli bir başlık taşıyan bir makalede tanıtıldı: Denge Dışı Termodinamik Kullanarak Derin Gözetimsiz Öğrenme. Plan, ileri bir difüzyon süreciyle verideki yapıyı sistematik ve yavaşça yok etmek, ardından onu geri getirmeyi bir modele öğretmekti.

Güzel bir fikirdi ve başlangıçta çoğunlukla rafta kaldı. İlk gösterimler küçük ölçekliydi ve yöntem büyük ölçekte kullanışsız görünüyordu. Yaklaşık beş yıl boyunca, bir avuç araştırmacının hayranlık duyduğu, geri kalan herkesin ise büyük ölçüde görmezden geldiği bir merak konusu olarak kaldı.

Dönüm noktası 2020 yılında geldi; Jonathan Ho ve çalışma arkadaşları, Gürültü Gidermeli Difüzyon Olasılıksal Modelleri olarak bilinen çalışmayı yayımladı. Tarifi, ürettiği görüntüler nihayet dönemin en iyi üreteçleriyle yarışabilecek hâle gelene kadar incelttiler. Birkaç yıl içinde difüzyon, anlaşılmaz bir dipnottan, şimdi milyonlarca insanın kullandığı görüntü araçlarının motoruna dönüştü.

Bu neden sadece eğlenceli bir bilgiden fazlası

Bu, yapay zekanın çoğunun sihirden çok yöntem olduğunu hatırlatan faydalı bir örnek. Yazılımın içinde saklanan minik bir ressam yok. Devasa tekrarlar yoluyla, dağılmış bir gürültü alanını gerçek bir nesneye, gerçek bir sahneye, gerçek bir ürüne benzeyen bir şeye geri yürümeyi öğrenmiş bir sistem var.

Bu aynı zamanda bu araçların neden böyle davrandığını da açıklar. Onlar birer fotoğrafçı değil, istatistiksel yeniden inşa edicilerdir. İnandırıcı, cilalı görseller üretmekte ustadırlar; işte tam da bu yüzden yönlendirme önemlidir: onlara verdiğiniz başlangıç malzemesi ne kadar temiz ve net olursa, diğer uçta çıkan sonuç da o kadar güvenilir olur.

Ve yapay zeka üzerine iş kuran herkes için sessiz bir ders var: çığır açan fikir beş yıl boyunca kullanılmadan bekledi. Değer yalnızca o ani parlayan fikirden gelmedi; gerçek dünya işlerinde gerçekten işe yarayana kadar onu incelmeye devam eden insanlardan geldi.

Bu, ürün fotoğraflarınızla nerede buluşuyor

Eğer internette satış yapıyorsanız, zaten bu fiziğin akışının aşağısında yaşıyorsunuz. Parazitten görüntü yaratan aynı gürültü giderme yaklaşımı, modern araçların kalabalık bir ürün çekimini temizlemesini ya da ürününüzü stüdyo, ışık veya fotoğrafçı olmadan inandırıcı bir yaşam tarzı sahnesine yerleştirmesini sağlayan şeyin ta kendisi.

Renderivo olarak bu tür yapay zekayı, e-ticaret satıcıları için pratik ve gösterişsiz işler yapmak için kullanıyoruz: dağınık arka planları kaldırmak, ürünleri temiz beyaza oturtmak, pazaryerleri için kareye almak ve özellikle hazırlanmış gibi görünen yaşam tarzı sahne çekimleri üretmek. Sizin tarafınızda termodinamik diplomasına gerek yok; sadece Amazon, Etsy, Shopify, Trendyol ve diğerleri için hazır fotoğraflar yeterli.

Aslında hoş bir düşünce. Bir dahaki sefere birkaç saniyede bir arka planı kaldırdığınızda, mürekkep, su ve evreni tersine işletmenin şaşırtıcı gücü hakkındaki on yıllık bir fikirden sessizce yararlanıyor olacaksınız.

Sık sorulan sorular

Difüzyon modeli basit anlamda nedir?

Rastgele görsel gürültüyü, gürültüyü adım adım kaldırarak net bir görüntüye dönüştürmeyi öğrenen bir yapay zeka sistemidir. Önce görüntülerin gürültüyle yok edilişini izleyerek, sonra bu süreci tersine çevirmeyi öğrenerek eğitilir.

Difüzyon modelleri ne zaman icat edildi?

Temel fikir 2015 yılında Jascha Sohl-Dickstein ve meslektaşları tarafından yayımlandı. Yüksek kaliteli görüntü üretimi için pratik hâle gelişi ise 2020 civarında, Jonathan Ho önderliğindeki Gürültü Gidermeli Difüzyon Olasılıksal Modelleri çalışmasıyla oldu.

Fiziğin yapay zeka görüntü üretimiyle ne ilgisi var?

Yöntem, denge dışı termodinamikteki difüzyondan esinlendi; bu, mürekkep suya karıştığında gördüğünüz türden bir yayılmadır. Görüntü üretimi, bu karışma sürecini tersine çevirmeyi öğrenerek çalışır.

E-ticaret için yapay zeka fotoğraf araçları difüzyon modelleri kullanıyor mu?

Modern görüntü temizleme ve sahne üretme araçlarının çoğu difüzyon tabanlı yöntemlere dayanıyor. Fiziksel bir fotoğraf stüdyosu olmadan arka plan kaldırmayı ve gerçekçi yaşam tarzı çekimleri oluşturmayı mümkün kılan şey budur.

Sade ürün fotoğraflarını pazaryerine hazır görüntülere dönüştürün

Renderivo arka planları temizler, çerçevenizi kareye alır ve yaşam tarzı sahneleri üretir; böylece ilanlarınız stüdyoda çekilmiş gibi görünür, hem de stüdyoya gerek kalmadan. Kendi fotoğraflarınızla deneyin.