← Tüm yazılar

6 dk okuma

Yapay Zeka Görsel Üreticileri Metin Komutunuzu Nasıl Anlar

Metin kodlayıcılar, gömme vektörleri ve OpenAI CLIP modelinin makinelere kelimelerle resimleri nasıl bağlamayı öğrettiği üzerine açık ve doğru bir bakış.

Kelimeler ile pikseller arasındaki boşluk

Bir cümle yazıyorsunuz, bir resim çıkıyor. Sihir gibi görünür ama altında gerçekten zekice bir akış vardır. Bir bilgisayar kelimeleri veya görselleri bizim gördüğümüz gibi görmez. Ona göre komutunuz bir karakter dizisidir, bir resim ise sayılardan oluşan bir ızgaradır. Her yapay zeka görsel üreticisinin asıl zor kısmı bu iki çok farklı şey arasında bir köprü kurmaktır.

Çoğu kişinin hiç düşünmediği kısım da bu köprüdür. Hiçbir piksel boyanmadan önce model komutunuzu okumalı ve üzerinde işlem yapabileceği bir şeye dönüştürmelidir. Bu adımı anlamak tüm süreci çok daha az gizemli kılar ve bazı komutların neden harika çalışırken bazılarının neden sönük kaldığını açıklar.

Metinden sayıya: token ve gömme vektörleri

Komutunuza olan ilk şey tokenleştirmedir. Metin, token adı verilen küçük parçalara bölünür; bunlar tam kelimeler ya da kelime parçaları olabilir. Ardından her token bir gömme vektörüne eşlenir: anlamı çok boyutlu bir uzaydaki bir konum olarak temsil eden, çoğu zaman yüzlerce sayıdan oluşan bir liste.

Gömme vektörleri işin özüdür. Anlamca yakın kelimeler bu uzayda birbirine yakın düşer, böylece model ham yazım yerine kavramlar üzerinden akıl yürütebilir. Bu dönüşümü yapan bileşene metin kodlayıcı denir. Birçok görsel modelde metin kodlayıcı, modern dil modellerinin de arkasındaki Transformer mimari ailesindendir.

Çıktı, makinenin bir insan gibi anladığı bir cümle değildir. Komutunuzun neyle ilgili olduğunu matematiğin işleyebileceği bir biçimde yakalayan, yapılandırılmış bir vektör kümesidir. Sonraki her adım bu temsilin kalitesine bağlıdır.

CLIP: metni ve görseli bağlamayı öğretmek

Bugünün komut tabanlı üreticilerini pratik kılan atılım CLIP oldu; açılımı Contrastive Language-Image Pre-training olan bu model OpenAI tarafından 2021 yılında yayınlandı. CLIP, internetten toplanan yaklaşık 400 milyon görsel ve metin çifti üzerinde eğitildi.

CLIP birlikte çalışan iki kodlayıcıya sahiptir: bir ResNet ya da Vision Transformer üzerine kurulu bir görsel kodlayıcı ve bir Transformer üzerine kurulu bir metin kodlayıcı. İkisi de girdisini ortak bir gömme uzayına yansıtır, böylece bir resim ile bir açıklama doğrudan vektör olarak karşılaştırılabilir.

Eğitim, karşıtlık temelli bir hedef kullandı. Birçok görsel ve birçok açıklama gösterilen model, her görseli doğru açıklamasına yaklaştırmayı ve ilgisiz çiftleri birbirinden uzaklaştırmayı öğrendi. Yakınlık kosinüs benzerliği ile ölçülür. Sonuç, gömme vektörleri görsel kavramları gerçekten yakalayan bir metin kodlayıcıdır; bu da bir görsel üreticinin tam olarak ihtiyaç duyduğu şeydir. Yararlı bir yan etki ise sıfır atışlı sınıflandırmadır: kategorileri çıkarım anında düz dille tanımlayabilir, göreve özel yeniden eğitime gerek kalmaz.

Komut bir difüzyon modelini nasıl yönlendirir

Modern görsel üreticilerin çoğu difüzyon modelidir. Rastgele gürültüden başlar ve adım adım onu tutarlı bir görsele doğru temizlerler. Kendi haline bırakılsa bu süreç gelişigüzel bir şey üretirdi. Komutunuz ona yön veren şeydir.

Kodlayıcıdan gelen metin gömme vektörleri, çapraz dikkat adı verilen bir mekanizmayla difüzyon modeline enjekte edilir. Her gürültü giderme adımında model komut vektörlerine geri bakar ve ilgili kelimelerin görseli doğru biçimlere, renklere ve nesnelere doğru çekmesine izin verir. Modelin belirli bir kelimeyi resmin belirli bir bölgesine bağlayabilmesi de böyle olur.

Birçok model etkiyi keskinleştirmek için sınıflandırıcısız yönlendirme ekler. Eğitim sırasında komut bazen düşürülüp boş bir tokenle değiştirilir; bu modele hem metinle hem de metinsiz çalışmayı öğretir. Üretim sırasında bir yönlendirme ölçeği, çıktının komutunuza ne kadar sıkı bağlı kalacağını belirler: düşük değerler gevşek ve yaratıcı kalır, daha yüksek değerler kelimeleri daha birebir izler, fazla zorlamak ise yapay görünebilir.

Bunun ürün fotoğrafları için önemi

Akışı anlamak komut yazma şeklinizi değiştirir. Model gömme vektörleri üzerinden akıl yürüttüğü için, açık ve somut dil belirsiz ifadelerden genelde daha iyi sonuç verir; kelimelerin sırası ve vurgusu da sonucu kaydırabilir. Tam bir sözlük araması olmadığından, küçük ifade değişiklikleri görseli gözle görülür biçimde itebilir.

Renderivo olarak e-ticaret için görsel yapay zeka ile çalışıyoruz; burada amaç sanatsal sürprizin tam tersidir: tutarlı, temiz ve markaya uygun ürün görselleri. Metin ile görselin nasıl ilişkilendiğine dair aynı temel fikirler; arka planı kaldıran, ürünü temiz beyaz arka plana yerleştiren, çerçeveyi kareleyen ve düzenli sahne çekimleri üreten araçlara da yön verir. Hedef, modelin uydurduğuna bel bağlamak değil, güvenle listeleyebileceğiniz dürüst ve tekrarlanabilir sonuçlardır.

Sık sorulan sorular

Gömme vektörü basitçe nedir?

Gömme vektörü, anlamı bir uzaydaki konum olarak temsil eden bir sayı listesidir. Anlamca benzer kelimeler veya görseller birbirine yakın düşer; böylece model tam yazımı eşleştirmek yerine kavramları matematiksel olarak karşılaştırıp akıl yürütebilir.

CLIP tam olarak ne yapar?

OpenAI tarafından 2021 yılında yayınlanan CLIP, bir resim ile açıklamasının birbirine yakın oturduğu ortak bir uzay öğrenir. Yaklaşık 400 milyon görsel ve metin çifti üzerinde eğitilmiş bir metin kodlayıcı ve bir görsel kodlayıcı kullanır; böylece metin gömme vektörleri görsel üreticilerin kullanabileceği görsel kavramları yakalar.

Küçük ifade değişiklikleri görseli neden bu kadar etkiler?

Komutunuz gömme vektörlerine dönüşür ve bu vektörler difüzyon sürecini her adımda çapraz dikkat yoluyla yönlendirir. Model tam kelimeler yerine anlam üzerinden akıl yürüttüğü için, vurguyu, sırayı ya da tek bir terimi değiştirmek sonuçta hangi kavramların baskın olacağını kaydırabilir.

Yapay zeka kelimelerimi bir veritabanında mı arıyor?

Hayır. Anahtar kelimeyle kaydedilmiş görsellerin arandığı bir işlem yoktur. Metin sayısal gömme vektörlerine çevrilir ve bunlar gürültüden bir görsel oluşturan bir modeli yönlendirir. Kelimeler ile resimler arasındaki bağ eğitim sırasında öğrenilmiştir, hazır bir yanıt listesi olarak saklanmaz.

Daha temiz ürün fotoğrafları, daha az tahmin

Yeni hesaplar ücretsiz kredi kazanır. Arka planları temizlemek, beyaz arka plan çekimleri, kare çerçeveleme ve e-ticaret için AI sahne görselleri için Renderivo'yu deneyin.