← Tüm yazılar

7 dk okuma

Görsel Dönüştürücü (ViT) Nedir?

Metin için tasarlanan transformer mimarisi, görüntüleri parçalara bölüp her parçayı bir kelime gibi ele alarak nasıl görmeyi öğrendi? Sade bir anlatım.

Kelimelerden resimlere

Transformer mimarisi dil için tasarlandı. Bir cümleyi token dizisi (kabaca kelimeler veya kelime parçaları) olarak okur ve dikkat adı verilen bir mekanizmayla hangi tokenların birbiri için önemli olduğunu çözer. Dil modellerinde büyük bir dalga başlattı ve hızla metin için varsayılan araç hâline geldi.

Birkaç yıl boyunca görüntüler ayrı bir dünyaydı. Bilgisayarlı görü alanına, bir görüntüyü küçük kayan filtrelerle tarayan evrişimli sinir ağları, kısaca CNN ler hâkimdi. Bu ağlar önce kenarları, sonra dokuları, sonra şekilleri katman katman algılar. Doğal soru şuydu: metinde bu kadar iyi çalışan transformer, piksellere de yöneltilebilir mi? Görsel Dönüştürücü, yani ViT, bu sorunun cevabıdır.

Bir görüntü 16x16 kelime değerindedir

Atılım, bir Google Research ekibinden geldi. Makale ilk olarak Ekim 2020 de yayımlandı ve ICLR 2021 konferansında sunuldu. Akılda kalıcı başlığı An Image Is Worth 16x16 Words (Bir Görüntü 16x16 Kelime Değerindedir) oldu; baş yazar Alexey Dosovitskiy idi ve aralarında Lucas Beyer, Alexander Kolesnikov ve Neil Houlsby gibi isimlerin de bulunduğu bir ekip çalıştı.

Temel numara neredeyse inatçı bir biçimde basittir. Transformer a tek tek piksel vermek yerine, ki bu çok fazla token olurdu, görüntü sabit boyutlu kare parçalardan oluşan bir ızgaraya bölünür; örneğin her biri 16 ya 16 piksel. Her parça düzleştirilir ve tek bir doğrusal katmandan geçirilerek bir vektöre dönüştürülür; bu, bir dil modelinin bir kelimeyi temsil etmek için kullandığı vektörün aynısıdır. Artık görüntü kısa bir parça token dizisidir ve standart bir transformer onu neredeyse tıpkı bir cümle gibi okuyabilir.

Parçalar, konum ve dikkat

Bunu çalıştıran birkaç ek parça vardır. Düzleştirilmiş bir parça, özgün görüntüde nerede durduğuna dair bilgi taşımadığı için model her parça tokenına bir konum gömmesi ekler; bu, sözgelimi bu parça sol üstten, şu parça ortadan geldi diyen öğrenilmiş bir sinyaldir. Bu olmasa transformer, düzeni belirsiz bir parça yığını görürdü.

Ekip ayrıca BERT gibi dil modellerinden bir fikir ödünç aldı: dizinin başına çoğunlukla sınıf tokenı denen özel bir ek token konur. Katmanlar ilerledikçe bu token her parçadan bilgi toplar ve sonunda tüm görüntünün bir özetini taşır; küçük bir son katman bu özeti kullanarak tahmini yapar.

Asıl işi yapan motor öz dikkattir. Her katmanda her parça, diğer her parçaya doğrudan bakabilir ve ona ne kadar ağırlık vereceğine karar verir. CNN den temel fark budur. Bir evrişim başlangıçta yalnızca küçük bir komşuluğu görür ve görüntünün uzak bölümlerinin birbirini etkilemesi için çok sayıda katmanın üst üste yığılması gerekir. ViT ise daha ilk dikkat katmanında bir köşeyi karşı köşeyle ilişkilendirebilir. Bu küresel bakış, yaklaşımı ilginç kılan şeydir.

ViT ler CNN lerle nasıl karşılaştırılır

Dürüst özet şudur: ortada net bir galip değil, bir denge vardır. CNN ler görüntülerle ilgili yerleşik varsayımlarla gelir; bunlara bazen tümevarımsal önyargı denir: yakın pikseller ilişkilidir ve bir nesne, solda da dursa sağda da dursa aynı nesnedir. Bu varsayımlar evrişimin çalışma biçimine işlenmiştir, bu yüzden CNN ler mütevazı veri kümelerinden bile verimli öğrenir.

Sade bir ViT te bu varsayımların çok daha azı vardır. Görüntülerin yapısını sıfırdan öğrenmesi gerekir, bu da onu veriye daha aç kılar. Özgün makale, yalnızca orta ölçekli bir veri kümesiyle eğitildiğinde ViT in güçlü CNN lerin gerisinde kaldığını buldu. Ancak çok büyük veri kümeleriyle ön eğitim yapıldığında ViT açığı kapatıp öne geçti ve benzer kaliteye ulaşmak için daha az işlem gücü gerektirdi. Akılda kalan slogan şu oldu: ViT ler daha az veri verimli ama daha yüksek kapasitelidir; yeterli örnek verin, esneklikleri karşılığını verir.

2021 den bu yana tablo gelişmeye devam etti. Araştırmacılar veri verimli eğitim reçeteleri, evrişimle dikkati harmanlayan melez modeller ve milyarlarca parametreye ölçeklenmiş çok büyük ViT ler geliştirdi. Görüde transformer lar ve CNN ler artık biri diğerini tamamen değiştirmeden bir arada yaşıyor.

Bunun araştırmanın ötesindeki önemi

Görsel Dönüştürücüler yalnızca bir laboratuvar merakı değildir. Aynı parça ve dikkat fikri, görüntüleri metinle birleştiren modeller dâhil birçok güncel görüntü ve çok kipli sistemin temelini oluşturur. Bir araç bir fotoğrafı betimleyebiliyor, içinde bir nesneyi bulabiliyor veya bir özneyi arka planından ayırabiliyorsa, dikkat tabanlı görü genellikle bu yapının bir parçasıdır.

Renderivo da bu yelpazenin pratik ucunda çalışıyoruz: e-ticaret için ürün fotoğraflarını temizlemek, dağınık arka planları kaldırmak, ürünleri temiz beyaza yerleştirmek, pazar yeri kurallarına uygun kare çerçeveye getirmek ve düzenli sahne çekimleri üretmek. Kullanmak için dikkat mekanizmasını anlamanıza gerek yok; ama günlük görsel yapay zekâ araçlarını mümkün kılan tam da bu tür araştırmalardır. Çevrim içi satış yapıyorsanız ve güncel görüntü yapay zekâsını kendi kataloğunuzda görmek istiyorsanız, yeni hesaplar ücretsiz kredi kazanır.

Sık sorulan sorular

ViT neyin kısaltmasıdır?

ViT, Vision Transformer (Görsel Dönüştürücü) ifadesinin kısaltmasıdır. Aslında dil için kurulan transformer mimarisini, küçük görüntü parçalarını token gibi ele alarak doğrudan görüntülere uygulayan bir modeldir.

Görsel Dönüştürücü ile CNN arasındaki fark nedir?

Bir CNN, görüntüyü küçük yerel filtrelerle tarar ve küresel bakışı birçok katman boyunca kurar. Bir ViT ise görüntüyü parçalara böler ve öz dikkat sayesinde ilk katmandan itibaren her parçayı her parçayla ilişkilendirir. CNN ler küçük veri kümelerinden iyi öğrenir; sade ViT ler genellikle daha çok eğitim verisine ihtiyaç duyar ama yeterli veriyle çok iyi ölçeklenir.

Görüntüler neden parçalara bölünür?

Bir transformer a tek tek piksel vermek, verimli işlenemeyecek kadar çok token oluştururdu. Görüntüyü 16 ya 16 piksel gibi sabit boyutlu parçalara bölmek, onu transformer ın işleyebileceği kısa bir diziye dönüştürür; her parça bir kelime gibi davranır.

Görsel Dönüştürücüyü kim geliştirdi?

Google Research taki bir ekip tarafından, 2020 tarihli ve ICLR 2021 de yayımlanan An Image Is Worth 16x16 Words makalesinde tanıtıldı; baş yazar Alexey Dosovitskiy ve birkaç ortak yazardı.

Güncel görüntü yapay zekâsını kendi ürünlerinizde görün

Renderivo arka planları temizler, temiz beyaz çekimler üretir, görselleri pazar yerleri için kareye getirir ve sahne fotoğrafları oluşturur. Yeni hesaplar ücretsiz kredi kazanır.