6 dk okuma
Çok Modlu Yapay Zeka Nedir? Modeller Metin, Görsel ve Sesi Birlikte Nasıl Anlar?
Çok modlu yapay zeka için açık ve doğru bir rehber: modeller metni, görseli ve sesi paylaşılan gömme uzaylarıyla nasıl bağlar, CLIP ve GPT-4o gibi gerçek örnekler ve e-ticaret için neden önemli.
Çok modlu yapay zeka tam olarak ne demek?
İlk dönem yapay zeka sistemlerinin çoğu tek modluydu: bir model ya metni okurdu, ya piksellere bakardı, ya da sesi işlerdi; ama hiçbir zaman aynı anda birden fazlasını yapmazdı. Çok modlu yapay zeka, bir seferde birden fazla veri türünü alıp bunlar üzerinde akıl yürüten modelleri ifade eder. En yaygın bileşim metin ve görseldir, ancak ses, video ve hatta sensör verileri de giderek bu karışıma dahil oluyor.
İlginç olan kısım yalnızca farklı girdileri kabul etmek değil. Asıl mesele, modelin bunları birbiriyle ilişkilendirebilmesi. Gerçekten çok modlu bir sistem bir fotoğrafa bakıp onunla ilgili yazılı bir soruya yanıt verebilir ya da bir cümleyi okuyup ona uyan görseli bulabilir. Bunu yapabilmek için farklı veri türlerinin modelin doğrudan karşılaştırabileceği bir temsile yerleştirilmesi gerekir.
İnternet üzerinden ürün satıyorsanız aslında adını koymadan zaten böyle düşünüyorsunuz. Bir ilan; bir fotoğraf, bir başlık ve aynı şeyi anlatan bir açıklamadan oluşur. Çok modlu yapay zeka, yazılımın bu parçaları tıpkı bir alışverişçi gibi birbirine bağlı görmeyi öğrenmesidir.
Paylaşılan gömme uzayları: modaliteleri birbirine bağlayan numara
Temel fikir paylaşılan gömme uzayıdır. Gömme (embedding), bir girdinin anlamını temsil eden sayılardan oluşan bir listedir, yani bir vektördür. Bir metin kodlayıcı bir cümleyi vektöre çevirir; bir görsel kodlayıcı bir resmi vektöre çevirir. Kendi başlarına bu iki vektör farklı dünyalardan gelir ve karşılaştırılamaz.
Çok modlu eğitim bunu, iki kodlayıcıya da eşleşen içerikleri aynı uzayda birbirine yakın yerleştirmeyi öğreterek çözer. Kırmızı bir spor ayakkabının fotoğrafı ile kırmızı spor ayakkabı sözcükleri yakın noktalarda buluşmalı, ilgisiz çiftler ise birbirinden uzaklaştırılmalıdır. Bu hizalama bir kez oluştuğunda, uzaydaki mesafe modaliteler arası bir anlam ölçüsü hâline gelir.
Bu tek özellik pek çok şeyin kapısını açar. Görselleri metinle arayabilir, bir resme açıklama üretebilir veya bir görsel üreticiyi bir komutla yönlendirebilirsiniz; hepsi modelin, orijinal biçimleri ne olursa olsun, şeylerin ne anlama geldiğine dair ortak bir ölçüye sahip olması sayesinde.
Gerçek örnekler: CLIP, ImageBind ve birleşik modeller
OpenAI, CLIP modelini 5 Ocak 2021 tarihinde yayımladı. CLIP, biri görseller biri metin için olmak üzere bir çift ağı, çok sayıda görsel ve açıklama çifti üzerinde karşıtsal (contrastive) bir hedefle eğitir: eşleşen çiftler paylaşılan uzayda birbirine çekilir, eşleşmeyenler ise birbirinden itilir. Faydalı bir sonuç, sıfır atışlı (zero-shot) sınıflandırmadır; CLIP, o belirli görev için eğitilmeden, bir görseli aday sınıfların metinsel açıklamalarıyla karşılaştırarak etiketleyebilir.
Meta, ImageBind modelini 9 Mayıs 2023 tarihinde yayımladı ve fikri altı modaliteye genişletti: görseller ve video, metin, ses, derinlik, termal ve eylemsizlik sensörlerinden gelen hareket verisi. Akıllıca hamlesi, görselleri köprü olarak kullanmasıdır; görseller doğal olarak diğer türlerle birlikte ortaya çıktığından, model her olası eşleşmeyi eğitim verisinde görmeye gerek kalmadan altı modalitenin tümünü tek bir uzayda hizalayabilir.
Daha yeni sistemler bunu doğrudan tek bir büyük modelin içine katıyor. OpenAI, GPT-4o modelini 13 Mayıs 2024 tarihinde sundu; buradaki o harfi omni anlamına geliyor ve model, ayrı uzmanlaşmış sistemleri birbirine zincirlemek yerine metni, görseli ve sesi tek bir model içinde işliyor. Google da Gemini modellerinin çok modlu olduğunu ve görsel altyazılama ile görsel soru yanıtlama gibi görevleri desteklediğini bildiriyor.
Bunlarla neler yapılabilir?
Görsel altyazılama, bir resmi alıp ona dair yazılı bir açıklama üretir. Görsel soru yanıtlama bir adım öteye geçer: bir görsel hakkında sözcüklerle soru sorarsınız ve model yanıt verir; bu da sorunun dilini resmin içeriğiyle bağlamak zorunda olduğu anlamına gelir.
Metinden görsele üretim ise ilişkiyi tersine çevirir ve yazılı bir komutu yeni bir görsele dönüştürür. Görsel ile metnin ortak anlaşılması üzerine kurulu araçlar, örneğin CLIP modelinin Stable Diffusion gibi sistemler üzerindeki etkisi, yazılan bir açıklamanın nelerin çizileceğini yönlendirebilmesinin nedenidir.
Modaliteler arası arama ise sessiz iş gücüdür. Metin ve görseller aynı uzayı paylaştığı için bir sorgu yazıp fotoğraflar getirebilir ya da bir fotoğraf verip ilgili metni bulabilirsiniz. Büyük kataloglar için bu gerçek bir zaman kazancıdır.
E-ticaret için neden önemli, dürüstçe
Çevrimiçi satış doğası gereği çok modludur. Her ürünün bir fotoğrafı, bir adı, nitelikleri ve yorumları vardır ve müşteriler bunlar arasında akıcı biçimde gezinir. Bu biçimleri birlikte anlayan modeller; fotoğrafları etiketlemekte, bir görselden açıklama taslağı çıkarmakta veya bir resmin ilan metniyle uyuşmadığını işaretlemekte yardımcı olabilir.
Beklentileri yere basar tutmakta fayda var. Çok modlu modeller kendinden emin biçimde yanlış olabilir, eğitim verilerindeki önyargıları yansıtır ve üretilen bir açıklama yayına girmeden önce yine de insan kontrolü gerektirir. Bunlar güçlü bir yardımcıdır, bir otopilot değil.
Renderivo olarak odağımız daha dar ve pratik: ürün fotoğraflarını temizlemek, beyaz arka planlar, kare çerçeveleme ve yapay zekayla sahne çekimleri yaparak görsellerinizi satışa hazır hâle getirmek. Bu, daha geniş dönüşümün görsel tarafından yalnızca bir dilim; yeni hesapların aldığı ücretsiz kredilerle bunu kendi fotoğraflarınızda deneyebilirsiniz.
Sık sorulan sorular
Çok modlu yapay zeka ile üretken yapay zeka aynı şey mi?
Tam olarak değil. Üretken yapay zeka metin ya da görsel gibi yeni içerik oluşturur. Çok modlu yapay zeka ise birden fazla veri türüyle çalışan modelleri tanımlar. Bazı modeller her ikisidir: örneğin GPT-4o çok modludur ve çıktı üretebilir; ancak bir model yalnızca arama veya sınıflandırma gibi anlama görevleri için de çok modlu olabilir.
Paylaşılan gömme uzayı basitçe nedir?
Bu, ortak bir anlam haritasıdır. Metin, görsel ve bazen ses ayrı ayrı sayı vektörlerine dönüştürülür ve model, aynı anlama gelen şeyler biçimden bağımsız olarak birbirine yakın düşecek şekilde eğitilir. Bu haritadaki yakınlık, modelin bir cümleyi bir resimle karşılaştırma biçimidir.
Çok modlu yapay zeka sesi ve videoyu da anlayabilir mi?
Evet, modele bağlı olarak. GPT-4o metni, görseli ve sesi işler. Meta'nın ImageBind modeli ise ses ve video dahil altı modaliteyi hizalar. Yetenekler modeller arasında büyük ölçüde değişir, bu yüzden belirli bir sistemin gerçekte neyi desteklediğini kontrol etmek her zaman yerinde olur.
Renderivo çok modlu yapay zeka mı kullanıyor?
Renderivo, ürün fotoğrafları için yapay zeka destekli görsel düzenlemeye odaklanır: arka plan kaldırma, beyaz arka planlar, kare çerçeveleme ve yapay zekayla sahne çekimleri. Bu, genel bir metin, görsel ve ses sistemi olmaktan çok, çok modlu yapay zekanın görsel tarafında yer alır.
Ürün fotoğraflarınızı satışa hazır hale getirin
Ürün görselleriniz için temiz arka planlar, beyaz arka planlar ve kare çerçeveleme. Yeni hesaplar ücretsiz kredi alır, böylece önce kendi fotoğraflarınızda deneyebilirsiniz.