7 dk okuma
Yapay Zeka Bir Fotoğrafın Arka Planını Nasıl Kaldırır?
Yapay zekanın bir ürünü arka planından nasıl ayırdığını, segmentasyon ile alfa matlama farkını, saç gibi kenarların neden zor olduğunu ve U-Net, BiRefNet ve SAM gibi modellerin bunu nasıl yaptığını anlatan açık ve doğru bir rehber.
Sorun: özne tam olarak nerede bitiyor?
Arka planı kaldırmak basit gibi görünür: ürünü tut, geri kalan her şeyi sil. Ama dijital bir fotoğraf yalnızca etiketsiz, renkli piksellerden oluşan bir ızgaradır. Dosyada hiçbir yerde bu piksel ayakkabı, şu piksel masa yazmaz. İnsan sınırı anında görür; yazılımın ise bunu çıkarsaması gerekir.
Bu konudaki klasik bakış açısı, Thomas Porter ve Tom Duff tarafından 1984 yılında yazılan bir makaleden gelir. Her birleşik görüntüyü tek bir denklemle anlattılar: her piksel, alfa adı verilen bir saydamlık değeriyle harmanlanan bir ön plan rengi F ile bir arka plan rengi B karışımıdır. Alfa 1 olduğunda piksel tamamen ön plandır; 0 olduğunda tamamen arka plandır. Arka plan kaldırma aslında her piksel için bu alfa değerini geri kazanma işidir; böylece ön planı tutup gerisini atabilirsiniz.
İşin püf noktası şu: normal bir renkli fotoğrafta bu tek denklemin piksel başına yedi bilinmeyeni vardır, ama yalnızca üç bilinen renk değeri vardır. Araştırmacılar buna ağır biçimde kısıtsız problem der; bu da kibarca tam bir cevabı yok demektir. Modern arka plan kaldırmanın yapay zekaya yaslanmasının nedeni tam olarak budur: yapay zeka, çözümsüz bir denklemi çözmek yerine milyonlarca örnekten iyi tahminler öğrenir.
İki farklı iş: segmentasyon ve alfa matlama
Burada birbiriyle ilişkili ama farklı iki görev vardır ve bunları karıştırmak birçok hayal kırıklığı yaratan kesimi açıklar.
Segmentasyon her pikseli ön plan veya arka plan olarak sınıflandırır ve sert bir maske üretir: her piksel ya tamamen içeride ya da tamamen dışarıdadır, keskin kenarlı bir çıkartma gibi. Bu hızlıdır ve telefon, şişe ya da kutu gibi temiz hatlı, dolu nesnelerde çok iyi çalışır.
Alfa matlama daha zor ve daha ince bir görevdir. Evet ya da hayır yerine her piksel için 0 ile 1 arasında yumuşak bir alfa değeri tahmin eder. Bu da kısmi saydamlığı temsil etmesini sağlar: bir nesnenin kenarındaki yumuşak bulanıklık, bir tutam saç, bir bardak, bir tül, duman. Bir mat, bu ara değerli pikselleri kesilip atılmış gibi değil doğal görünür halde tutar.
Geleneksel matlama araçları yardım için bir trimap gerektirirdi: görüntüyü kesin ön plan, kesin arka plan ve algoritmanın yoğunlaşması gereken, kenar boyunca uzanan bilinmeyen bir şerit olarak bölen kaba bir harita. Modern yapay zeka araçları manuel trimap adımını giderek atlayıp matı doğrudan tahmin eder; tek tıkla kaldırmayı sihir gibi hissettiren de budur.
Kenarlar neden en zor kısım?
Öznenin orta kısmı kolaydır. Her şeyin bozulduğu yer kenardır. Keskin, yüksek kontrastlı bir sınırda basit yöntemler bile iyi sonuç verir. Sorun, sınırın yumuşak ya da belirsiz olduğu yerde başlar: ince saç, tüy, lif lif olmuş kumaş, hareket bulanıklığı, yarı saydam malzemeler ya da arkasındaki arka planla aynı renge denk gelen bir ön plan.
Sert bir segmentasyon maskesinin yanlış göründüğü durumlar bunlardır. Maske ya özneyi içeri doğru yiyerek kemirilmiş bir kenar bırakır ya da bir miktar arka plan rengini de kapıp çirkin bir hale bırakır. İyi bir alfa mat, kenar piksellerinin kısmen saydam olmasına izin vererek bunları çözer; böylece saç telleri gerçek hayattaki gibi yavaşça kaybolur.
E-ticarette bu, su ısıtıcısı gibi sert bir ürün için daha az, yumuşak ürünler için çok daha önemlidir: örgü bir kazak, kürk astarlı bir bot, bir bitki, bir peruk, yani ince kenarlı her şey. O kenarlardaki matın kalitesi, genellikle profesyonel bir kesimi açıkça düzenlenmiş görünen bir kesimden ayıran şeydir.
Modern modeller bunu gerçekte nasıl yapar?
Çoğu arka plan kaldırma modeli, Olaf Ronneberger ve meslektaşlarının 2015 yılında biyomedikal görüntüler için tanıttığı U-Net'e dayanan bir aile benzerliği taşır. U-Net'in, görüntüyü ne içerdiğini anlamak için adım adım küçülten bir kodlayıcısı (encoder) ve öznenin tam olarak nerede olduğunu işaretlemek için onu tekrar tam çözünürlüğe büyüten bir kod çözücüsü (decoder) vardır. Atlama bağlantıları (skip connections) ince ayrıntıyı erken katmanlardan doğrudan geç katmanlara aktarır; böylece çıktı bulanık bir leke yerine keskin kenarlarını korur.
U2-Net bu fikri yuvalanmış bir tasarımla geliştirir: daha büyük bir U-Net içine istiflenmiş, küçük U-Net benzeri bloklar. Bu yapı, bir sahnedeki en belirgin tek nesneyi seçmekte iyidir ve birçok popüler tek tıkla kaldırma aracının arkasındaki motordur.
BiRefNet, 2024 yılında CAAI AIR'de Nankai Üniversitesi gibi ekiplerin de yer aldığı araştırmacılar tarafından sunuldu ve yüksek çözünürlüklü kesimleri hedefler. İki taraflı referans (bilateral reference) adlı bir tasarım kullanır: bir yol bağlam için tüm görüntüyü inceler, diğeri yerel ayrıntıya yakınlaşır ve ikisi birleştirilir; böylece ince kenarlar genel şekille tutarlı kalır. Keskin, yüksek çözünürlüklü maskeler için güçlü ve açık kaynaklı bir seçenek hâline geldi.
Meta'nın 2023 yılında yayımlanan Segment Anything Modeli (SAM) farklı bir açıdan yaklaşır. Yönlendirilebilir (promptable) bir modeldir: ona bir nokta ya da bir kutu verirsiniz, o da o nesne için bir maske döndürür ve eğitimde hiç görmediği nesnelere de genellenir. SAM tek tıkla ürün kaldıran bir üründen çok, ben göstereyim, sen segmente et mantığını çalıştıran ve etkileşimli düzenleme araçlarını besleyen genel bir temeldir.
Bu, tek tıkla kaldırmayı nasıl mümkün kılar?
Bu parçaları bir araya getirince tek tıkla deneyim anlam kazanır. Eğitilmiş bir model, milyonlarca ön plan ve arka plan örneğini fiilen özümsemiştir; bu yüzden hiçbir trimap, fırça darbesi ya da yeşil perde olmadan, saniyenin küçük bir bölümünde kullanılabilir bir maske ya da yumuşak bir mat tahmin edebilir. 1984'ten kalma kısıtsız denklem teoride hâlâ çözümsüzdür; model yalnızca son derece bilgili bir tahminde bulunur.
Mükemmel değildir ve burada dürüstlük önemlidir. Zorlu saçlar, saydam nesneler ve kalabalık arka planlar hâlâ modeli yanıltabilir; ciddi araçların her seferinde kusursuz çıktı vaat etmek yerine sonucu gözden geçirip düzeltmenize izin vermesinin nedeni budur.
Ürün fotoğrafçılığında temiz bir kesim genellikle ilk adımdır, bitiş çizgisi değil. Arka plan gittikten sonra çoğu zaman tutarlı bir beyaz ya da nötr zemin ve kare, pazaryerine hazır bir çerçeveleme de istersiniz. Amacınız buysa, kare ürün fotoğrafı oluşturma aracımız çerçeveleme ve beyaz arka plan tarafını üstlenir; böylece kataloğunuz her ilanda tutarlı görünür.
Sık sorulan sorular
Segmentasyon ile matlama arasındaki fark nedir?
Segmentasyon her piksel için ön plan veya arka plan şeklinde sert bir karar verir ve çıkartma gibi keskin bir maske oluşturur. Matlama ise piksel başına 0 ile 1 arasında yumuşak bir saydamlık değeri tahmin eder; böylece saç, cam ve bulanık kenarlar gibi kısmen saydam ayrıntıları doğal tutabilir. Matlama daha zordur ama daha iyi kenarlar üretir.
Yapay zeka saç ve tüyde neden zorlanır?
Saç ve tüy, ön plan ile arka plan renklerinin tek bir piksel içinde karıştığı binlerce küçük kenar oluşturur. Sert bir maske bu karışımı temsil edemez, bu yüzden ya telleri keser ya da renkli bir hale bırakır. İyi sonuç için, o kenar piksellerinin kısmen saydam olmasına izin veren bir alfa mat gerekir.
Trimap nedir?
Trimap, bir görüntüyü üç bölgeye ayıran kaba bir haritadır: kesin ön plan, kesin arka plan ve kenarlar boyunca uzanan bilinmeyen bir şerit. Eski matlama algoritmalarına çabalarını nereye yoğunlaştıracaklarını söyler. Birçok modern yapay zeka aracı sonucu doğrudan tahmin eder ve sizin bir trimap çizmenizi artık gerektirmez.
Yapay zeka ile arka plan kaldırmak için yeşil perde gerekir mi?
Hayır. Yeşil perde arka planı ayırmayı çok kolaylaştırır, ama modern modeller bu olmadan sıradan arka planları kaldırmak için eğitilmiştir. Yine de temiz ve eşit aydınlatılmış bir çekim, özellikle ince ayrıntıların çevresinde modelin daha keskin kenarlar üretmesine yardımcı olur.
İlgili ücretsiz araçlar
Ürün fotoğraflarını temiz ve tutarlı ilanlara dönüştürün
Yeni hesaplar ücretsiz kredi kazanır. Arka planları kaldırın, temiz bir beyaz zemin ayarlayın ve birkaç tıklamayla kare, pazaryerine hazır görseller elde edin.