6 dk okuma

Embedding nedir? Yapay zeka kelimeleri ve gorselleri sayilara nasil cevirir

Vektor embeddingleri sade bir dille anlatan rehber: yapay zeka kelimeleri ve gorselleri uzayda noktalar olarak nasil temsil eder, benzer seyler neden yakin durur ve bu arama ile onerileri nasil besler.

Temel fikir: anlam bir konum olarak

Embedding, bir yapay zeka modelinin bir veri parcasina (bir kelimeye, bir cumleye ya da bir gorsele) atadigi sayi listesidir. Bu listeyi koordinat gibi dusunebilirsiniz. Nasil bir sehrin onu haritaya yerlestiren bir enlemi ve boylamı varsa, bir kelime de cok daha buyuk bir sayi uzayinda bir konum kazanir.

Isin faydali kismi bu konumlarin ne anlama geldigidir. Embeddingler benzer seyler birbirine yakin, ilgisiz seyler ise uzak dusecek bicimde olusturulur. Kedi mindere oturdu cumlesi ile yavru kedi halida dinlendi cumlesi neredeyse ayni anlama geldigi icin yakin durur; ceyreklik gelirle ilgili bir cumle ise cok uzakta kalir. Anlam bir mesafeye donusur ve mesafe bir bilgisayarin olcebilecegi bir seydir.

Bu uzaylar cok boyutludur. Iki koordinat yerine, bir embedding her oge icin yuzlerce hatta binlerce sayi tasiyabilir. Bu kadar cok boyutu gozumuzde canlandiramayiz ama matematik, duz bir haritadaki gibi davranir: yakinlik yine benzerlik anlamina gelir.

Neden kelime degil de sayi

Bilgisayarlar dili ya da resimleri dogrudan anlamaz; sayilarla calisir. Eski yaklasimda her kelime, digerleriyle hicbir iliskisi olmayan ayri bir simge gibi ele aliniyordu. Bu yuzden bir modelin buyuk ile genis kelimelerinin ilgili oldugunu ya da Paris ile Londra'nin ikisinin de sehir oldugunu anlamasinin bir yolu yoktu.

Embeddingler bu sorunu, modelin iliskileri verilerden ogrenmesini saglayarak cozer. Google for Developers, bir embedding uzayini benzer ogelerin birbirine yakin yerlestigi bir temsil olarak tanimlar; bu temsil elle kodlanmaz, egitim sirasinda ogrenilir. Model devasa miktarda metin ya da gorsel okur ve her ogenin koordinatlarini, geometri gercek kullanim oruntulerini yansitana kadar ayarlar.

IBM, embeddingleri verinin anlamini ve iliskilerini yakalayan sayisal temsiller olarak tanimlar ve dil modellerinden gorsel sistemlere kadar modern makine ogreniminin cogunun altinda yattigini belirtir. Veri bu sayisal bicime girdikten sonra, sonraki her sey noktalari karsilastirma sorusuna donusur.

Mehur kral ve kralice ornegi

Embeddingleri unlu yapan atilim word2vec ile geldi. Bu yontem 2013'te Tomas Mikolov ve Google'daki meslektaslari tarafindan, Vektor Uzayinda Kelime Temsillerinin Verimli Tahmini baslikli bir makalede yayimlandi. Kucuk bir sinir agini kelimeleri cevrelerinden tahmin etmek uzere egitti ve bunu yaparken benzer baglamlarda gecen kelimeleri birbirine yakin yerlestirdi.

Insanlari sasirtan sey, iliskilerin tutarli yonler olarak ortaya cikmasiydi. Kral vektorunu alip erkek vektorunu cikarir ve kadin vektorunu eklerseniz, en yakin sonuc kralice olur. Erkekten kadina giden adim ile kraldan kraliceye giden adim, uzaydaki neredeyse ayni hareketdir; boylece basit aritmetik, modele hic acikca ogretilmemis bir iliskiyi yakalar.

Durust bir not: bu analojiler duzgun gosterimlerdir, sihir degil. Pratikte orijinal kelimeler genellikle aramadan cikarilir, cunku kral gibi bir kelime cevaba o kadar yakindir ki aksi halde sonucu o kazanirdi. Etki gercek ve onemlidir ama verideki bir egilimdir, garantili bir denklem degil.

Yakinligi olcmek: kosinus benzerligi

Iki embeddingi karsilastirmak icin en yaygin arac kosinus benzerligidir. Iki vektorun uzunlugu yerine aralarindaki aciyi olcer, yani yone odaklanir. Ayni yone bakan vektorler, biri digerinden daha uzun olsa bile benzer kabul edilir.

Puan eksi birden bire kadar uzanir. Bire yakin bir deger iki ogenin neredeyse ayni yone baktigini ve cok benzer oldugunu; sifira yakin bir deger ilgisiz olduklarini; eksi bire yakin bir deger ise zit olduklarini gosterir. Bu tek sayi, bir sistemin binlerce adayi siralayip en yakin eslesmeleri hizla one cikarmasini saglar.

Embeddingler neleri besler

En net ornek anlamsal aramadir. Anahtar kelime eslestirmek yerine, bir arama motoru sorgunuzu bir embeddinge cevirir ve embeddingi en yakin olan kayitli ogeleri bulur. Bu yuzden uygun fiyatli kosu ayakkabisi aramasi, ortak hicbir kelime olmasa bile ekonomik sneaker olarak tanimlanmis bir urunu getirebilir.

Oneriler de ayni bicimde calisir. Iki urunun, sarkinin ya da yazinin embeddingleri yakinsa, bir sistem birini begenen kisilere digerini onerebilir. Ayni mantik kumeleme, yinelenenleri ayiklama ve bir gruba uymayan ogeleri isaretleme islerinin de altinda yatar.

Embeddingler ortamlar arasinda da gecis yapar. OpenAI, Ocak 2021'de CLIP modelini tanitti; bu model yaklasik 400 milyon gorsel ve metin ciftinden olusan bir veri kumesi kullanarak gorselleri ve metni tek bir ortak uzaya yerlestirir. Bir fotograf ve aciklamasi dogrudan karsilastirilabildigi icin bir fotograf arsivini sade bir cumleyle arayabilirsiniz. E-ticarette bunun onemi su: gorsel embeddingler neredeyse ayni urun fotograflarini gruplayabilir, gorsel olarak benzer ilanlari bulabilir ya da bir fotografin aciklamasiyla eslesip eslesmedigini kontrol edebilir. Renderivo olarak biz daha onceki adimla, ilk asamada temiz ve tutarli urun fotograflari uretmekle ilgileniyoruz; cunku guvenilir gorsel yapay zeka, kendisini besleyen gorseller net ve sade oldugunda en iyi calisir.

Sık sorulan sorular

Embedding, yapay zeka modeliyle ayni sey mi?

Hayir. Model, embeddingleri ureten egitilmis sistemdir. Embedding ise ciktidir: tek bir kelime ya da gorsel gibi belirli bir girdiyi temsil eden bir sayi listesi. Farkli modeller ayni girdi icin farkli embeddingler uretir.

Bir embeddingin kac boyutu olur?

Modele gore degisir. Cogu metin embeddingi her oge icin birkac yuzden birkac bine kadar sayi tasir. Daha cok boyut daha cok nuans yakalayabilir ama saklamasi ve karsilastirmasi daha pahalidir, bu yuzden dogru boyut goreve baglidir.

Neden duz mesafe yerine kosinus benzerligi kullanilir?

Kosinus benzerligi iki vektorun uzunlugunu degil yonunu karsilastirir; bu da anlamin genellikle yonde tasindigi cok boyutlu embedding uzaylarina uygundur. Embeddingleri karsilastirmak icin standart secimdir, ancak bazi sistemler duz cizgi mesafesini de kullanir.

Ayni fikir gorseller ve metin icin birlikte gecerli mi?

Evet. CLIP gibi cok kipli modeller gorselleri ve metni tek bir ortak uzaya yerlestirir; boylece bir resim ile onu anlatan cumle birbirine yakin duser. Bu sayede gorselleri kelimelerle aramak ya da bir altyaziya uygun resimleri bulmak mumkun olur.

Daha akilli gorsel yapay zeka icin daha temiz urun fotograflari

Embeddingler ve gorsel arama, fotograflariniz temiz ve tutarli oldugunda en iyi calisir. Yeni hesaplar arka plan temizlemek ve urun fotograflarini standartlastirmak icin ucretsiz kredi kazanir.

Ücretsiz başla Ücretsiz araçları dene