7 dk okuma
Bilgisayarli Goru Nedir? Makineler Gormeyi Nasil Ogrenir
Bilgisayarli goruye anlasilir ve dogru bir giris: makinelerin goruntu ve videoyu siniflandirma, tespit ve bolutleme ile nasil yorumladigi, CNN modellerinin ozellikleri nasil cikardigi ve onu her gun nerede gordugunuz.
Bilgisayarli goru aslinda ne demek
Bilgisayarli goru, makinelerin goruntu ve videodan anlam cikarmasini saglayan yapay zeka alanidir. Dijital bir fotograf, bir bilgisayar icin yalnizca her pikselin parlakligini ve rengini tanimlayan bir sayilar tablosudur. Bilgisayarli goru, bu sayi tablosunu yararli bir seye donusturen tekniklerin tumudur: bir etiket, bir konum, bir olcum ya da bir karar.
Amac, insan goruşunu birebir kopyalamak degildir. Insan goruşu ile makine goruşu cok farkli calisir ve her biri digerinin zorlandigi seylerde iyidir. Pratik hedef daha dar ve daha durusttur: bir goruntu verildiginde, belirli bir soruya guvenilir bir yanit vermek. Bu fotografta ne var? Nesne nerede? Hangi pikseller ona ait? Bu urun bir kalite standardini karsiliyor mu?
Modern bilgisayarli gorunun cogu makine ogrenmesine, ozellikle de derin ogrenmeye dayanir. Bir programcinin her olasi sekil icin elle kural yazmasi yerine, sistem cok sayida etiketli ornekten oruntuleri ogrenir. Elle yazilan kurallardan ogrenilen oruntulere gecis, alani buyuk olcekte kullanisli hale getiren seydir.
Temel gorevler: siniflandirma, tespit, bolutleme
Uc klasik gorev, bilgisayarli gorunun yaptiklarinin cogunu kapsar ve bunlar temelde nesneleri ne kadar kesin bicimde konumlandirdiklariyla ayrilir.
Siniflandirma, goruntunun tamami hakkinda tek bir soruya yanit verir: hangi kategoriye ait? Bu bir kedi mi, kopek mi, araba mi? Cikti bir etikettir, bazen bir guven puaniyla birlikte. Bu en basit gorevdir, cunku bir seyin nerede oldugunu degil yalnizca neyin var oldugunu soyler.
Nesne tespiti daha ileri gider. Tek bir goruntudeki birden cok nesneyi bulur, her birinin etrafina bir kutu cizer ve onlari etiketler. Surucusuz bir aracin yayalari fark etmesini ya da bir depo sisteminin urunleri saymasini saglayan budur. Bilinen yaklasimlar arasinda bolge tabanli yontemler ve tek gecisli YOLO gibi yontemler vardir; bunlar goruntuyu tarar ve nesne konumlari ile siniflarini birlikte onerir.
Bolutleme en ayrintili olanidir. Bir kutu yerine, her piksele bir sinif atar ve bir nesnenin tam dis hattini cikarir. U-Net ve Mask R-CNN gibi mimariler burada yaygin kullanilir. Piksel duzeyinde kesin dis hatlar, bir urunu arka planindan temiz bicimde ayirmak icin araclarin tam da ihtiyac duydugu seydir; bu yuzden bolutleme bircok arka plan kaldirma ozelliginin temelinde yer alir.
CNN modelleri ozellikleri nasil cikarir
Goruntu gorevlerinin cogunun arkasindaki is gucu, evrisimsel sinir agi, yani CNN modelidir. Tasarimi, goruntuyu isleyen gorsel korteksten gevsek bicimde esinlenmistir, ama onemli kisim mekanik ve ogrenilebilir olmasidir.
Bir CNN, goruntu uzerinde cekirdek de denen kucuk filtreleri kaydirir. Her filtre, kucuk bir piksel parcasi uzerinde basit bir matematik islemi yapar ve belirli bir oruntunun nerede ortaya ciktigini vurgulayan bir ozellik haritasi uretir. Ilk katmanlar kenarlar ve renk gecisleri gibi temel seyleri algilamaya egilimlidir. Daha derin katmanlar bunlari dokulara, sonra sekillere, sonra butun nesne parcalarina birlestirir. Ozellikler katman katman ogrenilir; derinlestikce daha soyut ve kategorileri ayirt etmek icin daha kullanisli hale gelir.
Yol boyunca havuzlama katmanlari ozellik haritalarini kuculttur; bu, hesaplamayi yonetilebilir tutar ve agi konumdaki kucuk kaymalara karsi daha az duyarli kilar. Son katmanlar ise biriken ozellikleri bir sinif etiketi gibi bir yanita esler. En onemlisi, filtreler elle tasarlanmaz; egitim verisinden ogrenilir. Bu yuzden iyi egitilmis bir CNN, daha once hic gormedigi goruntulere de genelleme yapabilir.
Patlamayi aciklayan kisa bir tarih
Bilgisayarli goru on yillar boyunca yavasca gelisti, sonra keskin bir sicrama yapti. Iki olay bu sicramanin cogunu aciklar.
Birincisi veriydi. Arastirmaci Fei-Fei Li, 2006 yilinda ImageNet uzerinde calismaya basladi; bu, su anda 20 binden fazla kategoride 14 milyondan fazla goruntu iceren genis etiketli bir goruntu veri tabanidir. 2010 yilindan itibaren ImageNet Buyuk Olcekli Gorsel Tanima Yarismasi, bin sinifa indirilmis bir kume uzerinde arastirmacilara ortak bir olcut sundu.
Ikincisi bir sonuctu. 30 Eylul 2012 tarihinde AlexNet adli bir CNN, bu yarismayi yuzde 15,3 ust-5 hatasiyla kazandi; bu, ikinciden 10,8 puandan fazla daha iyiydi. Kismen grafik islem birimleri buyuk aglarin egitilmesini mumkun kildigi icin basarili oldu. Bu galibiyet, derin ogrenmenin goru alaninda atilim yaptigi an olarak yaygin bicimde anilir ve bugun kullandigimiz araclarin cogu bu calisma cizgisinden gelir.
Her gun nerede karsilasirsiniz, e-ticaret dahil
Bilgisayarli goruyu farkina bile varmadan surekli kullanirsiniz. Telefon kameralari odaklanmak icin yuzleri algilar, fotograf uygulamalari resimleri icindeki kisi veya seye gore gruplar, haritalar sokak tabelalarini okur, tibbi ve uretim sistemleri yorgun bir insan gozunun kacirabilecegi kusurlari isaretler.
E-ticaret bununla doludur. Gorsel arama, bir alisverisciye bir fotograf yukleyip benzer urunleri bulma imkani verir; Alibaba, gorsel arama uygulamasi Pailitao'yu 2014 yilinda baslatti ve simdi bircok perakendeci ayni seyi sunuyor. Bir ankette, Birlesik Krallik ve ABD'deki Z kusagi ve Y kusagi alisverisçilerinin yuzde 62'sinin cevrimici alisveriste gorsel arama istedigi bulundu. Perde arkasinda, ters goruntu aramayi calistiran ayni vektor tabanli eslestirme, dosya adlari yerine kenarlari, renkleri, dokulari ve sekilleri karsilastirir.
Kalite ve sunum da birer goru gorevidir. Pazar yerleri urun fotograflarini kirpma, aci, bulaniklik, arka plan, filigran ve gereksiz nesneler gibi etkenlere gore puanlar. Arka plani kaldiran, urunu temiz beyaza yerlestiren ya da cerceveyi kare yapan araclar, urunu bulmak ve onu her seyden ayirmak icin tespit ve bolutlemeye dayanir. Renderivo, urun fotograflarini pazar yeri standartlarini karsilayacak sekilde duzenlemek icin bu tur gorsel yapay zekayi kullanir ve yeni hesaplarin aldigi ucretsiz kredilerle gercek goruntuler uzerinde deneyebilirsiniz.
Sık sorulan sorular
Bilgisayarli goru yapay zeka ile ayni sey mi?
Hayir. Bilgisayarli goru, ozellikle goruntu ve videoya odaklanan bir yapay zeka dalidir. Genellikle makine ogrenmesine dayanir, ama yapay zeka butun olarak dil, planlama ve goruntuyle hicbir ilgisi olmayan bircok alani da kapsar.
Nesne tespiti ile bolutleme arasindaki fark nedir?
Tespit, her nesnenin etrafina bir kutu cizip onu etiketler ve nesnelerin kabaca nerede oldugunu soyler. Bolutleme ise piksel piksel ilerler ve bir nesnenin tam dis hattini cikarir. Bolutleme daha ayrintili ve daha zorludur; bu yuzden temiz arka plan kaldirma ona baglidir.
Bilgisayarli goru araclarini kullanmak icin CNN modellerini anlamam gerekir mi?
Hic gerekmez. Bir motoru anlamadan araba kullanabildiginiz gibi, evrisimsel sinir aginin nasil calistigini bilmeden gorsel arama, fotograf duzenleme ya da kalite kontrolu kullanabilirsiniz. Temelleri bilmek, bu araclarin neyi guvenilir bicimde yapip yapamayacagini degerlendirmenize yardimci olur.
Bilgisayarli goru hata yapabilir mi?
Evet. Modeller orneklerden ogrenir; bu yuzden egitim verisine benzemeyen goruntulerde, alisilmadik isikta ya da nadir nesnelerde zorlanabilirler. Kesinlik degil guven bildirirler. Onemli olan her seyde ciktiyi hizli bir ilk gecis olarak gorun ve dongude bir insan kontrolu tutun.
İlgili ücretsiz araçlar
Gorsel yapay zekayi kendi urun fotograflarinizda gorun
Bilgisayarli goruyu en kolay, onu is basinda izlerken anlarsiniz. Bir urun goruntusu yukleyin; Renderivo arka plani temizlesin, beyaz bir zemin koysun ve pazar yeri ilanlari icin cerceveyi kare yapsin.