6 dk okuma

Yapay Zekada Güven Skoru Nedir? Pratik Bir Rehber

Güven skoru, bir yapay zeka modelinin bir tahminden ne kadar emin olduğunu söyler. Bu sayının gerçekte ne anlama geldiğini, yüksek güvenin neden doğru cevabı garanti etmediğini ve skorları nasıl mantıklı okuyacağınızı açıklıyoruz.

Güven skoru aslında nedir

Bir yapay zeka modeli bir tahmin yaptığında, genellikle yanına bir sayı ekler: güven skoru. Bu sayı çoğunlukla 0 ile 1 (ya da yüzde 0 ile yüzde 100) arasında değişir ve modelin çıktısının doğru olduğundan ne kadar emin olduğunu temsil eder. Bir spam filtresi bir e-postayı yüzde 92 güvenle spam olarak işaretleyebilir; bir görsel modeli bir fotoğrafı yüzde 78 güvenle spor ayakkabı olarak etiketleyebilir.

Çok sınıflı problemlerde bu sayı genellikle softmax adı verilen bir fonksiyondan gelir; bu fonksiyon bir sinir ağının son katmanında bulunur. Softmax, modelin ham iç skorlarını alır ve toplamları 1 olacak şekilde sıkıştırır, böylece olasılığa benzerler. Model daha sonra bu değerlerin en yükseğini, kazanan sınıfa olan güveni olarak bildirir. İki seçenekli evet-hayır modelleri ise sigmoid adı verilen benzer bir fonksiyon kullanır.

Anahtar kelime benzer kelimesidir. Softmax çıktısı bir olasılık biçimindedir, ancak modelin ne sıklıkla haklı olduğunun dürüst bir tahmini olduğu otomatik olarak söylenemez. Bu boşluk, güven skorları hakkında anlaşılması gereken en önemli noktadır.

Yüksek güven neden doğru anlamına gelmez

Güven skoru, modelin kendisi hakkındaki görüşüdür, dışarıdan gelen bir gerçek değil. Bir model aynı anda hem yanılabilir hem de yüksek sesle kendinden emin olabilir. Buna aşırı güven denir ve modern derin sinir ağlarında yaygındır.

Araştırmacı Guo ve arkadaşları bunu 2017 yılında açıkça belgeledi. Bir örnekte, CIFAR-100 görsel veri kümesi üzerinde çalışan bir WideResNet modeli ortalama en yüksek güveni yaklaşık yüzde 87 olarak bildirirken, gerçek doğruluğu yalnızca yüzde 72 civarındaydı. Yazdırdığı sayılar, haklı olma ihtimalinden sistematik olarak daha yüksekti.

Yani yüzde 95 güven gördüğünüzde doğru zihinsel çeviri model zamanın yüzde 95'inde haklı değildir. Doğrusu model bu cevaba 0,95 skoru atadı şeklindedir. Bu skorun güvenilir olup olmadığı ise kalibrasyon adı verilen ayrı bir özelliğe bağlıdır.

Kalibrasyon: sayıya ne zaman güvenilir

Bir model, güveni gerçekle örtüştüğünde iyi kalibre edilmiştir. 0,80 güvenle yaptığı tüm tahminleri toplarsanız, bunların yaklaşık yüzde 80'i doğru çıkmalıdır. Yalnızca yüzde 65'i doğruysa model aşırı güvenlidir; yüzde 90'ı doğruysa düşük güvenlidir.

Kalibrasyon otomatik değildir ve daha büyük ya da daha doğru modeller mutlaka daha iyi kalibre edilmiş değildir. İyi haber şu ki, güven çoğu zaman modelin gerçek tahminlerini değiştirmeden eğitim sonrasında düzeltilebilir. Yaygın yöntemler arasında sıcaklık ölçeklemesi (temperature scaling), Platt ölçeklemesi ve izotonik regresyon bulunur. Guo ve arkadaşlarının çalışmasında öne çıkan sıcaklık ölçeklemesi en basitlerinden biridir: doğrulama kümesi üzerinde tek bir sayı öğrenir ve güven çıktılarını gözlemlenen doğrulukla daha iyi örtüşecek şekilde yumuşatır ya da keskinleştirir.

Pratik sonuç: bir güven skoru, ancak arkasındaki kalibrasyon kadar anlamlıdır. Sayılara güvenmeden önce, birinin 0,8'in gerçekten 0,8 gibi davranıp davranmadığını kontrol edip etmediğini bilmek faydalıdır.

Eşikler skorları nasıl karara dönüştürür

Kendi başına bir güven skoru hiçbir şey yapmaz. Karar vermek için sistemler bir eşik uygular: üzerinde bir tahminin kabul edildiği, altında ise reddedildiği, işaretlendiği ya da bir insana yönlendirildiği bir kesme noktası.

Bu kesme noktasını seçmek, kesinlik (precision) ile duyarlılık (recall) arasında bir denge kurmaktır. Eşiği yükseltirseniz yalnızca en güvenli tahminleri kabul edersiniz; bu genellikle kesinliği artırır ama gerçek vakaları kaçırmanıza yol açar (daha düşük duyarlılık). Eşiği düşürürseniz daha çok vaka yakalarsınız (daha yüksek duyarlılık) ama daha fazla yanlış pozitif girer (daha düşük kesinlik). Nesne tespiti sistemleri buna sürekli dayanır: bir güven kesme noktası hangi tespit kutularının tutulacağına karar verir ve bir kesinlik-duyarlılık eğrisi eşik değiştikçe ikisinin nasıl hareket ettiğini gösterir.

Evrensel olarak doğru bir eşik yoktur. Bir tıbbi tarama aracı, gerçek bir durumu kaçırmamak için daha çok yanlış alarmı kabul edebilirken, içeriği otomatik yayınlayan bir araç, incelemeden işlem yapmadan önce çok yüksek güven isteyebilir. Doğru kesme noktası, her hata türünün maliyetine bağlıdır.

Güven skorları nasıl mantıklı okunur

Bir güven skorunu bir karar değil, yararlı bir sinyal olarak görün. Onu sıralamak ve önceliklendirmek için kullanın: düşük güvenli vakaları bir insana yönlendirin, yüksek güvenli olanları hızlandırın ve belirsiz orta kısmı izleyin. Farklı modeller arasında ham skorları karşılaştırmaktan kaçının, çünkü her birinin ölçeği farklı şekilde kalibre edilmiş olabilir.

Sıra dışı girdilerde özellikle dikkatli olun. Güven, modelin eğitildiği verilere benzemeyen verilerde en az güvenilir olma eğilimindedir ve çoğu zaman tam da orada güvenilir bir sayıya en çok ihtiyaç duyarsınız. Tuhaf bir girdiye verilen kendinden emin bir cevap, daha az değil, daha fazla inceleme hak eder.

Bu, günlük araçlar için de önemlidir. E-ticaret görsel işlerinde, otomatik bir arka plan kaldırma ya da ürün tespiti adımı bir güven skoru taşıyabilir. Renderivo'da yapay zekayı, ürün fotoğraflarını temizlemek ve çerçevelemek için hızlı bir ilk geçiş olarak görüyoruz; bir şey bir pazar yerinde yayına girmeden önce hızlı bir insan kontrolü yapıyoruz. Güven sayısı önceliklendirmeyi hızlandırır; son kararı yine gözleriniz verir. Yeni hesaplar ücretsiz kredi alır, böylece otomasyonun kendi ürünlerinizde nerede güvenilir olduğunu ve insan kontrolünün nerede korunmaya değer olduğunu test edebilirsiniz.

Sık sorulan sorular

Güven skoru olasılıkla aynı şey midir?

Olasılığa benzer ve 0 ile 1 arasında değişir, ancak yalnızca model iyi kalibre edilmişse gerçek bir doğruluk olasılığıdır. Kalibrasyon olmadan ham bir güven skoru sistematik olarak çok yüksek ya da çok düşük olabilir.

Yüzde 99 güven, cevabın neredeyse kesin doğru olduğu anlamına mı gelir?

Mutlaka değil. Modelin çok yüksek bir skor atadığı anlamına gelir; bu da yalnızca model kalibre edilmişse ve girdi eğitim verisine benziyorsa güven vericidir. Aşırı güvenli modeller, özellikle sıra dışı girdilerde yüksek skorla yanılabilir.

Hangi güven eşiğini kullanmak iyidir?

Tek bir doğru değer yoktur. Yanlış pozitiflerin maliyeti ile kaçırılan vakaların maliyetine bağlıdır. Daha yüksek kesinlik için eşiği yükseltin, daha yüksek duyarlılık için düşürün ve kendi göreviniz için gerçek veri üzerinde ayarlayın.

Güven skorları güvenilir değilse düzeltilebilir mi?

Çoğu zaman evet; sıcaklık ölçeklemesi, Platt ölçeklemesi ya da izotonik regresyon gibi eğitim sonrası kalibrasyon yöntemleriyle. Bunlar, modelin temel tahminlerini değiştirmeden skorları gözlemlenen doğrulukla daha iyi örtüşecek şekilde ayarlar.

Ürün fotoğraflarınızda yapay zekanın nerede güvenilir olduğunu görün

Birkaç ürün görselini otomatik temizleme ve çerçevelemeden geçirin, hızlı bir insan kontrolünü koruyun ve otomasyonun güveninizi nerede kazandığına kendiniz karar verin. Yeni hesaplar ücretsiz kredi alır.

Ücretsiz başla Ücretsiz araçları dene