6 dk okuma

OCR (Optik Karakter Tanıma) Nedir?

Yapay zeka görüntülerden ve taramalardan metni nasıl okur: modern OCR nasıl çalışır, nerede kullanılır ve hâlâ nerede başarısız olur, sade bir anlatımla.

Tek cümlede OCR

OCR, yani optik karakter tanıma, daktiloyla yazılmış, el yazısı ya da basılı metnin görüntülerini makinenin işleyebileceği metne dönüştürme işidir. Basitçe söylemek gerekirse, kelimelerin fotoğrafını bilgisayarın gerçekten okuyabileceği, arayabileceği, kopyalayabileceği ve düzenleyebileceği kelimelere çevirir.

Bu fark kulağa geldiğinden daha önemlidir. Taranmış bir sayfa ya da bir fişin telefonla çekilmiş fotoğrafı, bilgisayar için yalnızca renkli noktalardan oluşan bir ızgaradır. Yazılımın bu noktaların bir fiyatı ya da bir ismi oluşturduğundan haberi yoktur. OCR, bu boşluğu kapatan adımdır; düz piksellerden yapılandırılmış metin çıkarır.

Bu nedenle OCR pek çok gündelik teknolojinin altında sessizce durur: aranabilir PDF dosyaları, otomatik fatura girişi, telefonunuzun bir fotoğraftan metni kopyalamanıza izin vermesi ve otoparklarda plaka okuyan kameralar.

Kısa ve doğru bir tarihçe

Fikir çoğu kişinin sandığından daha eskidir. Emanuel Goldberg, 1910'larda karakterleri telgraf koduna çeviren bir makine yaptı ve 1931'de optik kod okuyan bir İstatistik Makinesi için ABD patenti aldı. İlk sistemler şablon eşleştirmeye dayanıyordu: her şekli sabit bir harf kütüphanesiyle karşılaştırmak.

Önemli bir sıçrama Ray Kurzweil'den geldi. 1970'lerin ortasında çok yazı tipli tanımayı, yani tek bir yazı tipi yerine pek çok yazı tipini okuyabilme yeteneğini ilerletti. Ocak 1976'da görme engelli kullanıcılar için bir okuma makinesi tanıttı. Ticari OCR yazılımı ise o on yılın sonunda ortaya çıktı.

Modern dönemi makine öğrenmesi tanımlar. En bilinen açık kaynaklı OCR motorlarından biri olan Tesseract, 1985 ile 1994 arasında Hewlett-Packard'da özel mülk bir çalışma olarak başladı, 2005'te açık kaynak olarak yayımlandı ve 2006'dan itibaren Google tarafından desteklendi. Dördüncü sürümü, LSTM sinir ağları üzerine kurulu bir tanıma motoru ekledi; bu, elle yazılmış karakter kurallarından öğrenen modellere geçişi işaret etti.

Modern derin öğrenmeli OCR gerçekte nasıl çalışır

Çoğu güncel sistem üç aşama izler. İlki ön işlemedir: görüntü, lekeler temizlenerek, eğiklik düzeltilerek ve metnin arka plandan ayrışması için daha basit bir siyah-beyaz biçime dönüştürülerek temizlenir.

İkincisi tespit ve tanımadır. Eski motorlar sayfayı tek tek karakterlere böler ve her birini eşleştirirdi. Derin öğrenmeli sistemler genellikle bütün satırları aynı anda okur. Evrişimli sinir ağları, yani CNN'ler, görüntüden görsel özellikler çıkarır; LSTM gibi yinelemeli ağlar ise karakter dizisini modelleyerek, çevredeki bağlamı kullanıp bir işaretin 1 mi, küçük l mi yoksa büyük I mı olduğuna karar verir. Bağlantısal zamansal sınıflandırma denen bir teknik, modelin her karakterin tam olarak nerede başladığını bilmeden bu piksel akışını harflerle hizalamasını sağlar.

Üçüncüsü son işlemedir. Ham çıktı, olası hataları düzeltmek ve özgün düzeni yeniden kurmak için sözlüklere ve dil kurallarına göre denetlenir; böylece sütunlar ve tablolar tek bir uzun kelime dizisi yerine anlamlı bir sırayla geri döner.

Öğrenmeye dayalı yaklaşımın pratik kazancı esnekliktir. Sabit bir yazı tipi kütüphanesi yerine model, geniş ve çeşitli veri kümeleriyle eğitilir; böylece pek çok yazı tipini, dili ve hafif bozulmaları bile işleyebilir.

OCR nerede kullanılır

Finans ve muhasebe buna büyük ölçüde dayanır. Bankalar onlarca yıldır çeklerin altındaki stilize manyetik rakamları okur; modern araçlar ise fiş ve faturalardan toplamları, tarihleri ve kalemleri otomatik olarak çıkarır.

Belgeler ve kayıtlar bir diğer büyük alandır. OCR, taranmış sözleşmeleri, kitapları ve arşivleri tamamen aranabilir kılar; basılı alanları ve makinenin okuyabileceği bölgeleri okuyarak pasaport ve kimlik doğrulamasına güç verir.

Fiziksel dünyada ise OCR, geçiş ücreti ve otopark için plakaları okur, ürün etiketlerinden ve ambalajlardan metni çıkarır. Bu son durum e-ticaretle örtüşür: bir marka adını ya da içindekiler listesini tanıyan görüntü teknikleri, kataloğların listelemeleri doğru tutmasına da yardımcı olur.

OCR'ın hâlâ zorlandığı yerler

Doğruluk büyük ölçüde girdi kalitesine bağlıdır. Temiz basılı metinde tanıma, görüntüye göre genellikle kabaca yüzde 80 ile 99 arasında bir aralığa düşer; iyi taramalar üst uçtadır. Bulanıklık, düşük çözünürlük, kötü aydınlatma, eğiklik, gölgeler ve karmaşık arka planlar bu oranı aşağı çeker.

El yazısı en zor durum olmayı sürdürür. Gündelik OCR basılı yazı için ayarlanmıştır ve serbest el yazısı kişiden kişiye o kadar değişir ki standart motorlar bunda sıkça başarısız olur. Bazen akıllı karakter tanıma olarak adlandırılan özel el yazısı modelleri daha iyi sonuç verir, ancak dağınık el yazısı hâlâ güvenilir değildir.

Diğer zorlu durumlar arasında sıra dışı veya süslü yazı tipleri, yoğun tablolar, solmuş tarihi belgeler ve fotoğraf ya da desen üzerine basılmış metinler yer alır. Bunların hiçbiri çözümsüz değildir, ama tam olarak hata beklemeniz ve çıktıyı doğrulamayı planlamanız gereken yerlerdir.

OCR ve ürün görselleri

Çevrimiçi satış yapıyorsanız OCR, makinelerin görsellerinize artık yalnızca bakmadığını, giderek daha fazla okuduğunu hatırlatır. Pazar yerleri ve arama motorları etiketlerdeki, ambalajlardaki ve bindirmelerdeki metni ayrıştırır; bu da ürün fotoğraflarını net ve sade tutmak için bir neden daha.

Renderivo OCR çalıştırmaz; işi fotoğrafın kendisidir: arka planları temizlemek, temiz beyaz arka planlı çekimler üretmek ve çerçevelemeyi kareleyerek ürünlerinizin tüm listelemelerde doğru görünmesini sağlamak. Ama altta yatan nokta aynıdır: daha net görüntüleri hem insanlar hem de yazılımlar daha kolay anlamlandırır ve bu netliği kaynağında doğru yapmak değerlidir.

Sık sorulan sorular

OCR yapay zeka ile aynı şey mi?

Tam olarak değil. OCR bir görevdir, yani görüntülerden metin okumaktır ve modern OCR genellikle sinir ağları gibi yapay zeka teknikleriyle kurulur. Eski OCR ise daha basit, kural tabanlı eşleştirme kullanırdı ve bugün yapay zeka diyeceğimiz şey değildi.

OCR ne kadar doğru?

Temiz basılı metinde çoğu zaman çok doğrudur; görüntü kalitesine göre genellikle yaklaşık yüzde 80 ile 99 arasında bir aralıkta anılır. Bulanıklık, düşük çözünürlük, kötü aydınlatma ve özellikle el yazısıyla doğruluk düşer.

OCR el yazısını okuyabilir mi?

Standart OCR basılı metin için tasarlanmıştır ve el yazısında zorlanır. Bazen akıllı karakter tanıma denen özel modeller bunu daha iyi yapar, ancak dağınık ya da bitişik el yazısı hâlâ hataya açıktır.

Tarama ile OCR arasındaki fark nedir?

Tarama yalnızca bir sayfanın görüntüsüdür. OCR ise o görüntünün içindeki metni bulup arayabileceğiniz, kopyalayabileceğiniz ve düzenleyebileceğiniz karakterlere dönüştüren ek adımdır.

İnsanlar ve makineler için net görseller

Renderivo arka planları temizler, beyaz arka planlı çekimler üretir ve çerçevelemenizi kareler; böylece listelemeleriniz her yerde net görünür. Yeni hesaplar ücretsiz kredi kazanır.

Ücretsiz başla Ücretsiz araçları dene