Azure AI Vision- Optical Character Recognition (OCR)
Optik karakter tanıma – Optical Character Recognition (OCR), yapay zeka (AI) sistemlerinin görüntülerdeki metni okumasını sağlayarak uygulamaların fotoğraflardan, taranmış belgelerden ve diğer dijitalleştirilmiş metin kaynaklarından bilgi çıkarmasına olanak tanır.
Elinizde yol işaretleri, reklamlar veya tebeşir tahtasına yazılan yazılardan oluşan resim dosyalarınız olduğunu varsayalım. Makineler, yapay zekanın (AI) görüntülerdeki sözcükleri makine tarafından okunabilir metinlere dönüştürme yeteneği olan optik karakter tanıma – Optical Character Recognition(OCR) özelliğini kullanarak görüntülerdeki metni okuyabilir.
Bu makalede, görüntülerdeki metni algılamak ve bunu daha sonra saklanabilecek, yazdırılabilecek veya daha sonraki işlemler veya analizler için girdi olarak kullanılabilecek metin tabanlı bir veri formatına dönüştürmek için OCR teknolojilerinin kullanımına odaklanacağız.
Metin işlemenin otomatikleştirilmesi, manuel veri girişi ihtiyacını ortadan kaldırarak işin hızını ve verimliliğini artırabilir. Görüntülerdeki basılı ve el yazısı metinleri tanıma yeteneği, not alma, tıbbi kayıtların veya tarihi belgelerin dijitalleştirilmesi, banka mevduatları için çeklerin taranması ve daha fazlası gibi senaryolarda faydalıdır.
Bilgisayar sistemlerinin yazılı ve basılı metni işleme yeteneği, computer vision’ın doğal dil işlemeyle kesiştiği bir yapay zeka alanıdır. Metni “okumak” için görme yeteneklerine ihtiyaç vardır ve ardından doğal dil işleme yetenekleri onu anlamlandırır.
OCR, görüntülerdeki metni işlemenin temelidir ve harfler, sayılar, noktalama işaretleri veya metnin diğer öğeleri gibi tek tek şekilleri tanımak üzere eğitilmiş makine öğrenimi modellerini kullanır.
Azure AI Vision hizmeti, görüntülerden makine tarafından okunabilir metinler çıkarma özelliğine sahiptir. Azure AI Vision’ın Read API’si görüntülerden, PDF’lerden ve TIFF dosyalarından metin ayıklamayı destekleyen OCR motorudur. Görüntüler için OCR, OCR’yi kullanıcı deneyimi senaryolarınıza yerleştirmeyi kolaylaştıran genel, belge olmayan görüntüler için optimize edilmiştir.
Read OCR motoru olarak da bilinen Read API, en yeni tanıma modellerini kullanır ve önemli miktarda metin içeren veya önemli miktarda görsel içeren görüntüler için optimize edilmiştir. Metnin satır sayısını, metin içeren görselleri ve el yazısını dikkate alarak kullanılacak uygun tanıma modelini otomatik olarak belirleyebilir.
OCR motoru bir görüntü dosyasını alır ve öğelerin bir görüntü içinde bulunduğu sınırlayıcı kutuları veya koordinatları tanımlar. OCR’da model, görüntüde metin gibi görünen herhangi bir şeyin etrafındaki sınırlayıcı kutuları tanımlar. Read API’sinin çağrılması, aşağıdaki hiyerarşiye göre düzenlenmiş sonuçları döndürür:
- Sayfalar – Sayfa boyutu ve yönü hakkında bilgiler de dahil olmak üzere metnin her sayfası için bir tane.
- Satırlar – Bir sayfadaki metnin satırları.
- Kelimeler – Sınırlayıcı kutu koordinatları ve metnin kendisi de dahil olmak üzere, bir metin satırındaki kelimeler.
Azure AI Vision hizmetini kullanmak için öncelikle Azure aboneliğinizde bu hizmete yönelik bir kaynak oluşturmanız gerekir. Aşağıdaki kaynak türlerinden herhangi birini kullanabilirsiniz:
- Azure AI Vision: Görme hizmetleri için özel bir kaynak. Başka bir AI hizmetini kullanmayı düşünmüyorsanız veya AI Vision kaynağınızın kullanımını ve maliyetlerini ayrı ayrı izlemek istiyorsanız bu kaynak türünü kullanın.
- Azure AI services: Azure AI Vision’ın yanı sıra Azure AI Language, Azure AI Speech ve diğerleri gibi diğer birçok Azure AI hizmetini içeren genel bir kaynak. Birden fazla Azure AI hizmetini kullanmayı planlıyorsanız ve yönetimi ve geliştirmeyi basitleştirmek istiyorsanız bu kaynak türünü kullanın.
Bir kaynak oluşturduktan sonra Azure AI Vision’ın Okuma API’sini kullanmanın birkaç yolu vardır:
- Vision Studio
- REST API
- Yazılım Geliştirme Kitleri (SDK’ler): Python, C#, JavaScript
Şimdi dilerseniz Vision Studio kullanarak bir örnek çalıma yapalım:
- Öncelikle Azure portalınızda oturum açın ve bir Azure AI hizmeti oluşturun
- Azure AI hizmetiniz oluştuktan sonra ayrı bir browser tab’ında https://portal.vision.cognitive.azure.com linkini açabilirsiniz.
- Doğru hesabınızla oturum açın ve Azure AI hizmetleri kaynağınızı oluşturduğunuz dizinle aynı dizini kullandığınızdan emin olun. Vision Studio ana sayfasında, Getting started with Vision başlığı altında View all resources görüntüle’yi seçin.
- Select a resource to work with sayfasında, imlecinizi yukarıda listede oluşturduğunuz kaynağın üzerine getirin ve ardından kaynak adının solundaki kutuyu işaretleyin ve ardından Varsayılan kaynak olarak seç’i seçin.
- Tekrar ana sayfaya dondükten sonra Optical character recognition ve ardından Extract text from image’ı seçin.
- Burada bulunan örnekleri deneyebilir veya Browse for a file butonuna basarak kendi dosyalarınızı yükleyebilirsiniz.