Azure AI Speech
Yapay zeka konuşma yetenekleri, ev ve otomobil sistemlerini sesli talimatlarla yönetmemize, konuşulan sorulara bilgisayarlardan yanıt almamıza, sesten altyazı oluşturmamıza ve çok daha fazlasını yapmamıza olanak tanır.
Bu tür bir etkileşimi mümkün kılmak için yapay zeka sisteminin iki özelliği desteklemesi gerekir:
- Konuşma tanıma – konuşulan girdiyi algılama ve yorumlama yeteneği
- Konuşma sentezi – sözlü çıktı oluşturma yeteneği
Azure AI Speech, konuşma tanıma ve sentez yoluyla konuşmayı metne ve metinden konuşmaya yetenekleri sağlar. Sesi yüksek doğrulukla metne dönüştürmekten konuşmalardaki konuşmacıları tanımlamaya, özel sesler oluşturmaya ve daha fazlasına kadar çeşitli görevler için önceden oluşturulmuş ve özel Konuşma hizmeti modellerini kullanabilirsiniz.
Konuşma tanıma, konuşulan sözcüğü alır ve onu genellikle metne dönüştürerek işlenebilecek verilere dönüştürür. Söylenen sözler, bir ses dosyasında kayıtlı ses veya mikrofondan canlı ses şeklinde olabilir. Kelimelerle eşlenen tanınabilir kalıpları belirlemek için sesteki konuşma kalıpları analiz edilir. Bunu başarmak için yazılım genellikle aşağıdakiler de dahil olmak üzere birden fazla model kullanır:
- Ses sinyalini fonemlere (belirli seslerin temsilleri) dönüştüren akustik bir model.
- Genellikle fonemlere dayalı olarak en olası sözcük dizisini tahmin eden istatistiksel bir algoritma kullanarak, sesleri sözcüklerle eşleştiren bir dil modeli.
Tanınan kelimeler genellikle aşağıdaki gibi çeşitli amaçlarla kullanabileceğiniz metne dönüştürülür:
- Kaydedilmiş veya canlı videolar için altyazı sağlama
- Bir telefon görüşmesinin veya toplantının metnini oluşturma
- Otomatik not diktesi
- Daha ileri işlemler için amaçlanan kullanıcı girdisinin belirlenmesi
Konuşma sentezi, genellikle metni konuşmaya dönüştürerek verilerin seslendirilmesiyle ilgilidir. Bir konuşma sentezi çözümü genellikle aşağıdaki bilgileri gerektirir:
- Söylenecek metin
- Konuşmayı seslendirmek için kullanılacak ses
Konuşmayı sentezlemek için sistem genellikle metni tek tek kelimelere ayıracak şekilde tokenize eder ve her kelimeye fonetik sesler atar. Daha sonra ses formatına dönüştürülecek fonemler oluşturmak için fonetik transkripsiyonu prozodik birimlere (deyimler, cümlecikler veya cümleler gibi) böler. Bu fonemler daha sonra ses olarak sentezlenir ve belirli bir sese, konuşma hızına, ses perdesine ve ses düzeyine atanabilir. Konuşma sentezinin çıktısını aşağıdakiler de dahil olmak üzere birçok amaç için kullanabilirsiniz:
- Kullanıcı girişine sesli yanıtlar oluşturma
- Telefon sistemleri için sesli menüler oluşturma
- Eller serbest senaryolarda e-posta veya kısa mesajları yüksek sesle okuma
- Tren istasyonları veya havaalanları gibi halka açık yerlerde duyuruların yayınlanması
Microsoft Azure, aşağıdaki uygulama programlama arayüzlerini (API’ler) içeren Azure AI Speech hizmeti aracılığıyla hem konuşma tanıma hem de konuşma sentezi yetenekleri sunar:
- Konuşmadan metne – Speech to text API
- Metinden konuşmaya – Text to speech API
Sesin gerçek zamanlı veya toplu olarak metin biçimine dönüştürülmesini gerçekleştirmek için Azure AI Speech to text API’sini kullanabilirsiniz. Transkripsiyon için ses kaynağı, bir mikrofondan veya bir ses dosyasından gelen gerçek zamanlı bir ses akışı olabilir. Speech to text API’sinin kullandığı model, Microsoft tarafından eğitilen Evrensel Dil Modelini temel alır. Modele ilişkin veriler Microsoft’a aittir ve Microsoft Azure’a dağıtılmıştır. Model, konuşma ve dikte olmak üzere iki senaryo için optimize edilmiştir. Microsoft’un önceden oluşturulmuş modelleri ihtiyacınız olanı sağlamıyorsa akustik, dil ve telaffuz dahil olmak üzere kendi özel modellerinizi de oluşturabilir ve eğitebilirsiniz.
Gerçek zamanlı konuşmayı metne dönüştürme, ses akışlarındaki metni yazıya dönüştürmenize olanak tanır. Sunumlar, demolar veya bir kişinin konuştuğu diğer senaryolar için gerçek zamanlı transkripsiyonu kullanabilirsiniz. Gerçek zamanlı transkripsiyonun çalışması için uygulamanızın bir mikrofondan veya ses dosyası gibi başka bir ses giriş kaynağından gelen sesi dinlemesi gerekir. Uygulama kodunuz, sesi hizmete aktarır ve hizmet, yazıya dökülen metni döndürür.
Konuşmayı metne dönüştürme senaryolarının tümü gerçek zamanlı değildir. Bir dosya paylaşımında, uzak bir sunucuda ve hatta Azure depolama alanında depolanan ses kayıtlarınız olabilir. Paylaşılan erişim imzası (SAS) URI’sine sahip ses dosyalarını işaret edebilir ve transkripsiyon sonuçlarını eşzamansız olarak alabilirsiniz. Toplu işler en iyi çaba esasına göre planlandığından, toplu transkripsiyon eşzamansız bir şekilde çalıştırılmalıdır. Normalde bir iş, istekten birkaç dakika sonra yürütülmeye başlar ancak bir işin ne zaman çalışır duruma geçeceğine dair bir tahmin yoktur.
Text to speech API’si, metin girişini doğrudan bilgisayar hoparlörü aracılığıyla çalınabilen veya bir ses dosyasına yazılabilen sesli konuşmaya dönüştürmenize olanak tanır. Text to speech API’yi kullandığınızda, metni seslendirmek için kullanılacak sesi belirtebilirsiniz. Bu özellik size konuşma sentezi çözümünüzü kişiselleştirme ve ona belirli bir karakter verme esnekliği sunar. Hizmet, tonlamayla ilgili olarak konuşma sentezindeki ortak sınırlamaların üstesinden gelmek ve daha doğal bir ses elde etmek için sinir ağlarından yararlanan sinir sesleri de dahil olmak üzere birden çok dili ve bölgesel telaffuzu destekleyen önceden tanımlanmış birden çok ses içerir. Ayrıca özel sesler geliştirebilir ve bunları metinden konuşmaya API ile kullanabilirsiniz.