İnternete ihtiyaç duymayan konuşma algılama sistemi

Araştırmacılar, daha önce erişilmemiş isabet oranlarına, internete bağlanmaya ihtiyaç duymadan erişebilen konuşma algılama yazılımı geliştirdi.

Haber Özeti

Tam Sürüm

Derin öğrenme ile çalışan ses algılama sistemleri genellikle internet üzerinden, uzakta bulunan güçlü bilgisayarlara erişerek çalışıyor. Ancak Waterloo Üniversitesi araştırmacıları ve DarwinAI adlı girişim, hem çok üstün isabet oranına sahip hem de düşük kapasiteli cihazlarda internet bağlantısına ihtiyaç duymadan çalışabilen yeni bir konuşma algılama yazılımı geliştirmeyi başardı.

EdgeSpeechNets adı verilen yeni sistem hakkında hazırlanan yazıda şu ifadelere yer verildi: “Bu çalışmada, insan güdümlü ilkeli ağ tasarımı prototipleme ve makine güdümlü tasarım keşiflerinin bir birleşimi ile konuşma algılama için düşük güç gerektiren [derin yapay sinir ağı] mimarileri inşa etmek için bir insan-makine işbirliği tasarım stratejisini inceliyoruz. Bu tasarım stratejisinin etkinliği, çok etkili derin yapay sinir ağının sınırlı sayıda kelimeyi algılaması yoluyla gösterilmiştir.” ifadelerine yer verildi.

Ekip öncelikle sınırlı sayıda kelimeyi algılayabien bir konuşma algılama ya da bir başka deyişle anahtar kelime tespit etme prototipi hazırladı. Daha sonra ses sinyallerini matematiksel temsillere çeviren bir tasarım yöntemi sayesinde, geleneksel yöntemlere göre daha iyi temsil yeteneği kazandırıldı.

Daha önce erişilmemiş başarı oranları

Bir sonraki aşamada üretken sentez adı verilen makine güdümlü tasarım stratejisi uygulanarak performansa önem verildi. Bu durumda araştırmacılar konuşma modellerinin doğrulama oranının yüzde 95’e ulaşmasını sağladı.

EdgeSpeechNets’in performansının değerlendirilmesi için ekip Google Speech Commands adlı veri setini kullandı. 30 adet kısa kelimenin farklı ortam ve arka plan sesi ile kaydedilmiş 65 bin adet ses dosyasını içeren bu veri setinde EdgeSpeechNet-A modeli önceki sonuçların da üstüne çıkarak yüzde 97 başarı elde etti.

EdgeSpeechNet-D modeli ise bir Motorola Moto E telefonun 1,4 GHz Cortex-A53 işlemcisi üzerinde 34 milisaniye gecikme ile çalıştı ve önceki yapay sinir ağı modellerine göre yüzde 16,5 daha düşük hafızaya ihtiyaç duydu.

EdgeSpeechNet-C modeli, denenen modellerin en küçüğü olarak 7,8 daha az parametre ve 10,7 daha az çarp-ekle operasyonu kullanarak çalıştı.

Cihaz üzerinde sesli arayüz

Yazıda “EdgeSpeechNets, piyasadaki en gelişmiş derin yapay sinir ağlarına göre daha yüksek isabet oranına daha küçük boyuta ve daha düşük hesaplama maliyetine sahip. Bu sonuçlar, EdgeSpeechNets’in en gelişmiş sonuçlara, çok daha küçük boyut ve daha az işlemle erişebildiğini gösteriyor. Bu da cihaz üzerinde sesli arayüz uygulamalarını çok daha kolay hale getiriyor.” ifadeleri kullanıldı.

Ekip gelecekte insan-makine iş birliği sağlayan derin yapay sinir ağı tasarım stratejisini, görsel algılama ve doğal dil işleme gibi alanlara da adapte etmek istiyor.

Kaynak: Venture Beat

İlgili Haberler

İnternete ihtiyaç duymayan konuşma algılama sistemi

Daha önce erişilmemiş başarı oranları

Cihaz üzerinde sesli arayüz

Kaynak: Venture Beat

İlgili Haberler

Yorum Ekle

Yorumunuz:Cevabı iptal et

e-Bülten Aboneliği

Daha önce erişilmemiş başarı oranları

Cihaz üzerinde sesli arayüz

Kaynak: Venture Beat

Arkadaşlarınla paylaş:

İlgili Haberler

Yorum Ekle

Yorumunuz:Cevabı iptal et

e-Bülten Aboneliği