Markaların sesi olarak yapay zeka

Y-Combinator tarafından desteklenen Voicery adlı girişim, yapay zekadan faydalanarak markalara yapay ses üretiyor.

Yayın tarihi:

4 Nisan 2018

–

San Francisco merkezli Voicery girişimi sadece birkaç aylık olmasına rağmen girişimin CEO’su ve kurucu ortağı Booby Ullman, kendi sesini oluşturmak isteyen yüzlerce şirketten başvuru aldıklarını söyledi. Çünkü Voicery, birçok şirketin beş yıl öncesine kadar ihtiyaç duydukları şeyin o olduğunu bilmedikleri bir şey sunuyor: kulağa bilgisayar gibi değil gerçek bir insan gibi gelen, kişiselleştirilmiş bir dijital ses.

Bugünün müşteri hizmetleri görüşmelerinde duyduğumuz donuk seslerin aksine Voicery’nin yapay zekayla sentezlenen sesleri gerçek bir insanla konuşuyormuş hissi veriyor. Şirketlerle kurduğumuz etkileşim günden güne görselden sözlüye doğru kayarken, bir şirketin kullandığı sesin tonu, kalitesi ve ritmi o markanın ‘yeni yüzü’ haline geliyor.

Ses, son derece güçlü bir marka aracı olabiliyor. Mesela Alexa’nın espri yaparken kulağa ne kadar tuhaf geldiğini fark etmişsinizdir. Çünkü insan konuşmasını taklit eden yapay seslerin o robotik sesle ve duraksamayla inandırıcı bir duygu vermesi son derece zor oluyor. Bilgisayarla üretilen bu seslerin çoğu eklemeli model (concatenative model) adı verilen konuşma sentezi yöntemini kullanıyor. Bu yöntemde, bir seslendirme sanatçısının yaklaşık 200 saatlik konuşması alınıp dijital olarak küçük ses parçalarına bölünüp ne söylenmesi gerekiyorsa onu söyleyecek şekilde yeniden düzenleniyor. Voicery’nin modeli ise daha farklı işliyor. Bir seslendirme sanatçısının konuşmasının sadece birkaç saatlik kısmını dinleyen sistem, daha sonra o kişinin sesini taklit etmesi için derin sinir ağı eğitiyor. Bütün süreç iki hafta sürüyor. Tek bir yapay sesin sinir ağı modelini oluşturmak dört gün alıyor. Şu anda Voicery’nin üç adet üretime hazır yapay sesi var.

Voicery’nin web sitesine girerek hangi sesin insana hangi sesin makineye ait olduğunu tahmin etmenizi isteyen testi çözebilirsiniz. Testi yaparken makine ve insan sesini ayırt etmenin epeyce zor olduğunu fark edeceksiniz.

Voicery’nin teknolojisi, markasının bütün ara yüzlerde tutarlı olduğundan emin olmak isteyen şirketler için son derece faydalı olabilir. Mesela sigorta şirketinizi aradığınızda hattın öbür ucunda duraklayan, monoton ses gerçek bir insan gibi yanıt verse hoş olmaz mıydı? Hatta sevdiğiniz bir sanatçının sesiyle konuşsa?

Sesin inandırıcılığı ve karizması, kullanıcılarıyla ilişki kurmak isteyen şirketler için sandığınızdan daha önemli olabilir. Mesela bir sağlık takibi uygulaması, robotik bir “Yapabilirsin!” yerine gerçek hayattaki bir arkadaşınızın sesiyle konuşsa o markaya daha güçlü bir yakınlık hissetmeniz daha muhtemel olur.

Peki kimin sesi taklit edilebilecek?

Sahte videolar üreten yapay zekalarda olduğu gibi, girişimlerin hangi tür sesleri yapaylaştırabileceğine dair de etik tartışmalar var. Ullman, Voicery’nin üreteceği ve üretmeyeceği ses türleri arasında belirgin bir çizgi çekmek istiyor: “Bu tür araçlar iyileştikçe, etik konusunda daha dikkatli olmak gerekiyor.” Voicery’nin web sitesinde, kişinin izni olmadan sesini asla taklit edilmeyeceği belirtiliyor.

Voicery, tamamen kendine ait sesler üretmek isteyen şirketlere de hizmet verecek. Bu B2B hizmeti, Voicery’nin temel iş modeli olacak. Bilgisayarlar ekranlardan çıkıp yaşadığımız alanlara daha fazla girdikçe, onlarla robotik hissettirmeyen ya da kulağa öyle gelmeyen şekilde iletişim kurmak isteyeceğiz. Bu noktada Voicery’nin teknolojisi epeyce işe yarayacak gibi duruyor.