智能座艙之語音TTS

1 評論 3267 瀏覽 10 收藏 6 分鐘

目前在車載場景中,TTS技術(shù)的應用已經(jīng)十分常見,那么,想在車載領域、智能座艙領域深耕的產(chǎn)品同學,你是否對車載TTS有所了解呢?不妨來看看這篇文章的內(nèi)容分享。

一、TTS是什么

文字轉(zhuǎn)語音,大家可以以微信的語音轉(zhuǎn)文字的反向工程來理解,主要作用是實現(xiàn)機械對話。

二、車載領域語音合成現(xiàn)狀分析

車載場景目前是TTS技術(shù)的重要應用場景,其發(fā)展主要經(jīng)歷了以下四個階段:

其中,高度個性化的發(fā)展應該細分為兩個階段。

第一個階段,基于人群圈層的個性化,劃分的圈層可能為男性/女性,兒童/成人/老年人,車主/乘客,基于車企的策略不同。

第二個階段,通過聲紋識別或攝像頭等感知手段,實現(xiàn)真正的千人千面,定制自己專屬的TTS風格化回復。

三、當前車載場景下的痛點

  1. 機械感:聽感上仍能夠識別出是機械的合成音,不自然、重讀不準確等;
  2. 風格單一:語音合成風格較為單一,并且多為播音風格,缺少樂趣;
  3. 情感欠缺:播報的情感音,融合進車載的交互場景方式粗暴,體驗不佳,具體表現(xiàn)為不同情感音不區(qū)分場景、不區(qū)分文本,僅僅通過音調(diào)等變化表達情感,存在機械的僵硬感;
  4. 智能化:場景定義不全面或不準確,由于車載TTS的回復語基于車載語音產(chǎn)品經(jīng)理對場景的定義,存在漏定義、定義錯的情況;并且在通過TTS引導用戶的角度看,當前所有的車企方案較少考慮到這一點。

四、車載TTS的重要指標

車載TTS的評價指標沿用語音業(yè)界的MOS評價方式,即邀請聽音人試聽合成語音,根據(jù)分值描述,從擬人性、連貫性、韻律感等方面為語音選擇合適的分數(shù),通常主要的指標為:

  1. 韻律準確度;
  2. 端云音色相似度;
  3. 發(fā)音準確度;
  4. 發(fā)音清晰度。

但是以上指標主要都是針對TTS發(fā)音的問題,在實際測試的過程中,也會對TTS反饋的語料準確性、是否合適等進行測試,通常單一問題單一解決。

五、語音TTS遇到的典型問題

  1. 端云變化:在汽車行駛過程中,進入隧道或停車場等場景時,車輛的網(wǎng)絡狀態(tài)會切換為弱網(wǎng)/無網(wǎng)狀態(tài),此時云端的語音資源就會切換為本地資源,切換順滑度、音色相似度等都是典型問題;
  2. 多音字發(fā)音錯誤:機器未準確識別語境,發(fā)音錯誤;
  3. 斷句錯誤:遇到?jīng)]有標點符號或者標點符號錯誤的文本,機器未能識別,形成斷句錯誤;
  4. 方言表達不地道:機器直接采用了文本的發(fā)音,未轉(zhuǎn)換成方言發(fā)音。

例:

早上好,粵語應該說zou sen,而TTS會直接說早上好(粵語音調(diào))。

沒有,粵語應該說冇,而TTS會直接說沒有(粵語音調(diào))。

六、產(chǎn)品角度看車載TTS

1. 車載TTS的商業(yè)價值

車機作為第三個屏幕,其運營是一個說了很久的話題,但是目前真正在車機上實現(xiàn)商業(yè)化運營價值的車企卻沒有,而風格化回復語,沒有安全性、政策等因素的限制,是目前能看到落地最快的方向之一,并且運營價值,如果能保證較低成本形成風格化回復語的情況下,對于具備較多智能存量車的車企來說,在我個人角度上來看為高。

2. 大模型對車載TTS可能的影響

一是個性化定制成本降低:大模型通過大量的數(shù)據(jù)學習,理想中可以快速對一些特定形象進行學習,降低學習成本,例如影視作品的角色,形成具有該角色風格的回復語。

二是更加快速合成結(jié)合業(yè)務的風格回復語:車載TTS更多的是結(jié)合業(yè)務的場景,例如導航去天安門、打開車門等,大模型結(jié)合業(yè)務將實現(xiàn)更加多變、準確、有趣的回復。

本文由@加飯 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 您好,看了您的文章,我感覺受益匪淺,有個疑問想請教一下您,看您提到語音TTS可能會遇到“機器直接采用了文本的發(fā)音,不能轉(zhuǎn)換為方言發(fā)音”,想請問轉(zhuǎn)化成為粵語句式結(jié)構(gòu)的中文文本后,不能直接對應成粵語的發(fā)音嗎?

    來自上海 回復