語音合成 TTS | AI 產(chǎn)品經(jīng)理需要了解的 AI 技術(shù)概念

2 評論 18519 瀏覽 112 收藏 18 分鐘

在文中,作者替大家收集了很多線上/線下的相關(guān)信息后,提煉出的AI產(chǎn)品經(jīng)理“最必要”了解的TTS技術(shù)知識和行業(yè)現(xiàn)狀。

TTS(Text-To-Speech,語音合成),目前是一個“小而美”的AI領(lǐng)域,但我個人覺得非常有意思,感覺TTS在未來會被行業(yè)真正重視起來,并且會出現(xiàn)做得不錯的創(chuàng)業(yè)公司。

本文,是我收集了很多線上/線下的相關(guān)信息后,提煉出的AI產(chǎn)品經(jīng)理“最必要”了解的TTS技術(shù)知識和行業(yè)現(xiàn)狀(多了沒必要,少了又不足以入門、準備面試或工作實戰(zhàn)),不僅幫大家節(jié)省了時間,更是過濾了很多無用信息和過于技術(shù)的內(nèi)容。

目錄:

  • 一、核心概念
  • 二、當前技術(shù)邊界
  • 三、瓶頸和機會(重點

一、核心概念

1. TTS和ASR的概念區(qū)別

我們比較熟悉的ASR技術(shù)(Automatic Speech Recognition,語音識別),是將聲音轉(zhuǎn)化為文字,可類比于人類的耳朵。

而TTS技術(shù)(Text-To-Speech,語音合成),是將文字轉(zhuǎn)化為聲音(朗讀出來),類比于人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的,并不是真人在說話。

TTS的技術(shù)實現(xiàn)方法,主要有2種:“拼接法”和“參數(shù)法”。

2. 拼接法

  1. 定義:從事先錄制的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節(jié)、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個音素的中央到下一個音素的中央)作為單位。
  2. 優(yōu)點:語音質(zhì)量較高。
  3. 缺點:數(shù)據(jù)庫要求太大,一般需要幾十個小時的成品預(yù)料。企業(yè)級商用的話,需要至少5萬句,費用成本在幾百萬元。

3. 參數(shù)法

(1)定義:根據(jù)統(tǒng)計模型來產(chǎn)生每時每刻的語音參數(shù)(包括基頻、共振峰頻率等),然后把這些參數(shù)轉(zhuǎn)化為波形。

主要分為3個模塊:前端、后端聲碼器

前端做的事情,是把文本進行解析,決定每個字的發(fā)音是什么,這句話用什么樣的語氣語調(diào),用什么樣的節(jié)奏來讀,哪些地方是需要強調(diào)的重點等等。常見的語氣相關(guān)的數(shù)據(jù)描述包含但不限于下面這些:韻律邊界、重音、邊界調(diào)、甚至情感。 還有更多的信息甚至是難以客觀描述的,目前的算法只能暫且忽略。

注:拼接法和參數(shù)法,都有前端模塊,拼接和參數(shù)的區(qū)別主要是后端聲學(xué)建模方法的區(qū)別。

(2)優(yōu)點:數(shù)據(jù)庫要求相對較小一些。

  • 如果只需要出聲(做demo),大概500句就可以,但是效果肯定不行。
  • 通用TTS,一般至少需要5000句,6個小時(一般錄制800句話,需要1個小時)——從前期的準備、找人、找錄音場地、錄制、數(shù)據(jù)篩選、標注,最終成為“可以用的數(shù)據(jù)”,可能至少需要3個月。(訊飛在各方面比較成熟,用時會短很多)
  • 個性化TTS,大多數(shù)是用“參數(shù)”方法的。(adobe、微軟也有嘗試過拼接法,不過相對參數(shù)方法來說不是太成熟,效果也并不是太通用)

(3)缺點:質(zhì)量比拼接法差一些,因為受制于發(fā)聲算法,有損失。

因為主要弱點和難點就是聲碼器,聲碼器的作用是復(fù)現(xiàn)聲音信號,難在重現(xiàn)聲音細節(jié),并且讓人聽不出各種雜音、沉悶、機械感等等。目前常見的聲碼器都是對聲音信號本身作各種理論模型,以及簡化假設(shè),可以說對細節(jié)的描述近似于忽略。

注:DeepMind的WaveNet,基本解決了聲碼器的問題。因為他們直接對語音樣本進行預(yù)測,不依賴任何發(fā)音理論模型。最后出來的音質(zhì)細節(jié)十分豐富,基本達到了與原始語音類似的音質(zhì)水準(所謂質(zhì)量提高了50%,就是這里),而且?guī)缀蹩梢詫θ我饴曇艚#ㄟ@就太牛了)。

4. TTS的評判標準

(1)主觀測試(自然度),以MOS為主

MOS(Mean Opinion Scores),專家級評測(主觀);1-5分,5分最好。

注:微軟小冰公開宣傳是4.3分,但有業(yè)內(nèi)朋友認為,也不能據(jù)此就說其“絕對”比科大訊飛好,因為每次評審的專家人選都不一樣。說白了,目前整個AI行業(yè)內(nèi),還是各家說自己好的節(jié)奏。

ABX,普通用戶評測(主觀),讓用戶來試聽兩個TTS系統(tǒng),進行對比,看哪個好。

每次主觀測評應(yīng)該有區(qū)分,比如:這次著重聽多音字,下次主要聽語氣詞等。

(2)客觀測試

  1. 對合成系統(tǒng)產(chǎn)生的聲學(xué)參數(shù)進行評估,一般是計算歐式距離等(RMSE、LSD)。
  2. 對合成系統(tǒng)工程上的測試:實時率(合成耗時/語音時長)、首包響應(yīng)時間(用戶發(fā)出請求到用戶感知到的第一包到達時間)、內(nèi)存占用、CPU占用、3*24小時crash率等。

二、技術(shù)邊界

1.通用TTS

在用戶預(yù)期不苛刻的場景(APP/硬件),能滿足商業(yè)化需求,比如:語音助手/滴滴/高德/智能音箱/機器人),但如果用戶預(yù)期非常高的話,是很難滿足的,因為還是會有“機器感/機械感”,不能非常自然的模擬人聲。

目前行業(yè)各家公司的產(chǎn)品效果差不多,都基本能商用。

2.?個性化TTS

在用戶預(yù)期不苛刻的場景,能“基本”滿足商業(yè)化需求,但是效果沒通用TTS那么好。但如果用戶預(yù)期非常高的話,暫時是滿足不了的。

目前行業(yè)內(nèi)能成熟商用的,主要還是科大訊飛,也有些創(chuàng)業(yè)公司在這個領(lǐng)域有所布局,如微量分貝(HEARD)這家致力于海量內(nèi)容音頻化的企業(yè),對聲音進行了分門別類的生成和儲備,他們瞄準的企業(yè)級需求也會更為個性化、品牌化,諸如阿里巴巴旗下的“動物園”品牌(如天貓、閑魚、盒馬、菜鳥等),都會生成諸如“小豬佩奇”這樣的角色化TTS 并被商用。

3.?情感TTS

目前業(yè)界的情感合成更多了,是因為數(shù)據(jù)本身變多了、更有節(jié)奏了,超過了傳統(tǒng)的播音風(fēng)格,但并不是真正的“喜怒哀樂”等情感合成(想高興就高興的這種智能)。

在情感TTS的理論方面,學(xué)術(shù)界是有儲備的,但是,整個行業(yè)目前都沒怎么做(或者沒做好)。是因為情感TTS很依賴“情感意圖識別”,“情感特征挖掘”、“情感數(shù)據(jù)”以及“情感聲學(xué)技術(shù)”等,是個系統(tǒng)工程。

其中第1點,即是和自然語言處理相關(guān),比如:需要知道“什么時侯該高興或悲傷”;同時,具有情感演繹的語音數(shù)據(jù)的儲備,也非常重要。

三、瓶頸和機會

主要有5個方向的瓶頸(同時也是機會)。

1.?基礎(chǔ)技術(shù)

(1)TTS技術(shù)正處于重大變革:端到端(End-to-End)的TTS建模方法,加上WaveNet 的聲碼器思想,是未來TTS的發(fā)展方向。

端到端TTS,一般指tacotron,tacotron只是Google提出的合并了原先時長模型和聲學(xué)模型的中段結(jié)構(gòu),可以接任何TTS前端和TTS后端。

  • TTS前端,如:中文分詞、注音、詞性,都會提升tacotron性能;
  • 后端,參數(shù)、拼接、wavenet都可以選用。

關(guān)于WaveNet技術(shù)的商業(yè)化:Google今年初將第二代WaveNet技術(shù)商業(yè)化了,速度比第一代快一萬倍。而國內(nèi)各家公司,基本也仿制出來了(論文算法),但工程化還需要時間,而且成本還是太高,短期內(nèi)應(yīng)該沒法商用。

關(guān)于效果:TTS最終效果好壞,技術(shù)只占50%不到,在技術(shù)都差不多的情況下,聲優(yōu)質(zhì)量和數(shù)據(jù)量最重要。其次是相同部署規(guī)模和成本的TTS才能相互比較,即,不能簡單的說哪家公司的效果比另一家更好。

  • 比如:拿百度/騰訊/阿里/圖靈等很多家AI公司的WaveNet v1的效果,一般都能超過訊飛線上的接口,但部署成本高幾萬倍,且不實時。WaveNet V2商業(yè)化以后,雖然能實時,但部署成本至少也比高配拼接TTS高10倍左右。
  • 成本,部分和采樣率相關(guān),例如:訊飛/百度TTS的采樣率都是16k,如果用24k和48k,主觀體驗至少強50%,但成本會翻倍。也就是說,其他AI公司的24kTTS的MOS,能吊打訊飛/百度的API,但不能說他們的技術(shù)就比訊飛/百度強,因為在商業(yè)化時,會犧牲效果來降低成本。

(2)如何讓離線版效果達到在線版水平?

很多客戶希望(奢望)有離線版本,并且效果和在線版本一樣好……

現(xiàn)階段來說,可能真是“臣妾做不到啊”。

2.?數(shù)據(jù)缺乏

一方面,特別是個性化TTS,需要數(shù)據(jù)量更大。比如:默認男孩聲音,要轉(zhuǎn)成女孩,就比較難。

另一方面,數(shù)據(jù)的獲取(制作)成本和周期,也是各家在初期的競爭著力點,比如:一般來說,一款(套)TTS數(shù)據(jù),至少需要先錄制2-3萬句話,再加上數(shù)據(jù)標注,通常耗時在3個月以上(且需要主播全力配合)。對于30小時的數(shù)據(jù),價格通常在30-50萬,而上文提到的微量分貝(HEARD)這家公司,調(diào)動了8000+位優(yōu)質(zhì)播音人員,在給不同內(nèi)容配音的同時,也做了大量結(jié)構(gòu)化數(shù)據(jù)的存儲(庫存化)。

這樣,針對大部分客戶的數(shù)據(jù)需求,并不需要再找主播進行錄制,而是直接從倉庫調(diào)取數(shù)據(jù)進行解凍即可(數(shù)據(jù)標注)。通過將這種?“邊進行業(yè)務(wù)邊賺取數(shù)據(jù)”的流程標準化,其獲取數(shù)據(jù)的成本大大降低到行業(yè)的五分之一?,并且一旦有需求,可以在1個月內(nèi)進行交付。

這家公司在南方搭建的數(shù)據(jù)標注工場的規(guī)模,也是巨大的,包括華為等公司都從其采購語音合成數(shù)據(jù)。

3.?人才匱乏

不僅沒法跟NLP、CV等熱門AI人才比,就算跟同樣不算熱門的ASR比,TTS的人才都還要少一些。

4.?產(chǎn)品化難度

由于技術(shù)限制,現(xiàn)階段不可能有非常完美的TTS效果,所以

盡量選擇用戶預(yù)期不苛刻的場景,或者在產(chǎn)品體驗設(shè)計時,管理好用戶預(yù)期(比如:打車軟件,郭德綱/林志玲的聲音,差不多就行)。

選擇“參數(shù)法”還是“拼接法”,和公司的技術(shù)儲備、成本、以及產(chǎn)品目標相關(guān)。在垂直領(lǐng)域,現(xiàn)有的TTS技術(shù)(參數(shù)或者拼接)都可以針對產(chǎn)品做得很好。現(xiàn)在行業(yè)還沒有太好的效果,很大原因是因為產(chǎn)品經(jīng)理還沒有深入介入,有很多細節(jié)的坑要踩(產(chǎn)品設(shè)計+工程化實現(xiàn))——未來應(yīng)該會有驚艷的產(chǎn)品出現(xiàn)。

體驗細節(jié)設(shè)計,和一般互聯(lián)網(wǎng)產(chǎn)品很不同,比如

  1. 文案設(shè)計,非常重要。因為在語音交互場景,不能太長,用戶沒耐心和時間聽完的。
  2. 可以加入背景音樂,掩蓋雜音等細節(jié)瑕疵。
  3. 特殊場景,還有特別的需求,比如:遠場場景和戴耳機場景相比,還是會有區(qū)別的。
  4. 中英文混合TTS,比如:用戶想播首英語歌曲,困難在于:所有中文的發(fā)音當中,中文和英文合拍念出來是很難的,為什么呢?因為往往錄音的人,錄中文是一批人,錄英文又是一批人。兩種語言結(jié)合起來,再用機器學(xué)習(xí)學(xué)出來,聲音就會變得非常怪。這方面,小雅音箱曾經(jīng)花了很大的精力和成本去“死磕”解決。

5.?商業(yè)化壓力

如果要有足夠的市場競爭力,至少需要12個月的時間,2~6人團隊(如果有人做過前端相關(guān)工作,會節(jié)省巨大成本——工作量主要在中文前端NLP部分,比如:分詞、注音、詞性文本規(guī)整化等),幾百萬資金投入(1個GPU一年十萬,支持并發(fā)只有幾十個)。并且,大公司的先發(fā)優(yōu)勢巨大,小公司必須切細分場景。

我個人認為:個性化TTS、情感TTS會在各細分場景得到更大的應(yīng)用,比如:知識付費、明星IP、智能硬件、車聯(lián)網(wǎng)、實體/虛擬機器人等。

附:相關(guān)資料

1. 相關(guān)高校及實驗室

語音合成涉及專業(yè)領(lǐng)域較廣,包含語言學(xué)、聽覺與發(fā)聲機理、自然語言分析、深度學(xué)習(xí)、信號處理等諸多領(lǐng)域,是一門綜合性學(xué)科。

國際上,英國愛丁堡大學(xué)Simon King教授,卡耐基梅隆大學(xué)Alan W Black教授, 日本和歌山大學(xué)Kawahara教授,谷歌Heiga Zen所在的實驗室均為國際頂級實驗室。

國內(nèi)來說,中國學(xué)術(shù)屆也一直走在行業(yè)的前列,國際語音合成挑戰(zhàn)賽blizzard challenge已經(jīng)連續(xù)10多年冠軍在中國。

國內(nèi)大部分的語音合成人才,均來自于中科大、中科院自動化所、中科院聲學(xué)所、清華大學(xué)、西北工業(yè)大學(xué)等幾家單位,比如:西北工業(yè)大學(xué)的謝磊老師組,已向語音合成屆輸送了大量人才,在微軟、百度、搜狗、小米、IBM、訊飛、流利說、出門問問、獵戶星空、同盾等公司的核心崗位上,都有來自西工大的學(xué)生。

2. 參考文章

3. 相關(guān)產(chǎn)品

訊飛配音app、訊飛朗讀助手app、閃電配音等。

4. 有趣視頻

《武漢地鐵語音播報已逆天,這是要稱霸全國的節(jié)奏啊》

#專欄作家#

hanniman,人人都是產(chǎn)品經(jīng)理專欄作家,前騰訊、現(xiàn)創(chuàng)業(yè)公司PM;專注于人工智能領(lǐng)域的產(chǎn)品化研究,關(guān)注人機交互(特別是語音交互)在手機、機器人、智能汽車、智能家居、AR/VR等前沿場景的可行性和產(chǎn)品體驗;擅長對創(chuàng)業(yè)團隊管理、個人成長提出實戰(zhàn)型的建議方案;知乎/簡書/微博帳號,均為hanniman。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。

題圖來自 Pixabay,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 怎么能聯(lián)系上作者,聊聊細節(jié)問題

    回復(fù)