AIGC音頻合成知識(shí)入門

0 評(píng)論 6515 瀏覽 38 收藏 10 分鐘

隨著信息技術(shù)的發(fā)展,AI能幫助我們做的內(nèi)容越來越多。本篇文章,作者以AI音頻合成為主,分析音頻合成的流程,以及需要考慮的幾個(gè)方面,幫助音頻合成零基礎(chǔ)的伙伴,快速掌握音頻合成。

今年席卷而來的AI風(fēng)潮刮到了各個(gè)模態(tài),音頻創(chuàng)作作為重要形態(tài)之一,也逐漸涌現(xiàn)出眾多產(chǎn)品與模型,但音頻合成的基本原理你是否了解呢?一起來看看吧。

一、定義

組成聲音的結(jié)構(gòu)包括音素、音節(jié)、音位、語素等,音頻生成是對(duì)這些基本單位進(jìn)行預(yù)測(cè)和組合,通過頻譜逼近或波形逼近的合成策略來生成對(duì)應(yīng)的聲音波形

語音合成的本質(zhì)是通過對(duì)于語句結(jié)構(gòu)和關(guān)系的學(xué)習(xí)來預(yù)測(cè)其聲學(xué)特征,還原聲音波形的過程。語音+音頻結(jié)合后才得到我們常見的歌曲、朗讀等形態(tài)。

音頻生成目前主要包括:根據(jù)文本合成語音(text-to-speech),進(jìn)行不同語言之間的語音轉(zhuǎn)換,音色克?。⊿inging Voice Conversion)根據(jù)視覺內(nèi)容(圖像或視頻)進(jìn)行語音描述,以及生成旋律、音樂等。

二、發(fā)展歷程

音頻生成隨著計(jì)算機(jī)技術(shù)的發(fā)展,逐漸形成了以“文本分析-聲學(xué)模型-聲碼器”為基本結(jié)構(gòu)的語音合成方法。

基于對(duì)這個(gè)結(jié)構(gòu)部分模塊的替代或優(yōu)化,音頻生成的關(guān)鍵技術(shù)大致經(jīng)歷了拼接合成階段、參數(shù)合成階段、端到端合成階段三個(gè)時(shí)期。

1. 波形拼接語音合成

顧名思義,波形拼接法是通過對(duì)語句的音素、音節(jié)、單詞等進(jìn)行特征標(biāo)注和切分之后,在已有的語音數(shù)據(jù)庫中查找基本單位,拼接合成語音。

其背后需要錄制大量的音頻,盡可能覆蓋全所有的音節(jié)、音素等,數(shù)據(jù)庫中的錄音量(樣本)越多,最后合成的音頻效果越好。

  • 優(yōu)點(diǎn):基于真人錄制的語音音質(zhì)較好,聽覺上比較真實(shí)。
  • 缺點(diǎn):拼接效果依賴于語音庫的數(shù)據(jù)量,需要錄制大量的語音才能保證覆蓋率;字詞的銜接過渡較為生硬,不夠自然。

2. 參數(shù)語音合成技術(shù)

參數(shù)合成法是主要是通過數(shù)學(xué)方法對(duì)已有聲音數(shù)據(jù)進(jìn)行聲學(xué)特征參數(shù)建模,構(gòu)建文本序列映射到語音特征的映射關(guān)系,生成參數(shù)合成器。

訓(xùn)練好的模型對(duì)輸入數(shù)據(jù)進(jìn)行分詞、斷句、韻律分析等,映射出對(duì)應(yīng)的聲學(xué)特征,再由聲學(xué)模型(聲碼器)合成音頻。

  • 優(yōu)點(diǎn):原始錄音數(shù)據(jù)量?。蛔珠g協(xié)同過渡平滑,自然。
  • 缺點(diǎn):存在音質(zhì)損失,沒有波形拼接的好;機(jī)械感強(qiáng),有雜音。

3. 端到端語音合成技術(shù)

端到端語音合成技術(shù)是目前最為主流的技術(shù),通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法,采用編碼器-注意力機(jī)制-解碼器(Encoder-Attention-Decoder)的聲學(xué)模型,實(shí)現(xiàn)直接輸入文本或者注音字符。

中間為黑盒部分,最后輸出頻譜和聲音波形合成音頻,簡(jiǎn)化了復(fù)雜的語言分析部分和特征抽取過程。

端到端合成大大降低了對(duì)語言學(xué)知識(shí)的要求,可以實(shí)現(xiàn)多種語言的語音合成。通過端到端合成的音頻,效果得到的進(jìn)一步的優(yōu)化,更加自然,趨近真人發(fā)聲效果。

目前,語音生成領(lǐng)域應(yīng)用廣泛且效果優(yōu)秀的產(chǎn)品均基于端到端合成框架實(shí)現(xiàn)的,模型性能和應(yīng)用能力的提升使其逐漸成為主流。

  • 優(yōu)點(diǎn):對(duì)語言學(xué)知識(shí)要求降低;合成的音頻自然,趨近人聲,效果好;同參數(shù)合成一樣所需錄音量小。
  • 缺點(diǎn):黑盒模型,合成的音頻不能人為調(diào)優(yōu);復(fù)雜合成任務(wù)需要較多資源。

當(dāng)前的開源模型在不斷迭代更新,端到端合成目前比較火的有Tacotron2、Transformer-TTS、WavLM等模型。

三、影響應(yīng)用能力的關(guān)鍵因素

四、輸入類型

五、效果指標(biāo)

1. MOS值

定義:找一些業(yè)內(nèi)專家,對(duì)合成的音頻效果進(jìn)行打分,分值在1-5分之間,通過平均得到最后的分?jǐn)?shù)。

這是一個(gè)相對(duì)主觀的評(píng)分,沒有具體的評(píng)分標(biāo)準(zhǔn)。根據(jù)個(gè)人對(duì)音色的喜好,對(duì)合成音頻內(nèi)容場(chǎng)景的掌握情況,以及對(duì)語音合成的了解程度是強(qiáng)相關(guān)的。

雖然mos值是一個(gè)比較主觀的測(cè)試方式,但也有一些可評(píng)判的標(biāo)準(zhǔn)。例如在合成的音頻中,多音字的讀法、當(dāng)前場(chǎng)景下數(shù)字的播報(bào)方式、英語的播報(bào)方式,以及在韻律方面,詞語是否連在一起播報(bào)、應(yīng)該重讀的地方是否有重讀、停頓的地方是否合理、音色是否符合應(yīng)用于當(dāng)前的這個(gè)場(chǎng)景。都可以在打分的時(shí)候做為得分失分的依據(jù)。

2. ABX測(cè)評(píng)

定義:熟知的AB測(cè)試,選擇相同的文本以及相同場(chǎng)景下的音色,用不同的模型合成來對(duì)比哪個(gè)的效果較好,也是人為的主觀判斷。

但是具有一定的對(duì)比性,哪個(gè)模型更適合當(dāng)前的場(chǎng)景,合成的效果更好。

3. 其他指標(biāo)

圍繞合成音頻的可懂性、自然度、相似度。以中文為例,還有些指標(biāo)包括PER(拼音-不包含聲調(diào)-錯(cuò)誤率,越低越好)、PTER(拼音-包含聲調(diào)-錯(cuò)誤率,越低越好)、Sim(與真人聲音的相似度,越高越好)等。

六、應(yīng)用場(chǎng)景

1. 文本-語音合成(TTS)

目前技術(shù)發(fā)展已經(jīng)較為成熟,市面上已有較多公司(訊飛、出門問問、思必馳等)推出了商業(yè)化產(chǎn)品,主要聚焦的應(yīng)用場(chǎng)景是AI語音合成

虛擬人主播

2. 音色遷移/語音克?。⊿VC)

這段時(shí)間爆火的“AI孫燕姿”就是音色克隆的代表之一,只需要一定數(shù)量的訓(xùn)練集錄音,就可將輸入的文本或語音轉(zhuǎn)換為目標(biāo)模型音色

部分商業(yè)化產(chǎn)品目前也在試行推廣這一功能。

目前也有開源模型支持個(gè)人訓(xùn)練,僅需滿足硬件限制(6GB以上顯存的NVDIA顯卡、Windows系統(tǒng))。

例如比較主流的模型so-vits-svc,部署后可直接通過webui即可進(jìn)行訓(xùn)練操作。

github倉庫地址:so-vits-svc/README_zh_CN.md at 4.1-Stable · svc-develop-team/so-vits-svc · GitHub

至此音頻合成的知識(shí)入門就告一段落,感興趣的同學(xué)可以嘗試語音克隆的模型訓(xùn)練去了解更多,實(shí)踐出真知~

本文引用數(shù)據(jù)源:

易觀千帆:https://qianfan.analysys.cn/

本文由 @白金之星 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!