如何設(shè)計一款有溫度的AI產(chǎn)品?(三)
在前面,作者介紹了自己在設(shè)計一款“有溫度”的AI產(chǎn)品的歷程和感悟,這里,作者接著做出闡述,并對實時Agent發(fā)表了自己的一些看法,一起來看看吧。
接上文:
兩個小家伙天天活力無限,抱歉拖更有點嚴(yán)重,祝大家新年新活力,歲歲福滿堂。
一、和大家匯報下親音AI這款產(chǎn)品的進展
做這個產(chǎn)品的初衷,通過AI科技的途徑,見到已逝的心心念念之人,彌補心里的遺憾,也讓AI變成有溫度的科技,而不是冷冰冰商業(yè)變現(xiàn)或是人力的替代,目前初版產(chǎn)品已經(jīng)研發(fā)完成了,將實時的Taking Head轉(zhuǎn)換成文字方式,1.5版本會將實時視頻放出來(WIFI環(huán)境下實時延遲5秒以內(nèi))。
發(fā)展方面,也有幾個投資人想要對這個產(chǎn)品進行投資,我還是想保持下初心,讓我的兩個孩子看看他們沒有見過的爺爺,投資的事項我可能要放后面一點,在另外一個實時Agent + RPA的項目上商業(yè)化,這個產(chǎn)品還是單純的自私一點。
二、1.4版本的產(chǎn)品設(shè)計相關(guān)
想來想去,還是V信是最習(xí)慣的溝通交互,所以你懂的像素級Copy(這被設(shè)計師朋友作為了一生的恥辱,已經(jīng)和我斷交了,設(shè)計了九個版本從0.5到1.4,最后改回了最初的交互,他說以后連眼神都不會和我進行交流…)。
三、幾個版本的設(shè)計理念
1.4的版本設(shè)計中,智能體Agent可以主動的和人進行交流,圖片,語音,文字,視頻都會主動的進行發(fā)送,當(dāng)然這些還是基于規(guī)則層面的,還沒有達到一個智能體Agent該有的高度(能感知環(huán)境,感知交流人的情緒,安撫并善于溝通,獨立推理思考這些),近期也會發(fā)布到應(yīng)用市場。
1.5版本中,會加入基于RAD-NERF的實時視頻相關(guān)的能力,這個改動會相對大一些,1.5版本才是我最最想要的東西,所有的思考都是源于可視化的實時交流。
1.6版本中,會將采用AI Agent框架重寫下,當(dāng)前智能體的交流方式,從被動Prompt,到主動使用攝像頭感知交流者的情緒、當(dāng)前環(huán)境,為智能體創(chuàng)造一個可以生存的虛擬靈域,這個并不是天方夜譚,一個微模型的環(huán)境中,有人類所需要各種設(shè)施,智能體可以生活中這個小鎮(zhèn)中,彼此可以交流并保持長期記憶,每一次的溝通智能體都會更像自己的心心念念之人。
四、實時Agent的一些思考和技術(shù)實現(xiàn)
目前采用的是基于RAD-NERF的低緯特征進行音頻面部驅(qū)動的,說實話論文的中的理論部分沒看懂,好多公式還得先Google下才能稍稍理解。
通俗來講就是根據(jù)一段視頻,先分離音頻,將視頻分為一幀一幀的圖像,然后通過3DMM等模型分割人像,加入背景圖片進行頭部、唇部、身體部分訓(xùn)練得到訓(xùn)練好的人物模型,最后通過文字轉(zhuǎn)語音驅(qū)動當(dāng)前的任務(wù)進行Talking head,實時將每一幀推送給需要的播放端,所以對產(chǎn)品的挑戰(zhàn)就是,需要有人物的聲音,視頻,作為訓(xùn)練素材,背景不能有雜音,視頻動作需要有規(guī)范。
一些改進的思考,首先speech to text耗時有一些,目前一些模型也支持,語音生成語音openai 或是達摩院的一些產(chǎn)品,可以省去音頻轉(zhuǎn)換部分的IO消耗及網(wǎng)絡(luò)相關(guān)的耗時,推流部分應(yīng)該前后有銜接動作或是語音的暫停1-2秒,更好的銜接,還有就是虛機配顯卡的環(huán)境適合測試,真正使用還是需要物理機,推理性能提高10%以上,還是有很大幫助的,這部分我會單獨發(fā)布下包括后面的源碼。
最后,還是保持初心,科技是生活的一部分,不是全部,身邊的人是最需要關(guān)注的。
未完待續(xù)。
本文由 @AI李伯男 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!