AI能讓視頻更智能嗎?

1 評論 4753 瀏覽 24 收藏 27 分鐘

編輯導(dǎo)語:2016年,AI被人們所熟知并且快速發(fā)展,同時短視頻也慢慢進(jìn)入了人們的視野,AI與視頻相結(jié)合已經(jīng)不是新鮮事。在視頻制作的每一個階段,都有AI的參與。目前的AI+視頻雖然已經(jīng)有了不錯的業(yè)績,但是仍有不少可以優(yōu)化改進(jìn)的地方,我們看到的只是AI應(yīng)用在視頻行業(yè)的冰山一角,背后仍有不少關(guān)鍵地帶待我們?nèi)グl(fā)掘和探險。

2016年,AlphaGo打敗世界圍棋冠軍李世石,將強(qiáng)化學(xué)習(xí)送上了新的研究高潮,同時也推動著人工智能(Artificial Intelligence, AI)進(jìn)入新的發(fā)展階段——不少人也因此稱2016年為人工智能元年。

同樣在2016年,短視頻行業(yè)興起,抖音快手巨頭領(lǐng)跑,各大廠商積極布局,硬生生將我們送入一個全民視頻的時代。

如今四年過去了,兩個行業(yè)在經(jīng)過了各自的火爆、泡沫、與沉淀之后,進(jìn)入了新的發(fā)展時期。無論是人工智能,抑或是長短視頻,不少人稱這兩個行業(yè)均已進(jìn)入了各自的下半場。

圖 人工智能和視頻行業(yè)的下半場

“下半場”這個詞總讓人產(chǎn)生一種危機(jī)感,仿佛這個行業(yè)已經(jīng)日薄西山,窮途末路。然而在我看來,下半場反倒是推動一個行業(yè)前進(jìn)的關(guān)鍵時期。

所謂上半場的紅利,下半場的能力,經(jīng)過了上半場的大浪淘沙,少了些盲從與抄襲、多了些沉淀與堅守的下半場很有可能會為整個行業(yè)帶來新的探索與提升。

當(dāng)AI和視頻這兩個被雙雙認(rèn)為進(jìn)入下半場的行業(yè)碰撞在一起時,又產(chǎn)生了、或即將又會產(chǎn)生什么新的火花呢?

一、視頻生命周期與AI概述

1. 視頻生命周期

一個視頻,從無到有到被觀眾看到,大概會經(jīng)過視頻采集、生產(chǎn)制作、分發(fā)播放與被用戶體驗四個階段。

視頻行業(yè)發(fā)展至今,從PGC到UGC到日益增多的PUGC,越來越多的大眾參與到了視頻的拍攝制作與播放觀看當(dāng)中。在這個過程中,視頻生命周期的每一個階段也發(fā)生了相應(yīng)的變化。

在視頻采集階段,得益于手機(jī)相機(jī)性能的提升,越來越多的人開始用手機(jī)來記錄拍攝生活。

專業(yè)的攝像機(jī)、錄像機(jī)等設(shè)備固然能拍攝出畫質(zhì)更好的視頻,然而對于大多數(shù)人來說,手機(jī)所拍攝出的畫面質(zhì)量足以滿足他們的要求,再加上手機(jī)云臺、無人機(jī)等消費級設(shè)備的出現(xiàn),彷佛人人都有成為自媒體生產(chǎn)者的可能性。

所謂三分拍七分剪,拍攝完畢后的視頻剪輯制作也是關(guān)鍵的一步。

然而傳統(tǒng)的視頻制作過程往往較為繁瑣,一個高質(zhì)量視頻的制作,往往需要在如PS、PR、AE等諸多重量級視頻編輯軟件間反復(fù)切換,視頻的修剪、調(diào)色、配音和渲染更是要花費大量時間。

而如今幾乎每個人的手機(jī)里都有系統(tǒng)自帶的視頻編輯工具,特效、濾鏡、美顏等功能也成了幾乎所有短視頻APP的標(biāo)配,手機(jī)上的各種第三方輕量級視頻剪輯APP更是能讓一個從未做過視頻的小白快速制作出屬于自己的作品。

可以發(fā)現(xiàn),視頻的采集與生成階段都伴隨著從專業(yè)人員到大眾普適參與的轉(zhuǎn)變。而相較于視頻的采集和制作,視頻分發(fā)播放的改變則更為劇烈。

十幾年前,我們觀看視頻的方式多是守在電視機(jī)前,被動地接受各大電視臺制定好的節(jié)目單。

時至今日,網(wǎng)絡(luò)視頻已經(jīng)成為中國人最主要的休閑娛樂方式,優(yōu)愛騰芒同題競爭,抖快B站超車入局,人人可以在手機(jī)等移動設(shè)備上看到自己喜愛的內(nèi)容。

用戶體驗在互聯(lián)網(wǎng)領(lǐng)域備受關(guān)注,早期的電視視頻時期,我們只能進(jìn)行單向觀看。如今,在各大網(wǎng)絡(luò)視頻平臺上,我們可以進(jìn)行評論、點贊、彈幕等等一系列互動操作,網(wǎng)絡(luò)視頻平臺的熱烈反響更是一度讓傳統(tǒng)衛(wèi)視感受到了危機(jī)。

可以看到,整個視頻生命周期的變化,是一個生產(chǎn)者逐漸變多、觀看者越發(fā)積極、以及雙方的交流互動越發(fā)充分的過程。

2. AI簡述

人工智能是一個非常廣泛的領(lǐng)域。借助于計算機(jī)運算能力的提升和數(shù)據(jù)存儲容量的增大,人工智能在幾年前掀起了新的討論及研究熱潮。

我們聽到的幾乎所有跟“學(xué)習(xí)”有關(guān)的,如有無半監(jiān)督、強(qiáng)化、機(jī)器、深度學(xué)習(xí)等,均是人工智能領(lǐng)域下的分支,而諸如CV、NLP、RS、OCR等諸多方向更是讓AI小白眼花繚亂。

我們暫不討論它們的關(guān)系如何,算法又是怎樣。有時從應(yīng)用場景的角度來看AI,往往能讓AI多一點地氣,少一點高深。

視頻行業(yè)中可能會用到的AI技術(shù),大致包含圖像、聲音、文本處理及大數(shù)據(jù)分析等幾個方向:

  1. 在視頻采集階段:主體識別與跟隨拍攝、AI防抖等功能均得益于圖像識別及處理技術(shù)的發(fā)展。
  2. 制作階段:內(nèi)容及語音識別促進(jìn)了AI剪輯、智能字幕、實時翻譯等應(yīng)用的逐漸出現(xiàn)。
  3. 分發(fā)播放階段:內(nèi)容識別等技術(shù)協(xié)助視頻審核、分類與編目;基于用戶、客戶、視頻等海量數(shù)據(jù)的分析更是促進(jìn)了推薦系統(tǒng)的誕生。
  4. 體驗階段:視頻內(nèi)容、主體識別等技術(shù)催生了如彈幕防擋、實時視頻人物識別等一系列應(yīng)用。

人工智能下半場,AI勢必會加速向各個行業(yè)的融入。視頻行業(yè)的下半場,大概也是如此。而AI+視頻,兩個積累了數(shù)年沉淀的行業(yè),很有可能會碰撞出新的火花。

過去是未來最好的預(yù)言家,AI+視頻的未來究竟會怎樣?我們不妨看一看AI+視頻的過去。

二、AI如何幫助視頻變智能

1. 視頻采集

視頻采集階段,AI主要用來協(xié)助提升視頻拍攝質(zhì)量、提高視頻拍攝效率。

案例1:愛豆直拍

2020年初,《青春有你2》和《創(chuàng)造營3》相繼播出,讓“愛豆直拍”火了一把。

所謂直拍,指的是男女團(tuán)表演的時候單獨只拍攝某一個人的全程表演。在青你和創(chuàng)3的女團(tuán)選秀中,就需要十幾乃至幾十臺攝像機(jī)同時對準(zhǔn)藝人進(jìn)行拍攝。

圖 創(chuàng)造營3徐藝洋直拍

有消息稱,創(chuàng)3的直拍方式是系統(tǒng)自動識別舞臺上的藝人人臉,然后機(jī)器自動跟蹤人體軌跡進(jìn)行拍攝。這種拍攝方式在實際中使用的比例有多大,我們暫且未知,但這的確是一個AI輔助視頻拍攝的絕佳應(yīng)用場景。

通過人臉識別利用機(jī)器自動跟蹤拍攝,從而解放大量攝影師的雙手,極大地降低了人力成本。然而,同樣有不少粉絲發(fā)現(xiàn)直拍有藝人跟丟的情況,若非攝影師開小差,那就是這項技術(shù)仍有不少的提升空間。

案例2:拍攝防抖

不少人在利用手機(jī)進(jìn)行視頻拍攝時都會遇到拍攝抖動的問題,而手抖可以說是手機(jī)拍攝視頻時最常見的”敵人”。想要拍出高質(zhì)量的視頻,防抖是亟需解決的關(guān)鍵問題之一。

圖 OPPO的視頻超級防抖

站在短視頻的風(fēng)口浪尖,各大手機(jī)廠商也開始在防抖上紛紛發(fā)力。

OPPO的視頻防抖3.0,VIVO的微云臺,魅族的全場景視頻防抖,華為的EIS智能防抖,無不顯示出各大手機(jī)廠商對于視頻防抖的巨大關(guān)注。

視頻防抖算法的背后,是大量的圖像采集、分析及處理的過程,或許AI技術(shù)的發(fā)展為視頻拍攝的防抖做出了巨大的貢獻(xiàn)。

案例3:無人機(jī)跟隨拍攝

自動跟蹤模式多年來一直是航拍無人機(jī)的標(biāo)準(zhǔn)功能:通過識別鏡頭畫面中的主體,自動跟蹤人物、車輛等進(jìn)行拍攝。同時,通過攝像頭、傳感器等設(shè)備了解周圍環(huán)境,進(jìn)行拍攝過程中的自動避障。

圖 大疆無人機(jī)的跟隨拍攝功能

無人機(jī)的跟隨拍攝,集視頻主體識別、跟蹤拍攝和視頻防抖等多種技術(shù)于一體,讓無人機(jī)可以捕捉到如電影般的自動跟蹤畫面。

盡管這項功能相對比較常見,但是由于實際拍攝場景的復(fù)雜,跟蹤拍攝的效果有時會不如人意。跟蹤丟失、避障失敗成了不少炸機(jī)黨永遠(yuǎn)的痛。而未來AI等技術(shù)的發(fā)展,很有可能會促進(jìn)這些問題的逐漸解決。

2. 生產(chǎn)制作

視頻生產(chǎn)階段,AI主要用來協(xié)助減小人力負(fù)擔(dān),提高視頻制作效率。

案例1:視頻濾鏡

愛美之心,人皆有之,每個人都愿意向世界展示自己美麗的一面。

不知何時起,美顏彷佛成為了一個剛需。不論是各大短視頻軟件,抑或是廣大視頻直播平臺,甚至疫情期間上線的各大視頻會議軟件,都上線了美顏功能。

圖 釘釘視頻會議美顏功能

美顏、瘦臉、貼紙、濾鏡是圖像識別及處理技術(shù)在視頻領(lǐng)域常見的應(yīng)用。至于未來的美顏會是怎樣,當(dāng)看慣了磨皮與瘦臉之后,或許自然又健康的美顏處理,會是另一個發(fā)展方向。

案例2:AI剪輯

AI在識別圖像內(nèi)容與提供標(biāo)簽這些方面已經(jīng)獲得的成效,已經(jīng)可以幫助用戶以前所未有的速度與效率剪輯視頻。

AI基于圖像識別,可以從各個渠道搜索并提取切分出包含特定關(guān)鍵詞內(nèi)容的視頻片段,匯總在一起,從而節(jié)省人來搜索和切分素材的時間。

圖 阿里云利用AI快速生成2018世界杯精彩集錦

目前的AI剪輯可以識別出視頻畫面中的對象,比如這段視頻中有某個明星,那段視頻里某幾秒種有長城的鏡頭;可以將人物出現(xiàn)的時間線連接起來,自動生成人物集錦;可以識別經(jīng)典的體育賽事瞬間,進(jìn)行前期的素材整理工作。

在理解了視頻內(nèi)容之后,就可以利用AI學(xué)習(xí)剪輯規(guī)則去組接視頻。在大型視頻拍攝場景中,如何從幾十臺機(jī)位中找到最終剪輯需要的鏡頭,又該如何將這些鏡頭以合適的方式拼接起來,還需要未來AI技術(shù)的不斷發(fā)展和探索應(yīng)用。

案例3:字幕制作

字幕制作是視頻編輯領(lǐng)域的另一大關(guān)鍵步驟,傳統(tǒng)字幕制作耗時耗力,需要進(jìn)行語音轉(zhuǎn)文字、時間軸校對、甚至多語言場景下的翻譯等一系列工作。

利用AI技術(shù),可以實現(xiàn)自動語音轉(zhuǎn)文本、文本的多語種翻譯等工作。這項技術(shù)除了可以應(yīng)用于離線視頻之外,也可以運用于會議直播的實時字幕及翻譯。

AI技術(shù)的發(fā)展,甚至一度危機(jī)到字幕組的生存。從技術(shù)原理上來講,AI取代人工進(jìn)行視頻翻譯,合情合理。而這種邏輯僅僅在理論上行得通,但在實際應(yīng)用時還有諸多問題。

圖 Youtube視頻翻譯

視頻的翻譯,應(yīng)該是結(jié)合了語境理解、文化理解以及對內(nèi)容熟稔之后的綜合工作。

而在不少情況下,純粹的機(jī)器翻譯結(jié)果,往往漏洞百出,很多雙關(guān)、暗示之類的內(nèi)容無法翻譯出來,而這或許將成為未來AI翻譯發(fā)展的一個方向。

3. 分發(fā)播放

視頻分發(fā)播放階段,AI主要用來提高視頻資源管理效率,減小人力成本,提升用戶體驗。

案例1:視頻審核

無論是優(yōu)愛騰芒,抑或是抖快B站,乃至微信公眾平臺中,視頻的審核是視頻被觀眾看到前的最后一步。

目前大部分視頻公司都是采取技術(shù)+人工的審核模式,技術(shù)的審核可以清除大部分明顯違規(guī)的內(nèi)容,而剩下的模糊內(nèi)容則留給人工進(jìn)行審核。

據(jù)網(wǎng)易易盾稱,其內(nèi)容安全服務(wù)智能識別精準(zhǔn)率超過99.8%,能提供黃政暴恐廣告等數(shù)十大類上千小類的有害內(nèi)容智能識別過濾服務(wù)。

阿里云、騰訊云、百度云等也都有自己的智能審核引擎。

圖 騰訊云官網(wǎng)的智能鑒黃

AI雖然不能完全替代審核師,卻能幫助審核人員減少超99%的工作量。

但AI幫助審核人員的,可不僅如此。一些視頻中會出現(xiàn)一些超出大家想象的高清圖。它們帶來的視覺沖擊力非常大,讓人猶如身臨其境,造成心理崩潰,甚至懷疑人生。

AI帶來的不僅僅是視頻審核工作量的降低,更是一個過濾后干凈美好的世界。

案例2:視頻編目分類

我們之所以能夠根據(jù)自己不同興趣的組合搜索到需要的視頻,是因為有一群看不見的英雄每日瀏覽無數(shù)視頻內(nèi)容且對它們進(jìn)行分類和標(biāo)記,而AI的出現(xiàn)也大大減小TA們的工作量。

此前Pornhub曾宣布,其推出的新AI 模型可以利用計算機(jī)視覺技術(shù)檢測和識別成人明星的名字,自動生成相應(yīng)標(biāo)簽和分類。

圖 Pornhub利用AI進(jìn)行視頻的打標(biāo)簽與分類

阿里云也稱,其可以利用AI技術(shù)進(jìn)行視頻自動分類打標(biāo)、人物識別、語音和OCR識別等工作,自動生成源數(shù)據(jù)信息,進(jìn)入媒資庫,并結(jié)合NLP、分詞、語義分析、詞性過濾等場景,進(jìn)入到后續(xù)的搜索和推薦的領(lǐng)域。

智能編目的方案組合,可以快速生成最基礎(chǔ)的源數(shù)據(jù),極大提升了創(chuàng)作和生產(chǎn)效率,節(jié)省了內(nèi)容和人力成本。

案例3:推薦系統(tǒng)

推薦系統(tǒng)(RS)是AI領(lǐng)域的熱門方向之一,視頻領(lǐng)域的推薦主要包含視頻推薦和廣告推薦兩大類。

為什么抖音那么容易上癮?為什么百度從起初的只做搜索到如今的“搜索+信息流”雙引擎?為什么各大視頻、音樂、新聞應(yīng)用中都有了一欄叫做“推薦”的區(qū)域?

圖 筆者之前對Youtube推薦系統(tǒng)的一份調(diào)研

所謂推薦,其實就是將合適的內(nèi)容在合適的場景下以合適的方式送達(dá)到合適的人手中。視頻推薦系統(tǒng)作為AI領(lǐng)域較為成熟的應(yīng)用,如今已經(jīng)為字節(jié)系等不少廠商帶來了豐厚的收益。

可以預(yù)測,未來的推薦系統(tǒng)仍會繼續(xù)發(fā)展。如何為用戶推薦更加多樣化、更加有價值的內(nèi)容,避免用戶走進(jìn)信息繭房,可能是未來亟需解決的問題。

4. 用戶體驗

用戶體驗的好壞是一款產(chǎn)品能否成功的關(guān)鍵因素之一,視頻領(lǐng)域更是如此。視頻的用戶體驗,大致可以從三個方面來看:觀看體驗、交互體驗和視頻源質(zhì)量。

案例1:彈幕防擋

如今,彈幕已成為觀看視頻中不可缺少的元素之一。

特別是當(dāng)視頻網(wǎng)站全面開啟彈幕模式之后,越來越多的網(wǎng)友可以邊看劇邊實時發(fā)表評論,劇透、點評、爭論甚至聊天。甚至在直播中,也有大量的彈幕。

彈幕,成了一種文化現(xiàn)象。它形成了新的“抱團(tuán)”觀看模式,也真正實現(xiàn)了無時空距離的社交。

熱鬧歸熱鬧,彈幕炸屏確實影響了不少用戶的觀看體驗,堆滿整個屏幕的彈幕著實讓人是不知該看視頻還是該看彈幕。

圖 B站《海賊王》的炸屏彈幕

慶幸的是,不少視頻平臺也上線了彈幕屏蔽、防擋彈幕等功能。

B站通過對視頻畫面中的主體進(jìn)行識別,自動隱藏視頻主體區(qū)域的彈幕,既不影響視頻的觀看體驗,又保障廣大網(wǎng)友之間互動的樂趣。

圖 B站防擋彈幕,人物主體部分未被遮擋

但據(jù)筆者體驗,該項技術(shù)目前的識別準(zhǔn)確度還有待提升,特別是在畫面突然進(jìn)行切換時會出現(xiàn)彈幕防擋失效的現(xiàn)象,期待未來B站及其他視頻廠商在此方向上的的改進(jìn)探索與發(fā)展。

案例2:智能彈幕

彈幕文化的盛行,逐漸讓視頻平臺看到了新的機(jī)會。彈幕不僅僅再是網(wǎng)友們用來交流的途徑,更成了視頻平臺的一種營銷及商業(yè)變現(xiàn)手段。

利用輿情監(jiān)測系統(tǒng)識別彈幕中的關(guān)鍵詞,捕捉廣大用戶的興趣點,從而篩選出備受觀眾歡迎的彈幕詞條內(nèi)容并發(fā)送,可以達(dá)到非常好的營銷效果。

除此之外,智能彈幕更是可以放出和視頻場景高度相關(guān)的廣告彈幕,幫助廣告主創(chuàng)造出既符合用戶體驗、又打動消費者的營銷體驗。

圖 愛奇藝999感冒靈的彈幕上墻廣告

2020年在愛奇藝上播出的電視《幸福觸手可及》中,999感冒靈作為劇中彈幕上墻廣告的首次合作客戶,憑借著貼合年輕用戶的彈幕語境和發(fā)彈幕贏百元現(xiàn)金的創(chuàng)新互動進(jìn)入了大眾視野,成功塑造起了在年輕用戶圈層中的活力品牌形象。

圖 愛奇藝《幸福觸手可及》中999感冒靈的彈幕上墻廣告

彈幕,不僅僅是網(wǎng)友間交流互動的方式,更成了集輿論引導(dǎo)、商業(yè)變現(xiàn)為一體的新營銷方式。彈幕文化做一種從年輕人中逐漸興起的新興文化,頗有成為新的“社交工具”的趨勢。

未來的彈幕,是否會更加社交化?是否能營造出更多話題?又是否能更加促進(jìn)商業(yè)變現(xiàn)?讓我們拭目以待。

案例3:視頻內(nèi)容識別/交互式視頻

不知各位有無這樣的體驗:

  • 初看一部新劇,特別是美/英劇時,往往會記不住大多數(shù)人的臉;
  • 有時候覺得視頻中某個角色很眼熟,但總是想不起TA演過什么角色;
  • 初看一個男女團(tuán)選秀節(jié)目,一時間難以記住一大批藝人的信息;
  • 視頻中出現(xiàn)的某一件衣服/某一款產(chǎn)品很想要,但卻不知道該如何獲取它們的購買鏈接……

視頻播放時,讓用戶通過點擊、框選等各種操作獲取視頻畫面中的特定內(nèi)容,從而通過內(nèi)容識別技術(shù)給出用戶需要的附加信息,在一定程度上可以幫助這些問題的解決。

伴隨著2020《青春有你2》的播出,愛奇藝上線的“奇觀”應(yīng)用為用戶提供了一鍵解鎖“她是誰”的互動新方式,用戶通過奇觀就能夠邊看邊了解訓(xùn)練生的基本信息、相關(guān)作品。

圖 愛奇藝奇觀

未來是否會出現(xiàn)更多類似的產(chǎn)品呢?

答案是肯定的。

我在上篇文章中說到,交互性很有可能會是未來信息傳播形式的一個關(guān)鍵特點。通過播放頁面上的交互操作,讓用戶可以不經(jīng)應(yīng)用的跳轉(zhuǎn),直接在視頻播放界面上獲取到其想了解的關(guān)鍵信息,從而極大提高信息傳達(dá)獲取的效率。

三、未來的AI+視頻

視頻的采集制作分發(fā)播放,是一條較為完整的產(chǎn)業(yè)鏈,而AI更像是一個幫助解決問題的強(qiáng)有力工具。AI只是手段,并非目的,AI+視頻的關(guān)鍵,在于如何發(fā)現(xiàn)、并利用AI去解決視頻行業(yè)中的難題。

未來的AI+視頻,會在提高視頻生產(chǎn)制作效率、規(guī)避監(jiān)管風(fēng)險、解放人力、降低成本、提升用戶視頻體驗等各個方面進(jìn)行新的優(yōu)化。

可以看到,當(dāng)前的AI+視頻仍有不少可以優(yōu)化改進(jìn)的地方。我們僅僅看到了AI在視頻行業(yè)落地的冰山一角,它的背后,仍有不少關(guān)鍵地帶等待我們?nèi)グl(fā)掘和探險:

  • 視頻拍攝的防抖算法已經(jīng)足夠優(yōu)秀了嗎?
  • 無人機(jī)的跟隨拍攝能做到?jīng)Q不跟丟嗎?
  • 視頻拍攝時能給出實時的取景和構(gòu)圖建議嗎?
  • AI剪輯能做出面向普適大眾的消費級產(chǎn)品嗎?
  • 視頻編輯時可以自動聯(lián)網(wǎng)搜索出匹配畫面的聲音庫?
  • 視頻審核、分類的準(zhǔn)確率可以進(jìn)一步提升嗎?
  • 推薦系統(tǒng)能讓用戶走出信息繭房嗎?
  • 彈幕可以少一些打擾,多一些科普及有意義的信息嗎?
  • 交互式視頻未來可以做的更加易用好用嗎?

種種問題,都在等待著未來的探索與解決。期待未來的AI與視頻,能夠雙雙攜手,邁上新的臺階。

 

本文由 @FergusNie 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自?Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 視頻方面的內(nèi)容很豐富

    來自江蘇 回復(fù)