【視頻后臺(tái)專題】算法與后臺(tái)的完美結(jié)合——視頻內(nèi)容理解
編輯導(dǎo)語:視頻行業(yè)的發(fā)展從曾經(jīng)的專業(yè)劇組制作內(nèi)容,到如今人人都可以進(jìn)行內(nèi)容創(chuàng)作,大家想要表達(dá)的內(nèi)容也通過視頻的形式呈現(xiàn)了出來。正是因?yàn)槿绱耍曨l的供給量出現(xiàn)了指數(shù)級(jí)的增長(zhǎng)曲線。因此,算法與后臺(tái)的完美結(jié)合是當(dāng)下可以改進(jìn)的一大方向,內(nèi)容理解也相應(yīng)成了輔助視頻質(zhì)量評(píng)判的重要引擎。本文對(duì)該引擎進(jìn)行了總結(jié),并與你分享。
視頻行業(yè)從曾經(jīng)基本以專業(yè)劇組制作內(nèi)容為主到現(xiàn)在個(gè)人博主+小型工作室+專業(yè)劇組的多元內(nèi)容制作,現(xiàn)在越來越多人開始嘗試通過以視頻的形式承載自己想要表達(dá)的內(nèi)容。
這樣的環(huán)境下,視頻生產(chǎn)者逐月遞增,伴隨著視頻生產(chǎn)者人數(shù)的增多,視頻的供給量便出現(xiàn)了指數(shù)級(jí)的增長(zhǎng)曲線。在龐大有復(fù)雜的視頻內(nèi)容的海洋中,篩選出來優(yōu)質(zhì)視頻,淘汰劣質(zhì)視頻在當(dāng)下僅通過人工的方式已經(jīng)無法覆蓋行業(yè)的素材,因此內(nèi)容理解便成為了輔助業(yè)務(wù)對(duì)視頻進(jìn)行優(yōu)劣鑒定的重要引擎。
一、什么是視頻內(nèi)容理解
視頻內(nèi)容理解,主要是針對(duì)視頻進(jìn)行從碼流質(zhì)量到內(nèi)容表現(xiàn)及含義的分析。視頻行業(yè)中,會(huì)針對(duì)于視頻內(nèi)容生產(chǎn)源對(duì)視頻內(nèi)容進(jìn)行區(qū)分,主要是分為PPC(專業(yè)版權(quán)采購(gòu)或自制內(nèi)容)、PGC(專業(yè)分賬內(nèi)容)、UGC(用戶原創(chuàng)內(nèi)容)這三類視頻內(nèi)容。
內(nèi)容理解的目的是通過AI的方式將視頻內(nèi)容(包括視頻、音頻、字幕)和視頻互動(dòng)互動(dòng)內(nèi)容(評(píng)論、收藏、點(diǎn)贊、評(píng)分、彈幕、屏蔽、不推薦等)等多維度內(nèi)容進(jìn)行表征和語意的詳細(xì)分析,并將分析的結(jié)果推動(dòng)給前端如推薦、搜索等業(yè)務(wù)。
1. 行業(yè)發(fā)展
內(nèi)容行業(yè)發(fā)展至今主要存在三個(gè)時(shí)代:
- 門戶時(shí)代
- 搜索/社交時(shí)代
- 智能時(shí)代
(1)門戶時(shí)代
1995~2002年主要是門戶網(wǎng)站主導(dǎo)下的互聯(lián)網(wǎng)內(nèi)容服務(wù),國(guó)內(nèi)代表公司是四大門戶網(wǎng)站,新浪、網(wǎng)易、搜狐、騰訊。在互聯(lián)網(wǎng)的初期,由于用戶的消費(fèi)信息數(shù)量基本只能從紙媒和電視中獲得,又由于紙媒版面限制和電視廣告的按時(shí)間線型排布的特點(diǎn),導(dǎo)致報(bào)紙+電視+廣播這三種傳統(tǒng)方式內(nèi)容數(shù)據(jù)較少且不具備長(zhǎng)時(shí)間儲(chǔ)存的特性。
因此在那個(gè)時(shí)代用戶亟需一個(gè)內(nèi)容聚合平臺(tái),因此門戶網(wǎng)站變成為了人們夠快速的尋找信息的基礎(chǔ)設(shè)施。門戶網(wǎng)站主要運(yùn)營(yíng)的方式是通過人工對(duì)內(nèi)容進(jìn)行整理,然后以頻道頁(yè)形式滿足用戶需求。
前期主要是以人工對(duì)信息的判斷進(jìn)行運(yùn)營(yíng),伴隨著數(shù)據(jù)量級(jí)的的增多,僅依靠人工運(yùn)營(yíng)的方式會(huì)出現(xiàn)成本急劇攀升,人員沒有更多精力處理海量?jī)?nèi)容,因此各大企業(yè)紛紛引入自動(dòng)化內(nèi)容分類等技術(shù),此后,內(nèi)容分類技術(shù)伴隨著數(shù)據(jù)增多而發(fā)展迅速。
(2)搜索/社交時(shí)代
2003年~至今,國(guó)內(nèi)及海外互聯(lián)網(wǎng)都在搜索社交的時(shí)代中。主要代表公司:騰訊、Google、Facebook、百度、愛奇藝(愛奇藝做了能力最強(qiáng)的全站視頻搜索引擎)。
隨著家用電腦及智能手機(jī)的不斷普及,內(nèi)容數(shù)量和類型不斷豐富,門戶網(wǎng)站已經(jīng)很難承擔(dān)多類型海量?jī)?nèi)容的分發(fā)任務(wù),用戶面對(duì)爆炸內(nèi)容時(shí),傳統(tǒng)門戶網(wǎng)站對(duì)于用戶選擇呈現(xiàn)了低效的現(xiàn)象。
于是,一種新的信息分發(fā)技術(shù)誕生——搜索。搜索主要解決的問題是根據(jù)用戶搜索的內(nèi)容找到相關(guān)內(nèi)容,并根據(jù)將內(nèi)容有序的呈現(xiàn)在用戶面前。搜索初期關(guān)鍵詞技術(shù)很好的解決了這個(gè)需求,于是也成為那個(gè)時(shí)期的研究熱點(diǎn)。
但是關(guān)鍵詞技術(shù)同樣存在實(shí)體歧義的局限性,比如搜索亞瑟王,關(guān)鍵詞很難區(qū)分出來是亞瑟玩?zhèn)髌娴膩喩酰€是Type-moon的Saber。在2012年 Google 提出知識(shí)圖譜概念,主要就是用于解決上述的實(shí)體歧義問題,實(shí)體鏈指的問題也有了比較大的進(jìn)展。
(3)智能時(shí)代
自2012年~至今,伴隨著內(nèi)容爆炸式的增長(zhǎng),用戶消費(fèi)模式更進(jìn)一步融合了門戶網(wǎng)站的海量?jī)?nèi)容呈現(xiàn)+搜索時(shí)代的精準(zhǔn)化內(nèi)容檢索,推薦及個(gè)性化推薦應(yīng)運(yùn)而生。2012年則是作為智能時(shí)代的開端,雖然個(gè)性化推薦技術(shù)早有研究,但是對(duì)于信息分發(fā)這個(gè)任務(wù)有不可或缺的推動(dòng)作用。
① 圖文時(shí)代
個(gè)性化推薦其實(shí)經(jīng)歷了兩個(gè)時(shí)代,其一是圖文時(shí)代,其二是視頻時(shí)代。圖文時(shí)代在國(guó)內(nèi)則是以今日頭條和一點(diǎn)資訊為代表的個(gè)性化圖文分發(fā)引擎,初期內(nèi)容基本上是通過爬去各個(gè)傳統(tǒng)門戶網(wǎng)站的內(nèi)容經(jīng)過自己的內(nèi)容理解做好基礎(chǔ)分類的標(biāo)簽歸屬,然后在通過個(gè)性化分發(fā)引擎做到你關(guān)心的就是頭條。
② 視頻時(shí)代
自2015年開始,伴隨4G普及及終端設(shè)備的急劇降低,用戶消費(fèi)場(chǎng)景正式步入移動(dòng)時(shí)代。在內(nèi)容消費(fèi)中也逐步變成從傳統(tǒng)圖文消費(fèi)轉(zhuǎn)變?yōu)榱艘曨l、音頻消費(fèi)的模式。這個(gè)時(shí)候,由于音視頻本身的識(shí)別難度遠(yuǎn)大于圖文內(nèi)容,在優(yōu)劣內(nèi)容判別時(shí),傳統(tǒng)的知識(shí)圖譜、關(guān)鍵詞、人工運(yùn)營(yíng)已經(jīng)無法覆蓋生動(dòng)的視頻內(nèi)容,這個(gè)時(shí)候內(nèi)容理解便得到了重要發(fā)展。
2. 內(nèi)容理解的重要性
內(nèi)部因素來看:伴隨內(nèi)容爆炸式增長(zhǎng),UGC創(chuàng)作者創(chuàng)作水平、創(chuàng)作目的各不相同;PPC&PGC內(nèi)容則面臨著視頻二次創(chuàng)作,選擇優(yōu)質(zhì)經(jīng)典內(nèi)容成本極高的問題;消費(fèi)者存在內(nèi)容理解偏差,平臺(tái)需要保證基礎(chǔ)內(nèi)容質(zhì)量將優(yōu)質(zhì)內(nèi)容呈現(xiàn)在消費(fèi)者面前。
平臺(tái)面臨運(yùn)營(yíng)人力成本控制及優(yōu)質(zhì)內(nèi)容選擇,優(yōu)秀創(chuàng)作者篩選,版權(quán)采購(gòu)及運(yùn)營(yíng)工業(yè)化等各方面問題。
外部因素來看:自2015年開始,食品消費(fèi)增速不斷擴(kuò)大,視頻消費(fèi)已經(jīng)占據(jù)用戶在內(nèi)容領(lǐng)域消費(fèi)的絕對(duì)大頭,并且在2021年及之后的一段時(shí)間內(nèi)依然是保持增長(zhǎng)賽道。
外部需求有,內(nèi)容供給足,運(yùn)營(yíng)成本高,三者結(jié)合,視頻內(nèi)容理解則成為了平臺(tái)重要扶持對(duì)象。
二、視頻內(nèi)容理解產(chǎn)品架構(gòu)
產(chǎn)品能力上來講,內(nèi)容理解主要分為三個(gè)部分:視頻信息歸類、視頻特征整理、優(yōu)劣內(nèi)容識(shí)別。
視頻信息歸類:通常情況下內(nèi)容理解算法經(jīng)過深度學(xué)習(xí)以后,可以對(duì)視頻內(nèi)容進(jìn)行內(nèi)容分類及標(biāo)簽定義,用于給視頻內(nèi)容自動(dòng)化定義基礎(chǔ)的分類和相近的標(biāo)簽。
視頻特征整理:視頻特征主要針對(duì)于視頻內(nèi)容本身和視頻評(píng)論進(jìn)行特征標(biāo)識(shí)的。通常情況下會(huì)視頻本身的特征主要是對(duì)畫面和音頻兩個(gè)方面進(jìn)行特征整理。畫面方面主要是強(qiáng)調(diào)的是視頻主題(視頻帶貨、才藝表演、古裝電視、綜藝真人秀)、作者類型(穿搭博主、顏藝博主)、創(chuàng)作者能力及興趣(資訊版本、歷史板塊、泛知識(shí)類板塊)、OCR識(shí)別(主要識(shí)別視頻畫面中的文字關(guān)鍵信息)。
對(duì)于音頻則主要是識(shí)別音頻中的音樂(出現(xiàn)位置、BGM名稱等)、ASR識(shí)別(語音轉(zhuǎn)文字、音色、音調(diào)等)。針對(duì)于視頻評(píng)論主要是整理評(píng)論估計(jì)推薦度、評(píng)論關(guān)鍵詞等信息作為輔助本身本身特征及歸類的描述。
優(yōu)劣內(nèi)容識(shí)別:一般情況下內(nèi)容理解后臺(tái)會(huì)對(duì)線上視頻內(nèi)容做組合式內(nèi)容優(yōu)劣識(shí)別,組合式包括了內(nèi)容本身及內(nèi)容評(píng)論兩個(gè)部分。這之中主要是會(huì)對(duì)內(nèi)容本身、內(nèi)容評(píng)論做獨(dú)立優(yōu)劣識(shí)別,同時(shí)會(huì)根據(jù)內(nèi)容評(píng)論的分析結(jié)果作為內(nèi)容本身優(yōu)劣的一個(gè)評(píng)判維度。
針對(duì)于內(nèi)容本身一般會(huì)分為優(yōu)質(zhì)內(nèi)容、次優(yōu)質(zhì)內(nèi)容、一般內(nèi)容、劣質(zhì)內(nèi)容四項(xiàng),評(píng)論通常情況下會(huì)分為神評(píng)論、一般評(píng)論、爭(zhēng)議評(píng)論、劣質(zhì)評(píng)論、抑制創(chuàng)作評(píng)論這五種類型。整體對(duì)于內(nèi)容優(yōu)劣的判斷通常如下圖所示:
1. 內(nèi)容理解流程
為了快速對(duì)視頻內(nèi)容形成信息歸類、特征理解與優(yōu)劣判定,當(dāng)視頻入庫(kù)的時(shí)候,內(nèi)容理解后臺(tái)會(huì)監(jiān)聽視頻內(nèi)容入庫(kù)的消息,視頻入庫(kù)完成后通常會(huì)到存儲(chǔ)將視頻內(nèi)容下載到內(nèi)容理解后臺(tái)中,在內(nèi)容理解后臺(tái)對(duì)視頻展開畫面及音頻的內(nèi)容分析,確定視頻的基本歸類、特征、優(yōu)劣判斷。
在視頻上線一段時(shí)候以后,展開周期性的根據(jù)視頻互動(dòng)數(shù)據(jù)對(duì)視頻內(nèi)容理解進(jìn)行多次優(yōu)化,不斷深化內(nèi)容畫像。
目前線上視頻業(yè)務(wù)中,用戶視頻通常情況下不會(huì)給用戶對(duì)線上已發(fā)布時(shí)候進(jìn)行視頻調(diào)整的機(jī)會(huì),因此內(nèi)容理解中不太需要判斷視頻是否存在修改而進(jìn)行相應(yīng)的畫像調(diào)整;版權(quán)視頻由于成本問題,通常收到監(jiān)管要求以后會(huì)對(duì)視頻進(jìn)行再加工處理,因此線上視頻會(huì)進(jìn)行剪輯渲染等調(diào)整,所以當(dāng)內(nèi)容理解后臺(tái)監(jiān)聽到視頻調(diào)整以后,需要對(duì)視頻進(jìn)行重新內(nèi)容分析。
對(duì)于一些重點(diǎn)內(nèi)容,需要內(nèi)容理解后臺(tái)將分析的結(jié)果呈現(xiàn)在運(yùn)營(yíng)面前,運(yùn)營(yíng)可以對(duì)分析結(jié)果進(jìn)行調(diào)校。通過以上的行為,便可以對(duì)視頻內(nèi)容做相對(duì)詳細(xì)的分析,結(jié)合上述內(nèi)容,內(nèi)容理解的流程如下圖所示:
2. 內(nèi)容理解業(yè)務(wù)覆蓋
如前文內(nèi)容理解的介紹,內(nèi)容理解后臺(tái)主要的作用是在于視頻信息歸類、視頻特征整理與應(yīng)用、優(yōu)劣內(nèi)容識(shí)別三個(gè)部分,包含了對(duì)視頻、音頻、字幕、評(píng)論為主的多維度內(nèi)容分析。
由于在PPC、PGC、UGC內(nèi)容中業(yè)務(wù)對(duì)于視頻內(nèi)容的運(yùn)營(yíng)策略與人力資源的不同,因此內(nèi)容理解對(duì)于不同生產(chǎn)形勢(shì)的視頻內(nèi)容會(huì)進(jìn)行區(qū)別化分析。
我們通常情況下將版權(quán)采購(gòu)和平臺(tái)自制時(shí)長(zhǎng)高于20分鐘的視頻稱之為版權(quán)長(zhǎng)視頻,把用戶上傳的稱作用戶視頻,目前新興的如《生活對(duì)我下手了》系列版權(quán)采購(gòu)單集5分鐘以內(nèi)的視頻可以稱之為微劇。由于微劇整體從內(nèi)容供給和消費(fèi)而言與PPC、PGC長(zhǎng)視頻相似,因此可以并入到版權(quán)或自制視頻中進(jìn)行分析。
(1)信息歸類
分類:版權(quán)內(nèi)容一般會(huì)對(duì)自己的視頻做200-300個(gè)分類,包括一級(jí)分類(如電影、電視劇、綜藝、動(dòng)漫、紀(jì)錄片等)、二級(jí)分類(華語、港臺(tái)、日韓、歐美等)、三級(jí)分類(喜劇、愛情、動(dòng)作、青春、奇幻等)。由于版權(quán)視頻在內(nèi)容購(gòu)買時(shí)存在投資與購(gòu)買片庫(kù)的兩種邏輯,因此新熱大火的內(nèi)容通常是人工運(yùn)營(yíng)選擇分類,其它片庫(kù)內(nèi)容可以通過內(nèi)容理解后臺(tái)對(duì)分類進(jìn)行建立。
用戶內(nèi)容通常情況下會(huì)做相對(duì)于版權(quán)視頻相對(duì)多一些但是層級(jí)少一些的分類,一般情況下用戶視頻分類的個(gè)數(shù)約500-800個(gè),包括一級(jí)分類(游戲、舞蹈、鬼畜、美食等)、二級(jí)分類(美食制作、美食偵探、美食測(cè)評(píng)等),這部分內(nèi)容一般都是由內(nèi)容理解后臺(tái)或用戶選擇進(jìn)行自動(dòng)歸類(由后臺(tái)歸類節(jié)約用戶上傳視頻步驟容易提升產(chǎn)量,因此由后臺(tái)歸類逐步變得更廣泛的應(yīng)用),頭部大號(hào)一般會(huì)有相應(yīng)的大V運(yùn)營(yíng)同學(xué)對(duì)分類進(jìn)行調(diào)整。
標(biāo)簽:一般情況下,內(nèi)容理解后臺(tái)會(huì)根據(jù)視頻畫面內(nèi)容、音頻、字幕內(nèi)容進(jìn)行初步的標(biāo)簽核對(duì),后續(xù)會(huì)通過離線加載視頻評(píng)論的方式,將視頻評(píng)論的標(biāo)簽和視頻內(nèi)容的標(biāo)簽全部打入視頻,后續(xù)經(jīng)過搜索等、推薦等行為,不斷確定標(biāo)簽的優(yōu)先級(jí),將標(biāo)簽打在視頻內(nèi)容、專輯、播單等主體上面。與分類相同,頭部大V的內(nèi)容會(huì)由公司運(yùn)營(yíng)對(duì)標(biāo)簽進(jìn)行調(diào)整。
(2)特征整理
特征理解主要分為視頻表征理解(如視頻主題、創(chuàng)作者興趣特長(zhǎng)等)、優(yōu)質(zhì)音視頻內(nèi)容識(shí)別(精彩片段分析、BGM分析等)這兩部分。
視頻表征理解:表征理解顧名思義是對(duì)視頻表達(dá)的內(nèi)容主題、創(chuàng)作者長(zhǎng)短板、消費(fèi)匹配等進(jìn)行分析,通過對(duì)畫面、字幕、音頻的分析,確定視頻的表達(dá)主題、出鏡人員識(shí)別(演員、網(wǎng)紅之類的)等信息,將信息存放在內(nèi)容理解庫(kù)中,并廣泛應(yīng)用于視頻的編目信息。
優(yōu)質(zhì)音視頻識(shí)別:優(yōu)質(zhì)音視頻識(shí)別的主要的應(yīng)用場(chǎng)景是在于長(zhǎng)視頻消費(fèi)和生產(chǎn),同樣也可以適用于直播領(lǐng)域的點(diǎn)播內(nèi)容制作,特殊場(chǎng)景下的內(nèi)容展現(xiàn)(如足球比賽的關(guān)鍵進(jìn)球、紅黃牌等信息)。
由于版權(quán)視頻業(yè)務(wù)中,在消費(fèi)和生產(chǎn)端存在優(yōu)質(zhì)音樂回放、優(yōu)質(zhì)視頻拆條等素材,因此在整體的制作消費(fèi)環(huán)節(jié)中,內(nèi)容理解后臺(tái)可以通過算法分析并識(shí)別出優(yōu)質(zhì)的音視頻內(nèi)容給到生產(chǎn)、消費(fèi)端進(jìn)行使用。
音視頻特征識(shí)別除了本身作為音視頻內(nèi)容外,同時(shí)存在著從視頻中提取并分析相應(yīng)音視頻內(nèi)容,并根據(jù)內(nèi)容識(shí)別專場(chǎng)、優(yōu)質(zhì)幀位等信息,從而找到并廣告位精彩點(diǎn)位等關(guān)鍵位置;進(jìn)一步生產(chǎn)個(gè)性化封面圖、個(gè)性化標(biāo)題等信息用于后續(xù)的推薦、搜索、播放等業(yè)務(wù)場(chǎng)景中。
(3)優(yōu)劣分析
一般情況下內(nèi)容理解后臺(tái)會(huì)從三個(gè)方面對(duì)視頻進(jìn)行優(yōu)劣判斷,分別是音視頻質(zhì)量、視頻內(nèi)容質(zhì)量、視頻互動(dòng)。會(huì)對(duì)以上三個(gè)方面各處每個(gè)方面的基礎(chǔ)分?jǐn)?shù),同時(shí)會(huì)將三者的分?jǐn)?shù)在消費(fèi)端的綜合表現(xiàn)及權(quán)重做多次加權(quán)給出總體分?jǐn)?shù)。
① 音視頻質(zhì)量
通常情況下,音視頻質(zhì)量是視頻優(yōu)劣的一個(gè)重要指導(dǎo)指標(biāo)。。一般情況下評(píng)價(jià)音視頻質(zhì)量主要有以下3大方面:
- 畫面問題
- 音頻問題
- 音畫問題
畫面問題:畫面問題主要是涵蓋了花屏、拉絲、灰屏;分辨率;幀率;橫豎屏;畫面細(xì)節(jié)展現(xiàn);模糊、馬賽克;黑屏等問題。
音頻問題:爆音;噪音多;卡頓等問題。
音畫問題:主要面臨的問題的是音畫不同步。
根據(jù)以上三類問題,通常情況下會(huì)將對(duì)音視頻質(zhì)量分析的步驟稱之為質(zhì)量檢測(cè)。質(zhì)量檢測(cè)一般是會(huì)根據(jù)已經(jīng)上線的視頻,按照視頻內(nèi)容的重要程度進(jìn)行自動(dòng)檢測(cè)及人工檢測(cè),一般情況下為了保證人工檢測(cè)的置信性會(huì)進(jìn)行兩輪的人工檢測(cè),視頻行業(yè)的說法是一檢和二檢。
自動(dòng)檢測(cè):
視頻進(jìn)入到平臺(tái)通過安全審核上線后,會(huì)優(yōu)先利用算法對(duì)視頻進(jìn)行質(zhì)量檢測(cè),質(zhì)量審核是面對(duì)所有平臺(tái)已上線視頻做的。
一般情況下對(duì)視頻質(zhì)量進(jìn)行畫面、音頻、字幕等單方面檢測(cè),同時(shí)會(huì)利用平臺(tái)用戶消費(fèi)狀況給予視頻一個(gè)綜合分?jǐn)?shù)。在自動(dòng)檢測(cè)時(shí),為了更加清晰地了解到是平臺(tái)對(duì)視頻二次編碼的出現(xiàn)的質(zhì)量問題還是視頻原始介質(zhì)的問題,一般都會(huì)對(duì)原視頻介質(zhì)和線上碼流都進(jìn)行自動(dòng)檢測(cè)。
現(xiàn)在常用的綜合分?jǐn)?shù)主要主要是分為兩種,一種是平臺(tái)自行開發(fā)的,另外一種是基于開源工具進(jìn)行檢測(cè)。
VMAF是一款Netflix開發(fā)的一款基于視頻畫面進(jìn)行綜合打分算法的工具,視頻畫面經(jīng)過工具后會(huì)得到PSNR的分?jǐn)?shù),通常情況下PSNR分?jǐn)?shù)相差3以上基本就是肉眼可見的質(zhì)量差異。下圖上面兩張圖片PSNR分?jǐn)?shù)為31分,下面兩張個(gè)圖片是34分。
雖然目前市面上各家公司都習(xí)慣于對(duì)外宣傳使用自研視頻質(zhì)量分?jǐn)?shù),如果希望做跨平臺(tái)對(duì)比視頻內(nèi)容一般還是使用第三方數(shù)據(jù)可靠性比較高。
人工檢測(cè):
對(duì)于平臺(tái)內(nèi)部的重點(diǎn)視頻在自動(dòng)檢測(cè)出現(xiàn)出現(xiàn)比較有爭(zhēng)議的分?jǐn)?shù)時(shí),便需要人工檢測(cè)進(jìn)行校驗(yàn)。一般人工檢測(cè)的視頻包括平臺(tái)版權(quán)采購(gòu)內(nèi)容、平臺(tái)自制內(nèi)容、頭部創(chuàng)作者視頻、近期播放指數(shù)陡增的視頻這四類。
人工檢測(cè)一般的檢測(cè)項(xiàng)和自動(dòng)檢測(cè)保持一致,需要經(jīng)過二次人工檢驗(yàn)對(duì)視頻進(jìn)行最終定性,并給出視頻調(diào)整的綜合性建議(如對(duì)原視頻介質(zhì)進(jìn)行優(yōu)化、重新對(duì)運(yùn)營(yíng)流進(jìn)行編碼等操作)。
② 視頻內(nèi)容質(zhì)量
視頻內(nèi)容質(zhì)量主要指的是視頻內(nèi)容本身(不計(jì)算編碼后音視頻碼流質(zhì)量)對(duì)于用戶價(jià)值平臺(tái)價(jià)值的綜合得分。由于這部分視頻計(jì)算得分需要模仿用戶心理狀態(tài),因此在視頻內(nèi)容質(zhì)量的計(jì)算過程中需要主要考慮的是基于平臺(tái)消費(fèi)情況視頻的客觀事實(shí)和符合平臺(tái)及用戶消費(fèi)導(dǎo)向的優(yōu)質(zhì)視頻篩選這兩個(gè)部分進(jìn)行視頻內(nèi)容質(zhì)量打分和推薦。
對(duì)于視頻內(nèi)容消費(fèi)而言,人們對(duì)于優(yōu)質(zhì)的理解總是各不相同的,此時(shí)優(yōu)質(zhì)內(nèi)容的識(shí)別就需要給予平臺(tái)調(diào)性和主推以及用戶消費(fèi)進(jìn)行綜合性篩選;劣質(zhì)內(nèi)容的認(rèn)定基本上用戶會(huì)形成相應(yīng)的共識(shí),因此內(nèi)容理解后臺(tái)對(duì)于劣質(zhì)內(nèi)容識(shí)別可以通過規(guī)則及算法精準(zhǔn)找到。
劣質(zhì)視頻識(shí)別:
劣質(zhì)的視頻內(nèi)容一般可以通過標(biāo)題與內(nèi)容的聯(lián)系、視頻內(nèi)容畫面、音頻等元素是可以通過系統(tǒng)識(shí)別出來的。具體的表現(xiàn)有標(biāo)題黨、視頻時(shí)間過短、營(yíng)銷導(dǎo)流(貼二維碼、硬廣)、有明顯的臺(tái)標(biāo)、作品重復(fù)、誘導(dǎo)互動(dòng)、性暗示、非原創(chuàng)投自制等。通過這樣通用性的劣質(zhì)視頻規(guī)則和算法的識(shí)別可以第一時(shí)間內(nèi)識(shí)別出來平臺(tái)內(nèi)的劣質(zhì)視頻并加以標(biāo)識(shí)。
優(yōu)質(zhì)視頻探索:優(yōu)質(zhì)視頻需要滿足的條件是熱門、多樣、經(jīng)典、符合平臺(tái)價(jià)值觀這三方面的需求。
- 熱門
- 多樣
- 經(jīng)典
- 符合平臺(tái)價(jià)值觀
視頻的熱門判斷:
熱門內(nèi)容一般分為總體熱門內(nèi)容和地方性熱門內(nèi)容,總體熱門內(nèi)容主要是需要具備的條件是實(shí)效性、權(quán)威性、廣泛性這三大特點(diǎn)。
實(shí)效性內(nèi)容主要是基于熱點(diǎn)事件,網(wǎng)絡(luò)用戶查閱量較高的話題做成的內(nèi)容,筆者當(dāng)年做了一個(gè)監(jiān)控微博熱搜+自動(dòng)圖文轉(zhuǎn)視頻的工具,對(duì)實(shí)效性內(nèi)容制作和分發(fā)起到了還不錯(cuò)的收益;
權(quán)威性主要指的是賬號(hào),對(duì)于熱門內(nèi)容而言,最簡(jiǎn)單的判斷方法是看賬號(hào)的屬性;
廣泛性指的是需要篩選出來的內(nèi)容具備規(guī)模效應(yīng),至少平臺(tái)中60%以上的用戶會(huì)喜歡這樣的內(nèi)容,產(chǎn)生的長(zhǎng)播放覆蓋占比需要超過當(dāng)日活躍用戶數(shù)的30%以上,比如B站在熱門內(nèi)容的選擇中對(duì)于二次元宅舞動(dòng)漫混剪會(huì)有相應(yīng)加權(quán)。
地方性熱門內(nèi)容需要給予LBS進(jìn)行推薦,作為一手分析優(yōu)質(zhì)內(nèi)容的視頻理解后臺(tái),需要對(duì)地方性優(yōu)質(zhì)內(nèi)容做好相應(yīng)的地域標(biāo)記,比如某些地區(qū)第二天強(qiáng)暴雨預(yù)警就是地方性很強(qiáng)的熱門內(nèi)容。
視頻多樣性選擇:
平臺(tái)在判斷優(yōu)質(zhì)內(nèi)容的時(shí)候,會(huì)根據(jù)內(nèi)容分類在每個(gè)分類下都找到一些評(píng)分較高的視頻,在整體的視頻內(nèi)容召回時(shí),不在單純進(jìn)行整體的評(píng)分排序,而是按照平臺(tái)視頻消費(fèi)的內(nèi)容頻道、視頻歸類等因素,按照頻道或者歸類(在統(tǒng)計(jì)頻道或者歸類時(shí)需要獲取不同類目下內(nèi)容和實(shí)際產(chǎn)生vv占比及BI預(yù)測(cè)占比)進(jìn)行按比例召回,根據(jù)頻道歸類的消費(fèi)指數(shù)*視頻分?jǐn)?shù)進(jìn)行統(tǒng)一排序后再通過算法模型做一定的順序打亂,通過這樣的方式召回的視頻用以構(gòu)成了平臺(tái)的優(yōu)質(zhì)內(nèi)容多樣性,讓用戶在消費(fèi)中可以感受到平臺(tái)內(nèi)容多且種類多。
經(jīng)典視頻的篩選:
在視頻平臺(tái)中都存在著一些能夠長(zhǎng)期穩(wěn)定獲取vv及長(zhǎng)播放的視頻內(nèi)容,長(zhǎng)視頻平臺(tái)中可以發(fā)現(xiàn)如優(yōu)酷的《甄嬛傳》、愛奇藝的《請(qǐng)回答1988.》、B站的《半澤直樹》這樣的內(nèi)容,短視頻平臺(tái)中如講解古生物的《鬼谷說》系列、講解人物歷史的《東夢(mèng)人物志》系列;美食作家王剛、廚師長(zhǎng)農(nóng)國(guó)棟、覓大叔這類實(shí)用型教授做菜、選東西的內(nèi)容等。
那么這部門視頻內(nèi)容的獲取便需要內(nèi)容理解后臺(tái)借助于消費(fèi)數(shù)據(jù)不斷刷新獲取具有長(zhǎng)效不斷vv,且長(zhǎng)播放相對(duì)較高的視頻內(nèi)容,將這些視頻填充進(jìn)入優(yōu)質(zhì)內(nèi)容池中作為平臺(tái)經(jīng)典內(nèi)容呈現(xiàn)。
平臺(tái)價(jià)值觀的嵌套:
平臺(tái)需要有自己的價(jià)值觀,內(nèi)容理解后臺(tái)在獲取優(yōu)質(zhì)視頻內(nèi)容時(shí)需要和平臺(tái)價(jià)值觀做充分綁定的。有些時(shí)候用戶喜歡喜歡看的未必是在社會(huì)上平臺(tái)中需要努力宣傳的視頻,這個(gè)時(shí)候平臺(tái)需要根據(jù)自己推崇的標(biāo)簽分類或是知識(shí)圖譜中對(duì)上述三者選出的內(nèi)容進(jìn)行權(quán)重的二次分配,從而形成最終的優(yōu)質(zhì)內(nèi)容。
③ 視頻互動(dòng)
視頻互動(dòng)主要作用于優(yōu)劣視頻篩選和優(yōu)劣互動(dòng)內(nèi)容識(shí)別,主要的原則有三點(diǎn):
- 通過互動(dòng)數(shù)據(jù)調(diào)教原視頻的特征
- 利用互動(dòng)數(shù)據(jù)輔助判斷視頻優(yōu)劣
- 互動(dòng)數(shù)據(jù)分析并賦能給消費(fèi)及生產(chǎn)
互動(dòng)數(shù)據(jù)調(diào)教原視頻的特征:視頻互動(dòng)數(shù)據(jù)包括基礎(chǔ)的贊、踩、舉報(bào),也包括主管評(píng)論、標(biāo)簽添加等信息。在內(nèi)容理解中,可以通過用戶的互動(dòng)數(shù)據(jù)進(jìn)行知識(shí)圖譜、關(guān)鍵詞等信息,對(duì)原視頻特征做二次校正,補(bǔ)充僅通過內(nèi)容角度分析缺失的數(shù)據(jù)同時(shí)對(duì)特征權(quán)重按照用戶的消費(fèi)進(jìn)行重新調(diào)整。
利用互動(dòng)數(shù)據(jù)輔助判斷視頻優(yōu)劣:通過對(duì)用戶互動(dòng)內(nèi)容,可以最直接的得到視頻在消費(fèi)端消費(fèi)好壞的情況,基于視頻消費(fèi)情況對(duì)視頻優(yōu)劣進(jìn)行二次校正,可以最大限度讓優(yōu)質(zhì)小眾視頻不收到埋沒,讓廣泛消費(fèi)的視頻得到更加公眾的判罰。
互動(dòng)數(shù)據(jù)分析并賦能給消費(fèi)及生產(chǎn):一般情況下內(nèi)容理解后臺(tái)對(duì)于主管評(píng)價(jià)內(nèi)容會(huì)會(huì)進(jìn)行兩個(gè)方面的展露,其一是對(duì)生產(chǎn)者,其二是對(duì)消費(fèi)者。
生產(chǎn)者希望獲取的評(píng)論內(nèi)容是專業(yè)、輕松有趣的、負(fù)面較少的評(píng)論內(nèi)容,只有這樣的內(nèi)容更多才能促進(jìn)平臺(tái)內(nèi)容生產(chǎn),創(chuàng)作者內(nèi)容更加精進(jìn)。
對(duì)于消費(fèi)者而言,用戶喜歡和視頻主題相關(guān)的,有趣,符合大多評(píng)論氛圍的評(píng)價(jià)。
因此內(nèi)容理解后臺(tái)在判斷優(yōu)質(zhì)內(nèi)容上面需要根據(jù)視頻內(nèi)容、評(píng)論內(nèi)容及情緒表達(dá)選出有趣、有用、符合平臺(tái)調(diào)性、相關(guān)性強(qiáng)、負(fù)面少的內(nèi)容作為視頻的優(yōu)質(zhì)評(píng)論。
劣質(zhì)評(píng)論內(nèi)容相對(duì)于優(yōu)質(zhì)評(píng)論內(nèi)容則更容易識(shí)別,因?yàn)槿藗兺鶎?duì)優(yōu)質(zhì)的定義很多,但是對(duì)劣質(zhì)的定義卻是有很強(qiáng)的統(tǒng)一性。因此在劣質(zhì)內(nèi)容識(shí)別上,內(nèi)容理解后臺(tái)可以結(jié)合反垃圾的做法快速篩選出來劣質(zhì)內(nèi)容。
3. 內(nèi)容理解后臺(tái)產(chǎn)品架構(gòu)
內(nèi)容理解定義:對(duì)接平臺(tái)線上視頻及互動(dòng)數(shù)據(jù),對(duì)介入的視頻多業(yè)務(wù)級(jí)多維度歸類分析,同時(shí)進(jìn)行標(biāo)簽、知識(shí)圖譜對(duì)齊,利用線上數(shù)據(jù)及算法模型對(duì)視頻整體內(nèi)容進(jìn)行歸類、特征梳理、優(yōu)劣辨析;對(duì)視頻二創(chuàng)進(jìn)行制作指導(dǎo);對(duì)視頻消費(fèi)進(jìn)行業(yè)務(wù)化處理。
因此在整體內(nèi)容理解后臺(tái)的產(chǎn)品架構(gòu)中,需要先做數(shù)據(jù)輸入與輸出的處理,根據(jù)所需要的數(shù)據(jù)找到對(duì)應(yīng)數(shù)據(jù)平臺(tái)從而完成整體架構(gòu)設(shè)計(jì)。
(1)內(nèi)容理解后臺(tái)數(shù)據(jù)交互
我們將內(nèi)容理解定義為兩部分:通過內(nèi)容本身理解內(nèi)容、通過用戶行為理解內(nèi)容。前者主要是針對(duì)內(nèi)容抽取歸類于標(biāo)簽。后者通過累計(jì)的用戶數(shù)據(jù),經(jīng)過統(tǒng)計(jì)、建模、平臺(tái)傾向、產(chǎn)品規(guī)則等方面對(duì)內(nèi)容進(jìn)行分析。
(2)內(nèi)容理解后臺(tái)產(chǎn)品架構(gòu)
通過上述數(shù)據(jù)交互,可以清晰的了解到內(nèi)容理解后臺(tái)外在數(shù)據(jù)獲取及數(shù)據(jù)處理中需要對(duì)接的系統(tǒng),主要包括了素材庫(kù)、生產(chǎn)制作系統(tǒng)、運(yùn)營(yíng)系統(tǒng)、BI、視頻互動(dòng)數(shù)據(jù)庫(kù)、OCR等。
因?yàn)閮?nèi)容理解后臺(tái)的使用特性,故而繼承了工具+服務(wù)兩部分的屬性。服務(wù)則存在于工程和算法兩個(gè)方面,工程上主要是數(shù)據(jù)讀寫和接口服務(wù),算法上則是內(nèi)容分析、互動(dòng)分析等算法。結(jié)合數(shù)據(jù)流轉(zhuǎn)可以得到如下簡(jiǎn)要內(nèi)容理解后臺(tái)架構(gòu)圖:
三、視頻內(nèi)容理解產(chǎn)品設(shè)計(jì)
在整理完成內(nèi)容理解后臺(tái)的業(yè)務(wù)覆蓋,梳理數(shù)據(jù)流轉(zhuǎn)、業(yè)務(wù)流程和產(chǎn)品架構(gòu)以后,下一步就是內(nèi)容理解后臺(tái)的產(chǎn)品設(shè)計(jì)階段。
由于內(nèi)容理解后臺(tái)相對(duì)于基礎(chǔ)后臺(tái)比較偏重于算法,因此產(chǎn)品經(jīng)理在整體的產(chǎn)品階段需要負(fù)責(zé)模塊不僅僅存在于功能方面,還有一定的算法需求。產(chǎn)品經(jīng)理在這種類型的產(chǎn)品價(jià)值則主要體現(xiàn)在了業(yè)務(wù)發(fā)掘、產(chǎn)品設(shè)計(jì)、跨部門溝通。
1. 業(yè)務(wù)發(fā)掘
對(duì)于視頻理解這種新型后臺(tái)產(chǎn)品,不像傳統(tǒng)后臺(tái)有著天然的使用方,為了能夠讓產(chǎn)品逐步做起來,最重要的事情是在業(yè)務(wù)中找到業(yè)務(wù)痛點(diǎn),在產(chǎn)品上線初期可以讓更多的用戶來使用后臺(tái)(包括后臺(tái)的數(shù)據(jù))從而不斷得到優(yōu)化迭代的機(jī)會(huì),讓產(chǎn)品能夠存續(xù)下來。
完成了生存挑戰(zhàn),后續(xù)就是讓產(chǎn)品覆蓋更多的業(yè)務(wù),存在更多的能力,整合更多的系統(tǒng),讓產(chǎn)品成為基礎(chǔ)建設(shè)。最后一步就是讓產(chǎn)品變現(xiàn),將整體的能力變成對(duì)外服務(wù),做基礎(chǔ)建設(shè)的能力輸出獲利。
產(chǎn)品經(jīng)理在整體的流程中,很重要的一點(diǎn)就是業(yè)務(wù)發(fā)掘能力,在整體業(yè)務(wù)發(fā)掘中主要是對(duì)需求的發(fā)現(xiàn)與收集能力,這之中主要是通過對(duì)B端的實(shí)地觀察訪談和對(duì)消費(fèi)端的實(shí)際使用。
對(duì)B端用戶的發(fā)掘主要是通過觀察法和訪談法進(jìn)行,主要的目的是通過觀察和訪談?wù)业綐I(yè)務(wù)操作上的痛點(diǎn)和實(shí)際業(yè)務(wù)流程。業(yè)務(wù)痛點(diǎn)主要是核心是老生常談的效率問題,如海量視頻歸類,優(yōu)質(zhì)片段的尋找,優(yōu)質(zhì)視頻的尋找,高優(yōu)評(píng)論的識(shí)別,劣質(zhì)內(nèi)容的提示等。
在消費(fèi)的時(shí)候,其實(shí)可以發(fā)現(xiàn)如視頻冷啟動(dòng)內(nèi)容不夠精準(zhǔn),視頻評(píng)論將更好的評(píng)論放在了更靠后的地方等等。通過這些在消費(fèi)端發(fā)現(xiàn)的問題,可以找到內(nèi)容理解后臺(tái)可以增加的業(yè)務(wù)范圍或優(yōu)化的方向。
2. 跨部門溝通
前文說了,對(duì)于內(nèi)容理解這樣的后臺(tái)產(chǎn)品而言,需要很多數(shù)據(jù)和服務(wù),因此在需求明確之后,產(chǎn)品設(shè)計(jì)之前,需要羅列出來可能要合作的部門,需要不斷開會(huì)拉起各個(gè)部門的實(shí)際負(fù)責(zé)人和相關(guān)產(chǎn)品研發(fā)人員,確定哪些能力是當(dāng)下支持的,哪些能力需要開發(fā),各自負(fù)責(zé)的邊界范圍是什么,然后根據(jù)現(xiàn)有能力組裝內(nèi)容理解后臺(tái)的能力覆蓋。
后期則是對(duì)于功能的研發(fā)及為了業(yè)務(wù)發(fā)展更好,對(duì)整體數(shù)據(jù)指標(biāo)的建立與拉齊。
(1)業(yè)務(wù)打通
業(yè)務(wù)初期階段,產(chǎn)品經(jīng)理需要在根據(jù)架構(gòu)梳理出來需要對(duì)接的外部團(tuán)隊(duì),找到做內(nèi)容理解后臺(tái)對(duì)于每個(gè)業(yè)務(wù)的收益從而獲得其他業(yè)務(wù)的支持。
之后便是根據(jù)數(shù)據(jù)流轉(zhuǎn)和各服務(wù)之間的架構(gòu)做好相應(yīng)的業(yè)務(wù)流程和產(chǎn)品流程。由于現(xiàn)在中臺(tái)化服務(wù)已經(jīng)在各大公司普及開來,因此串聯(lián)業(yè)務(wù)的工作必然是內(nèi)容理解后臺(tái)需要做的工作,產(chǎn)品經(jīng)理在這里最重要的事情便是梳理大體的業(yè)務(wù)流程。
(2)指標(biāo)建立與拉齊
在上線以后,為了能夠獲得系統(tǒng)間更快的響應(yīng),讓用戶及服務(wù)前端的數(shù)據(jù)獲得更加敏捷的響應(yīng),產(chǎn)品經(jīng)理需要為內(nèi)容理解后臺(tái)做以下3件事情:
- 找到長(zhǎng)期支持內(nèi)容理解后臺(tái)的合作伙伴
- 建立各項(xiàng)指標(biāo)讓所有服務(wù)方對(duì)齊
- 建設(shè)長(zhǎng)效的問題反饋收集反饋機(jī)制,促進(jìn)產(chǎn)品迭代。
3. 產(chǎn)品設(shè)計(jì)
在對(duì)業(yè)務(wù)發(fā)掘以后,下一步就是根據(jù)發(fā)現(xiàn)的問題,找到功能或者策略可以解決的方式提供服務(wù)。由于內(nèi)容理解后臺(tái)是集成多種服務(wù)的算法+工具+服務(wù)形式后臺(tái)產(chǎn)品,因此產(chǎn)品經(jīng)理在產(chǎn)品設(shè)計(jì)中的核心能力是打通系統(tǒng)之間的數(shù)據(jù)、提供工具給用戶使用、優(yōu)化模型建立評(píng)價(jià)體系。
(1)流程設(shè)計(jì)
對(duì)于內(nèi)容理解后臺(tái)這種需要多服務(wù)支持的后臺(tái)產(chǎn)品,系統(tǒng)間的產(chǎn)品流程是非常重要的。在流程設(shè)計(jì)中,由于需要進(jìn)行系統(tǒng)串聯(lián),所以需要主要考慮的地方在于分析的敏捷性、精準(zhǔn)性。
敏捷性:流程設(shè)計(jì)主要是希望整體的分析速度能夠更快,因此需要在設(shè)計(jì)中做盡量多的并行事件。需要了解系統(tǒng)間對(duì)于數(shù)據(jù)分析的前后關(guān)系,合理安排數(shù)據(jù)入庫(kù)的順序并完成分析。
精準(zhǔn)性:需要對(duì)輸出的數(shù)據(jù)進(jìn)行負(fù)責(zé),因此在整體設(shè)計(jì)中需要盡量規(guī)避可能出現(xiàn)數(shù)據(jù)出現(xiàn)問題的流程設(shè)計(jì),做到不漏、不偏。
(2)工具設(shè)計(jì)
內(nèi)容理解工具主要的目的是有兩點(diǎn):
- 輔助運(yùn)營(yíng)判斷內(nèi)容
- 展示流程提升問題排查效率
① 內(nèi)容判斷
工具設(shè)計(jì)中主要需要展示原本內(nèi)容和分析結(jié)果,需要將整體視頻展示做到全面和準(zhǔn)確,在分布上需要做到模塊順序可以調(diào)整,默認(rèn)狀態(tài)下讓根據(jù)最大原則定好模塊排布順序。因此從工具上需要為用戶展示內(nèi)容池、內(nèi)容具體信息兩個(gè)模塊。
內(nèi)容池:主要是按照業(yè)務(wù)需求以一定的規(guī)則算法選出一些類型的內(nèi)容池,如熱門內(nèi)容池、新用戶冷啟動(dòng)內(nèi)容池、優(yōu)質(zhì)內(nèi)容池、點(diǎn)贊飆升內(nèi)容池等等,用戶可以設(shè)置一些條件和維度進(jìn)行內(nèi)容篩查。
內(nèi)容信息:內(nèi)容信息一般展示用戶查詢內(nèi)容的基本信息及內(nèi)容理解后臺(tái)給出的分析信息,功能上需要支持基本的查看和修改能力。同時(shí)用戶修改的操作的正負(fù)向信息需要傳遞給算法,從而優(yōu)化算法模型。
② 流程排查
主要用于視頻內(nèi)容分析故障的時(shí)候,確定故障原因,找到第一責(zé)任人進(jìn)行故障排查,讓業(yè)務(wù)順利進(jìn)行下去。
③ 小結(jié)
內(nèi)容理解工具端的設(shè)計(jì)組要服務(wù)于兩大方面,其一是內(nèi)容判斷,其二是流程排查。內(nèi)容判斷主要是內(nèi)容池展示和內(nèi)容展示,流程排查需要將分析流程明盒化,提供給研發(fā)排查問題,產(chǎn)品也可以根據(jù)流程做效率上的進(jìn)一步優(yōu)化,
(3)建立評(píng)判體系
基于內(nèi)容理解的算法,產(chǎn)品經(jīng)理需要建立指標(biāo)體系不斷提升算法能力,提升分析模型。指標(biāo)體系主要需要應(yīng)對(duì)兩個(gè)方面的的挑戰(zhàn),企業(yè)內(nèi)部需要查看業(yè)務(wù)覆蓋量,面對(duì)用戶需要查看推薦數(shù)據(jù)的具體指標(biāo)完成情況。產(chǎn)品經(jīng)理需要和算法工程師一起制定指標(biāo),讓分析能力增強(qiáng),推薦數(shù)據(jù)更優(yōu),覆蓋業(yè)務(wù)更廣。
企業(yè)內(nèi)考量:
產(chǎn)品經(jīng)理需要在企業(yè)內(nèi)容尋找到可覆蓋的業(yè)務(wù),了解清楚業(yè)務(wù)注重的供給數(shù)據(jù)和核心看重的規(guī)則和數(shù)據(jù)指標(biāo),產(chǎn)品經(jīng)理需要分業(yè)務(wù)和算法工程師對(duì)齊內(nèi)容篩選指標(biāo),讓更多業(yè)務(wù)用起來。
對(duì)于企業(yè)內(nèi)考量則是覆蓋有效業(yè)務(wù)范圍是一個(gè)考量指標(biāo),上限是100%;新業(yè)務(wù)接入速度也是一個(gè)考量指標(biāo),服務(wù)足夠完備的情況下,新業(yè)務(wù)接入可以按照天來計(jì)算。
分析準(zhǔn)確性也是一個(gè)重要指標(biāo),一般情況需要人工進(jìn)行標(biāo)注才能不斷提升,整體來說分析結(jié)果準(zhǔn)確度在80%左右就是非常好的效果了,當(dāng)然上線肯定是還是100%。
用戶側(cè)指標(biāo):
為了能夠真正賦能于業(yè)務(wù),整體內(nèi)容分析與數(shù)據(jù)提供需要和業(yè)務(wù)側(cè)對(duì)于視頻消費(fèi)數(shù)據(jù)保持一致的指標(biāo)。指標(biāo)分為兩類,一類是業(yè)務(wù)偏重的類型,一類是業(yè)務(wù)增長(zhǎng)中的關(guān)鍵指標(biāo)。
業(yè)務(wù)偏重的視頻類型主要體現(xiàn)在了識(shí)別的精準(zhǔn)程度和數(shù)據(jù)提供的權(quán)重;增長(zhǎng)關(guān)鍵指標(biāo)需要緊密貼近消費(fèi),如需要查看視頻的CTR、UCTR、LTR(點(diǎn)贊率)、長(zhǎng)播放占比(電影電視劇視頻一般是10min;UGC豎版視頻一般是3s)等數(shù)據(jù)。
四、內(nèi)容理解在的應(yīng)用舉例
對(duì)整體內(nèi)容理解分析完成以后,我們針對(duì)于內(nèi)容理解后臺(tái)在視頻平臺(tái)中的應(yīng)用舉幾個(gè)不錯(cuò)的例子。
1. 優(yōu)質(zhì)內(nèi)容池篩選
什么事優(yōu)質(zhì)內(nèi)容池呢?每個(gè)人對(duì)于優(yōu)質(zhì)視頻的定義都不盡相同,因此在優(yōu)質(zhì)內(nèi)容篩選中,內(nèi)容理解后臺(tái)通常是通過利用優(yōu)質(zhì)內(nèi)容分析的結(jié)果和用戶消費(fèi)數(shù)據(jù)共同選出優(yōu)質(zhì)內(nèi)容。
如視頻源非常清晰,用戶填寫視頻的標(biāo)題等信息分詞明確,音視頻質(zhì)量得分很高,視頻主題與當(dāng)前熱門主題或未來可預(yù)測(cè)到熱門主題密切相關(guān)等,再通過消費(fèi)數(shù)據(jù)如抖視頻冷啟動(dòng)LTR及3s播放數(shù)據(jù)很不錯(cuò),然后實(shí)時(shí)監(jiān)聽視頻的10w和100w播放量狀態(tài),最終確定動(dòng)態(tài)的優(yōu)質(zhì)內(nèi)容池。
2. BGM內(nèi)容獲取
有一個(gè)比較有意思的例子是檢測(cè)影視劇中出現(xiàn)的插曲,一般情況下影視內(nèi)容插曲質(zhì)量都非常高,被傳唱度很廣。
這也意味著用戶看完視頻以后,會(huì)回到視頻中的某一段來聽那首插曲,所以找到這些優(yōu)質(zhì)的插曲便成為了內(nèi)容理解后臺(tái)在PPC內(nèi)容分析應(yīng)用中很重要的一部分。
通常的方法是首先把音頻做秒級(jí)別的切片,將音頻片段做頻譜分析,通過CNN(卷積神經(jīng)網(wǎng)絡(luò))技術(shù)對(duì)是否是音樂做判斷,最后在時(shí)序上找出完整的插曲片段;在找到這些音樂片段以后,下一步就是找到片段中優(yōu)質(zhì)的音樂,具體方法是剔除劣質(zhì)音樂,由于影視劇中的插曲很多伴隨著演員說話和一些嘈雜的聲音出現(xiàn)。
因此可以通過音頻檢測(cè)的方式剔除這些相對(duì)低質(zhì)音頻,從而得到優(yōu)質(zhì)的BGM。最后可以通過機(jī)器學(xué)習(xí)的方式,將得到的音樂做好分類,如爵士樂、古典樂等。
五、總結(jié)與展望
內(nèi)容理解后臺(tái)作為融合算法型后臺(tái)系統(tǒng),包含策略、功能等多種模塊的產(chǎn)品能力,對(duì)于產(chǎn)品經(jīng)理的鍛煉是全方面的。在人力成本逐步上升的今天,伴隨內(nèi)容體量不斷擴(kuò)大,通過算法的方式給視頻做好相應(yīng)的歸類、描述特征、篩選優(yōu)質(zhì)是非常有戰(zhàn)略意義的事情。
產(chǎn)品經(jīng)理在面對(duì)這種復(fù)雜形勢(shì)的后臺(tái)系統(tǒng)中,基礎(chǔ)能力是多業(yè)務(wù)配合與底層架構(gòu)拆解,進(jìn)一步的能力在于策略和模型的校驗(yàn)和研發(fā)一起推動(dòng)算法迭代,最重要的能力是要對(duì)前端業(yè)務(wù)有自己深刻的理解,只有理解視頻業(yè)務(wù),才能知道用戶最想要的是什么,找到系統(tǒng)優(yōu)化與業(yè)務(wù)前進(jìn)的方向,并真正做一些對(duì)用戶有價(jià)值的事情。
作者:大橘子-視頻產(chǎn)品,微信公眾號(hào):薛慧卿
本文由 @大橘子-視頻產(chǎn)品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
寫的好好啊 希望不久的將來我也可以在這個(gè)平臺(tái)產(chǎn)出同樣優(yōu)秀的原創(chuàng)內(nèi)容
寫的非常好??!收獲滿滿
雖然對(duì)于我的職業(yè)來說比較難理解,但是多了解一點(diǎn)內(nèi)部的信息還是挺好的,感謝作者!