2018年11月17日,首屆極光開發(fā)者大會(huì)在深圳召開,本次大會(huì)由國內(nèi)領(lǐng)先的移動(dòng)大數(shù)據(jù)服務(wù)平臺——極光大數(shù)據(jù)舉辦,近千位互聯(lián)網(wǎng)公司技術(shù)領(lǐng)袖、合作伙伴、開發(fā)者齊聚一堂,圍繞大數(shù)據(jù)、人工智能、移動(dòng)開發(fā)等廣受關(guān)注的熱點(diǎn)話題,共同探討移動(dòng)開發(fā)的下半場,構(gòu)建健康的開發(fā)者生態(tài)。
video++ ai實(shí)驗(yàn)室負(fù)責(zé)人張奕博士作為人工智能分論壇的重要嘉賓出席本次大會(huì),并發(fā)表《人工智能在消費(fèi)級視頻分析中的應(yīng)用》的主題演講。

人工智能在消費(fèi)級視頻分析中的應(yīng)用
主講人:video++ai實(shí)驗(yàn)室負(fù)責(zé)人 張奕博士
大家好,我是video++智能網(wǎng)絡(luò)科技ai實(shí)驗(yàn)室的張奕。今天想給大家分享的是人工智能在消費(fèi)級視頻分析領(lǐng)域中的應(yīng)用。
首先給大家解釋一下什么是消費(fèi)級視頻。消費(fèi)級視頻主要是跟工業(yè)級視頻區(qū)分來講的。工業(yè)級視頻主要是專業(yè)人員通過專業(yè)設(shè)備采集的視頻,大家最經(jīng)??吹降墓I(yè)級視頻就是監(jiān)控視頻。相對而言,消費(fèi)級視頻是我們平時(shí)用手機(jī)或其他便攜式圖像采集設(shè)備生成和制造的視頻。由于制作簡單、傳播容易,消費(fèi)級視頻的體量是非常大的。如果可以利用人工智能技術(shù)在消費(fèi)級視頻中發(fā)掘出一些內(nèi)容,它的商業(yè)應(yīng)用價(jià)值可以說是非常大的。
video++作為國內(nèi)最大的深耕于消費(fèi)級視頻領(lǐng)域ai技術(shù)的公司,主要專注于消費(fèi)級視頻中ai的技術(shù)研發(fā)和產(chǎn)業(yè)落地。我們主要從事的工作是在消費(fèi)級視頻中識別出相關(guān)內(nèi)容,通過數(shù)據(jù)結(jié)構(gòu)化,在各個(gè)不同維度對消費(fèi)級視頻的內(nèi)容進(jìn)行識別,從而在時(shí)間、空間位置上對出現(xiàn)的目標(biāo)進(jìn)行定位。
1. 消費(fèi)級視頻分析領(lǐng)域的技術(shù)構(gòu)架
首先介紹一下視頻文娛行業(yè)的一些基本概況。視頻文娛行業(yè)主要有兩大實(shí)體:視頻流量平臺和視頻觀眾。視頻流量平臺經(jīng)過了幾輪發(fā)展,從有線電視到視頻點(diǎn)播平臺,再到直播平臺和短視頻平臺,這其中出現(xiàn)了很多風(fēng)口,但他們都面臨一個(gè)痛點(diǎn),就是如何利用視頻流量實(shí)現(xiàn)變現(xiàn)和盈利;對視頻觀眾來說,他們每天花費(fèi)大量的時(shí)間觀看互聯(lián)網(wǎng)視頻,有著與視頻進(jìn)行更好地互動(dòng)的需求。
正是基于以上兩點(diǎn)需求,video++希望成為視頻文娛產(chǎn)業(yè)里的超級服務(wù)提供者,既為視頻流量平臺提供相應(yīng)的視頻變現(xiàn)工具,也給終端客戶提供一種視頻互動(dòng)工具。
截止到目前,video++已經(jīng)與國內(nèi)頭部流量平臺建立了深度合作,同時(shí)積累了大約60%的視頻用戶。由此,我們獲得了大量視頻流量數(shù)據(jù),并為ai算法提供了必要的支撐。
在video++的主要技術(shù)構(gòu)架里,最核心的就是ai算法。通過ai算法,我們可以輸出視頻中所出現(xiàn)目標(biāo)的時(shí)間、空間等信息,包括它們的類別標(biāo)簽。在ai算法的基礎(chǔ)上,我們包了一層videoos,也就是視頻操作系統(tǒng)。視頻操作系統(tǒng)基于底層的ai算法提供數(shù)據(jù),從而為上層應(yīng)用提供接口,繼而便可以在這個(gè)操作系統(tǒng)上開發(fā)出廣告、電商等各種不同的應(yīng)用。
那么ai是怎么服務(wù)于視頻內(nèi)容識別的呢?我們首先從數(shù)據(jù)開始,這里主要涉及視覺數(shù)據(jù)。視覺數(shù)據(jù)主要有幾類:最基礎(chǔ)的是圖像,其次還有視頻,視頻又分為工業(yè)級視頻和消費(fèi)級視頻。video++主要專注于消費(fèi)級視頻領(lǐng)域。
消費(fèi)級視頻的第一個(gè)特點(diǎn)是數(shù)據(jù)規(guī)模大。據(jù)思科統(tǒng)計(jì),截止到2015年,互聯(lián)網(wǎng)傳輸?shù)臄?shù)據(jù)中有70%為視頻數(shù)據(jù),到2020年,這個(gè)比例將達(dá)到80%。而相比于專業(yè)級視頻,消費(fèi)級視頻由于制作簡單、傳輸容易,體量相比專業(yè)級視頻來說是占據(jù)絕對優(yōu)勢的;消費(fèi)級視頻的第二個(gè)特點(diǎn)是類別來源多樣。廣義的消費(fèi)級視頻包括像電影、電視劇、綜藝、直播、短時(shí)頻、廣告等等;消費(fèi)級視頻的第三個(gè)特點(diǎn)是場景非常復(fù)雜,這是跟第二個(gè)特點(diǎn)是相輔相成的。消費(fèi)級視頻中經(jīng)常出現(xiàn)一些復(fù)雜場景,如鏡頭切換和縮放、特效植入、光照變化、模糊、遮擋、旋轉(zhuǎn)等。這些因素都為消費(fèi)級視頻的內(nèi)容識別提出了更高的要求。
消費(fèi)級視頻的這些特點(diǎn)對系統(tǒng)提出了幾個(gè)要求:一、處理速度快;二、準(zhǔn)確率高。
根據(jù)消費(fèi)級視頻的特點(diǎn),我們設(shè)計(jì)了一個(gè)消費(fèi)級視頻內(nèi)容識別的總體框架,主要分為五個(gè)步驟:第一個(gè)為視頻輸入層,第二個(gè)為視頻處理層,第三個(gè)為內(nèi)容提取層,第四個(gè)為語義融合層,第五個(gè)為數(shù)據(jù)輸出層。其中,內(nèi)容提取層是最核心的識別步驟。
最終,我們會(huì)輸出一個(gè)結(jié)構(gòu)化識別結(jié)果數(shù)據(jù),它主要包括視頻基本信息和目標(biāo)軌跡列表。目標(biāo)軌跡列表又分為起始幀號、軌跡長度等時(shí)間標(biāo)簽,目標(biāo)坐標(biāo)列表等空間標(biāo)簽,目標(biāo)類別標(biāo)簽等內(nèi)容標(biāo)簽以及識別結(jié)果置信度。
2. 消費(fèi)級視頻分析的識別維度
我們目前可以識別人臉、場景、地標(biāo)、物體、logo、情緒、動(dòng)作、聲音等多維度內(nèi)容。作為補(bǔ)充,我們還做了視頻內(nèi)容的檢索。
在人臉識別的算法結(jié)構(gòu)里,輸入視頻之后,首先要做視頻的預(yù)處理,也就是鏡頭分割。完成鏡頭分割之后再進(jìn)行內(nèi)容提取,對于人臉識別來說,內(nèi)容提取主要是人臉檢測框的獲取和人臉id的識別。人臉檢測框的獲取又分為人臉檢測和人臉跟蹤。為了兼顧準(zhǔn)確率和速度,我們一開始要對人臉在全局范圍內(nèi)做一個(gè)檢測,檢測完之后再進(jìn)行跟蹤。跟蹤時(shí),我們會(huì)在跟蹤框周圍小區(qū)域里做一個(gè)局部檢測,從而對人臉檢測進(jìn)行校正。之后是人臉對齊和質(zhì)量評估。質(zhì)量評估在視頻識別當(dāng)中是非常重要的,因?yàn)橐曨l中有很多冗余數(shù)據(jù)會(huì)干擾結(jié)果。在質(zhì)量評估之后,我們對質(zhì)量比較好的采樣進(jìn)行提取和特征比對。比對完之后,所有特征會(huì)生成一個(gè)識別label,這個(gè)label就屬于某一個(gè)人。在整個(gè)采樣序列上,每一幀都會(huì)有一個(gè)識別結(jié)果,為了將這個(gè)識別結(jié)果融合,我們創(chuàng)立了一個(gè)融合機(jī)制。
在場景識別的算法結(jié)構(gòu)里,也需要對輸入視頻進(jìn)行鏡頭的分割采樣。跟人臉識別不同的是,它不需要做全序列的采樣,可能只做一個(gè)時(shí)間間隔的采樣。在場景識別中,需要在前期對視頻做初分類,比如是古裝場景還是現(xiàn)代場景。做完預(yù)處理之后,進(jìn)入到卷積神經(jīng)網(wǎng)絡(luò)階段。卷積神經(jīng)網(wǎng)絡(luò)通過對不同的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,得到不同的特征表述,最后把這些特征進(jìn)行融合降維處理。得到最終的特征表示之后,我們會(huì)對不同場景進(jìn)行分類處理:比如高頻場景、次級場景和新增場景分別有不同的處理方法。最后,我們會(huì)對識別結(jié)果進(jìn)行融合。
在物體和logo的算法結(jié)構(gòu)里,需要多尺度對特征進(jìn)行提取,然后根據(jù)特征變化進(jìn)行采樣,最后對特征進(jìn)行融合。在這個(gè)算法里,要加入幾個(gè)新的東西,比如要識別物體軌跡,肯定要對它進(jìn)行跟蹤;而關(guān)注的物體類別,也需要進(jìn)行結(jié)果優(yōu)化。
在地標(biāo)識別的算法結(jié)構(gòu)里,主要分為三步:一是通過基礎(chǔ)網(wǎng)絡(luò)對輸入圖片進(jìn)行一個(gè)特征圖提取,可以通過roi pooling, pca白化等方式得到高維的特征描述,后續(xù)還可以用knn, mr等方式對特征描述進(jìn)行后處理。此外,我們還可以通過數(shù)據(jù)增強(qiáng)的方式,對得到的特征進(jìn)行增強(qiáng)。我們自主研發(fā)的算法主要做了以下優(yōu)化:首先是對基礎(chǔ)網(wǎng)絡(luò)進(jìn)行多層的特征提取并且融合;除此之外,我們還提取了一個(gè)多分辨率、多尺度的一個(gè)特征,可以在不同的特征通道上進(jìn)行加權(quán)。
下面介紹一下視頻檢索,也就是以圖搜視頻的流程。首先,我們通過視頻下載、數(shù)據(jù)庫存儲(chǔ)、特征提取,特征排序等生成一個(gè)離線的特征表示數(shù)據(jù)庫。當(dāng)用戶的需求過來之后,我們對用戶輸入的圖片視頻進(jìn)行特征提取、比對排序和結(jié)構(gòu)展示,這是一個(gè)標(biāo)準(zhǔn)的檢索流程。
在算法結(jié)構(gòu)方面,用戶輸入之后,我們經(jīng)過神經(jīng)卷積網(wǎng)絡(luò)和索引得到初檢索的結(jié)果,再通過細(xì)檢索進(jìn)行排序查詢,最后輸出鏡頭信息。另外,我們也可以通過劇目和視頻等信息進(jìn)行子部檢索,減少搜索的任務(wù)壓力,同時(shí)提高算法準(zhǔn)確率。
除了算法之外,我們還進(jìn)行了一些工程化。在工程化過程中,我們主要解決了幾個(gè)問題:首先是對算法進(jìn)行并行化,加速其運(yùn)行;其次是應(yīng)對高并發(fā)狀況,解決分布式系統(tǒng)和多任務(wù)調(diào)度的問題;之后是資源調(diào)度,對算法進(jìn)行分割和 cpu+gpu配比;最后是高優(yōu)先級任務(wù)處理策略。
3. 消費(fèi)級視頻分析的解決工具——靈眸系統(tǒng)
下面介紹一下視頻結(jié)構(gòu)化的整體解決工具——靈眸系統(tǒng)。這個(gè)靈眸系統(tǒng)主要有幾個(gè)功能:接收用戶上傳的視頻、對上傳的視頻進(jìn)行分析、實(shí)時(shí)展示分析結(jié)果。除此之外,靈眸系統(tǒng)的另一大功能是樣本管理。我們首先進(jìn)行了原始樣本收集,之后用原始樣本進(jìn)行訓(xùn)練,得到初始模型并上線。上線后,我們可以利用人工對錯(cuò)誤的輸出進(jìn)行審核、標(biāo)注,從而用于改進(jìn)這個(gè)模型。
靈眸系統(tǒng)的一個(gè)主要應(yīng)用場景是ai情景營銷平臺(asmp)。它主要用于幫助廣告商在對流量平臺上進(jìn)行廣告投放。ai情景營銷平臺不僅支持低層的語音信息,還可以支持一些高層領(lǐng)域,如情景。一個(gè)情景當(dāng)中往往有很多的語義元素,如場景、物體、人臉等等,不同的低層語義可以組合出很多的高層情景。廣告商所關(guān)注的是對應(yīng)商品在對應(yīng)視頻中出現(xiàn)的情景,而靈眸系統(tǒng)可以幫助它自動(dòng)尋找視頻中跟對應(yīng)商品對應(yīng)的情景,去做自動(dòng)化投放。
另一個(gè)應(yīng)用場景是ai內(nèi)容審核平臺(acap)。內(nèi)容審核主要分為幾個(gè)方面:智能監(jiān)黃、智能鑒暴、政治敏感人物識別和涉毒涉政明星。目前,視頻中敏感因素的識別主要是通過人工來做的,需要消耗很大人力。因此,對于視頻平臺來說,都有利用ai技術(shù)替代一部分人力做內(nèi)容審核的需求。雖然我們現(xiàn)有的ai識別技術(shù)還不能完全取代人工,但假定我們的ai識別技術(shù)可以達(dá)到90%,至少就可以替換大部分人類的工作。
4. 數(shù)據(jù)對于ai的重要性
最后我想強(qiáng)調(diào)一下數(shù)據(jù)對ai的重要性。數(shù)據(jù)是ai的生命,可以說,沒有數(shù)據(jù)就沒有ai,任何的ai算法都是建立在數(shù)據(jù)之上的。
我們在設(shè)計(jì)ai算法的過程中應(yīng)當(dāng)思考這么一些問題:
1、什么樣的訓(xùn)練數(shù)據(jù)是比較好的數(shù)據(jù)?
2、常規(guī)數(shù)據(jù)操作有哪些?
3、如何獲取“高效”的數(shù)據(jù)?
4、數(shù)據(jù)管理工具的巨大作用?
我今天的分享就到這里,謝謝大家。
關(guān)于極光
極光(納斯達(dá)克股票代碼:jg)成立于2011年,是中國領(lǐng)先的移動(dòng)大數(shù)據(jù)服務(wù)平臺。極光專注于為移動(dòng)應(yīng)用開發(fā)者提供穩(wěn)定高效的消息推送、即時(shí)通訊、統(tǒng)計(jì)分析、社會(huì)化組件和短信等開發(fā)者服務(wù)。截止到2018年9月份,極光已經(jīng)為36.9萬移動(dòng)開發(fā)者和99.1萬款移動(dòng)應(yīng)用提供服務(wù),其開發(fā)工具包(sdk)安裝量累計(jì)近174億,月度獨(dú)立活躍設(shè)備近10.3億部。基于海量數(shù)據(jù)和洞察積累,極光已將業(yè)務(wù)拓展至大數(shù)據(jù)服務(wù)領(lǐng)域,包括精準(zhǔn)營銷(極光效果通)、金融風(fēng)控、市場洞察以及商業(yè)地理服務(wù)(極光izone)。極光將繼續(xù)借助人工智能與機(jī)器學(xué)習(xí)為移動(dòng)大數(shù)據(jù)賦能,致力于為社會(huì)和各行各業(yè)提高運(yùn)營效率,優(yōu)化決策制定。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“機(jī)電號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of JDZJ Hao, which is a social media platform and only provides information storage services.
