0
| 本文作者: 呂倩 | 2017-07-09 11:12 | 專題:GAIR 2017 |
過(guò)往視頻編導(dǎo)的標(biāo)簽幾乎都是熬夜、通宵,每天工作到凌晨三四點(diǎn)甚至通宵是常態(tài)?;鄞ㄖ悄蹸EO康洪文看來(lái),這中間存在太多的重復(fù)勞作,因此,去年年底,康洪文與團(tuán)隊(duì)成員共同確定了AI+視頻的創(chuàng)業(yè)ider。
7月8日,在由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的第二屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)AI+專場(chǎng)上,康洪文重點(diǎn)介紹了AI+視頻中,視頻的創(chuàng)作以及視頻處理理解兩方面工作。
首先,關(guān)于視頻創(chuàng)作,慧川智能希望做到“讓人只要會(huì)寫(xiě)文章,就會(huì)做視頻”。對(duì)于人來(lái)講,創(chuàng)造力是無(wú)限的,文字工作者有強(qiáng)大的圖文創(chuàng)造能力與講故事能力,不該被制造視頻的繁瑣工作局限掉。加之如今短視頻市場(chǎng)的爆發(fā)趨勢(shì),更該大力布局。
據(jù)雷鋒網(wǎng)了解,目前視頻網(wǎng)絡(luò)用戶已突破5.5億,并保持每年8.1%的增長(zhǎng)速度。
康洪文以公眾號(hào)文章為例稱,通過(guò)到頭條以及微信公眾號(hào)平臺(tái)統(tǒng)計(jì),這兩個(gè)平臺(tái)每天產(chǎn)出文章數(shù)量為100萬(wàn)篇以上。根據(jù)大數(shù)據(jù)分析,里面67%的文章都非常適合用視頻的方式來(lái)呈現(xiàn),以及這種類(lèi)型與慧川智能研發(fā)的技術(shù)也非常契合。重要的是,目前這兩個(gè)平臺(tái)上視頻覆蓋率還非常低,因此有一個(gè)非常大的空間等待填補(bǔ)。

除了公眾號(hào),以淘寶為代表的電商上有十億級(jí)商品,也被寄予制成視頻的希望。康洪文現(xiàn)場(chǎng)演示,基于網(wǎng)頁(yè)界面,將任意網(wǎng)頁(yè)或文字輸入,后臺(tái)AI算法會(huì)根據(jù)這段文字進(jìn)行分析,找到里面所有關(guān)鍵點(diǎn),比如提到阿爾法狗和柯潔的比賽,后臺(tái)就根據(jù)自然語(yǔ)言去處理這些關(guān)鍵部分,如時(shí)間、地點(diǎn)、人物。通過(guò)文章的語(yǔ)義分析,自動(dòng)與素材進(jìn)行匹配,對(duì)每一段話、每一個(gè)句子找到對(duì)應(yīng)的多媒體素材,比如圖片、視頻、社交媒體分享,進(jìn)而自動(dòng)生成故事線。

康洪文表示,如此步驟下,生成可以直接使用的視頻,是最理想狀態(tài),但如果有需要進(jìn)一步修改的話,可以在生成界面基礎(chǔ)上再進(jìn)行素材調(diào)整,比如,還可以截取每個(gè)視頻片段長(zhǎng)度、起始時(shí)間,甚至在圖片上添加一些像畫(huà)字或者文字的信息。
據(jù)雷鋒網(wǎng)了解,通過(guò)慧川智能系統(tǒng),視頻制作效率可能被提升近百倍。之前花費(fèi)幾小時(shí)制作的視頻,如今通過(guò)智能手段,可被壓縮至幾十秒。

在具體步驟上,首先根據(jù)輸入文章或者網(wǎng)頁(yè)進(jìn)行文本分析,通過(guò)自然語(yǔ)言處理技術(shù)分析發(fā)現(xiàn)關(guān)鍵信息,之后再跟結(jié)構(gòu)化素材庫(kù)進(jìn)行匹配和搜索,找到相關(guān)的圖片、視頻片段和社交媒體,之后還有部分延伸的廣告進(jìn)行匹配。慧川智能提供簡(jiǎn)便的在線剪輯和預(yù)覽平臺(tái),客戶只需要注冊(cè)一個(gè)賬號(hào)就可以進(jìn)行剪輯,以及視頻預(yù)覽,滿意之后直接點(diǎn)擊生成視頻,在云端即可生成下載。
整個(gè)提升視頻制作效率的系統(tǒng)結(jié)構(gòu),大致分為三部分——計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、以及大規(guī)模計(jì)算。這三個(gè)部分正好對(duì)應(yīng)慧川智能三位創(chuàng)始人的背景——康洪文康慧文于卡耐基梅隆大學(xué)專攻人工智能視頻理解,CTO黃健博士是康在微軟的同事,在谷歌從事過(guò)搜索引擎與商品推薦,首席架構(gòu)官劉曦博士主攻大視頻分析平臺(tái)。
康慧文表示,面臨的最大挑戰(zhàn)是對(duì)視頻結(jié)構(gòu)化信息一無(wú)所知。從根本上講,慧川智能是希望將視頻結(jié)構(gòu)化,根據(jù)三維形態(tài)的視頻流,理解其內(nèi)部的人與物,以及他們正在進(jìn)行的動(dòng)作,把它構(gòu)建一個(gè)精確到幀級(jí)的視頻內(nèi)容標(biāo)簽。

同時(shí),康洪文表示,此次會(huì)開(kāi)放一個(gè)API,幫助對(duì)視頻有需求的人進(jìn)行理解,進(jìn)而促進(jìn)全網(wǎng)視頻結(jié)構(gòu)化。其主要包括兩大功能——一個(gè)是視頻內(nèi)容的理解和標(biāo)簽化,提供包括時(shí)間、地點(diǎn)、人物、事件等一千多個(gè)視頻結(jié)構(gòu)化標(biāo)簽。另外,慧川創(chuàng)造了全球明星的數(shù)據(jù)庫(kù),當(dāng)輸入一段視頻,后臺(tái)可以將這個(gè)視頻出現(xiàn)的所有明星,出現(xiàn)的位置,從第幾幀到第幾幀的具體位置全部標(biāo)注出來(lái)。目前慧川智能已收錄全球最知名的500位明星。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章