1
| 本文作者: 宗仁 | 2016-12-07 20:20 |
根據(jù)你提供的圖片內(nèi)容和想要的風格重新“生成”一張新的圖片,是今年很多濾鏡粉玩過的一個爆火游戲,但如何把這個“游戲”遷移到視頻上,并實現(xiàn)高質(zhì)量的視頻風格“生成”對于很多人來說并不熟悉,因為市面上這個功能大規(guī)模推向濾鏡粉的廠商還并不多,粉絲們對這個技術背后的算法也不甚了解。不過在今年Siggraph Asia 2016上的參展商演講中,騰訊AI Lab聯(lián)合清華大學實驗室的團隊,就為我們現(xiàn)場講解了關于視頻風格變換的相關內(nèi)容。
演講者,黃浩智,騰訊AI Lab。
迭代圖像風格轉換
前向圖像風格轉換
迭代視頻風格轉換
前向視頻風格轉換
小結

在這之前,圖片風格轉換的問題,傳統(tǒng)的方法:是基于手工提取特征來生成一張新的圖片。而目前比較流行的使用深度學習的方法:是基于深度網(wǎng)絡學習的特征來生成一張新的圖片。

今年的CVPR有一篇 oral文章 “Image Style Transfer Using Convolutional Neural Networks”,當時引起了學術界的廣泛關注,講的就是關于迭代的圖像風格變換問題。
然后我們具體去做的時候,一般是這樣的:
先輸入一張隨機(噪聲)圖,經(jīng)過VGG—19網(wǎng)絡,可以提取出我們預先定義好的content和style特征。
我們將content特征跟用戶提供的輸入圖像(content image)去比對,將style特征跟另外一張預先設定好的風格圖像(譬如某位大師的一幅油畫)去比對,有了內(nèi)容的差異和風格的差異后。
我們一步步通過一個叫back propagation(反向傳播)的過程,從網(wǎng)絡的高層往回傳, 一直傳到我們輸入的那張隨機噪聲圖, 我們就可以去修改這張隨機噪聲圖,使得它跟我們指定的content特征和style特征越來越像。
所以它最后在content 特征上接近于用戶輸入的那張,在style特征上接近于另一張預先設定好的油畫作品等。
如下圖所示,先用一個VGG—19圖形識別和卷積網(wǎng)絡提取輸入圖片的content和style特征。(這些提取的特征主要用于后面重構隨機輸入得到的結果)

關于內(nèi)容表示(CNN特征圖像): 深度神經(jīng)網(wǎng)絡已經(jīng)可以抽取高層次(抽象)的信息表征了。

下面是內(nèi)容損失函數(shù)

關于風格表示

下面是風格損失函數(shù)

下圖是流程的展示。
——一開始輸入的隨機噪聲圖,經(jīng)過中間的(VGG 19)網(wǎng)絡,在不同的層次分別提取的內(nèi)容和風格特征,跟用戶輸入原圖的內(nèi)容進行比較,跟預先設定的另一張圖(比如大師的某張油畫圖)的風格進行比較,然后計算出損失函數(shù)Ltotal。

具體的風格變換算法中產(chǎn)生的總的損失=α*內(nèi)容損失+ β*風格損失。

但迭代圖像風格變換自有它的缺陷之處。
沒有訓練和自學習的過程;
對每一張新的輸入圖都要重復它迭代更新的過程;
速度慢。

斯坦福大學的 Justin Johnson曾經(jīng)提出一種使用前向網(wǎng)絡完成圖像風格變換的方法,發(fā)表于ECCV 2016。

在其實踐時,采用的圖片轉換網(wǎng)絡層具體見下:
2個卷積網(wǎng)絡層進行下采樣;
中間5個殘差網(wǎng)絡層;
2個反卷積網(wǎng)絡層進行上采樣。

損失函數(shù)包下面三部分

最后的實踐結果如下,質(zhì)量非常不錯。

總的來說,使用前向圖片風格轉換
不僅可以保證實時性;
還可以使得(前向式)生成和迭代式在視覺上近似的結果。

將風格變換技術由圖像向視頻拓展最為直接的方式就是使用圖像風格變換的技術逐幀完成視頻的變換,但是這樣很難保證視頻幀間風格的一致性。為此 Ruder 等人提出了一種迭代式的做法 [Ruder, Manuel, Alexey Dosovitskiy, and Thomas Brox. "Artistic style transfer for videos." arXiv preprint arXiv:1604.08610 (2016)],通過兩幀像素之間的對應關系信息來約束視頻的風格變換。
不過,迭代式(Ruder et al.)的方法來處理視頻的風格變換考慮了時間域的一致性,但是處理速度非常慢,處理一幀視頻大約需要 3 分鐘。


那不考慮時空一致性又是什么結果呢?以靜態(tài)圖片轉換為例。

實驗結果是這樣的

總的來說,迭代式(Ruder et. al)的方法來處理視頻的風格變換
考慮了時間的一致性,但處理速度非常慢,處理一幀視頻大約需要3分鐘;
另外其品質(zhì)還高度依賴光流的精確性。

所以AI Lab嘗試了前向視頻風格遷移

我們的方法:
通過大量視頻數(shù)據(jù)進行訓練;
自動辨別學習效果,并自我優(yōu)化;
在訓練過程中我們保持了輸出結果的時間一致性。

最終,騰訊AI Lab
設計了獨特的深度神經(jīng)網(wǎng)絡;
將風格變換的前向網(wǎng)絡與視頻時空一致性結合起來;
高效地完成高質(zhì)量的視頻風格變換。

深度神經(jīng)網(wǎng)絡已經(jīng)可以抽取高層次(抽象)的信息表征了。
不同網(wǎng)絡層的格拉姆矩陣可以用來表述風格(紋理,筆觸等)。
從圖片進階到視頻(風格的轉換),要注意時空的一致性。
前向神經(jīng)網(wǎng)絡可以同時抓取風格和時空一致性。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。