對抗高質(zhì)量圖像生成中的模式崩潰，及相關(guān)論文推薦

本文作者：楊曉凡

2019-09-08 21:48

導(dǎo)語：又一個問題已經(jīng)接近宣告解決

雷鋒網(wǎng) AI 科技評論按：隨著 ICCV 2019 發(fā)榜，許多學(xué)者已經(jīng)開始公開以及傳播自己的 ICCV 錄用論文。計算機視覺領(lǐng)域重磅大佬、UC 伯克利 Jitendra Malik 和南京大學(xué)合作的一篇論文引發(fā)了我們的注意。我們也一同回顧一下與它相關(guān)的幾篇論文。

《Diverse Image Synthesis from Semantic Layouts via Conditional IMLE》

通過條件 IMLE 從語義布局圖中生成多樣的圖像

作者：Ke Li（UC 伯克利）, Tianhao Zhang（南京大學(xué)）, Jitendra Malik（UC 伯克利）
論文地址：https://arxiv.org/abs/1811.12373
ICCV 2019 錄用論文
論文項目頁面：https://people.eecs.berkeley.edu/~ke.li/projects/imle/scene_layouts/

對抗高質(zhì)量圖像生成中的模式崩潰，及相關(guān)論文推薦

在對應(yīng)白天-黑夜的隱含噪聲向量控制下，圖像內(nèi)容可以在白天和黑夜之間進行連續(xù)的變化

亮點簡介：對于不使用 GANs 的，也就是基于端對端網(wǎng)絡(luò)的條件圖像生成以及圖像轉(zhuǎn)換任務(wù)來說，大多數(shù)現(xiàn)有方法都只能生成一張或者有限張好的圖像；甚至于，使用 GANs 的方法雖然理論上可以不受數(shù)量限制，但實際上也需要想辦法克服模式崩潰（mode collapse）問題，不然生成的圖像都大同小異。這篇論文就是 Jitendra Malik 等人對模式崩潰問題提出的解決方案，目標是能根據(jù)語義分割圖像生成任意多張對應(yīng)的真實圖像，在保留同樣的語義布局的同時，可以有無限多的外觀變化。
他們的方法是使用了最近提出的 Implicit Maximum Likelihood Estimation (隱式最大似然估計，IMLE) 框架，在網(wǎng)絡(luò)中用隱含向量對應(yīng)圖像外觀的不同因素，從而通過隱含向量的變化，控制圖像的外觀變化；這樣，對圖像風(fēng)格的變化有了更多控制，通過不同向量的值的組合也就能讓得到的結(jié)果更多樣、不重復(fù)。另外，即便使用同樣的模型架構(gòu)，他們的方法生成的圖像也瑕疵更少。雖然學(xué)習(xí)到的隱含空間缺乏監(jiān)督，但是能夠?qū)W習(xí)到一些合理的結(jié)構(gòu)，就能夠幫助讓模型發(fā)揮出很多的表現(xiàn)。
這篇論文的方法同時讓我們想起 ICCV 2017 論文《Photographic Image Synthesis with Cascaded Refinement Networks》和 CVPR 2019 論文《A Style-Based Generator Architecture for Generative Adversarial Networks》。雷鋒網(wǎng) AI 科技評論下面也做簡單介紹。

《Photographic Image Synthesis with Cascaded Refinement Networks》

用級聯(lián)優(yōu)化網(wǎng)絡(luò)生成照片級圖像

作者：斯坦福大學(xué)博士陳啟峰，英特爾實驗室視覺組主管 Vladlen Koltun
論文地址：https://arxiv.org/abs/1707.09405v1
ICCV 2017 錄用論文
項目地址：https://github.com/CQFIO/PhotographicImageSynthesis

對抗高質(zhì)量圖像生成中的模式崩潰，及相關(guān)論文推薦

亮點簡介：在這篇論文發(fā)表時，用 GANs 生成大尺寸、高精度、高真實度圖像的方法尚未出現(xiàn)，這篇論文的成果可以說是一大突破；而且論文只用了端到端的網(wǎng)絡(luò)就達到了這個目標。
具體來說，「從一張真實世界的圖像生成語義分割布局圖像」這一監(jiān)督學(xué)習(xí)任務(wù)已經(jīng)得到了較好的解決，那么反過來，從「從語義布局圖像生成照片級圖像」也就是完全有可能的，這就為生成大尺寸、高精度、高真實度圖像打開了一扇窗戶。當然了，真的做到這一點還是需要一些技巧的，作者們通過大量實驗，總結(jié)出模型需要兼顧全局協(xié)調(diào)性、高分辨率、記憶力三個特點才能達到好的效果，并設(shè)計了對應(yīng)的逐級提高分辨率的級聯(lián)優(yōu)化網(wǎng)絡(luò) CRN。另外，他們也采取了一些手段，首先讓模型生成多張不同的圖像，然后從多張圖像中選擇最真實的部分進行拼接。最終達到了非常好的效果。

《A Style-Based Generator Architecture for Generative Adversarial Networks》

一個基于風(fēng)格的 GANs 圖像生成架構(gòu)

論文作者：NVIDIA 實驗室 Tero Karras, Samuli Laine, Timo Aila
論文地址：https://arxiv.org/abs/1812.04948
CVPR 2019 最佳論文之一
項目地址：https://github.com/NVlabs/stylegan
人臉生成公開 Demo：https://thispersondoesnotexist.com/

論文亮點：我們都知道，GANs 生成圖像都是從一個隨機種子開始的，然后我們就只能期盼這是一個好的隨機種子，可以帶來好的圖像 —— 說白了我們對中間的生成過程完全沒有控制。在條件圖像生成的論文中人們對這個問題有一些研究，但是沒有大的突破。
這篇論文提出的新架構(gòu)從圖像風(fēng)格遷移論文中得到了啟發(fā)。他們的模型架構(gòu)可以自動地、無監(jiān)督地學(xué)習(xí)到不同的高級別屬性（比如在人臉上訓(xùn)練時可以學(xué)習(xí)到姿態(tài)和膚色），而且在生成的圖像中有足夠的隨機變化。他們方法的關(guān)鍵在于，對控制圖像中變化的隱含變量進行了解耦，這樣我們就得以具體地控制不同高級別屬性的取值以及它們的變化。他們提出的兩種新方法也可以用在任意的生成器架構(gòu)中。

這三篇論文中，第一篇、第二篇論文都有「從語義布局圖生成圖像」，而第一篇和第三篇論文都有「學(xué)習(xí)隱含變量空間、嘗試隱含變量解耦」。這三篇論文值得放在一起讀一讀，仔細揣摩對比一下他們的做法。

雷鋒網(wǎng) AI 科技評論報道。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。