商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

本文作者：張棟

2019-07-17 18:11

專題：CCF-GAIR 2019

導語：商湯AI落地三步走戰(zhàn)略。

7月12日-7月14日，2019第四屆全球人工智能與機器人峰會（CCF-GAIR 2019）于深圳正式召開。

峰會由中國計算機學會（CCF）主辦，雷鋒網(wǎng)、香港中文大學（深圳）承辦，深圳市人工智能與機器人研究院協(xié)辦，得到了深圳市政府的大力指導，是國內人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流博覽盛會，旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午，在「智慧城市·視覺智能」專場上，商湯科技聯(lián)合創(chuàng)始人、研究院院長、移動智能事業(yè)群總裁王曉剛帶來了題為《從學術到產業(yè)化的人工智能》的主題分享。

王曉剛回顧了人臉識別從學術到工業(yè)界的持續(xù)進步歷程，以及人臉識別在智慧城市、智慧通行、手機、AR、游戲等具體場景中的應用。

他提出，計算機視覺研究有幾個比較重要的部分：

一是基礎層，包括芯片、AI超算平臺、深度學習平臺等基礎方面的研究，在這方面，中國還有很長地路要走，西方尤其是美國領先我們很多。

二是應用層，這一塊中國是比較擅長的，我們有非常豐富的應用場景，這些應用場景可以給我們更多的反饋，驅動我們的算法不斷地進步。

三是工具鏈層，人工智能賦能百業(yè)，當不同領域需要人工智能技術越來越多的時候，它對科學家或者研究員的需求是線性增長的。如何讓普通的開發(fā)者、公測人員可以根據(jù)我們的工具鏈迅速開發(fā)出合適的人工智能解決方案，使其生產力充分釋放出來，這是未來我們需要面臨的重大課題。

在這個過程中，商湯以往、現(xiàn)在以及未來持續(xù)會做的是：在算法精度不斷提升的前提下，拓展智慧城市從1到N的業(yè)務邊界、促進2D感知到3D世界的落地，以及場景現(xiàn)實到虛擬現(xiàn)實的融合。

2014年，商湯團隊發(fā)表DeepID系列人臉識別算法，使其全球首次超過人眼識別率，之后隨著技術的持續(xù)進步，業(yè)務也不斷突破邊界，從相對簡單的1：1識別向1：N進發(fā)。

目前，商湯所做的工作是如何從幾萬到幾十萬人中，識別和分析出用戶想要找的人或者物，隨著場景不斷地拓展，王曉剛認為人臉會逐漸成為人的身份標志。

另外，在3D的應用上，商湯的3D人臉識別方案也已經在很多手機上得到應用。

王曉剛現(xiàn)場展示了手機上通過3D攝像頭拍攝的人臉、物體以及人體圖像進行3D重建，未來2D的相冊還能拓展到3D相冊，人體的跟蹤上也從2D延伸到3D。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

商湯科技聯(lián)合創(chuàng)始人、研究院院長、移動智能事業(yè)群總裁王曉剛

以下是王曉剛教授大會現(xiàn)場全部演講內容，雷鋒網(wǎng)作了不改變原意的整理及編輯：

王曉剛：感謝大會的邀請，我是香港中文大學的一名教授，同時也參與商湯在人工智能產業(yè)方面的落地，今天非常高興能有機會與大家分享我在學術研究與工業(yè)化落地方面的一點個人體會與看法。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

我自己有這樣的一些經歷，我們在實驗室?guī)е鴮W生做研究，更多地是利用有限的計算資源和數(shù)據(jù)資源做學術界里的經典問題，“作坊式”地實現(xiàn)一些創(chuàng)新和突破。

隨著人工智能在工業(yè)界大規(guī)模落地，市場給了技術發(fā)展很大的助力，包括可研究的內容、可研究的工具、可研究的形式。

我比較認同賈佳亞老師（上一位演講嘉賓）所說的未來不同研究領域的一些融合。

我認為現(xiàn)在我們的研究更多地停留在算法層次，未來的人工智能研究很重要的方面是軟硬的結合、算法和芯片的結合、算法和傳感器的聯(lián)合優(yōu)化，這些都是比較重要的幾個方向。

而這些方向往往都需要更強的工業(yè)界支持，因為后者可以提供更多的硬件能力、更大的研究課題。

首先，業(yè)務系統(tǒng)對于我們的研究是非常重要的。比如一個普通城市，至少都有上萬個攝像頭，一年積累的人臉數(shù)據(jù)超過上千億，如果將這些攝像頭連在同一個平臺上，如何在大平臺上進行高效率地圖像搜索和大數(shù)據(jù)分析，這是實驗室中難以接觸到的問題。

另外，我們的計算平臺在現(xiàn)有的一些工業(yè)研究領域，能夠同時使用幾百塊GPU訓練一個模型，從而做到快速反饋。

同時，還有很多長尾的人工智能問題需要解決。我們需要建立一套高效的工具鏈，可以做到全面的測試和評估。

比如我們做人臉識別、計算機視覺識別問題，在學術領域，我們在實驗室里也有工具，但真正工業(yè)應用落地其實要做大量的測試，后者會反饋出非常多的問題。

而以上這些要素，均是學術實驗室所不具備的。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

商湯科技成立于2014年，初創(chuàng)研究團隊來自于香港中文大學，大概有20年歷史的學術積淀。

我們一直與學術界保持著密切地交流，包括與MIT、南洋理工、清華、北大等高校都設有聯(lián)合實驗室，可以提供不同行業(yè)的人工智能算法和解決方案。

過去幾年，我們除了做一些工業(yè)落地方面的研究，也會兼顧學術方面的探索，在ICCV、ECCV上發(fā)表了幾百篇論文。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

我們和香港中文大學聯(lián)合實驗室共同啟動OpenMMLab開源算法庫，其中包含了大家經常關注的計算機視覺問題，如物體的檢測、行為的識別和超分等。

經典算法開源，可以幫助大家更好地復現(xiàn)，目前也有一些其他院校加入到了這個開源平臺的構建中。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

同時，我們還提供了SenseAR增強現(xiàn)實的開發(fā)者平臺，這是學術和工業(yè)聯(lián)合研究的例子。

它不僅有增強現(xiàn)實AR和AI功能集成，從SLAM到人臉、人體的識別等，還可以部署到不同的手機上，目前這個平臺已經部署在超過5000萬臺的手機上。

我們認為做計算機視覺或者人工智能方面的研究有幾個比較重要的方面：

一是基礎層，包括芯片、AI超算平臺、深度學習平臺等基礎方面的研究，在這方面，我們還有很長地路要走，西方尤其是美國領先我們很多。

二是應用層，這一塊中國是比較擅長的，我們有非常豐富的應用場景，這些應用場景可以給我們更多的反饋，驅動我們的算法不斷地進步。

三是工具鏈層，人工智能賦能百業(yè)，當不同領域需要人工智能技術越來越多的時候，它對科學家或者研究員的需求是線性增長的，如何讓普通的開發(fā)者、公測人員可以根據(jù)我們的工具鏈迅速開發(fā)出合適的人工智能解決方案，使其生產力充分釋放出來，這是未來我們需要面臨的重大課題。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

舉幾個例子，在算法精度不斷提升的前提下，如何拓展智慧城市從1到N的業(yè)務邊界、促進2D感知到3D世界的落地，以及現(xiàn)實到虛擬現(xiàn)實的融合？

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

我們知道，人工智能的工業(yè)應用時間點是在2014年，2014年商湯團隊發(fā)表DeepID系列人臉識別算法全球首次超過人眼識別率。

而后，很多人認為當技術超過肉眼識別率時，問題就已經解決的差不多了，其實不是這樣，現(xiàn)實生活中，很多場景對于技術的需求遠遠超過肉眼識別的水平。

2014年，當時的技術誤識率是在千分之一，現(xiàn)在每年都有幾個量級的增長。從過去幾年中可以看到，隨著人臉識別技術精度持續(xù)增長，它可以不斷地突破業(yè)務的邊界。

此前，識別率比較低時，可以做1：1比對，如人臉、身份證進行線上線下認證，現(xiàn)在很多產品已經出現(xiàn)在機場、酒店中。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

從2017年開始，人臉識別技術開始應用于手機解鎖功能，手機雖小但其要求更高，因為手機不但要識別準確，還要防止活體攻擊，這其中還包含各種各樣活體攻擊方式，從照片到視頻再到3D模型。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

過去幾年里，我們的SenseID人臉識別、活體檢測水平持續(xù)提升，可以讓這一項技術進入普羅大眾的日常生活中。

據(jù)統(tǒng)計，現(xiàn)在人們每天使用手機人臉解鎖這項功能超過100億次。

如果1：1是相對簡單的問題，1：N就更加復雜。

我們需要有數(shù)據(jù)庫，這里的數(shù)據(jù)庫可能是幾萬或者幾十萬量級。在門禁、閘機等通行場景中，一個大樓或者公司有1、2萬人的數(shù)據(jù)庫；智慧城市的數(shù)據(jù)庫可能達到幾十萬的量級。

商湯所做的就是從幾萬到幾十萬人中識別和分析所需要找的人與物。隨著場景不斷的拓展，我們可以看到人臉漸漸的成為人的身份標志。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

現(xiàn)在大家看到的是我們在上海西岸的“智慧公共空間管理平臺”，這個區(qū)域有密集的攝像頭，可以通過人臉識別、跟物體的關聯(lián)等，尋找到我們想要找的人或者丟失的東西。

現(xiàn)在智慧城市應用里，我們可以看到有越來越多的攝像頭具有AI的功能，越來越多的攝像頭可以連接在同一個平臺上。

為了數(shù)據(jù)安全和數(shù)據(jù)隱私的保護，我們會逐漸減少人工干預和標注，數(shù)據(jù)可以存儲在客戶那一端。

以前我們說算法性能的提升依靠人工標注，現(xiàn)在我們的數(shù)據(jù)量有幾十億甚至上百億的量級，不太可能靠人工標注，我們需要依靠機器終身學習，使數(shù)據(jù)得到自動更新，部署系統(tǒng)和訓練系統(tǒng)可以實現(xiàn)完美融合。

在3D應用方面，手機已經從單個RGB攝像頭到多攝到3D攝像頭。

2017年開始，蘋果應用了結構光3D攝像頭，后面我們可以陸續(xù)看到很多手機廠商不斷地推出這樣的機型，把有深度學習的攝像頭裝在手機上，可以帶來很多新的研究課題和新的應用。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

回顧一些大家比較熟悉的場景，看它如何從2D成長到3D并產生相應的應用。

比如最開始人臉的關鍵點，我們推出106個人臉關鍵點，主要是做人臉的屬性、人臉特效，用在互聯(lián)網(wǎng)直播等。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

我們從106點到更稠密的240個人臉關鍵點，做的事情不僅是增加特效了，而且還有美妝，對人臉關鍵點的定位要求更準確。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

化妝后出現(xiàn)關鍵點偏移，比如紅嘴唇涂到牙齒上等等，這是我們不希望看到的，根據(jù)關鍵點，我們有智能的美顏、美妝，更多的功能需要更多稠密的關鍵點和定位。

現(xiàn)在手機上有了3D攝像頭，我們可以實現(xiàn)人臉3D重建，它對于技術的精度、計算復雜性、幾何復雜性都提出了更高挑戰(zhàn)。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

目前，我們已經在OPPO、vivo手機上實現(xiàn)了商湯人臉3D重建，根據(jù)這個可以進行3D美顏、捏臉、微整形等。

更有趣的是3D Avatar，通過人臉驅動3D Avatar，除了人臉的重建還有人體和一般物體的重建，正是因為手機上有了深度的信息，可以給我們帶來不一樣的體驗，2D相冊在未來可以拓展到3D相冊。

人體關鍵點定位跟蹤是學術界研究很長時間的課題，未來這個應用可以落地在很多場景中。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

包括服裝、膚質的識別，我們可以根據(jù)你的服裝生成人體的形象，在互聯(lián)網(wǎng)直播場景中，以前給人加各種各樣的特效，現(xiàn)在還可以針對每一個人做虛擬形象。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

另外，還可以設立虛擬觀眾席，如果大家不能在現(xiàn)場參加像今天這樣的大會，作為粉絲，你可以有自己的Avatar形象，可以在家里參加并進行互動。

最后，我想介紹人工智能和AR（增強現(xiàn)實）的結合。

2017年被大家看作是增強現(xiàn)實的元年，這一年蘋果、谷歌發(fā)布了ARKit和ARCore的平臺，商湯科技從2016年有自己的增強現(xiàn)實平臺SenseAR。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

2016年我們主要支持娛樂互聯(lián)網(wǎng)的直播、特效等功能。

2018年，商湯以原創(chuàng)AR開發(fā)者平臺SenseAR為基礎，聯(lián)合OPPO共同打造OPPO ARunit平臺，通過這個平臺吸引更多的開發(fā)者加入，后面包括小米等互聯(lián)網(wǎng)公司也加入進來并基于此做了開發(fā)。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

這其中有SLAM技術、有各種AI功能，隨著手機3D攝像頭的出現(xiàn)，我們還有基于RGBD的SLAM和物體的重建。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

除了手機端，我們也提供AR云形成多云共享，幾個人可以同時在虛擬空間里交互、游戲。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

可以看到SLAM技術的落地面臨諸多挑戰(zhàn)，需要應對動態(tài)的場景、弱紋理、復雜運動以及室外大場景。

這里為大家展示的是OPPO手機上有了SLAM技術和深度攝像頭可以做AR測量，你可以拿著手機測量任何一個物體的大小，還可以自動的檢測場景中的各種形狀，如方形、圓形、測量身高等。

現(xiàn)在對標蘋果AR尺子的技術，在準確性或者數(shù)字化、速度上等各方面上，我們可以做得更好一些。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

我們還做了AR導航，大家可以在大的購物中心、酒店等室內場景里找到自己的位置，在技術實現(xiàn)上，這是極具挑戰(zhàn)的。

杭州國博中心是一個非常大的場景，我們可以進行3D地圖重建，用SLAM的技術實現(xiàn)室內導航。

如果你走丟了，可以通過手機AR導航功能選擇路線，導航會自動帶你到想要去的位置?？梢钥吹剿谶M行場景的重建和定位，進行手機的導航。

另外，我們的AR游戲跟《王者榮耀》合作，可以通過手機拍攝真實的場景，游戲里的人物會進行虛擬和現(xiàn)實的融合。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

接下來為大家展示多人共享的AR云（SenseAR），針對單個前端的設備，我們利用SLAM技術進行場景的理解和定位。

如果幾個人同時想玩一個游戲，我們的AR云可以把他們不同手機上的坐標系統(tǒng)一到同一個坐標系下，實現(xiàn)跨平臺的互動。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

我們的SenseAR和手機廠合作，可以從手機到AR的平臺，再到渲染的平臺，貫穿開發(fā)給開發(fā)者，將來有更多的開發(fā)應用和更好的體驗。

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

上個月，我們還成立了中國增強現(xiàn)實核心技術產業(yè)聯(lián)盟(China Augmented Reality Core Technology Industry Alliance，簡稱CARA)，我們知道國外的增強現(xiàn)實是由谷歌、蘋果等巨頭主導，很多研究和創(chuàng)新需要聯(lián)合產業(yè)鏈上下游的力量綜合實現(xiàn)創(chuàng)新。

該聯(lián)盟由手機廠商、研究機構、模組廠商、算法提供商和Sensor廠商組成，可以形成聯(lián)合創(chuàng)新。

這就是開始時談到的——現(xiàn)在和未來AI的研究不單單是在實驗室研究單點的問題，我們要聯(lián)動產業(yè)鏈上下游，通過緊密的合作和市場反饋提供新的問題，實現(xiàn)創(chuàng)新的突破。

我們相信未來隨著應用場景不斷的豐富會給我們AI研究提出更多新的課題，我們和學術界、產業(yè)界一起把AI的研究推向更前端，有更多的落地場景。

謝謝大家！

現(xiàn)場觀眾提問：王老師好，我是香港中文大學的Ph.D，商湯研究院有這么多博士，我相信這是非常強大的學術組織，但畢竟商湯是商業(yè)化的公司，我特別好奇商湯研究院如何平衡商業(yè)回報和學術成果？

王曉剛：我們對于學術成果的看重不只是發(fā)論文，雖然今天PPT中展示我們有多少篇論文，但這不是最重要的。我們要求大家要做到在學術界有影響力，且能帶來突破以及可行的工作成果。

所謂的商業(yè)回報和學術突破二者并不是完全矛盾的，它們可以有更緊密的結合。我們已經有非常多的研究員深入到各種實際應用中，發(fā)現(xiàn)問題、解決問題。

人工智能與其他很多研究不太一樣，如果研究電磁學，在實驗室里就可以了；但人工智能是賦能產業(yè)的，不能待在實驗室，一定要理解客戶真正的問題是什么。

我們希望產業(yè)可以給學術提出新的問題、新的數(shù)據(jù)，在這些問題上實現(xiàn)產業(yè)和學術的結合。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

專題

CCF-GAIR 2019

本專題其他文章

張棟

編輯

關注AI＋。（微信號：ZDmatt）

掃描關注作者微信

發(fā)私信

當月熱門文章

久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

商湯王曉剛：你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019

CCF-GAIR 2019