依圖 CEO 朱瓏：機器識別能力三年提升一萬倍，AI 幫助探索人類智慧邊界

本文作者：張棟

2018-05-20 10:29

導(dǎo)語：全中國，有除你之外的13個人，可能連你親生父母都分辨不出區(qū)別。

昨日，ACM中國圖靈大會在上海成功舉辦，依圖科技聯(lián)合創(chuàng)始人、CEO朱瓏在會上宣布了一個他們的“重大”發(fā)現(xiàn)：中國每1億人中就有一個人跟你長得一模一樣；也就意味著全中國范圍內(nèi)，就有除你之外的13個人，可能連你親生父母都分辨不出區(qū)別。

一般來說，在1：N識別比對過程中，如果是省級范圍，機器要從1億張（近似值）的人臉中來回答“你是誰”，難度很大。如果再上升到國家層，中國人口差不多14億，從14億人次當(dāng)中將你找出，對機器識別性能的要求更高了一個量級，可能是千倍、萬倍地增長。

他表示，2015年機器識別人的水平正式超過人類；而2018年機器的水平又比2015年再提高了1萬倍，這在學(xué)界、工業(yè)界、文藝界都難以想象。

在這期間，人們將一組組照片“喂食”給計算機，一個人20年前和現(xiàn)在的照片為一組，戴墨鏡和不戴墨鏡為一組，減肥前后為一組，整容前后為一組……告訴計算機，每一組是同一人。大量照片輸入后，計算機會反復(fù)自我學(xué)習(xí)并從中總結(jié)規(guī)律，進行自我迭代，分辨能力日益精進。

到今天，相關(guān)技術(shù)能夠根據(jù)人臉和眼球的數(shù)十個維度進行精準判別。在朱瓏看來，AI技術(shù)的識別突破，已經(jīng)打開了現(xiàn)實生活或者現(xiàn)實工業(yè)界中的產(chǎn)品的突破。

以下為朱瓏博士的現(xiàn)場演講文稿，雷鋒網(wǎng)作了不改變原意的編輯及整理：

依圖是我們這一代做AI非常典型的代表，我在2012年回國，之前在美國待了十年的時間。從履歷上來講有最重要的兩段經(jīng)歷，第一段是 15年前在UCLA，UCLA的博士時期做統(tǒng)計建模和統(tǒng)計學(xué)計算，我的導(dǎo)師叫艾倫.尤爾，他的博士導(dǎo)師就是著名的理論物理學(xué)家霍金；然后在MIT的Jeff Hinton的AI Lab做計算機視覺建模；最后一段是回國前正好在深度學(xué)習(xí)爆發(fā)之前的UCLA的Yann Lecun實驗室。

在2012年之前，我們還不太敢說自己是做AI的，是會說自己是做非常具體某些方向，比如統(tǒng)計建模、統(tǒng)計學(xué)習(xí)。從2012年開始，AI比較熱門，既使是在美國大家可能也不是這么恐慌。有幾張圖，從右邊開始，從這個AlphaGo上《自然》雜志到美國著名的《經(jīng)濟學(xué)人》雜志。

可以看到有了AI之后，AI可以作為世界最著名的雜志的封面文章主題，大家可以看出節(jié)奏是非常高的，而且過去兩年以來一直是全球的熱點，包括AI以數(shù)據(jù)為中心的這種論據(jù)，以及關(guān)于學(xué)習(xí)，關(guān)于具體人臉識別的，關(guān)于開車，關(guān)于健康醫(yī)藥等等都會成為熱點。我們關(guān)注的是未來到底AI能發(fā)生一些什么。

AI現(xiàn)在是處于什么時代？

一個跟過去比較重大的區(qū)別是，AI發(fā)展太快了，特別是我們中國這個技術(shù)處于一個非常難辨別清楚技術(shù)是真是假、是好是壞，或者說如何區(qū)分。以深度學(xué)習(xí)為代表新的AI技術(shù)，過去做的人或者是做的實驗室本身就不多，也是這幾年才開始熱起來的。全球研究的積累或者說長時間的積累是不夠的。因為熱就使得各方都來參與到AI的這個討論或者交流甚至宣傳當(dāng)中，AI就變得特別多，客觀上使得很多專家的意見等等就很難區(qū)分開來，可能不僅是中國，美國也是這樣子。

另外一個是技術(shù)到了一個很可能沒有權(quán)威的時代。像是我們過去不管是從計算機視覺，還是整個AI，最好的實驗室?guī)缀跄軌驂艛囝A(yù)測全球百分之七八十的進展，但是現(xiàn)在AI無論是在美國，還是在中國，還是在歐洲，大家的發(fā)展是比較跳躍性，或者是在一兩個實驗室非常難預(yù)測主流到底在關(guān)注什么。這是整個時代的特點。

從我的背景來講，既是學(xué)術(shù)界又是工業(yè)界創(chuàng)業(yè)，又是在中國2012年到2018年這五、六年非常特殊的一個階段，過去中國沒有非常成熟的科技創(chuàng)業(yè)的情景和市場機制。對于一個生態(tài)可能最重要的是工業(yè)界，無論是行業(yè)巨頭，還是Start-up構(gòu)成的工業(yè)界（今天以技術(shù)為主的科技界），AlphaGo不能算是廣義上的技術(shù)。政府、投資者、媒體，這三者是比較成熟的，或者是比較頻繁交流的。在2012年之前，學(xué)術(shù)界不像今天經(jīng)常會被政府邀請來交流，也不會被一流的基金邀請交流，美國過去因為市場成熟，這些人經(jīng)常會在一起交流，甚至都是朋友。中國這幾年開始，各種背景的人在一起交流的越來越多，這是新的形態(tài)。

講一下依圖科技這幾年做什么？去年，我們在人臉識別方面有了一點點小小的成績。在美國國家標準與技術(shù)研究院（NIST）舉辦的人臉識別比賽（FRVT）中獲得了冠軍。這個跟學(xué)術(shù)界的比賽稍有區(qū)別的地方是，它是美國官方的人臉識別比賽，AI算法的測試數(shù)據(jù)是刑偵數(shù)據(jù)或者出入境數(shù)據(jù)，這個數(shù)據(jù)量達到了1000萬的規(guī)模，并且這樣的數(shù)據(jù)沒有公開出來，只能提交算法去測，主辦方公布結(jié)果，所以基本上是在看不到數(shù)據(jù)的情況下做的一個盲測，不像學(xué)術(shù)界是公開數(shù)據(jù)集的方式，是比較難的。當(dāng)然包括全球的不同人種，以及不同外觀條件或者實戰(zhàn)統(tǒng)計下來的場景。NIST的這個測試結(jié)果這也是在全球工業(yè)界應(yīng)用的黃金標準。

在這個基礎(chǔ)上有幾個重要的事實。2015年，機器識別人的水平正式超過人類，這是非常重要的。我們透過大量的交叉實驗來認證、跟人做對比，無論通過學(xué)生還我們跟招商銀行合作的刷臉取款，都要后面的客服人員來跟機器進行結(jié)果對比，大概是在2012年就可以超過人了。

2018年機器的水平又比2015年再提高了1萬倍，這是一個在學(xué)界、工業(yè)界、文藝界都比較難想象的一件事情，或者不能夠這么精確地知道這樣的一個方向。

技術(shù)算法在工業(yè)界到底怎么樣？從最簡單的開始，2015年的時候人臉識別，機器比人強，更重要的一個基礎(chǔ)的應(yīng)用就是1：1的比對，就是大家理解的2017年iPhone推出來的刷臉開機。這個事情還是比較簡單的，因為是靜態(tài)人臉面對機器，所以無論是采光的條件還是其它條件還是比較簡單的。學(xué)術(shù)上我們把它叫做應(yīng)用層。

往下一層是1：N。無論什么設(shè)備，拍一下，或者是在攝像機里面捕捉到你的人臉，如果是一個省的話，1億張的人臉中來回答你是誰。1：1是你已經(jīng)告訴機器你是張三李四，第二個場景是不知道你是誰，從1億張里面辨別出來，這個難度是非常大的。

再往下一層就是說一個省到一個國家。中國人口差不多要到14億人，從這14億當(dāng)中把你找出來，對技術(shù)的要求是非常高的。在這種場景下，攝像頭里面布控了幾十萬量級的重點人員，來評估出現(xiàn)的人是不是重點人員。這個對識別性能的要求再高了一個量級，可能是千倍萬倍地增長。什么意思呢？技術(shù)的識別突破，打開了現(xiàn)實生活或者現(xiàn)實工業(yè)界中的產(chǎn)品的突破。

把這幾個事情歸納一下， 2012年之前，可以認為人臉識別幾乎沒有什么發(fā)展，2015到2017、2018之間的發(fā)展曲線是非常非常陡的，然后再到2017年之后，我們看一下未來的發(fā)展到底是什么樣？會不會再10倍100倍地發(fā)展。不同的曲線上不同的點打開了工業(yè)界、生活應(yīng)用的不同場景。

大家現(xiàn)在有個討論，技術(shù)是是不是發(fā)展到了瓶頸，各項算法之間有沒有區(qū)別？這是我們中國1億人像庫的情況下，真實的比較難的刑偵案件的破案環(huán)境的一個對比的表。這有幾行，一行是我們?nèi)四槺葘Φ慕鉀Q情況，后面幾行是其它算法提供商。最高是前20名，第一名跟前面的差距非常大。

這個是在城市不同場景下的應(yīng)用，首屆數(shù)字中國建設(shè)峰會期間，從機場到火車站，到刷臉入住到刷臉進展館，這是第一個完全不用證件在幾萬人規(guī)模、不同場景下的一種人臉識別技術(shù)的使用。

AI除了非常有用以外，還能夠幫助我們理解人類的智慧到底是什么樣子的，人類智慧的邊界是什么樣子的。我們?nèi)祟愖约涸趺磪^(qū)分人的規(guī)模和精度，到底是怎么樣的？過去是沒法做這個科學(xué)實驗的，1萬人還是7萬人你辨別不出來。機器到一個非常大規(guī)模的時候，很輕易地識別1億人、10億人，甚至更多的時候，機器識別今天相當(dāng)于提供了一把尺子，我們從學(xué)術(shù)上來講就是變成這種，根據(jù)這種相似度能夠篩選出來，按照他的這個比例篩選出來給人去測，就可以測出一個人在有效的時間里面測出一個人類自己看這個世界的這種能力。

這是第一次人類有一個非常穩(wěn)定的機器，有識別能力看到人和機器智能差別到什么程度。

今天機器是有了高性能的，比人類大很多倍的這種能力，能夠幫助我們回答這些問題。我們還做了一個實驗，在幾千萬量級的身份證數(shù)據(jù)庫上，一個客戶把他女朋友生活照輸入進去，這個輸入輸出出來的前十張，他是非常難辨別哪張是他的女朋友。過去機器認識生人會比人強，這個證明一件事情，一個是熟人你天天生活或者是接觸非常頻繁的人，但是現(xiàn)在識別熟人臉的話，機器也比你厲害，這是另外一個例子。

我們還做了一個非常重要的一個實驗，就是在13億的中國人有多少跟你長的一模一樣的人，一模一樣的定義是什么呢？你媽是辨別不出來誰是誰的這個標準。結(jié)果是，每1億人當(dāng)中有一個人跟你長的一樣，所以全中國差不多12個人跟你長的是一模一樣的，大概是這樣的一個情況。

這個意味著什么呢？今天我想問題或者是跟大家分享一下，1億人當(dāng)中有一個人跟你長的像，這意味著什么？或者是說人的眼睛的辨別能力為什么不是1萬，為什么不是10萬，為什么不是千萬，正好是1億這個量級？

人類進化過程中，視覺識別能力在各大感官中的比重越來越大。可能是人類開始穿衣服了，人嗅覺識別家庭成員的能力在哺乳動物中算是比較低下的，甚至主要就是看人臉來辨別同類。選擇壓力將驅(qū)使人類的臉之間的區(qū)分度需要盡量的大，這樣保證家庭成員的穩(wěn)定性得到保障。人作為社群動物需要和大量同類打交道，臉部識別錯誤的代價是失去整個基因組的遺傳繼承。對應(yīng)的編碼人臉形狀的基因數(shù)量需要很大，目前知道有一條染色體的一大塊用于編碼臉部特征。一億分之一的識別度是一個具有巨大社會學(xué)意義的統(tǒng)計數(shù)值，背后更多的生物學(xué)意義需要更近一步探討。與之對應(yīng)的一個未經(jīng)實驗證實的觀察是，動物的臉部特征區(qū)分度不像人類這么大。比如貓和狗，光看臉，我們很不容易區(qū)分出來。

人是一個非常社會化群居的，跟人與人交互非常多的這種社會形態(tài)，人臉對于身份的確認是非常重要的，所以人類如果不具備辨別能力，你可能在出門回來之后你認不出你的小孩，認不出你的老婆，就會出現(xiàn)社會的騷亂，所以人臉識別對基因的進化是非常大的影響。

最后講一下，我們在中國做科學(xué)研究也好，做創(chuàng)業(yè)也好，我剛才舉的例子，不管是在應(yīng)用者，還是商業(yè)決策，我們有這個實踐，有這種世界級的命題，命題的高度直接決定了公司的高度，而不是取決于你的聰明，或者說不止是你的聰明才智、你是不是從MIT畢業(yè)的。希望今天的感受能夠分享給大家，謝謝。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

張棟

編輯

關(guān)注AI＋。（微信號：ZDmatt）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

依圖 CEO 朱瓏：機器識別能力三年提升一萬倍，AI 幫助探索人類智慧邊界