久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

DSA架構(gòu)的AI推理芯片完勝GPU?

本文作者: 包永剛 2021-07-12 18:25
導(dǎo)語(yǔ):被稱為中國(guó)Habana的瀚博半導(dǎo)體首款A(yù)I芯片能靠TCO贏得市場(chǎng)嗎?

英偉達(dá)GPU在AI領(lǐng)域的成功引來(lái)了大量的挑戰(zhàn)者。在國(guó)外,云端芯片初創(chuàng)公司幾乎都采用DSA(Domain Specific Architecture,領(lǐng)域?qū)S眉軜?gòu))挑戰(zhàn)英偉達(dá),比如已經(jīng)被英特爾收購(gòu)的Habana Labs。在國(guó)內(nèi),也有多家初創(chuàng)公司用GPGPU的架構(gòu)研發(fā)AI云端芯片。

“用相同的架構(gòu)競(jìng)爭(zhēng),專利就是一個(gè)問題。DSA是不同的道路,特別在云端AI推理方面,DSA可以完勝GPU?!?瀚博半導(dǎo)體創(chuàng)始人兼CEO錢軍解釋了創(chuàng)業(yè)前的技術(shù)路線思考。

雷鋒網(wǎng)此前的文章介紹過(guò),錢軍有25年以上高端芯片設(shè)計(jì)經(jīng)驗(yàn),離職前在AMD任Senior Director,全面負(fù)責(zé)GPU(圖像處理器)和AI服務(wù)器芯片設(shè)計(jì)和生產(chǎn),現(xiàn)在市場(chǎng)上的AMD Radeon圖像處理器和AI服務(wù)器芯片都是由其帶隊(duì)開發(fā)。

DSA架構(gòu)的AI推理芯片完勝GPU?

瀚博半導(dǎo)體創(chuàng)始人兼CEO錢軍

瀚博的另一個(gè)創(chuàng)始人,也是CTO和總架構(gòu)師的張磊有23年以上芯片和IP架構(gòu)設(shè)計(jì)的豐富經(jīng)驗(yàn),2013年晉升為AMD Fellow,負(fù)責(zé)AI、深度學(xué)習(xí),視頻編解碼和視頻處理領(lǐng)域。

外界不少人誤以為有多款GPU成功經(jīng)驗(yàn)的兩位創(chuàng)始人會(huì)選擇用GPU挑戰(zhàn)英偉達(dá),但瀚博在2021世界人工智能大會(huì)(WAIC 2021)開幕前夕發(fā)布的首款產(chǎn)品SV102云端推理芯片采用的是DSA架構(gòu),而這款A(yù)I芯片獲取客戶的秘訣是TCO(Total Cost of Ownership,總體擁有成本)。

GPU不是云端推理最好的架構(gòu)

初創(chuàng)公司要與巨頭競(jìng)爭(zhēng),差異化是必然的選擇。對(duì)于芯片公司而言,市場(chǎng)規(guī)模和技術(shù)路線是關(guān)鍵的考量因素。就云端芯片而言,隨著AI模型的成熟,市場(chǎng)對(duì)云端AI訓(xùn)練需求的增速會(huì)降低,云端AI推理的市場(chǎng)規(guī)模將會(huì)迅速增加。有數(shù)據(jù)顯示,2021年云端推理芯片市場(chǎng)已經(jīng)大于訓(xùn)練市場(chǎng)。

云端AI芯片市場(chǎng)的變化是挑戰(zhàn)英偉達(dá)的一個(gè)好機(jī)會(huì)。根據(jù)MLPerf此前發(fā)布的基準(zhǔn)測(cè)試,英偉達(dá)在訓(xùn)練測(cè)試中一直保持著較高的水平,但在推理測(cè)試中,GPU并不如其在訓(xùn)練中的表現(xiàn)那么亮眼。

本月初,英國(guó)初創(chuàng)公司Graphcore的IPU首度公開MLPerf基準(zhǔn)測(cè)結(jié)果,結(jié)果顯示在Inference v1.0基準(zhǔn)測(cè)試下,IPU相比GPU有1倍多的性價(jià)比收益。

“GPU在推理側(cè)不是最好的架構(gòu),我們更好的DSA架構(gòu),能夠在云端推理市場(chǎng)完勝GPU?!卞X軍表示。

但即便如此,能夠定義和推出客戶愿意買單的AI推理芯片才能夠挑戰(zhàn)英偉達(dá)。錢軍分享了他的一些思考。他表示,計(jì)算機(jī)視覺占了AI市場(chǎng)的大半壁江山,視頻流又占近70%的數(shù)據(jù)流,未來(lái)視頻相關(guān)的數(shù)據(jù)只會(huì)越來(lái)越多,因此基于視頻的AI應(yīng)用首先要有強(qiáng)大的解碼能力。

錢軍認(rèn)為,AI芯片視頻處理能力可以用三個(gè)指標(biāo)去衡量,包括延遲、吞吐量和能效。

當(dāng)然,芯片的性能也是核心指標(biāo),同時(shí),對(duì)于各種數(shù)據(jù)類型和AI模型的支持也是吸引客戶的關(guān)鍵。錢軍介紹,“我們的產(chǎn)品對(duì)于支持主流AI模型很全面,芯片設(shè)計(jì)也有前瞻性,支持計(jì)算機(jī)視覺、自然語(yǔ)言處理、搜索推薦、智能視頻處理領(lǐng)域的眾多常用神經(jīng)網(wǎng)絡(luò),軟件棧支持靈活擴(kuò)展,支持用戶自定義算子?!?/p>

云端推理DSA架構(gòu)芯片完勝GPU

英偉達(dá)的眾多挑戰(zhàn)者中,有底氣說(shuō)出完勝的公司并不多。雷鋒網(wǎng)了解到,瀚博的首款芯片研發(fā)周期大概是兩年半,這也是業(yè)界高性能芯片普遍的研發(fā)周期。2018年底瀚博半導(dǎo)體創(chuàng)立之后,瀚博的團(tuán)隊(duì)就開始自主IP的研發(fā),到了今年6月份,首款芯片SV102測(cè)試成功。

“SV102開始測(cè)試后的8分鐘就全部點(diǎn)亮,也就是通過(guò)PCIe就能看到所有功能模塊,在30多個(gè)小時(shí)內(nèi),所有模塊基礎(chǔ)測(cè)試都提前完成?!卞X軍說(shuō),“這對(duì)于一個(gè)全新設(shè)計(jì)的高端芯片是一個(gè)奇跡?!?/strong>

雖然錢軍沒有具體介紹瀚博的DSA架構(gòu),不過(guò)CTO張磊用一組數(shù)據(jù)展示了瀚博首款產(chǎn)品相比GPU的競(jìng)爭(zhēng)優(yōu)勢(shì)。

瀚博SV102是面向云端高性能推理的AI芯片,強(qiáng)調(diào)AI推理、視頻處理以及可擴(kuò)展性三大能力。AI推理性能表現(xiàn)在高效、高能耗比和低延時(shí)三方面,具體而言,SV102在Int8精度下的峰值性能為200TOPS,在75功耗下,吞吐率是GPU的2-10倍,延時(shí)更是不到GPU的5%。

DSA架構(gòu)的AI推理芯片完勝GPU?

瀚博半導(dǎo)體創(chuàng)始人兼CTO張磊

張磊介紹,SV102采用的是單寬半高半長(zhǎng)的設(shè)計(jì),存儲(chǔ)最高支持32GB,接口是16個(gè)PCIe Gen4,采用被動(dòng)散熱的方式。之所以單獨(dú)給出Int8的性能數(shù)據(jù)是因?yàn)樽钚潞椭髁髟贫送评鞧PU都只用了Int8做推理基準(zhǔn)測(cè)試,SV102也支持FP16和BF16的數(shù)據(jù)類型。

DSA架構(gòu)的AI推理芯片完勝GPU?

從給出的數(shù)據(jù)可以看到,在ResNet50和BERT兩個(gè)模型下,瀚博SV102對(duì)比英偉達(dá)最新的A10和主流的T4有2-10倍的性能優(yōu)勢(shì)。

視頻處理則是瀚博AI芯片的一大特色。“國(guó)內(nèi)外已經(jīng)推出的云端AI推理芯片幾乎都沒有內(nèi)置視頻解碼功能,如果客戶需要做視頻解碼,就需要用單獨(dú)的芯片進(jìn)行解碼。SV102就支持64路以上H.264、H.265或AVS2 1080P解碼,支持8K分辨率?!睆埨诒硎尽?/strong>

DSA架構(gòu)的AI推理芯片完勝GPU?

由此帶來(lái)的是TCO的優(yōu)勢(shì),這里的TCO主要包含服務(wù)器+AI芯片+芯片功耗+運(yùn)營(yíng)成本。張磊給出的測(cè)算是,基于SV102的性能、功耗以及尺寸的特性,相比T4的服務(wù)器可以節(jié)省60%以上的TCO,對(duì)比A10的服務(wù)器也可以節(jié)省50%的成本。在高密度視頻處理場(chǎng)景,瀚博給出的數(shù)據(jù)也顯示出其性能和價(jià)格的優(yōu)勢(shì)。

DSA架構(gòu)的AI推理芯片完勝GPU?

贏得互聯(lián)網(wǎng)客戶

即便從產(chǎn)品性能層面瀚博有完勝GPU的信心,但客戶的認(rèn)可才是最終的成功。所以,首要問題就是客戶的遷移成本。張磊告訴雷鋒網(wǎng):“從AI推理的角度看,遷移到我們的AI芯片上的成本比較小。對(duì)于那些有自己算法的客戶,遷移的成本也是很小的一部分。更重要的是要讓客戶看到TCO的巨大節(jié)省,這樣對(duì)于客戶來(lái)說(shuō)才能具有足夠的吸引力,應(yīng)用落地也會(huì)非???。

錢軍補(bǔ)充表示:“一定要理解客戶的需求,然后針對(duì)需求投入精力?!?/p>

DSA架構(gòu)的AI推理芯片完勝GPU?

對(duì)于瀚博來(lái)說(shuō),就是盡快完善軟件和生態(tài)的建設(shè)。瀚博的VastStream軟件平臺(tái)支持TensorFlow、 PyTorch、Caffe2等常見的深度學(xué)習(xí)框架模型與ONNX格式的模型,借助高度定制的AI編譯器可以充分優(yōu)化模型的執(zhí)行效率。

錢軍介紹,“我們?cè)诨ヂ?lián)網(wǎng)側(cè)的落地速度更快一些,現(xiàn)已與國(guó)內(nèi)外多家頭部互聯(lián)網(wǎng)公司合作。同時(shí),我們還在大力增加軟件團(tuán)隊(duì),未來(lái)軟件人員的數(shù)量會(huì)是硬件團(tuán)隊(duì)規(guī)模的3-5倍。”

雖然錢軍沒有透露具體的合作客戶,不過(guò)快手作為瀚博的A輪投資人,雙方應(yīng)該在業(yè)務(wù)上更容易達(dá)成合作。但無(wú)論如何,瀚博的首款芯片的大規(guī)模落地還有一段距離。

“瀚博今年的產(chǎn)能已經(jīng)確定,明年大部分的產(chǎn)能也已經(jīng)提前預(yù)知。”錢軍透露。

小結(jié)

今年四月份第一次和錢軍深度對(duì)話的時(shí)候,對(duì)于其產(chǎn)品錢軍僅僅透露了技術(shù)路線的選擇。在首款產(chǎn)品流片和完成測(cè)試之后,瀚博對(duì)外透露了有限的產(chǎn)品信息,但核心的架構(gòu)以及內(nèi)置多路視頻解碼能力的特性并未公布更多消息,雷鋒網(wǎng)認(rèn)為這些才是瀚博最核心的競(jìng)爭(zhēng)力。

當(dāng)然,對(duì)于互聯(lián)網(wǎng)客戶以及行業(yè)客戶而言,TCO以及易用程度才是更直接的考量因素。瀚博能否用TCO打動(dòng)足夠多的客戶,仍需觀察。但同樣值得關(guān)注的是,在瀚博的產(chǎn)品規(guī)劃里,有15瓦到150瓦的硬件產(chǎn)品,覆蓋邊緣和云端。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄