久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給劉欣
發(fā)送

0

對話原力靈機(jī)范浩強(qiáng):評判機(jī)器人好壞,只有一個(gè)指標(biāo)

本文作者: 劉欣   2026-02-27 14:44
導(dǎo)語:具身沒有統(tǒng)一路線,在山腳分開,終會(huì)在山頂匯合。

范浩強(qiáng)是個(gè)很幽默的人。我們問他下一個(gè)十年,具身智能要解決的問題是什么,他說可能機(jī)器人覺醒把人類滅了,就沒有下一個(gè)十年了。

這當(dāng)然是一個(gè)玩笑,探討行業(yè)的發(fā)展,難免要做一些科幻性的想象。在他看來,AI 應(yīng)該是一生的事業(yè)。畢竟他高一就拿到了國際信息奧賽金牌,高二起就是一個(gè)真正的 AI 研究員了。

原力靈機(jī)的名字很陌生,但來頭可不小,因?yàn)檫@是從曠視出來的具身智能公司。它的創(chuàng)始人便是曠視的聯(lián)合創(chuàng)始人以及最早期的幾名員工。成立不久,兩輪融資金額就已經(jīng)近10億元了。

我們對于原力靈機(jī)的好奇主要集中在幾點(diǎn):他們是想做模型還是想做本體?他們有什么樣的商業(yè)模式?作為曠視出身的新公司,他們有什么樣的優(yōu)勢?在目前的競爭中應(yīng)該如何突出重圍?

作為一個(gè)在曠視就跟無數(shù)客戶打過交道的人,范浩強(qiáng)對于具身智能的理解也帶著很強(qiáng)的“曠視”風(fēng)味。

從創(chuàng)業(yè)的第1天開始,范浩強(qiáng)就真切感受到了客戶對具身智能的強(qiáng)烈需求。但令他感到遺憾的是,很多需求是現(xiàn)在滿足不了的。機(jī)器人的能力現(xiàn)在還極其有限,而生產(chǎn)線的精度需求和效率需求又高得不可思議。

以前曠視能把人臉識(shí)別做到11個(gè)9的百分?jǐn)?shù),現(xiàn)在呢,機(jī)器人一次最簡單的抓取,可能成功率還不到一半。

在整個(gè)聊天中,我們對原力靈機(jī)最大的感受就是這個(gè)公司不講資本故事,不談 AI 噱頭。范浩強(qiáng)跟我們談 DFOL(原力靈機(jī)具身原生量產(chǎn)工作流),說具身智能的第一步落地,應(yīng)該從何處著手?它的原生應(yīng)用應(yīng)該從何處發(fā)現(xiàn)?實(shí)用場景,怎么樣從百里挑一,進(jìn)展到百里挑十,最終走到無限泛化。

對話原力靈機(jī)范浩強(qiáng):評判機(jī)器人好壞,只有一個(gè)指標(biāo)

范浩強(qiáng)在原力靈機(jī)技術(shù)發(fā)布日上介紹 DFOL

通用機(jī)器人當(dāng)然是我們所要尋求的終極目標(biāo),但是怎么走到通用呢?當(dāng)技術(shù)就是達(dá)不到完美的狀態(tài),那我們應(yīng)該怎么辦呢?不夠通用的具身智能會(huì)不會(huì)因?yàn)檫_(dá)不到大家的期待,而飽受質(zhì)疑,成為明日黃花呢?

范浩強(qiáng)給了一個(gè)他們的答案:

歷史上絕大部分技術(shù)的發(fā)展規(guī)律就是剛好夠用,可能哪里看著都不太合理,但就是能用,最后就會(huì)被推廣開來。

能用,即為合理。對于 general,做過工程的人都知道,期待不要放太高才好。

這篇訪談能夠告訴你,找到真實(shí)場景、解決真實(shí)問題的具身智能公司是怎么做的。你能讀懂一個(gè)創(chuàng)業(yè)者的困惑和努力,更能聽到他關(guān)于模型本體應(yīng)用和商業(yè)最真實(shí)的思考。以下是不改變原意的整理:


01要做就做到 SOTA,這是對自我的定位和自信


AI 科技評論:我第一次聽說你,是有人跟我說,他剛進(jìn)曠視的時(shí)候,旁邊坐著一個(gè)天才少年,還是個(gè)高中生,把他嚇?biāo)懒?,一問這個(gè)人,名字叫范浩強(qiáng)。

范浩強(qiáng):對,我12年就加入曠視了,是曠視六號員工。當(dāng)時(shí)唐文斌是我的信息奧賽教練,他就問我,我這有個(gè)事兒能保送,還能發(fā)工資,我問他,那是做什么的???靠譜嗎?他跟我說,做人臉識(shí)別啊。我當(dāng)時(shí)還在讀高中,啥也不知道就進(jìn)去了。

對話原力靈機(jī)范浩強(qiáng):評判機(jī)器人好壞,只有一個(gè)指標(biāo)

范浩強(qiáng)在曠視時(shí)的照片

AI 科技評論:你什么時(shí)候開始想做機(jī)器人的?

范浩強(qiáng):確切地說,那應(yīng)該是16年,那時(shí)候我大四,去拜訪了一個(gè)斯坦福實(shí)驗(yàn)室兩個(gè)月。那個(gè)實(shí)驗(yàn)室里面有誰呢?有蘇昊、盧策吾、王鶴、弋力、邵林。

蘇昊是大師兄,那時(shí)候帶著我們做 3D 生成。我問蘇昊,你為什么要做 3D?蘇昊就跟我說,做了 3D 生成就可以做 3D 判別,然后就可以做機(jī)器人仿真,最后咱們就可以在十年后干機(jī)器人啦。

AI 科技評論:果然到了十年之后,你們都在干機(jī)器人啦!談?wù)勗`機(jī)是怎么成立的吧?

范浩強(qiáng):我當(dāng)時(shí)就想,把 AI 放在機(jī)器人上,就是一個(gè)最大的挑戰(zhàn)故事。

但那時(shí)候缺一味關(guān)鍵的佐料,就是 AI。雖然大模型出來了,但具體怎么和機(jī)器人結(jié)合在一起?不知道。還好24年從美國出來幾個(gè)重要的工作,比如 Action Transformer、Diffusion Policy,最后還有個(gè)集大成之作就是 Pi,就一下子把路線劃清楚了,告訴大家 Transformer 這項(xiàng)技術(shù)是怎么往矩陣上用的,勾勒出一個(gè)后面的 roadmap。當(dāng)時(shí)覺得條件都成熟了,要去組建團(tuán)隊(duì)了。

我第一個(gè)想的是得找個(gè) CEO,剛好唐文斌當(dāng)時(shí)還是個(gè)“自由人”,我就找他來干這個(gè) CEO。他看到這些技術(shù)進(jìn)展,半夜2點(diǎn)給我發(fā)了條微信消息:this is once in a lifetime 的機(jī)會(huì)去做 general robotics。我回他,你怎么比我還激動(dòng)呢?

然后我們又找到了硬件合伙人周而進(jìn)、汪天才,加上唐文斌可以做客戶場景,我可以做 AI,就成了一個(gè)全國少有的集三方面于一體的團(tuán)隊(duì)了。

AI 科技評論:公司正式成立那是什么時(shí)間?

范浩強(qiáng):差不多25年3月份,第一輪融資搞定,后面公司主體成立。

AI 科技評論:進(jìn)入具身智能行業(yè)這一年,你的感覺如何?

范浩強(qiáng):我感覺后面事態(tài)的發(fā)展速度完全不受控了,因?yàn)檎麄€(gè)行業(yè)發(fā)展得一日千里。我們以前寫 paper 經(jīng)常說 traditional method 是什么,現(xiàn)在具身兩個(gè)月前的就叫經(jīng)典方法了,變化得特別快。

25年,公司剛攢出來的時(shí)候,其實(shí)有點(diǎn)兩眼一抹黑,不是不知道做什么,而是想法太多了,有想搞 humanoid 的,分離式采集的概念也很火,觸覺也很火,太多的可能性和概念飄在眼前了。

我們也是經(jīng)過25年這完整的一年才看清,模型還是這里的主軸。模型的水平?jīng)Q定了哪些場景能用,哪些場景能用又決定了最終硬件該長什么樣,再反過來決定這個(gè)數(shù)據(jù)該怎么做。模型的能力本身是整個(gè)事情發(fā)展的自變量。把這個(gè)事情看清楚之后,那核心是把模型做好,用最好的算法、最優(yōu)的數(shù)據(jù)、頂尖的工程來實(shí)現(xiàn)。那剩下公司該做什么?自然就一路展開了,這是我在創(chuàng)業(yè)過程中逐漸找到主軸和主線的過程。

AI 科技評論:做最好的模型,本身就非常難。

范浩強(qiáng):這個(gè)的確是,但我們團(tuán)隊(duì)里很多人都有種傲氣,當(dāng)年搞視覺的時(shí)候就沒當(dāng)過第二,大家很難想象一個(gè)事努力了一段時(shí)間,把該搞的搞清楚之后,最終測出來的分?jǐn)?shù)或者效果不是 SOTA?!我們是覺得研發(fā)有科學(xué)性在里面的,搞清楚了就該有好成績,這也是一種對自我的定位和自信吧。

AI 科技評論:模型是我們現(xiàn)在手上最大的牌?

范浩強(qiáng):我們有兩個(gè)開源的東西。一個(gè)是訓(xùn)練的 codebase,叫做 Dexbotic,內(nèi)部俗稱 DB。第二個(gè)是我們搭建了一個(gè)測評框架,叫 RoboChallenge,內(nèi)部叫 RC。

這些東西在技術(shù)上都是不好做的,都很硬。并且做完之后還開源,展示每行 code,也算是展示我們整個(gè)團(tuán)隊(duì)的戰(zhàn)斗力和技術(shù)水平。不少公司都做了 Codebase 開源,但很多都是 “README 式開源”,就一個(gè) README 文件,里面是空的。

開源后就引發(fā)了一系列的熱度,RoboChallenge 現(xiàn)在有五六家都申請做測試了。截止到目前,我們手里有兩張牌,一張是基建能力,第二張牌是模型,這是整個(gè)團(tuán)隊(duì)的實(shí)力展示,也是跟大家同步我們想要去努力的方向。

對話原力靈機(jī)范浩強(qiáng):評判機(jī)器人好壞,只有一個(gè)指標(biāo)

Hugging Face 聯(lián)合創(chuàng)始人 Thomas Wolf(左 3)與 Dexmal 原力靈機(jī)聯(lián)合創(chuàng)始人范浩強(qiáng)(右 2)在 IROS 2025 現(xiàn)場交流 RoboChallenge

AI 科技評論:模型這方面強(qiáng)手如云,你不擔(dān)心嗎?

范浩強(qiáng):最強(qiáng)的人還在搞 LLM 呢。


02真實(shí)場景的真實(shí)問題,可能是最難的挑戰(zhàn)


AI 科技評論:除了模型,我們還做本體嗎?

范浩強(qiáng):對,我覺得這個(gè)還是很清晰的,機(jī)器本體我們也一定得自己做。

AI 科技評論:這跟我們的商業(yè)模式相關(guān)?

范浩強(qiáng):我們之前賣軟件都賣了十幾年了,很清楚一件事,那就是要順著市場對公司的期望去做,絕大部分的用戶或者客戶還是想要個(gè) total solution,在中國也不太會(huì)有一個(gè)大廠自己通過收購做垂直整合的這種商業(yè)習(xí)慣。

所以我們覺得最終還是要端到端的給客戶創(chuàng)造價(jià)值,基本上每一環(huán)自己能控制得住,那么整個(gè)東西的品質(zhì)和可服務(wù)性才是最好的。雖然可能之前很多人都沒碰過電機(jī)這些硬件的東西,那也得從頭去做,爭取跟上這個(gè)課題的要求吧。

AI 科技評論:又做模型又做硬件,聽起來難度更高。

范浩強(qiáng):我之前就說過我們很多人都在手搓機(jī)器人,現(xiàn)在我們公司里還躺著很多手搓機(jī)器人呢,大家都認(rèn)為讓搞算法的同學(xué)自己先搭一遍機(jī)器人,才知道這里面將來會(huì)出現(xiàn)多少問題,這樣后面做算法的時(shí)候才能在腦子里想著這些問題做。

AI 科技評論:這不是折磨算法工程師嗎?

范浩強(qiáng):干得好的話,就特別開心。

AI 科技評論:你不會(huì)也手搓了一個(gè)吧?

范浩強(qiáng):全公司應(yīng)該就我手搓的最多,最早我自己在家搓了一個(gè)在家疊被子的機(jī)器人,大概是2000塊還是3000塊的成本,全是淘寶買的零件手搓出來的。

不是機(jī)械臂,就一根棍,能提升,有個(gè)夾子,接下來都得靠你的智慧,用一個(gè)小夾子怎么就擺來擺去把被子給疊起來了?里面全是設(shè)計(jì)。

AI 科技評論:手搓機(jī)器人讓你對做算法有什么新的感悟?

范浩強(qiáng):我當(dāng)時(shí)就感覺到,硬件很多都關(guān)乎于取舍,20萬也能造,2千塊也能造,最終決定東西好不好用還是取決于里面的算法,就是動(dòng)的路線,理解到這一點(diǎn)就覺得還有機(jī)會(huì),只要把算法做好了,一切美好都能到眼前。

AI 科技評論:在設(shè)計(jì)這一整個(gè)從軟件到硬件的閉環(huán)的時(shí)候,當(dāng)時(shí)想的是要做哪些場景呢?

范浩強(qiáng):當(dāng)時(shí)想的還挺簡單的,因?yàn)闀缫暜?dāng)年有500多個(gè)優(yōu)質(zhì)客戶,好多公司都有類似技術(shù)改造這種偏前瞻的部門,每年都會(huì)有人來問我們,新的科技你們公司有沒有?以前人臉識(shí)別就是 AI 了,后面大模型算是 AI,現(xiàn)在機(jī)器人才是 AI。

所以我們從第一天開始就感受到了客戶強(qiáng)烈的訴求,但比較遺憾的是,我們現(xiàn)在滿足不了。哪怕是最簡單的分揀,一個(gè)倉庫里有幾萬個(gè) SKU,直到今天那些算法都搞不定。客戶每年都會(huì)讓我們匯報(bào)一次現(xiàn)在 AI 的進(jìn)展怎么樣啦,能不能起個(gè)項(xiàng)目把這東西上線。所以我們對應(yīng)用場景沒那么擔(dān)心,AI 化改造我們已經(jīng)做了很久,很清楚這個(gè)事情該怎么做。

AI 科技評論:那接下來最大的挑戰(zhàn)是什么?

范浩強(qiáng):真實(shí)場景的真實(shí)問題,可能是最難的挑戰(zhàn)。之前 AI 1.0 整個(gè)過程中,我們看得很清楚,所有公司在有真實(shí)收入之前,都在講自己有多好,一旦產(chǎn)品真賣出去了,就不是自己講了,而是客戶講你這個(gè)東西到底能不能用。

這是非??陀^、毫無造假可能的指標(biāo),也是讓整個(gè)行業(yè)的氣氛從浮躁慢慢沉淀下來的關(guān)鍵。

現(xiàn)在都夸自己的模型多有 insight,但說實(shí)話這是不可證偽的,測評的指標(biāo)太多了,總能挑個(gè)好的,所以真實(shí)客戶的真實(shí)使用是唯一的指標(biāo)。有一回交流的時(shí)候有人說機(jī)器人該測什么指標(biāo)?回答成功率、穩(wěn)定性一大堆,但我認(rèn)為一個(gè)指標(biāo)最關(guān)鍵,一臺(tái)機(jī)器人多久能自己把錢掙回來,就這一個(gè)指標(biāo),其它都 don' t care。

AI 科技評論:那現(xiàn)在能完成這個(gè)指標(biāo)嗎?

范浩強(qiáng):我們一邊在做模型,一邊陸陸續(xù)續(xù)做一些應(yīng)用,我就發(fā)現(xiàn)了一個(gè)神奇的現(xiàn)象:最難測試的任務(wù),不是說現(xiàn)在的 table30(30個(gè)標(biāo)準(zhǔn)化桌面操作任務(wù)的數(shù)據(jù)集)里 0% 的任務(wù),而是——我們專門有個(gè)小 collection,叫做客戶場景里面的最簡單問題集,從每個(gè)客戶那兒挑了個(gè)最簡單的問題,這里面最簡單的問題比我們測的最難的問題還要難。

之前計(jì)算機(jī)行業(yè)經(jīng)常有句玩笑話叫:最難的測試叫正常用戶正常使用,你做再多回歸測試,一到真實(shí)場景完全頂不住。機(jī)器人也是一樣的,基本上每一個(gè)有價(jià)值的任務(wù),整個(gè)環(huán)節(jié)中可能剛好有一小個(gè)環(huán)節(jié),無論是對機(jī)器人的精度還是智力,真考驗(yàn)到我們了。

所以下一步的突破一定要去挑戰(zhàn)更真實(shí)、更硬核的事情,大家都有點(diǎn)客戶和落地之后,整個(gè)行業(yè)的格局才會(huì)更清晰。

AI 科技評論:你現(xiàn)在遇到的客戶場景里面的最簡單問題是什么樣的?

范浩強(qiáng):有幾個(gè)收集的 sample,其中有一個(gè)讓我印象很深,可以理解為機(jī)器人要把兩個(gè)扣在一起的東西翻個(gè)面。

AI 科技評論:為什么會(huì)有這種需求?

范浩強(qiáng):人家的工藝?yán)锞鸵筮@個(gè),這就叫真實(shí)問題,you don' t ask why。人家干了10年,說必須要這么翻,你得信他,OK?

AI 科技評論:OK。

范浩強(qiáng):我們就發(fā)現(xiàn)機(jī)器人做這事就爆難無比,根本夾不起來。所以最后我們拍 Demo 的時(shí)候,其實(shí)還專門設(shè)計(jì)了一整套機(jī)器人的動(dòng)作流程:先夾到這里,再從這里鏟進(jìn)去,再搬到另一個(gè)位置,然后再進(jìn)行下一步。機(jī)械上這套動(dòng)作是能實(shí)現(xiàn)的,但問題在于動(dòng)作太復(fù)雜,模型根本學(xué)不出來。

所以這就是真實(shí)問題,都是一環(huán)扣一環(huán)的,真要去落地,就會(huì)發(fā)現(xiàn)這是塊硬骨頭,你啃了它一口,發(fā)現(xiàn)里面怎么還一層?只有最后真的吃到里面的芯了,并且給它吃下去了,可能才知道原來我為了把這東西做落地,要解決這么多問題才行。在最終落地之前,你只能不斷發(fā)現(xiàn),原來這還有個(gè)問題是之前沒意識(shí)到的。

AI 科技評論:那豈不是要干上十年才能落地?

范浩強(qiáng):不是說難度高就代表它就解決不了,難就得動(dòng)腦子,不光模型是基礎(chǔ),產(chǎn)品設(shè)計(jì)、業(yè)務(wù)和客戶的配合,都得把巧思放進(jìn)去,最后這東西才能做好。

我覺得很好的是現(xiàn)在陸陸續(xù)續(xù)有同行逐漸出來真的落地項(xiàng)目了,很可能客戶給了100個(gè)需求,真能找到一個(gè)需求恰好天時(shí)地利人和,剛好所有的問題,都能有個(gè) solution 繞過去,然后把機(jī)器人布進(jìn)去用了。

這只是第一步。原本只有百里挑一的優(yōu)質(zhì)任務(wù)才能完成,未來模型能更強(qiáng),能擴(kuò)展到百里挑十,最終實(shí)現(xiàn)來一個(gè)任務(wù)就能完成一個(gè)任務(wù)的目標(biāo)。

AI 科技評論:最近還看到一些機(jī)器人被工廠趕出來的消息,你怎么看這些新聞?

范浩強(qiáng):很正常,做 POC 到上業(yè)務(wù)之間隔著一條鴻溝,這一點(diǎn)我們在做非標(biāo)視覺智能化的時(shí)候就有非常深刻的體會(huì)了,客戶通常會(huì)歡迎我們來做 POC,但只要你這東西做錯(cuò)了,影響到了他的主線業(yè)務(wù),那他在上線之前要把你折磨死。

AI 科技評論:你們很有這種被深深折磨過的經(jīng)驗(yàn)。

范浩強(qiáng):最終都會(huì)用來驅(qū)動(dòng)定義技術(shù),比如當(dāng)年做的 face recognition,可能行外人不知道,就最終的誤識(shí)率指標(biāo),做到了11個(gè)9,就是99點(diǎn)后面再跟9個(gè)9。所以你平常用這些人臉識(shí)別,幾乎沒感覺他錯(cuò)過,這就是被逼出來的算法。

機(jī)器人如果24小時(shí)連著干一年,如果論多少幀算錯(cuò),那可多了,因?yàn)檫@是一個(gè)實(shí)時(shí)的視頻處理過程。如果在生產(chǎn)環(huán)境下一秒鐘弄錯(cuò)了,造成的災(zāi)難是無法挽回的。所以機(jī)器人算法也一定會(huì)經(jīng)歷一個(gè)過程才能真正落地。

具身就相當(dāng)于另一種自動(dòng)駕駛,自動(dòng)駕駛需要去解決的感知過程中的決策也沒什么秘密,就搞1億公里的數(shù)據(jù),然后去做最扎實(shí)的模型訓(xùn)練,最后模型就會(huì)給可靠性的回報(bào)。機(jī)器人也一樣,只不過跟車比,機(jī)器本體要小一點(diǎn),做的任務(wù)會(huì)更多一點(diǎn)。

AI 科技評論:具身的任務(wù)可能是無窮多的,比自動(dòng)駕駛難多了吧?

范浩強(qiáng):我個(gè)人的觀點(diǎn),我覺得這波具身革命也不會(huì)解決掉機(jī)器人所有的問題,因?yàn)?0年前大家吹 AI 的時(shí)候已經(jīng)把所有的好故事講過一遍了,最后具體的落地方向,其實(shí)也就那幾個(gè)。

現(xiàn)在 LLM 的落地方向也是一樣,coding 算一個(gè),聊天算一個(gè),其實(shí)也是有限集。所以我們覺得,AI 一定是個(gè)更長期的 lifetime 的工作。這波浪潮里面我們可以把機(jī)器人 push 到比原來的效果好一大截,可能這就是這十年的版本答案了。

AI 科技評論:下一個(gè)十年呢?

范浩強(qiáng):也可能沒下個(gè)十年,是吧?機(jī)器人覺醒了把人類給滅了,也不用考慮了。

AI 科技評論:希望不要面臨這樣的情況。

范浩強(qiáng):我覺得最后技術(shù)一定會(huì)發(fā)展到一個(gè)雖然不完美,但剛剛好有用的狀態(tài)。歷史上絕大部分技術(shù)的發(fā)展規(guī)律就是剛好夠用,可能哪里看著都不太合理,但就是能用,最后就會(huì)被推廣開來。


03根據(jù)機(jī)器人的屬性,去尋找合適的應(yīng)用場景


AI 科技評論:我看到原力靈機(jī)最近在做的DFOL,是世界上首個(gè)具身智能應(yīng)用量產(chǎn)工作流。能解釋一下具身智能應(yīng)用是什么意思嗎?

范浩強(qiáng):比如像工業(yè)六軸它也是個(gè)應(yīng)用,但你肯定不想叫它具身,對吧?

AI 科技評論:只是一種自動(dòng)化硬件設(shè)備。

范浩強(qiáng):對,我覺得具身智能應(yīng)用其實(shí)是一整套的體系,比如現(xiàn)在大家做的具身硬件,一般都會(huì)做成個(gè)準(zhǔn)人形的樣子,它有一定的通用性。同時(shí),你會(huì)期望它的動(dòng)作會(huì)是比較靈巧的、比較復(fù)雜的,而不是像 XYZ 一樣,定點(diǎn)拿、定點(diǎn)放。

具身硬件,搭配比較好的傳感器,搭配一個(gè)比較大的模型,就形成了一個(gè)跟原來的工業(yè)自動(dòng)化很不一樣的一個(gè)體系。大家建立這個(gè)體系的初衷是覺得這東西最終能完全通用,但現(xiàn)在走在通了一半的路上,還沒到最完美的狀態(tài)的情況下,它擅長去干什么?

這個(gè)時(shí)候我覺得就要找出具身原生應(yīng)用,比如說為什么 LLM 去寫 code 的?

AI 科技評論:因?yàn)長LM還挺適合訓(xùn)練它的coding能力的。

范浩強(qiáng):所以你可以理解為 code 是個(gè) LLM 原生應(yīng)用。具身機(jī)器人也是一樣的,不是隨便丟個(gè)什么問題它都能解決,或者它都能擅長,也得根據(jù)它的屬性去找,什么樣的應(yīng)用場景里是適合干的。

AI 科技評論:那會(huì)不會(huì)每一個(gè)模型的原生應(yīng)用不一樣?

范浩強(qiáng):有可能,現(xiàn)在大模型也在講,這家適合做 agent,那家適合 code 的,大家存在口碑上的差距。但現(xiàn)在具身模型還沒分化到這么細(xì),所以我們就是有更多的 contrast,比如原來我做的視覺引導(dǎo)的機(jī)械臂,現(xiàn)在我想隨著 VLA 這個(gè)具身體系去做(升級)。那首先就得講清楚,VLA 比之前的方法好在哪,憑什么用新方法。

好就好在柔性輸入上。原來做的一個(gè)零件分解的工件,就必須嚴(yán)格長成這樣,只要變一點(diǎn)點(diǎn),一切就推倒重新做一遍。現(xiàn)在 VLA 有泛化性,哪怕分解的東西從可口可樂換成百事可樂了,模型能泛化了,就不需要再重新布置一次了,這就是客戶想要的特性。

另外,工廠原來搭一套快速換線的非標(biāo)機(jī)臺(tái),可能從開始接單到最后上線需要5個(gè)月。現(xiàn)在的客戶都想能不能5天之后開始生產(chǎn)交付?肯定是不可能的呀。這些任務(wù)就是給具身準(zhǔn)備的,換成其它方案都會(huì)遇到很多致命問題。

具身雖然也會(huì)帶來很多問題,比如使用具身工業(yè)臂的時(shí)候外面都得圍兩米的圍欄不許人員進(jìn)入,但只要具身智能解決了以前完全沒有思路的問題,行業(yè)還是會(huì)去解決具身帶來的問題。所以具身原生應(yīng)用就是把具身的價(jià)值給發(fā)揮出來的應(yīng)用。

AI 科技評論:我們現(xiàn)在是處于正在找它的原生應(yīng)用的這個(gè)階段,還是說已經(jīng)找到了?

范浩強(qiáng):我們現(xiàn)在的確有些客戶 case 了,但是這些 case 我們不想到處講,怕講完之后友商來了。因?yàn)檫@個(gè)東西是真掙錢的家伙,就不開源了(笑)。

AI 科技評論:你尋找 DFOL 的這個(gè)過程中,最困難的是什么呀?

范浩強(qiáng):我覺得第一大難點(diǎn)真的是找場景、找客戶。

AI 科技評論:你自己去跑的客戶嗎?

范浩強(qiáng):我和文斌一起的,我們倆之前就一起跑過很多客戶,前段時(shí)間也密集地去跑了各種工廠,跑完之后回來想,到底這個(gè)機(jī)會(huì)在哪里。

另外,我覺得得真去理解這些模型它擅長什么。有些你以為非常難的動(dòng)作,其實(shí)模型一下就學(xué)會(huì)了。有些你覺得非常簡單的動(dòng)作,訓(xùn)半天就是搞不出來,到最后其實(shí)是人學(xué)會(huì)了,所以模型的動(dòng)作設(shè)計(jì)非常重要。

AI 科技評論:講講你們的動(dòng)作設(shè)計(jì)的case。

范浩強(qiáng):比如讓機(jī)器人去疊衣服,衣服從上面捏就不如從側(cè)邊捏成功率高。要把這些東西都給搞明白,我覺得需要一批專業(yè)人才,那些很有天賦的采集員,他們可能都是未來的種子。

AI 科技評論:他們就是把人類動(dòng)作翻譯成機(jī)器人動(dòng)作的翻譯官。

范浩強(qiáng):是的,他要把自己帶入到機(jī)器人視角去想什么樣的動(dòng)作是好做好學(xué)的,他不能把自己再當(dāng)成人了,他得把自己當(dāng)成機(jī)器人去思考和理解這個(gè)問題。最終還是得有一批人專注在 DFOL 領(lǐng)域。

好多行業(yè)里有個(gè)概念叫 FAE,field application engineering 現(xiàn)場應(yīng)用工程。說實(shí)話大多數(shù)的定制版軟件全是靠 FAE 撐起來的。

在具身初級階段的時(shí)候,DFOL 是非常重要的一環(huán),整個(gè)系統(tǒng)就得為它設(shè)計(jì)。所以去畫框圖的時(shí)候,不是說像別人一樣,畫個(gè)簡單的大腦指揮,小腦指揮,機(jī)器人就干了,而是要畫成帶反饋的環(huán)路。最后任務(wù)執(zhí)行沒成功的時(shí)候,去服務(wù)的機(jī)器人的反饋數(shù)據(jù)也得傳回來,這樣機(jī)器人才能達(dá)到客戶最終的要求。

AI 科技評論:所以你這個(gè)數(shù)據(jù)是他們當(dāng)場就是 action 之后,然后反饋回來,形成一個(gè)閉環(huán)。

范浩強(qiáng):這也是 Pi 0.6 工作里面提到的一個(gè)核心算法,叫 RECAP,現(xiàn)在還有很多別的叫法,比如叫 DAG,像上海智元又叫 SOP。

其實(shí)原理都是一樣的,比如機(jī)器人快做錯(cuò)了,人趕緊給它矯正一下,然后把矯正的信號給記錄下來,讓網(wǎng)絡(luò)再去學(xué)習(xí)它,它很聰明的,基本上掰它幾回,就不往那去了,這就是我說的神經(jīng)網(wǎng)絡(luò)令人感動(dòng)的地方,它還挺聽話的。

AI 科技評論:那就是這種數(shù)據(jù)回來之后,我們還要重新去 post train 一下這個(gè)模型。

范浩強(qiáng):當(dāng)然了,相當(dāng)于在產(chǎn)能爬坡的這個(gè)階段里,其實(shí)是兩個(gè)并行的,這邊一直在采,那邊也一直在訓(xùn)。直到我監(jiān)測的時(shí)候發(fā)現(xiàn),平均無干預(yù)時(shí)間已經(jīng)到達(dá)一個(gè)指標(biāo)了。那我就把更新斷掉,后面它就變成被動(dòng)收集模式了,模型就不動(dòng)了。但是如果它今天出 badcase,數(shù)據(jù)依然還會(huì)再傳回來,給以后的模型去做參考。

AI 科技評論:那就是現(xiàn)在我們有出貨一些本體機(jī)器了?

范浩強(qiáng):我們公司25年3月份成立,有些項(xiàng)目款的產(chǎn)品,現(xiàn)在那些客戶的試點(diǎn)里面就有在用,最終說的主線硬件,時(shí)間上趕一趕,26年能推出一個(gè)給客戶用的、比較統(tǒng)一的硬件產(chǎn)品。

AI 科技評論:既然我們要針對服務(wù)具體的工廠客戶了,還有必要去做一個(gè)統(tǒng)一的硬件產(chǎn)品嗎?

范浩強(qiáng):像夾板或者是末端的東西,可能這個(gè)客戶需要硬的,那個(gè)客戶需要軟的。但是機(jī)器人整體的 platform 還是得盡快穩(wěn)定下來為好,便于數(shù)據(jù)積累和模型學(xué)習(xí)。所以我們公司戰(zhàn)略上肯定還是期望,能盡快收斂到我們的主力機(jī)型上。

AI 科技評論:那以后會(huì)不會(huì)去做一些面向更 C 端的機(jī)器人?或者說更通用化的?

范浩強(qiáng):我們愿景里是想做的,只不過感覺這事兒更得等一等了。

AI 科技評論:那會(huì)單去給某些本體公司提供大腦這樣的事情嗎?

范浩強(qiáng):目前暫時(shí)不會(huì),那個(gè)生態(tài)鏈上已經(jīng)很擁擠了,這也不是我們擅長的東西。

AI 科技評論:那從你的角度上來看,原力靈機(jī)在整個(gè)行業(yè)中的生態(tài)位是什么呀?

范浩強(qiáng):我希望它是技術(shù)的引領(lǐng)者、應(yīng)用的先行者。


04在山腳分開,在山頂匯合


AI 科技評論:模型和硬件之間的關(guān)系是什么樣的?

范浩強(qiáng):硬件其實(shí)本來也是個(gè)科學(xué),里面也沒有魔法。比如可靠性、結(jié)構(gòu)、鋼度這些問題,大家其實(shí)都有對應(yīng)的方法論。只要設(shè)計(jì)的時(shí)候把這些問題都考慮好,都驗(yàn)證透了,那最后的產(chǎn)品一定也是好的。

現(xiàn)在的硬件難點(diǎn),我覺得和模型一樣,locomotion 大家基本上都有解決方法了,但是機(jī)器人運(yùn)動(dòng)中,manipulation 在硬件上的卡點(diǎn)十分突出。

我可以舉個(gè)很細(xì)節(jié)的例子,比如手腕,人的手腕其實(shí)伸進(jìn)桌斗里很容易,機(jī)器人伸不進(jìn)去。有很多客戶讓我們做這個(gè) case,發(fā)現(xiàn)死在了第一環(huán),根本就伸不進(jìn)去,你都沒有資格去講這個(gè)問題,后面還能說什么?

所以我們覺得在硬件方面,也都得從應(yīng)用出發(fā),才能到落地的狀態(tài)。

我們有一個(gè) slogan 叫模型決定場景,場景定義硬件。這代模型科技范圍內(nèi),能做的事情清楚了,那后面各種實(shí)現(xiàn)的方法,也就綱舉目張的出來了。

AI 科技評論:你們基模訓(xùn)練得算是快的嗎? 

范浩強(qiáng):真的拿顯卡去跑,可能就幾周的時(shí)間,但是要先把跑什么、怎么跑這些事情全部搞清楚,做好前期驗(yàn)證和數(shù)據(jù)準(zhǔn)備,這就要花費(fèi)大量的時(shí)間去迭代和建設(shè)。

AI 科技評論:要跑什么?怎么去跑?

范浩強(qiáng):要跑比如 base model 的訓(xùn)練參數(shù)、數(shù)據(jù)分布,這些怎么做才能合理?這些才是真正決定了這個(gè)模型的最終能力。我們往里面加了幾千小時(shí)自采數(shù)據(jù),這些數(shù)據(jù)都是一小時(shí)前采出來的,或者叫一分鐘、一分鐘采上來的。

AI 科技評論:你們的數(shù)據(jù)采集做得很扎實(shí)。

范浩強(qiáng):這倒是,不過還好,搞人臉的時(shí)候我們已經(jīng)采了10年數(shù)據(jù)了,有些采集員他們就非常有技術(shù)信仰。最激進(jìn)的采集員還會(huì)主動(dòng)過來問,我采的數(shù)據(jù)用到模型上效果咋樣?他自己還會(huì)琢磨下一批數(shù)據(jù)該怎么采集更好。

對話原力靈機(jī)范浩強(qiáng):評判機(jī)器人好壞,只有一個(gè)指標(biāo)

聯(lián)合開發(fā)的首款數(shù)據(jù)采集機(jī)器人 DOS-W1 量產(chǎn)出貨合影,范浩強(qiáng)在現(xiàn)場。

AI 科技評論:他都已經(jīng)從職業(yè)變成專業(yè)了是吧?

范浩強(qiáng):是的,非常神奇,我覺得也算是這個(gè)工作中的樂子吧。我們公司有個(gè)參觀景點(diǎn),里面有塊大看板,上面有個(gè)功勛榜,列著誰為我們的整個(gè)數(shù)據(jù)集里貢獻(xiàn)了最多時(shí)長的數(shù)據(jù),后世一定要銘記這些當(dāng)年的功臣。

AI 科技評論:那他們是硅基生命的大功臣。

范浩強(qiáng):采集員也要做到人機(jī)合一啊。因?yàn)槲覀兡莻€(gè)任務(wù)很難,零點(diǎn)幾毫米的對準(zhǔn)精度,要苦練兩天才能練出來。

AI 科技評論:那下一代的具身模型會(huì)跟這一代有什么區(qū)別?會(huì)朝哪些方向發(fā)展?

范浩強(qiáng):我覺得首先模型一般來說有四大指標(biāo),泛化性、智能性、靈巧性,還有效率。這一代我們更多關(guān)注它的靈巧性和一定的泛化性,下一代這些指標(biāo)我覺得得數(shù)量級的增長才行。

現(xiàn)在很多任務(wù)可能也就做個(gè)百分之八九十成功率,但是未來少不得進(jìn)入客戶場景,所以下一代簡單任務(wù)必須沖著99、 99.9的成功率去了。另外在動(dòng)作的長度上,現(xiàn)在大部分自己測的任務(wù),可能10秒內(nèi)干完一拿一放的任務(wù),后面要做分鐘級甚至小時(shí)級的長程任務(wù)。

AI 科技評論:現(xiàn)在具身模型訓(xùn)練路徑也很多,有搞仿真的,有搞VLA的,有搞世界模型的,這是一個(gè)好事嗎?

范浩強(qiáng):每個(gè)人堅(jiān)持自己的路挺好的,大家技術(shù)路線上太同質(zhì)化,那就浪費(fèi)這個(gè)試錯(cuò)的機(jī)會(huì)了。我們大概率還是一個(gè)預(yù)訓(xùn)練加真機(jī)的技術(shù)組合。大家最好路子不太一樣,這樣也能相互看看對方到底干得咋樣,能有個(gè)參考。如果大家都一模一樣,那最后比啥呢?

AI 科技評論:最終不會(huì)都收斂到一個(gè)路線嗎?

范浩強(qiáng):應(yīng)該不會(huì),應(yīng)該是在山腳分開,在山頂匯合。比如做仿真的人天天在搞 3D 資產(chǎn),做真機(jī)數(shù)采的人天天在研究怎么增廣,其實(shí)最后發(fā)現(xiàn)它是一樣的。做實(shí)的人天天想怎么往虛了搞,做虛的人天天想怎么加實(shí)的東西,因?yàn)榧夹g(shù)問題是一樣的,無論你的出發(fā)點(diǎn)是什么,手段是什么,其實(shí)最終在大的格局上一定能找到對應(yīng)物的。

所以我真心覺得這些技術(shù)路線的分歧本身不本質(zhì),區(qū)別完全取決于你在實(shí)現(xiàn)過程中解沒解決那些問題,你解決了的話,那就一定能做好。這種我們叫還原論思想,其實(shí)挺曠視風(fēng)格的,比如當(dāng)時(shí)張祥雨有幾篇很重要的文章,有一篇是 ConvNeXt,他就想說別看其他人天天用 Transfomer 刷 Vision,我用卷積照樣能刷。

AI 科技評論:后來大家不還是被統(tǒng)一到Transformer?

范浩強(qiáng):現(xiàn)在 Transformer 已經(jīng)被改的面目全非了,大家說的 Dswin(滑動(dòng)注意力窗口)結(jié)構(gòu),你說那東西和卷積有區(qū)別嗎?我覺得沒區(qū)別。搞 Transformer 的人最后搞回來了卷積,搞卷積的人最后搞了個(gè) Transformer,其實(shí)殊途同歸。

我不喜歡做這種概念性上的戰(zhàn)隊(duì)或者對立,我們相信這世間的真相只有一個(gè),但方法有很多。

雷峰網(wǎng)-雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說