對話原力靈機(jī)范浩強(qiáng)：評判機(jī)器人好壞，只有一個(gè)指標(biāo)

本文作者：劉欣

2026-02-27 14:44

導(dǎo)語：具身沒有統(tǒng)一路線，在山腳分開，終會(huì)在山頂匯合。

范浩強(qiáng)是個(gè)很幽默的人。我們問他下一個(gè)十年，具身智能要解決的問題是什么，他說可能機(jī)器人覺醒把人類滅了，就沒有下一個(gè)十年了。

這當(dāng)然是一個(gè)玩笑，探討行業(yè)的發(fā)展，難免要做一些科幻性的想象。在他看來，AI 應(yīng)該是一生的事業(yè)。畢竟他高一就拿到了國際信息奧賽金牌，高二起就是一個(gè)真正的 AI 研究員了。

原力靈機(jī)的名字很陌生，但來頭可不小，因?yàn)檫@是從曠視出來的具身智能公司。它的創(chuàng)始人便是曠視的聯(lián)合創(chuàng)始人以及最早期的幾名員工。成立不久，兩輪融資金額就已經(jīng)近10億元了。

我們對于原力靈機(jī)的好奇主要集中在幾點(diǎn)：他們是想做模型還是想做本體？他們有什么樣的商業(yè)模式？作為曠視出身的新公司，他們有什么樣的優(yōu)勢？在目前的競爭中應(yīng)該如何突出重圍？

作為一個(gè)在曠視就跟無數(shù)客戶打過交道的人，范浩強(qiáng)對于具身智能的理解也帶著很強(qiáng)的“曠視”風(fēng)味。

從創(chuàng)業(yè)的第1天開始，范浩強(qiáng)就真切感受到了客戶對具身智能的強(qiáng)烈需求。但令他感到遺憾的是，很多需求是現(xiàn)在滿足不了的。機(jī)器人的能力現(xiàn)在還極其有限，而生產(chǎn)線的精度需求和效率需求又高得不可思議。

以前曠視能把人臉識(shí)別做到11個(gè)9的百分?jǐn)?shù)，現(xiàn)在呢，機(jī)器人一次最簡單的抓取，可能成功率還不到一半。

在整個(gè)聊天中，我們對原力靈機(jī)最大的感受就是這個(gè)公司不講資本故事，不談 AI 噱頭。范浩強(qiáng)跟我們談 DFOL（原力靈機(jī)具身原生量產(chǎn)工作流），說具身智能的第一步落地，應(yīng)該從何處著手？它的原生應(yīng)用應(yīng)該從何處發(fā)現(xiàn)？實(shí)用場景，怎么樣從百里挑一，進(jìn)展到百里挑十，最終走到無限泛化。

對話原力靈機(jī)范浩強(qiáng)：評判機(jī)器人好壞，只有一個(gè)指標(biāo)

范浩強(qiáng)在原力靈機(jī)技術(shù)發(fā)布日上介紹 DFOL

通用機(jī)器人當(dāng)然是我們所要尋求的終極目標(biāo)，但是怎么走到通用呢？當(dāng)技術(shù)就是達(dá)不到完美的狀態(tài)，那我們應(yīng)該怎么辦呢？不夠通用的具身智能會(huì)不會(huì)因?yàn)檫_(dá)不到大家的期待，而飽受質(zhì)疑，成為明日黃花呢？

范浩強(qiáng)給了一個(gè)他們的答案：

歷史上絕大部分技術(shù)的發(fā)展規(guī)律就是剛好夠用，可能哪里看著都不太合理，但就是能用，最后就會(huì)被推廣開來。

能用，即為合理。對于 general，做過工程的人都知道，期待不要放太高才好。

這篇訪談能夠告訴你，找到真實(shí)場景、解決真實(shí)問題的具身智能公司是怎么做的。你能讀懂一個(gè)創(chuàng)業(yè)者的困惑和努力，更能聽到他關(guān)于模型本體應(yīng)用和商業(yè)最真實(shí)的思考。以下是不改變原意的整理：

01要做就做到 SOTA，這是對自我的定位和自信

AI 科技評論：我第一次聽說你，是有人跟我說，他剛進(jìn)曠視的時(shí)候，旁邊坐著一個(gè)天才少年，還是個(gè)高中生，把他嚇?biāo)懒?，一問這個(gè)人，名字叫范浩強(qiáng)。

范浩強(qiáng)：對，我12年就加入曠視了，是曠視六號員工。當(dāng)時(shí)唐文斌是我的信息奧賽教練，他就問我，我這有個(gè)事兒能保送，還能發(fā)工資，我問他，那是做什么的??？靠譜嗎？他跟我說，做人臉識(shí)別啊。我當(dāng)時(shí)還在讀高中，啥也不知道就進(jìn)去了。

對話原力靈機(jī)范浩強(qiáng)：評判機(jī)器人好壞，只有一個(gè)指標(biāo)

范浩強(qiáng)在曠視時(shí)的照片

AI 科技評論：你什么時(shí)候開始想做機(jī)器人的？

范浩強(qiáng)：確切地說，那應(yīng)該是16年，那時(shí)候我大四，去拜訪了一個(gè)斯坦福實(shí)驗(yàn)室兩個(gè)月。那個(gè)實(shí)驗(yàn)室里面有誰呢？有蘇昊、盧策吾、王鶴、弋力、邵林。

蘇昊是大師兄，那時(shí)候帶著我們做 3D 生成。我問蘇昊，你為什么要做 3D？蘇昊就跟我說，做了 3D 生成就可以做 3D 判別，然后就可以做機(jī)器人仿真，最后咱們就可以在十年后干機(jī)器人啦。

AI 科技評論：果然到了十年之后，你們都在干機(jī)器人啦！談?wù)勗`機(jī)是怎么成立的吧？

范浩強(qiáng)：我當(dāng)時(shí)就想，把 AI 放在機(jī)器人上，就是一個(gè)最大的挑戰(zhàn)故事。

但那時(shí)候缺一味關(guān)鍵的佐料，就是 AI。雖然大模型出來了，但具體怎么和機(jī)器人結(jié)合在一起？不知道。還好24年從美國出來幾個(gè)重要的工作，比如 Action Transformer、Diffusion Policy，最后還有個(gè)集大成之作就是 Pi，就一下子把路線劃清楚了，告訴大家 Transformer 這項(xiàng)技術(shù)是怎么往矩陣上用的，勾勒出一個(gè)后面的 roadmap。當(dāng)時(shí)覺得條件都成熟了，要去組建團(tuán)隊(duì)了。

我第一個(gè)想的是得找個(gè) CEO，剛好唐文斌當(dāng)時(shí)還是個(gè)“自由人”，我就找他來干這個(gè) CEO。他看到這些技術(shù)進(jìn)展，半夜2點(diǎn)給我發(fā)了條微信消息：this is once in a lifetime 的機(jī)會(huì)去做 general robotics。我回他，你怎么比我還激動(dòng)呢？

然后我們又找到了硬件合伙人周而進(jìn)、汪天才，加上唐文斌可以做客戶場景，我可以做 AI，就成了一個(gè)全國少有的集三方面于一體的團(tuán)隊(duì)了。

AI 科技評論：公司正式成立那是什么時(shí)間？

范浩強(qiáng)：差不多25年3月份，第一輪融資搞定，后面公司主體成立。

AI 科技評論：進(jìn)入具身智能行業(yè)這一年，你的感覺如何？

范浩強(qiáng)：我感覺后面事態(tài)的發(fā)展速度完全不受控了，因?yàn)檎麄€(gè)行業(yè)發(fā)展得一日千里。我們以前寫 paper 經(jīng)常說 traditional method 是什么，現(xiàn)在具身兩個(gè)月前的就叫經(jīng)典方法了，變化得特別快。

25年，公司剛攢出來的時(shí)候，其實(shí)有點(diǎn)兩眼一抹黑，不是不知道做什么，而是想法太多了，有想搞 humanoid 的，分離式采集的概念也很火，觸覺也很火，太多的可能性和概念飄在眼前了。

我們也是經(jīng)過25年這完整的一年才看清，模型還是這里的主軸。模型的水平?jīng)Q定了哪些場景能用，哪些場景能用又決定了最終硬件該長什么樣，再反過來決定這個(gè)數(shù)據(jù)該怎么做。模型的能力本身是整個(gè)事情發(fā)展的自變量。把這個(gè)事情看清楚之后，那核心是把模型做好，用最好的算法、最優(yōu)的數(shù)據(jù)、頂尖的工程來實(shí)現(xiàn)。那剩下公司該做什么？自然就一路展開了，這是我在創(chuàng)業(yè)過程中逐漸找到主軸和主線的過程。

AI 科技評論：做最好的模型，本身就非常難。

范浩強(qiáng)：這個(gè)的確是，但我們團(tuán)隊(duì)里很多人都有種傲氣，當(dāng)年搞視覺的時(shí)候就沒當(dāng)過第二，大家很難想象一個(gè)事努力了一段時(shí)間，把該搞的搞清楚之后，最終測出來的分?jǐn)?shù)或者效果不是 SOTA？！我們是覺得研發(fā)有科學(xué)性在里面的，搞清楚了就該有好成績，這也是一種對自我的定位和自信吧。

AI 科技評論：模型是我們現(xiàn)在手上最大的牌？

范浩強(qiáng)：我們有兩個(gè)開源的東西。一個(gè)是訓(xùn)練的 codebase，叫做 Dexbotic，內(nèi)部俗稱 DB。第二個(gè)是我們搭建了一個(gè)測評框架，叫 RoboChallenge，內(nèi)部叫 RC。

這些東西在技術(shù)上都是不好做的，都很硬。并且做完之后還開源，展示每行 code，也算是展示我們整個(gè)團(tuán)隊(duì)的戰(zhàn)斗力和技術(shù)水平。不少公司都做了 Codebase 開源，但很多都是 “README 式開源”，就一個(gè) README 文件，里面是空的。

開源后就引發(fā)了一系列的熱度，RoboChallenge 現(xiàn)在有五六家都申請做測試了。截止到目前，我們手里有兩張牌，一張是基建能力，第二張牌是模型，這是整個(gè)團(tuán)隊(duì)的實(shí)力展示，也是跟大家同步我們想要去努力的方向。

對話原力靈機(jī)范浩強(qiáng)：評判機(jī)器人好壞，只有一個(gè)指標(biāo)

Hugging Face 聯(lián)合創(chuàng)始人 Thomas Wolf（左 3）與 Dexmal 原力靈機(jī)聯(lián)合創(chuàng)始人范浩強(qiáng)（右 2）在 IROS 2025 現(xiàn)場交流 RoboChallenge

AI 科技評論：模型這方面強(qiáng)手如云，你不擔(dān)心嗎？

范浩強(qiáng)：最強(qiáng)的人還在搞 LLM 呢。

02真實(shí)場景的真實(shí)問題，可能是最難的挑戰(zhàn)

AI 科技評論：除了模型，我們還做本體嗎？

范浩強(qiáng)：對，我覺得這個(gè)還是很清晰的，機(jī)器本體我們也一定得自己做。

AI 科技評論：這跟我們的商業(yè)模式相關(guān)？

范浩強(qiáng)：我們之前賣軟件都賣了十幾年了，很清楚一件事，那就是要順著市場對公司的期望去做，絕大部分的用戶或者客戶還是想要個(gè) total solution，在中國也不太會(huì)有一個(gè)大廠自己通過收購做垂直整合的這種商業(yè)習(xí)慣。

所以我們覺得最終還是要端到端的給客戶創(chuàng)造價(jià)值，基本上每一環(huán)自己能控制得住，那么整個(gè)東西的品質(zhì)和可服務(wù)性才是最好的。雖然可能之前很多人都沒碰過電機(jī)這些硬件的東西，那也得從頭去做，爭取跟上這個(gè)課題的要求吧。

AI 科技評論：又做模型又做硬件，聽起來難度更高。

范浩強(qiáng)：我之前就說過我們很多人都在手搓機(jī)器人，現(xiàn)在我們公司里還躺著很多手搓機(jī)器人呢，大家都認(rèn)為讓搞算法的同學(xué)自己先搭一遍機(jī)器人，才知道這里面將來會(huì)出現(xiàn)多少問題，這樣后面做算法的時(shí)候才能在腦子里想著這些問題做。

AI 科技評論：這不是折磨算法工程師嗎？

范浩強(qiáng)：干得好的話，就特別開心。

AI 科技評論：你不會(huì)也手搓了一個(gè)吧？

范浩強(qiáng)：全公司應(yīng)該就我手搓的最多，最早我自己在家搓了一個(gè)在家疊被子的機(jī)器人，大概是2000塊還是3000塊的成本，全是淘寶買的零件手搓出來的。

不是機(jī)械臂，就一根棍，能提升，有個(gè)夾子，接下來都得靠你的智慧，用一個(gè)小夾子怎么就擺來擺去把被子給疊起來了？里面全是設(shè)計(jì)。

AI 科技評論：手搓機(jī)器人讓你對做算法有什么新的感悟？

范浩強(qiáng)：我當(dāng)時(shí)就感覺到，硬件很多都關(guān)乎于取舍，20萬也能造，2千塊也能造，最終決定東西好不好用還是取決于里面的算法，就是動(dòng)的路線，理解到這一點(diǎn)就覺得還有機(jī)會(huì)，只要把算法做好了，一切美好都能到眼前。

AI 科技評論：在設(shè)計(jì)這一整個(gè)從軟件到硬件的閉環(huán)的時(shí)候，當(dāng)時(shí)想的是要做哪些場景呢？

范浩強(qiáng)：當(dāng)時(shí)想的還挺簡單的，因?yàn)闀缫暜?dāng)年有500多個(gè)優(yōu)質(zhì)客戶，好多公司都有類似技術(shù)改造這種偏前瞻的部門，每年都會(huì)有人來問我們，新的科技你們公司有沒有？以前人臉識(shí)別就是 AI 了，后面大模型算是 AI，現(xiàn)在機(jī)器人才是 AI。

所以我們從第一天開始就感受到了客戶強(qiáng)烈的訴求，但比較遺憾的是，我們現(xiàn)在滿足不了。哪怕是最簡單的分揀，一個(gè)倉庫里有幾萬個(gè) SKU，直到今天那些算法都搞不定。客戶每年都會(huì)讓我們匯報(bào)一次現(xiàn)在 AI 的進(jìn)展怎么樣啦，能不能起個(gè)項(xiàng)目把這東西上線。所以我們對應(yīng)用場景沒那么擔(dān)心，AI 化改造我們已經(jīng)做了很久，很清楚這個(gè)事情該怎么做。

AI 科技評論：那接下來最大的挑戰(zhàn)是什么？

范浩強(qiáng)：真實(shí)場景的真實(shí)問題，可能是最難的挑戰(zhàn)。之前 AI 1.0 整個(gè)過程中，我們看得很清楚，所有公司在有真實(shí)收入之前，都在講自己有多好，一旦產(chǎn)品真賣出去了，就不是自己講了，而是客戶講你這個(gè)東西到底能不能用。

這是非?？陀^、毫無造假可能的指標(biāo)，也是讓整個(gè)行業(yè)的氣氛從浮躁慢慢沉淀下來的關(guān)鍵。

現(xiàn)在都夸自己的模型多有 insight，但說實(shí)話這是不可證偽的，測評的指標(biāo)太多了，總能挑個(gè)好的，所以真實(shí)客戶的真實(shí)使用是唯一的指標(biāo)。有一回交流的時(shí)候有人說機(jī)器人該測什么指標(biāo)？回答成功率、穩(wěn)定性一大堆，但我認(rèn)為一個(gè)指標(biāo)最關(guān)鍵，一臺(tái)機(jī)器人多久能自己把錢掙回來，就這一個(gè)指標(biāo)，其它都 don' t care。

AI 科技評論：那現(xiàn)在能完成這個(gè)指標(biāo)嗎？

范浩強(qiáng)：我們一邊在做模型，一邊陸陸續(xù)續(xù)做一些應(yīng)用，我就發(fā)現(xiàn)了一個(gè)神奇的現(xiàn)象：最難測試的任務(wù)，不是說現(xiàn)在的 table30（30個(gè)標(biāo)準(zhǔn)化桌面操作任務(wù)的數(shù)據(jù)集）里 0% 的任務(wù)，而是——我們專門有個(gè)小 collection，叫做客戶場景里面的最簡單問題集，從每個(gè)客戶那兒挑了個(gè)最簡單的問題，這里面最簡單的問題比我們測的最難的問題還要難。

之前計(jì)算機(jī)行業(yè)經(jīng)常有句玩笑話叫：最難的測試叫正常用戶正常使用，你做再多回歸測試，一到真實(shí)場景完全頂不住。機(jī)器人也是一樣的，基本上每一個(gè)有價(jià)值的任務(wù)，整個(gè)環(huán)節(jié)中可能剛好有一小個(gè)環(huán)節(jié)，無論是對機(jī)器人的精度還是智力，真考驗(yàn)到我們了。

所以下一步的突破一定要去挑戰(zhàn)更真實(shí)、更硬核的事情，大家都有點(diǎn)客戶和落地之后，整個(gè)行業(yè)的格局才會(huì)更清晰。

AI 科技評論：你現(xiàn)在遇到的客戶場景里面的最簡單問題是什么樣的？

范浩強(qiáng)：有幾個(gè)收集的 sample，其中有一個(gè)讓我印象很深，可以理解為機(jī)器人要把兩個(gè)扣在一起的東西翻個(gè)面。

AI 科技評論：為什么會(huì)有這種需求？

范浩強(qiáng)：人家的工藝?yán)锞鸵筮@個(gè)，這就叫真實(shí)問題，you don' t ask why。人家干了10年，說必須要這么翻，你得信他，OK？

AI 科技評論：OK。

范浩強(qiáng)：我們就發(fā)現(xiàn)機(jī)器人做這事就爆難無比，根本夾不起來。所以最后我們拍 Demo 的時(shí)候，其實(shí)還專門設(shè)計(jì)了一整套機(jī)器人的動(dòng)作流程：先夾到這里，再從這里鏟進(jìn)去，再搬到另一個(gè)位置，然后再進(jìn)行下一步。機(jī)械上這套動(dòng)作是能實(shí)現(xiàn)的，但問題在于動(dòng)作太復(fù)雜，模型根本學(xué)不出來。

所以這就是真實(shí)問題，都是一環(huán)扣一環(huán)的，真要去落地，就會(huì)發(fā)現(xiàn)這是塊硬骨頭，你啃了它一口，發(fā)現(xiàn)里面怎么還一層？只有最后真的吃到里面的芯了，并且給它吃下去了，可能才知道原來我為了把這東西做落地，要解決這么多問題才行。在最終落地之前，你只能不斷發(fā)現(xiàn)，原來這還有個(gè)問題是之前沒意識(shí)到的。

AI 科技評論：那豈不是要干上十年才能落地？

范浩強(qiáng)：不是說難度高就代表它就解決不了，難就得動(dòng)腦子，不光模型是基礎(chǔ)，產(chǎn)品設(shè)計(jì)、業(yè)務(wù)和客戶的配合，都得把巧思放進(jìn)去，最后這東西才能做好。

我覺得很好的是現(xiàn)在陸陸續(xù)續(xù)有同行逐漸出來真的落地項(xiàng)目了，很可能客戶給了100個(gè)需求，真能找到一個(gè)需求恰好天時(shí)地利人和，剛好所有的問題，都能有個(gè) solution 繞過去，然后把機(jī)器人布進(jìn)去用了。

這只是第一步。原本只有百里挑一的優(yōu)質(zhì)任務(wù)才能完成，未來模型能更強(qiáng)，能擴(kuò)展到百里挑十，最終實(shí)現(xiàn)來一個(gè)任務(wù)就能完成一個(gè)任務(wù)的目標(biāo)。

AI 科技評論：最近還看到一些機(jī)器人被工廠趕出來的消息，你怎么看這些新聞？

范浩強(qiáng)：很正常，做 POC 到上業(yè)務(wù)之間隔著一條鴻溝，這一點(diǎn)我們在做非標(biāo)視覺智能化的時(shí)候就有非常深刻的體會(huì)了，客戶通常會(huì)歡迎我們來做 POC，但只要你這東西做錯(cuò)了，影響到了他的主線業(yè)務(wù)，那他在上線之前要把你折磨死。

AI 科技評論：你們很有這種被深深折磨過的經(jīng)驗(yàn)。

范浩強(qiáng)：最終都會(huì)用來驅(qū)動(dòng)定義技術(shù)，比如當(dāng)年做的 face recognition，可能行外人不知道，就最終的誤識(shí)率指標(biāo)，做到了11個(gè)9，就是99點(diǎn)后面再跟9個(gè)9。所以你平常用這些人臉識(shí)別，幾乎沒感覺他錯(cuò)過，這就是被逼出來的算法。

機(jī)器人如果24小時(shí)連著干一年，如果論多少幀算錯(cuò)，那可多了，因?yàn)檫@是一個(gè)實(shí)時(shí)的視頻處理過程。如果在生產(chǎn)環(huán)境下一秒鐘弄錯(cuò)了，造成的災(zāi)難是無法挽回的。所以機(jī)器人算法也一定會(huì)經(jīng)歷一個(gè)過程才能真正落地。

具身就相當(dāng)于另一種自動(dòng)駕駛，自動(dòng)駕駛需要去解決的感知過程中的決策也沒什么秘密，就搞1億公里的數(shù)據(jù)，然后去做最扎實(shí)的模型訓(xùn)練，最后模型就會(huì)給可靠性的回報(bào)。機(jī)器人也一樣，只不過跟車比，機(jī)器本體要小一點(diǎn)，做的任務(wù)會(huì)更多一點(diǎn)。

AI 科技評論：具身的任務(wù)可能是無窮多的，比自動(dòng)駕駛難多了吧？

范浩強(qiáng)：我個(gè)人的觀點(diǎn)，我覺得這波具身革命也不會(huì)解決掉機(jī)器人所有的問題，因?yàn)?0年前大家吹 AI 的時(shí)候已經(jīng)把所有的好故事講過一遍了，最后具體的落地方向，其實(shí)也就那幾個(gè)。

現(xiàn)在 LLM 的落地方向也是一樣，coding 算一個(gè)，聊天算一個(gè)，其實(shí)也是有限集。所以我們覺得，AI 一定是個(gè)更長期的 lifetime 的工作。這波浪潮里面我們可以把機(jī)器人 push 到比原來的效果好一大截，可能這就是這十年的版本答案了。

AI 科技評論：下一個(gè)十年呢？

范浩強(qiáng)：也可能沒下個(gè)十年，是吧？機(jī)器人覺醒了把人類給滅了，也不用考慮了。

AI 科技評論：希望不要面臨這樣的情況。

范浩強(qiáng)：我覺得最后技術(shù)一定會(huì)發(fā)展到一個(gè)雖然不完美，但剛剛好有用的狀態(tài)。歷史上絕大部分技術(shù)的發(fā)展規(guī)律就是剛好夠用，可能哪里看著都不太合理，但就是能用，最后就會(huì)被推廣開來。

03根據(jù)機(jī)器人的屬性，去尋找合適的應(yīng)用場景

AI 科技評論：我看到原力靈機(jī)最近在做的DFOL，是世界上首個(gè)具身智能應(yīng)用量產(chǎn)工作流。能解釋一下具身智能應(yīng)用是什么意思嗎？

范浩強(qiáng)：比如像工業(yè)六軸它也是個(gè)應(yīng)用，但你肯定不想叫它具身，對吧？

AI 科技評論：只是一種自動(dòng)化硬件設(shè)備。

范浩強(qiáng)：對，我覺得具身智能應(yīng)用其實(shí)是一整套的體系，比如現(xiàn)在大家做的具身硬件，一般都會(huì)做成個(gè)準(zhǔn)人形的樣子，它有一定的通用性。同時(shí)，你會(huì)期望它的動(dòng)作會(huì)是比較靈巧的、比較復(fù)雜的，而不是像 XYZ 一樣，定點(diǎn)拿、定點(diǎn)放。

具身硬件，搭配比較好的傳感器，搭配一個(gè)比較大的模型，就形成了一個(gè)跟原來的工業(yè)自動(dòng)化很不一樣的一個(gè)體系。大家建立這個(gè)體系的初衷是覺得這東西最終能完全通用，但現(xiàn)在走在通了一半的路上，還沒到最完美的狀態(tài)的情況下，它擅長去干什么？

這個(gè)時(shí)候我覺得就要找出具身原生應(yīng)用，比如說為什么 LLM 去寫 code 的？

AI 科技評論：因?yàn)長LM還挺適合訓(xùn)練它的coding能力的。

范浩強(qiáng)：所以你可以理解為 code 是個(gè) LLM 原生應(yīng)用。具身機(jī)器人也是一樣的，不是隨便丟個(gè)什么問題它都能解決，或者它都能擅長，也得根據(jù)它的屬性去找，什么樣的應(yīng)用場景里是適合干的。

AI 科技評論：那會(huì)不會(huì)每一個(gè)模型的原生應(yīng)用不一樣？

范浩強(qiáng)：有可能，現(xiàn)在大模型也在講，這家適合做 agent，那家適合 code 的，大家存在口碑上的差距。但現(xiàn)在具身模型還沒分化到這么細(xì)，所以我們就是有更多的 contrast，比如原來我做的視覺引導(dǎo)的機(jī)械臂，現(xiàn)在我想隨著 VLA 這個(gè)具身體系去做（升級）。那首先就得講清楚，VLA 比之前的方法好在哪，憑什么用新方法。

好就好在柔性輸入上。原來做的一個(gè)零件分解的工件，就必須嚴(yán)格長成這樣，只要變一點(diǎn)點(diǎn)，一切就推倒重新做一遍。現(xiàn)在 VLA 有泛化性，哪怕分解的東西從可口可樂換成百事可樂了，模型能泛化了，就不需要再重新布置一次了，這就是客戶想要的特性。

另外，工廠原來搭一套快速換線的非標(biāo)機(jī)臺(tái)，可能從開始接單到最后上線需要5個(gè)月。現(xiàn)在的客戶都想能不能5天之后開始生產(chǎn)交付？肯定是不可能的呀。這些任務(wù)就是給具身準(zhǔn)備的，換成其它方案都會(huì)遇到很多致命問題。

具身雖然也會(huì)帶來很多問題，比如使用具身工業(yè)臂的時(shí)候外面都得圍兩米的圍欄不許人員進(jìn)入，但只要具身智能解決了以前完全沒有思路的問題，行業(yè)還是會(huì)去解決具身帶來的問題。所以具身原生應(yīng)用就是把具身的價(jià)值給發(fā)揮出來的應(yīng)用。

AI 科技評論：我們現(xiàn)在是處于正在找它的原生應(yīng)用的這個(gè)階段，還是說已經(jīng)找到了？

范浩強(qiáng)：我們現(xiàn)在的確有些客戶 case 了，但是這些 case 我們不想到處講，怕講完之后友商來了。因?yàn)檫@個(gè)東西是真掙錢的家伙，就不開源了（笑）。

AI 科技評論：你尋找 DFOL 的這個(gè)過程中，最困難的是什么呀？

范浩強(qiáng)：我覺得第一大難點(diǎn)真的是找場景、找客戶。

AI 科技評論：你自己去跑的客戶嗎？

范浩強(qiáng)：我和文斌一起的，我們倆之前就一起跑過很多客戶，前段時(shí)間也密集地去跑了各種工廠，跑完之后回來想，到底這個(gè)機(jī)會(huì)在哪里。

另外，我覺得得真去理解這些模型它擅長什么。有些你以為非常難的動(dòng)作，其實(shí)模型一下就學(xué)會(huì)了。有些你覺得非常簡單的動(dòng)作，訓(xùn)半天就是搞不出來，到最后其實(shí)是人學(xué)會(huì)了，所以模型的動(dòng)作設(shè)計(jì)非常重要。

AI 科技評論：講講你們的動(dòng)作設(shè)計(jì)的case。

范浩強(qiáng)：比如讓機(jī)器人去疊衣服，衣服從上面捏就不如從側(cè)邊捏成功率高。要把這些東西都給搞明白，我覺得需要一批專業(yè)人才，那些很有天賦的采集員，他們可能都是未來的種子。

AI 科技評論：他們就是把人類動(dòng)作翻譯成機(jī)器人動(dòng)作的翻譯官。

范浩強(qiáng)：是的，他要把自己帶入到機(jī)器人視角去想什么樣的動(dòng)作是好做好學(xué)的，他不能把自己再當(dāng)成人了，他得把自己當(dāng)成機(jī)器人去思考和理解這個(gè)問題。最終還是得有一批人專注在 DFOL 領(lǐng)域。

好多行業(yè)里有個(gè)概念叫 FAE，field application engineering 現(xiàn)場應(yīng)用工程。說實(shí)話大多數(shù)的定制版軟件全是靠 FAE 撐起來的。

在具身初級階段的時(shí)候，DFOL 是非常重要的一環(huán)，整個(gè)系統(tǒng)就得為它設(shè)計(jì)。所以去畫框圖的時(shí)候，不是說像別人一樣，畫個(gè)簡單的大腦指揮，小腦指揮，機(jī)器人就干了，而是要畫成帶反饋的環(huán)路。最后任務(wù)執(zhí)行沒成功的時(shí)候，去服務(wù)的機(jī)器人的反饋數(shù)據(jù)也得傳回來，這樣機(jī)器人才能達(dá)到客戶最終的要求。

AI 科技評論：所以你這個(gè)數(shù)據(jù)是他們當(dāng)場就是 action 之后，然后反饋回來，形成一個(gè)閉環(huán)。

范浩強(qiáng)：這也是 Pi 0.6 工作里面提到的一個(gè)核心算法，叫 RECAP，現(xiàn)在還有很多別的叫法，比如叫 DAG，像上海智元又叫 SOP。

其實(shí)原理都是一樣的，比如機(jī)器人快做錯(cuò)了，人趕緊給它矯正一下，然后把矯正的信號給記錄下來，讓網(wǎng)絡(luò)再去學(xué)習(xí)它，它很聰明的，基本上掰它幾回，就不往那去了，這就是我說的神經(jīng)網(wǎng)絡(luò)令人感動(dòng)的地方，它還挺聽話的。

AI 科技評論：那就是這種數(shù)據(jù)回來之后，我們還要重新去 post train 一下這個(gè)模型。

范浩強(qiáng)：當(dāng)然了，相當(dāng)于在產(chǎn)能爬坡的這個(gè)階段里，其實(shí)是兩個(gè)并行的，這邊一直在采，那邊也一直在訓(xùn)。直到我監(jiān)測的時(shí)候發(fā)現(xiàn)，平均無干預(yù)時(shí)間已經(jīng)到達(dá)一個(gè)指標(biāo)了。那我就把更新斷掉，后面它就變成被動(dòng)收集模式了，模型就不動(dòng)了。但是如果它今天出 badcase，數(shù)據(jù)依然還會(huì)再傳回來，給以后的模型去做參考。

AI 科技評論：那就是現(xiàn)在我們有出貨一些本體機(jī)器了？

范浩強(qiáng)：我們公司25年3月份成立，有些項(xiàng)目款的產(chǎn)品，現(xiàn)在那些客戶的試點(diǎn)里面就有在用，最終說的主線硬件，時(shí)間上趕一趕，26年能推出一個(gè)給客戶用的、比較統(tǒng)一的硬件產(chǎn)品。

AI 科技評論：既然我們要針對服務(wù)具體的工廠客戶了，還有必要去做一個(gè)統(tǒng)一的硬件產(chǎn)品嗎？

范浩強(qiáng)：像夾板或者是末端的東西，可能這個(gè)客戶需要硬的，那個(gè)客戶需要軟的。但是機(jī)器人整體的 platform 還是得盡快穩(wěn)定下來為好，便于數(shù)據(jù)積累和模型學(xué)習(xí)。所以我們公司戰(zhàn)略上肯定還是期望，能盡快收斂到我們的主力機(jī)型上。

AI 科技評論：那以后會(huì)不會(huì)去做一些面向更 C 端的機(jī)器人？或者說更通用化的？

范浩強(qiáng)：我們愿景里是想做的，只不過感覺這事兒更得等一等了。

AI 科技評論：那會(huì)單去給某些本體公司提供大腦這樣的事情嗎？

范浩強(qiáng)：目前暫時(shí)不會(huì)，那個(gè)生態(tài)鏈上已經(jīng)很擁擠了，這也不是我們擅長的東西。

AI 科技評論：那從你的角度上來看，原力靈機(jī)在整個(gè)行業(yè)中的生態(tài)位是什么呀？

范浩強(qiáng)：我希望它是技術(shù)的引領(lǐng)者、應(yīng)用的先行者。

04在山腳分開，在山頂匯合

AI 科技評論：模型和硬件之間的關(guān)系是什么樣的？

范浩強(qiáng)：硬件其實(shí)本來也是個(gè)科學(xué)，里面也沒有魔法。比如可靠性、結(jié)構(gòu)、鋼度這些問題，大家其實(shí)都有對應(yīng)的方法論。只要設(shè)計(jì)的時(shí)候把這些問題都考慮好，都驗(yàn)證透了，那最后的產(chǎn)品一定也是好的。

現(xiàn)在的硬件難點(diǎn)，我覺得和模型一樣，locomotion 大家基本上都有解決方法了，但是機(jī)器人運(yùn)動(dòng)中，manipulation 在硬件上的卡點(diǎn)十分突出。

我可以舉個(gè)很細(xì)節(jié)的例子，比如手腕，人的手腕其實(shí)伸進(jìn)桌斗里很容易，機(jī)器人伸不進(jìn)去。有很多客戶讓我們做這個(gè) case，發(fā)現(xiàn)死在了第一環(huán)，根本就伸不進(jìn)去，你都沒有資格去講這個(gè)問題，后面還能說什么？

所以我們覺得在硬件方面，也都得從應(yīng)用出發(fā)，才能到落地的狀態(tài)。

我們有一個(gè) slogan 叫模型決定場景，場景定義硬件。這代模型科技范圍內(nèi)，能做的事情清楚了，那后面各種實(shí)現(xiàn)的方法，也就綱舉目張的出來了。

AI 科技評論：你們基模訓(xùn)練得算是快的嗎？

范浩強(qiáng)：真的拿顯卡去跑，可能就幾周的時(shí)間，但是要先把跑什么、怎么跑這些事情全部搞清楚，做好前期驗(yàn)證和數(shù)據(jù)準(zhǔn)備，這就要花費(fèi)大量的時(shí)間去迭代和建設(shè)。

AI 科技評論：要跑什么？怎么去跑？

范浩強(qiáng)：要跑比如 base model 的訓(xùn)練參數(shù)、數(shù)據(jù)分布，這些怎么做才能合理？這些才是真正決定了這個(gè)模型的最終能力。我們往里面加了幾千小時(shí)自采數(shù)據(jù)，這些數(shù)據(jù)都是一小時(shí)前采出來的，或者叫一分鐘、一分鐘采上來的。

AI 科技評論：你們的數(shù)據(jù)采集做得很扎實(shí)。

范浩強(qiáng)：這倒是，不過還好，搞人臉的時(shí)候我們已經(jīng)采了10年數(shù)據(jù)了，有些采集員他們就非常有技術(shù)信仰。最激進(jìn)的采集員還會(huì)主動(dòng)過來問，我采的數(shù)據(jù)用到模型上效果咋樣？他自己還會(huì)琢磨下一批數(shù)據(jù)該怎么采集更好。

對話原力靈機(jī)范浩強(qiáng)：評判機(jī)器人好壞，只有一個(gè)指標(biāo)

聯(lián)合開發(fā)的首款數(shù)據(jù)采集機(jī)器人 DOS-W1 量產(chǎn)出貨合影，范浩強(qiáng)在現(xiàn)場。

AI 科技評論：他都已經(jīng)從職業(yè)變成專業(yè)了是吧？

范浩強(qiáng)：是的，非常神奇，我覺得也算是這個(gè)工作中的樂子吧。我們公司有個(gè)參觀景點(diǎn)，里面有塊大看板，上面有個(gè)功勛榜，列著誰為我們的整個(gè)數(shù)據(jù)集里貢獻(xiàn)了最多時(shí)長的數(shù)據(jù)，后世一定要銘記這些當(dāng)年的功臣。

AI 科技評論：那他們是硅基生命的大功臣。

范浩強(qiáng)：采集員也要做到人機(jī)合一啊。因?yàn)槲覀兡莻€(gè)任務(wù)很難，零點(diǎn)幾毫米的對準(zhǔn)精度，要苦練兩天才能練出來。

AI 科技評論：那下一代的具身模型會(huì)跟這一代有什么區(qū)別？會(huì)朝哪些方向發(fā)展？

范浩強(qiáng)：我覺得首先模型一般來說有四大指標(biāo)，泛化性、智能性、靈巧性，還有效率。這一代我們更多關(guān)注它的靈巧性和一定的泛化性，下一代這些指標(biāo)我覺得得數(shù)量級的增長才行。

現(xiàn)在很多任務(wù)可能也就做個(gè)百分之八九十成功率，但是未來少不得進(jìn)入客戶場景，所以下一代簡單任務(wù)必須沖著99、 99.9的成功率去了。另外在動(dòng)作的長度上，現(xiàn)在大部分自己測的任務(wù)，可能10秒內(nèi)干完一拿一放的任務(wù)，后面要做分鐘級甚至小時(shí)級的長程任務(wù)。

AI 科技評論：現(xiàn)在具身模型訓(xùn)練路徑也很多，有搞仿真的，有搞VLA的，有搞世界模型的，這是一個(gè)好事嗎？

范浩強(qiáng)：每個(gè)人堅(jiān)持自己的路挺好的，大家技術(shù)路線上太同質(zhì)化，那就浪費(fèi)這個(gè)試錯(cuò)的機(jī)會(huì)了。我們大概率還是一個(gè)預(yù)訓(xùn)練加真機(jī)的技術(shù)組合。大家最好路子不太一樣，這樣也能相互看看對方到底干得咋樣，能有個(gè)參考。如果大家都一模一樣，那最后比啥呢？

AI 科技評論：最終不會(huì)都收斂到一個(gè)路線嗎？

范浩強(qiáng)：應(yīng)該不會(huì)，應(yīng)該是在山腳分開，在山頂匯合。比如做仿真的人天天在搞 3D 資產(chǎn)，做真機(jī)數(shù)采的人天天在研究怎么增廣，其實(shí)最后發(fā)現(xiàn)它是一樣的。做實(shí)的人天天想怎么往虛了搞，做虛的人天天想怎么加實(shí)的東西，因?yàn)榧夹g(shù)問題是一樣的，無論你的出發(fā)點(diǎn)是什么，手段是什么，其實(shí)最終在大的格局上一定能找到對應(yīng)物的。

所以我真心覺得這些技術(shù)路線的分歧本身不本質(zhì)，區(qū)別完全取決于你在實(shí)現(xiàn)過程中解沒解決那些問題，你解決了的話，那就一定能做好。這種我們叫還原論思想，其實(shí)挺曠視風(fēng)格的，比如當(dāng)時(shí)張祥雨有幾篇很重要的文章，有一篇是 ConvNeXt，他就想說別看其他人天天用 Transfomer 刷 Vision，我用卷積照樣能刷。

AI 科技評論：后來大家不還是被統(tǒng)一到Transformer？

范浩強(qiáng)：現(xiàn)在 Transformer 已經(jīng)被改的面目全非了，大家說的 Dswin（滑動(dòng)注意力窗口）結(jié)構(gòu)，你說那東西和卷積有區(qū)別嗎？我覺得沒區(qū)別。搞 Transformer 的人最后搞回來了卷積，搞卷積的人最后搞了個(gè) Transformer，其實(shí)殊途同歸。

我不喜歡做這種概念性上的戰(zhàn)隊(duì)或者對立，我們相信這世間的真相只有一個(gè)，但方法有很多。

雷峰網(wǎng)-雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

劉欣

編輯

發(fā)私信

當(dāng)月熱門文章

久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

對話原力靈機(jī)范浩強(qiáng)：評判機(jī)器人好壞，只有一個(gè)指標(biāo)

對話原力靈機(jī)范浩強(qiáng)：評判機(jī)器人好壞，只有一個(gè)指標(biāo)