0
13 日,第八屆 GAIR 全球人工智能與機器人大會世界模型分論壇圓滿成功。
這場的演講嘉賓是在世界模型領(lǐng)域,研究不同方向的五位青年學(xué)者,他們帶來了五場圍繞世界模型的精彩演講,話題聚焦通用感知、三維技術(shù)、物理模型、世界模型、數(shù)字人重建。通過他們的演講、我們得以窺見當下圍繞著世界模型的研究是多么廣泛與豐富。
目前,世界模型的研究尚處于起步階段,共識尚未形成,有關(guān)該領(lǐng)域的研究形成了無數(shù)支流,而這股潮流中,今天到場的幾位嘉賓,用他們的智慧和力量給世界模型領(lǐng)域研究帶來了不同的啟發(fā)。
在“世界模型”分論壇上,首位演講者是浙江大學(xué)研究員彭思達。他是浙江大學(xué)軟件學(xué)院“百人計劃”研究員、博士生導(dǎo)師,研究方向為三維計算機視覺和計算機圖形學(xué)。此次他帶來的主題演講是《面向具身智能的通用空間感知技術(shù)》,介紹了其團隊近期在賦予機器人通用感知能力方面的多項工作。
團隊主要聚焦于賦予機器人三項基礎(chǔ)能力:一是相機定位(Camera Pose Estimation),即讓機器人知道自己在空間中的位置;二是深度估計(Depth Estimation),使機器人了解場景中各物體與自身的距離;三是物體運動估計(Object Motion Estimation),讓機器人感知世界的運動狀態(tài)。
這些底層空間感知技術(shù)有何作用?首先,它們能為機器人提供關(guān)鍵的決策信息。例如,無人機在空間中需要先知道自身位置、與場景目標的距離,才能實現(xiàn)基礎(chǔ)避障;進而還需了解目標物體的運動情況,才能進行追蹤?;趶膱鼍爸蝎@取的三維空間信息,機器人的行為規(guī)劃便能得到有力支持。
其次,這些技術(shù)可用于生成訓(xùn)練數(shù)據(jù)。當前具身智能領(lǐng)域的一大難題是數(shù)據(jù)匱乏。以往有人嘗試仿真或遙操獲取數(shù)據(jù),但遙操數(shù)據(jù)雖好卻難以規(guī)模化擴展,而仿真技術(shù)目前仍與真實世界存在較大差距。
彭思達提出,其實可將人類視作一種特殊形態(tài)的機器人——具備完整的身體結(jié)構(gòu)與行為模式。若能發(fā)明一種數(shù)據(jù)采集設(shè)備,將人類日常行為完整記錄下來,就相當于獲取了機器人所需的行為數(shù)據(jù),從而可用于訓(xùn)練人形機器人。這其中便涉及相機定位、深度估計與物體運動估計等技術(shù)。
相機定位方面,最傳統(tǒng)經(jīng)典的方法是Colmap。該方法從圖像中提取特征并進行兩兩匹配,再通過增量式運動恢復(fù)結(jié)構(gòu)(SfM)得到相機位置。最終每張圖像對應(yīng)一個相機位置,并共同生成三維點云,形成經(jīng)典的三維重建流程。
然而,該流程目前面臨的挑戰(zhàn)在于圖像匹配。團隊發(fā)現(xiàn),傳統(tǒng)匹配方法在惡劣環(huán)境或視角差異較大的情況下效果不佳,會影響后續(xù)相機位姿估計的準確性。
針對這一問題,彭思達所在實驗室于2021年提出一種新方法:不再依賴傳統(tǒng)匹配方式,而是直接使用Transformer大模型進行圖像匹配。具體而言,將兩張圖像輸入LoFTR模型以提取稠密特征,這些特征之間即使在弱紋理區(qū)域也能實現(xiàn)良好的匹配。
深度估計是通用空間感知的關(guān)鍵組成部分。去年,彭思達團隊在提升深度估計能力方面取得了三項進展,其中之一是“Pixel-Perfect-Depth”思路。
具身智能需要深度估計,是因為準確的深度信息能提升機器人的決策性能。但現(xiàn)有方法普遍在物體邊緣存在“飛點”問題:判別式模型(如Depth Anything)傾向于預(yù)測“折中值”以最小化損失,從而導(dǎo)致飛點;生成式模型(如Marigold)雖能從理論上建模多峰深度分布,但因使用VAE進行壓縮,同樣會產(chǎn)生飛點。
團隊從生成式模型出發(fā),提出了 Pixel-Perfect-Depth 的解決思路:首先移除VAE,直接在像素空間進行優(yōu)化,以避免VAE帶來的信息損失。然而,沒有VAE后模型需要更全局的視野,因此他們將語言特征整合到DiT模型中,發(fā)現(xiàn)這能顯著增強模型對圖像的整體理解能力。
將人類行為數(shù)據(jù)轉(zhuǎn)化為有效訓(xùn)練數(shù)據(jù),是當前具身智能發(fā)展的關(guān)鍵。這需要獲取深度信息、相機運動以及人類行為語義軌跡,而語義軌跡的獲取又依賴于三維跟蹤。
此前已有方法使用時序匹配進行跟蹤,例如Google的CoTracker:先初始化一組二維像素點,再利用Transformer迭代優(yōu)化這些點的軌跡。但該方法僅在二維層面進行跟蹤,容易因相鄰區(qū)域的干擾而丟失目標,效果受限。
彭思達團隊的思路是將二維圖像反投影至三維空間,做 3D tracking。具體做法是:輸入圖像并反投影至三維,獲得三維特征后,在三維空間中初始化一條三維軌跡,再利用Transformer對該軌跡進行優(yōu)化,從而實現(xiàn)更魯棒的跟蹤效果。該方法被命名為SpatialTracker。
接下來,騰訊 ARC Lab 高級研究員胡文博帶來了《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )的演講主題。
胡文博表示,2024年初 Sora 震撼面世,雖然 3D 一致性不錯,但對于做三維重建的工作者來說,視頻細節(jié)里的垂直性和平整性還有空間。
同時他意識到,Video diffusion 有潛力作為世界模型的一種表示,但視頻仍處于 2D 空間,而我們的世界是 3D 的,因此如何實現(xiàn) 3D 感知的視頻世界模型,非常值得探索。
基于這樣的觀測,胡文博想要實現(xiàn)以 3D-aware 出發(fā)的 video world models。
胡文博和團隊決定在重建和生成兩方面發(fā)力,重建方面,他展示了包括 2024 年開始陸續(xù)做的 video depth (DepthCrafter),從視頻中估計點云以開展 4D 重建任務(wù)(GeometryCrafter),以及從單目視頻中重建 motion 的“Holi4D”等工作。
現(xiàn)場,胡文博并未過多展開從開放世界 2D 觀測重建 3D 信息內(nèi)容,而是把分享重點放在了以下部分。
胡文博先分享了靜態(tài)場景探索任務(wù) ViewCrafter,借助重建能力生成 3D 點云,以其為條件控制 video diffusion。胡文博表示,這部分的探索生成的圖像可更新點云實現(xiàn)更遠探索,是早期世界模型的 memory 機制。
這些把 3D 信息用于視頻擴散,單圖探索及點云更新應(yīng)用,讓現(xiàn)場觀眾們非常感興趣。
接下來,胡文博還展示了另一部分重要的 work:TrajectoryCrafter。
這是胡文博在 ICCV 25 的 Oral 工作,其核心是讓用戶通過單目視頻實現(xiàn)對背后 4D 世界的探索,延續(xù) 3D-aware 思路,將重建的 3D 信息和原始視頻注入擴散過程,現(xiàn)場展示了指定相機 pose 的動態(tài)視頻、子彈時間特效和復(fù)現(xiàn) Dolly Zoom 特效,還原度非常高。
不僅如此,胡還展示了 VerseCrafter 模型實現(xiàn)場景交互,在單圖輸入重建幾何基礎(chǔ)上,標注可移動物體數(shù)據(jù)標注流程,可以實現(xiàn)固定相機、只動物體、相機物體同動等交互結(jié)果,現(xiàn)在展示了生成的非常逼真的觀測結(jié)果。
最后,還展示了多個玩家或 agent 進行聯(lián)機探索場景的 demo。
胡文博的分享,展示了對世界模型交互方式的新思考,更是讓大家的世界模型應(yīng)用場景有了更充足的想象空間。
圍繞數(shù)字人建模,西湖大學(xué)助理教授,遠兮實驗室負責(zé)人修宇亮做了主題演講《走出蠟像館,交互新世界:開拓三維數(shù)字人研究新疆域》,分享了其關(guān)于高精度數(shù)字人重建的三項最新進展。
由于兼具相機位姿變化和人物動作變化的特點,以日常圖像作為三維重建任務(wù)素材時,長期以來面臨著臟數(shù)據(jù)的困擾。傳統(tǒng)解決方案為對圖像進行文本編碼、文字生成 3D 模型兩步走。代價是效率,DreamBooth 和 SDS(Score Distillation Sampling)漫長的優(yōu)化流程,導(dǎo)致單個數(shù)字人建模任務(wù)需要 3 至 4 個小時。
遠兮實驗室的最新成果 UP2You,將上述時間從 4 小時壓縮到了 1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對后續(xù)重建友好的多視角正交圖片,在此基礎(chǔ)上套用已有的多視角重建算法,實現(xiàn)提效。
相較于傳統(tǒng)方案,UP2You 最大的優(yōu)勢是,其重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好,理論上可以恢復(fù)出更好的幾何結(jié)構(gòu)和紋理。由此日常圖像作為臟數(shù)據(jù)的弊端得以被規(guī)避,數(shù)據(jù)量的優(yōu)勢同時被放大?!岸喽嘁嫔啤?,修宇亮教授總結(jié),“無論圖片有多臟,這個方案只要保證圖片源源不斷?!?/p>
修宇亮教授分享的第二項工作名為 ETCH,旨在根據(jù)高精度穿衣人體模型,得到解剖學(xué)上正確的內(nèi)部人體結(jié)構(gòu)。由于此前的嘗試將最外層服裝視為人體皮膚,導(dǎo)致建模結(jié)果普遍偏胖。而 ETCH 通過向量,定義了衣服和皮膚之間的厚度關(guān)系,從而建模了更準確的內(nèi)部人體結(jié)構(gòu)。
在今年的 ICCV 上,ETCH 獲評 Highlight Paper。值得注意的是,ETCH 方案首先將穿衣人體模型采樣為點云,每個點指向內(nèi)部人體的一個向量。盡管衣服存在非剛體形變,但修宇亮表示,在此類任務(wù)中,不完美的旋轉(zhuǎn)等變性仍可以大量減少訓(xùn)練所需數(shù)據(jù)。這也是ETCH工作的創(chuàng)新點之一,它或為首個通過向量定義衣服和人體之間關(guān)系的嘗試。
最后一項工作名為 Human3R,旨在實現(xiàn)人物及場景的實時動態(tài)呈現(xiàn)?!澳愫茈y只從動作就看懂人在做什么”,修宇亮教授解釋,“但如果把場景也給到你,語義就相對清晰?!?/p>
據(jù)介紹,Human3R在同時實現(xiàn)場景重建和人體狀態(tài)預(yù)測、追蹤的基礎(chǔ)上,可以做到實時 15 FPS,8GB 顯存占用。這意味著僅需一張商用 GPU,即可實現(xiàn) SOTA 級性能。
為了實現(xiàn)這一點,Human3R 保留了 CUT3R 的 3D 重建 backbone,以保留其對場景的幾何重建能力,同時新增了一條分支,用于從場景中顯式提取人體點云,并進一步估計該點云所對應(yīng)的人體姿態(tài)。同時,Human3R 還借鑒了 VPT(Visual-Prompt Tuning)策略,以實現(xiàn)高效微調(diào)。
展望未來,修宇亮教授最后分享了自身對于數(shù)字人技術(shù)的觀察。更強大的通用 3D 重建模型正在讓越來越多數(shù)字人重建任務(wù)迎刃而解,人體姿態(tài)重建,只需要在具有場景感知能力的視覺基礎(chǔ)模型上進行微調(diào)?!皵?shù)字人的重建任務(wù),慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù)?!毙抻盍两淌谥赋?。
隨后登場的是,中山大學(xué)計算機學(xué)院青年研究員、拓元智慧首席科學(xué)家王廣潤博士。他帶來了《創(chuàng)新基礎(chǔ)模型,強化物理世界建?!返闹黝}演講,王廣潤博士長期專注于新一代 AI 架構(gòu)、大物理模型與世界模型等方向。
在演講中,王廣潤博士首先解釋了物理空間智能的概念。10 年前,端到端是一個非?;鸬脑~,他認為,如今的物理空間智能也面臨著“感知-規(guī)劃-執(zhí)行”端到端的實現(xiàn),這就需要非常多的數(shù)據(jù)去訓(xùn)練,但高質(zhì)量數(shù)據(jù)匱乏,難以學(xué)習(xí)到對齊物理世界的可靠執(zhí)行策略。
于是,王廣潤博士的團隊就在推理計算上提出了全局迭代生成,相比于順序生成,全局迭代生成有三種優(yōu)勢:全局性、漸進精化;快速性以及便于多模態(tài)統(tǒng)一。
王廣潤博士還分享了三種傳統(tǒng)方法,都存在著諸多不足。他們提出了一種全新的模型——原位 Tweedie 離散擴散模型,這個模型可以在 one-hot 單純形上實現(xiàn)嚴格的擴散過程,直接在擴散空間中去噪,而不是依賴嵌入或掩碼,也不依賴馬爾科夫性。
而且,在去噪的過程可以看出,隨著迭代的變化,token 的語義能夠從一開始t較高時的混亂噪聲逐步隨著t降低去噪為一個穩(wěn)定的語義表征。
有了框架之后,就可以開始訓(xùn)練模型了。王廣潤博士表示,VLA模型存在幾項瓶頸:泛化能力不足、動作控制粗糙、建模范式矛盾。所以他們構(gòu)建了新的方法——E0 具身大模型,在很多數(shù)據(jù)集和真機任務(wù)上都表現(xiàn)突出,并顯示出了強大的泛化性能。
王廣潤博士還分享了一個比喻:VLA =“你在監(jiān)控中心,通過看不同房間的監(jiān)控視頻,遙操不同房間的機械臂”。其實人的泛化能力已經(jīng)很強了,但在新環(huán)境下,還是需要在線簡單學(xué)習(xí)。據(jù)此,王廣潤博士提出了物理建模與空間建模的解耦。
最后,王廣潤博士表示自己的實驗室做出了一個 24 小時運行無人機化物理智能評測平臺,提供多種遠程接口,無痛測評 VLA。
王廣潤博士的報告從框架、模型到基準形成完整閉環(huán),為 AI 從虛擬數(shù)字空間走向真實物理世界提供了關(guān)鍵技術(shù)支撐。
韓曉光教授在此次大會梳理了三維生成技術(shù)的發(fā)展脈絡(luò)與未來挑戰(zhàn),并深入探討了在視頻生成與 AI 大模型時代,三維技術(shù)所扮演的關(guān)鍵角色及其不可替代的價值。
韓曉光教授表示,三維生成技術(shù)在過去十年經(jīng)歷了飛速發(fā)展。早期階段屬于“類別限定”時代,需為椅子、車輛、人臉等不同物體分別訓(xùn)練獨立模型。隨著 Dreamfusion 等工作的出現(xiàn),進入了“開放世界”時代,實現(xiàn)了文本生成 3D 模型,但生成速度較慢。當前已進入大模型時代,以 Adobe 的大型重建模型、混元 3D 等為代表,單圖生成 3D 模型的效果和速度均已大幅提升。
韓曉光教授指出了三維生成的三大趨勢:一是更精細,追求幾何細節(jié)的極致表現(xiàn);二是更結(jié)構(gòu)化,生成模型可自動拆解為部件,以適配游戲、制造等行業(yè)需求;三是更對齊,確保生成的三維模型在結(jié)構(gòu)上與輸入的二維圖像精確對應(yīng),避免細節(jié)錯亂。
然而,視頻生成(如Sora)的爆發(fā)式發(fā)展,對三維內(nèi)容創(chuàng)作構(gòu)成了“存在性”沖擊。其核心矛盾在于,傳統(tǒng)的三維流程復(fù)雜,但最終產(chǎn)出是視頻;而 Sora 等模型可直接從文本生成視頻,跳過了所有三維環(huán)節(jié)。這引發(fā)了行業(yè)對三維技術(shù)必要性的深刻質(zhì)疑。
對此,韓曉光教授分析,視頻生成當前存在細節(jié)可控性差、長程記憶缺失等核心難題,這為三維技術(shù)留下了關(guān)鍵價值空間。他提出了四種可能的結(jié)合路徑:一是純 2D 的端到端模型;二是將 3D 仿真作為“世界模擬器”,先生成 CG 視頻再使其逼真化;三是將 3D 信息作為額外控制信號輸入生成網(wǎng)絡(luò);四是利用 3D 合成數(shù)據(jù)來增強視頻模型的訓(xùn)練。
在探討“世界模型是否需要 3D ”時,韓曉光教授認為,世界模型的核心目標是數(shù)字化世界規(guī)律以實現(xiàn)預(yù)測。它可分為三類:服務(wù)于人類共同體的宏觀模型、服務(wù)于個人探索的虛擬世界模型,以及服務(wù)于自動駕駛、具身智能等機器的具身世界模型。他強調(diào),無論是為了滿足 VR/AR 中“可交互”所需的觸覺反饋,還是為機器人提供仿真訓(xùn)練環(huán)境,或是實現(xiàn)從虛擬到實體的智能制造,3D 都是不可或缺的基石。
演講最后聚焦于AI時代的“安全感”與“可解釋性”問題。韓曉光教授指出,當前AI領(lǐng)域過度追求性能,但以“端到端”和“潛變量”為代表的“黑箱”模型,因其不可解釋性而帶來了不安全感。人類能直觀理解 3D/4D 世界,而高維的潛變量則超出了我們的認知范圍。因此,3D 作為一種人類可直觀理解、可解釋的顯式表示,是構(gòu)建可信、安全AI系統(tǒng)的關(guān)鍵途徑。真正的安全感,源于模型效果與可解釋性之間的平衡,而三維技術(shù)在其中將扮演至關(guān)重要的角色。
圓桌環(huán)節(jié),世界模型主題圓桌論壇在趙昊教授的主持下正式開啟。彭思達、胡文博、修宇亮、王廣潤、韓曉光幾位嘉賓齊聚一堂展開了關(guān)于世界模型展望的探討。
彭思達先從“技術(shù)替代問題”切入,提到關(guān)于世界模型的發(fā)展,不能只看算法提升,還必須關(guān)注硬件的迭代,同時,彭思達在motion方面也提出了一些見解,他結(jié)合 DeepMind 最新工作提出bet,3D tracking 在2027年會慢慢收斂,與此同時,自監(jiān)督學(xué)習(xí)也會出現(xiàn)巨大突破。
胡文博分享了對世界模型、視頻世界模型和空間智能之間的差異,他認為讓模型理解空間還需要探索,他更致力于做一個給個人用的世界模型,讓使用者可以體驗一些不知道的世界,或者虛構(gòu)的世界,甚至是他人的世界,這是非常有意義的。
王廣潤認為世界模型有一個非常標準的應(yīng)用,就在交互層面,現(xiàn)在已經(jīng)能從圖輸出很精簡的3D,王廣潤表示很期待從PI0到未來的PI1的過程。
韓曉光則從3D和視頻模型之間的聯(lián)系出發(fā),認為2026年做好3D的骨架和可移動部分對具身智能依舊是非常有用的,并且呼吁更多人繼續(xù)做3D方向的探索。
修宇亮則針對解決數(shù)字人的情緒價值問題方向,讓多模態(tài)表征統(tǒng)一的角度展開表達,他提出2D和3D數(shù)字人無定式,以用戶開心為目標,但需要解決情緒價值難以量化、缺乏基準的問題。
關(guān)于世界模型的重建和生成工作,嘉賓們各抒己見,最終主持人趙昊呼吁這個領(lǐng)域需要共識和合作,一個關(guān)于“世界模型”的技術(shù)聯(lián)盟呼之欲出。「雷峰網(wǎng)(公眾號:雷峰網(wǎng))」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。