GAIR 2025 世界模型分論壇：從通用感知到視頻、物理世界模型的百家爭鳴

本文作者：張進

2026-01-08 11:08

導(dǎo)語：具身智能爆發(fā)第三年，世界模型凝聚了哪些共識？

13 日，第八屆 GAIR 全球人工智能與機器人大會世界模型分論壇圓滿成功。

這場的演講嘉賓是在世界模型領(lǐng)域，研究不同方向的五位青年學(xué)者，他們帶來了五場圍繞世界模型的精彩演講，話題聚焦通用感知、三維技術(shù)、物理模型、世界模型、數(shù)字人重建。通過他們的演講、我們得以窺見當下圍繞著世界模型的研究是多么廣泛與豐富。

目前，世界模型的研究尚處于起步階段，共識尚未形成，有關(guān)該領(lǐng)域的研究形成了無數(shù)支流，而這股潮流中，今天到場的幾位嘉賓，用他們的智慧和力量給世界模型領(lǐng)域研究帶來了不同的啟發(fā)。

浙江大學(xué)研究員彭思達：面向具身智能的通用空間感知技術(shù)

在“世界模型”分論壇上，首位演講者是浙江大學(xué)研究員彭思達。他是浙江大學(xué)軟件學(xué)院“百人計劃”研究員、博士生導(dǎo)師，研究方向為三維計算機視覺和計算機圖形學(xué)。此次他帶來的主題演講是《面向具身智能的通用空間感知技術(shù)》，介紹了其團隊近期在賦予機器人通用感知能力方面的多項工作。

團隊主要聚焦于賦予機器人三項基礎(chǔ)能力：一是相機定位（Camera Pose Estimation），即讓機器人知道自己在空間中的位置；二是深度估計（Depth Estimation），使機器人了解場景中各物體與自身的距離；三是物體運動估計（Object Motion Estimation），讓機器人感知世界的運動狀態(tài)。

這些底層空間感知技術(shù)有何作用？首先，它們能為機器人提供關(guān)鍵的決策信息。例如，無人機在空間中需要先知道自身位置、與場景目標的距離，才能實現(xiàn)基礎(chǔ)避障；進而還需了解目標物體的運動情況，才能進行追蹤?；趶膱鼍爸蝎@取的三維空間信息，機器人的行為規(guī)劃便能得到有力支持。

其次，這些技術(shù)可用于生成訓(xùn)練數(shù)據(jù)。當前具身智能領(lǐng)域的一大難題是數(shù)據(jù)匱乏。以往有人嘗試仿真或遙操獲取數(shù)據(jù)，但遙操數(shù)據(jù)雖好卻難以規(guī)模化擴展，而仿真技術(shù)目前仍與真實世界存在較大差距。

彭思達提出，其實可將人類視作一種特殊形態(tài)的機器人——具備完整的身體結(jié)構(gòu)與行為模式。若能發(fā)明一種數(shù)據(jù)采集設(shè)備，將人類日常行為完整記錄下來，就相當于獲取了機器人所需的行為數(shù)據(jù)，從而可用于訓(xùn)練人形機器人。這其中便涉及相機定位、深度估計與物體運動估計等技術(shù)。

相機定位方面，最傳統(tǒng)經(jīng)典的方法是Colmap。該方法從圖像中提取特征并進行兩兩匹配，再通過增量式運動恢復(fù)結(jié)構(gòu)（SfM）得到相機位置。最終每張圖像對應(yīng)一個相機位置，并共同生成三維點云，形成經(jīng)典的三維重建流程。

然而，該流程目前面臨的挑戰(zhàn)在于圖像匹配。團隊發(fā)現(xiàn)，傳統(tǒng)匹配方法在惡劣環(huán)境或視角差異較大的情況下效果不佳，會影響后續(xù)相機位姿估計的準確性。

針對這一問題，彭思達所在實驗室于2021年提出一種新方法：不再依賴傳統(tǒng)匹配方式，而是直接使用Transformer大模型進行圖像匹配。具體而言，將兩張圖像輸入LoFTR模型以提取稠密特征，這些特征之間即使在弱紋理區(qū)域也能實現(xiàn)良好的匹配。

深度估計是通用空間感知的關(guān)鍵組成部分。去年，彭思達團隊在提升深度估計能力方面取得了三項進展，其中之一是“Pixel-Perfect-Depth”思路。

具身智能需要深度估計，是因為準確的深度信息能提升機器人的決策性能。但現(xiàn)有方法普遍在物體邊緣存在“飛點”問題：判別式模型（如Depth Anything）傾向于預(yù)測“折中值”以最小化損失，從而導(dǎo)致飛點；生成式模型（如Marigold）雖能從理論上建模多峰深度分布，但因使用VAE進行壓縮，同樣會產(chǎn)生飛點。

團隊從生成式模型出發(fā)，提出了 Pixel-Perfect-Depth 的解決思路：首先移除VAE，直接在像素空間進行優(yōu)化，以避免VAE帶來的信息損失。然而，沒有VAE后模型需要更全局的視野，因此他們將語言特征整合到DiT模型中，發(fā)現(xiàn)這能顯著增強模型對圖像的整體理解能力。

將人類行為數(shù)據(jù)轉(zhuǎn)化為有效訓(xùn)練數(shù)據(jù)，是當前具身智能發(fā)展的關(guān)鍵。這需要獲取深度信息、相機運動以及人類行為語義軌跡，而語義軌跡的獲取又依賴于三維跟蹤。

此前已有方法使用時序匹配進行跟蹤，例如Google的CoTracker：先初始化一組二維像素點，再利用Transformer迭代優(yōu)化這些點的軌跡。但該方法僅在二維層面進行跟蹤，容易因相鄰區(qū)域的干擾而丟失目標，效果受限。

彭思達團隊的思路是將二維圖像反投影至三維空間，做 3D tracking。具體做法是：輸入圖像并反投影至三維，獲得三維特征后，在三維空間中初始化一條三維軌跡，再利用Transformer對該軌跡進行優(yōu)化，從而實現(xiàn)更魯棒的跟蹤效果。該方法被命名為SpatialTracker。

騰訊ARC Lab高級研究員胡文博：Towards 3D-aware Video World Models

接下來，騰訊 ARC Lab 高級研究員胡文博帶來了《邁向三維感知的視頻世界模型》（Towards 3D-aware Video World Models ）的演講主題。

胡文博表示，2024年初 Sora 震撼面世，雖然 3D 一致性不錯，但對于做三維重建的工作者來說，視頻細節(jié)里的垂直性和平整性還有空間。

同時他意識到，Video diffusion 有潛力作為世界模型的一種表示，但視頻仍處于 2D 空間，而我們的世界是 3D 的，因此如何實現(xiàn) 3D 感知的視頻世界模型，非常值得探索。

基于這樣的觀測，胡文博想要實現(xiàn)以 3D-aware 出發(fā)的 video world models。

胡文博和團隊決定在重建和生成兩方面發(fā)力，重建方面，他展示了包括 2024 年開始陸續(xù)做的 video depth (DepthCrafter)，從視頻中估計點云以開展 4D 重建任務(wù)(GeometryCrafter)，以及從單目視頻中重建 motion 的“Holi4D”等工作。

現(xiàn)場，胡文博并未過多展開從開放世界 2D 觀測重建 3D 信息內(nèi)容，而是把分享重點放在了以下部分。

胡文博先分享了靜態(tài)場景探索任務(wù) ViewCrafter，借助重建能力生成 3D 點云，以其為條件控制 video diffusion。胡文博表示，這部分的探索生成的圖像可更新點云實現(xiàn)更遠探索，是早期世界模型的 memory 機制。

這些把 3D 信息用于視頻擴散，單圖探索及點云更新應(yīng)用，讓現(xiàn)場觀眾們非常感興趣。

接下來，胡文博還展示了另一部分重要的 work：TrajectoryCrafter。

這是胡文博在 ICCV 25 的 Oral 工作，其核心是讓用戶通過單目視頻實現(xiàn)對背后 4D 世界的探索，延續(xù) 3D-aware 思路，將重建的 3D 信息和原始視頻注入擴散過程，現(xiàn)場展示了指定相機 pose 的動態(tài)視頻、子彈時間特效和復(fù)現(xiàn) Dolly Zoom 特效，還原度非常高。

不僅如此，胡還展示了 VerseCrafter 模型實現(xiàn)場景交互，在單圖輸入重建幾何基礎(chǔ)上，標注可移動物體數(shù)據(jù)標注流程，可以實現(xiàn)固定相機、只動物體、相機物體同動等交互結(jié)果，現(xiàn)在展示了生成的非常逼真的觀測結(jié)果。

最后，還展示了多個玩家或 agent 進行聯(lián)機探索場景的 demo。

胡文博的分享，展示了對世界模型交互方式的新思考，更是讓大家的世界模型應(yīng)用場景有了更充足的想象空間。

西湖大學(xué)助理教授修宇亮：數(shù)字人重建，慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù)

圍繞數(shù)字人建模，西湖大學(xué)助理教授，遠兮實驗室負責(zé)人修宇亮做了主題演講《走出蠟像館，交互新世界：開拓三維數(shù)字人研究新疆域》，分享了其關(guān)于高精度數(shù)字人重建的三項最新進展。

由于兼具相機位姿變化和人物動作變化的特點，以日常圖像作為三維重建任務(wù)素材時，長期以來面臨著臟數(shù)據(jù)的困擾。傳統(tǒng)解決方案為對圖像進行文本編碼、文字生成 3D 模型兩步走。代價是效率，DreamBooth 和 SDS（Score Distillation Sampling）漫長的優(yōu)化流程，導(dǎo)致單個數(shù)字人建模任務(wù)需要 3 至 4 個小時。

遠兮實驗室的最新成果 UP2You，將上述時間從 4 小時壓縮到了 1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對后續(xù)重建友好的多視角正交圖片，在此基礎(chǔ)上套用已有的多視角重建算法，實現(xiàn)提效。

相較于傳統(tǒng)方案，UP2You 最大的優(yōu)勢是，其重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好，理論上可以恢復(fù)出更好的幾何結(jié)構(gòu)和紋理。由此日常圖像作為臟數(shù)據(jù)的弊端得以被規(guī)避，數(shù)據(jù)量的優(yōu)勢同時被放大?！岸喽嘁嫔啤?，修宇亮教授總結(jié)，“無論圖片有多臟，這個方案只要保證圖片源源不斷?！?/p>

修宇亮教授分享的第二項工作名為 ETCH，旨在根據(jù)高精度穿衣人體模型，得到解剖學(xué)上正確的內(nèi)部人體結(jié)構(gòu)。由于此前的嘗試將最外層服裝視為人體皮膚，導(dǎo)致建模結(jié)果普遍偏胖。而 ETCH 通過向量，定義了衣服和皮膚之間的厚度關(guān)系，從而建模了更準確的內(nèi)部人體結(jié)構(gòu)。

在今年的 ICCV 上，ETCH 獲評 Highlight Paper。值得注意的是，ETCH 方案首先將穿衣人體模型采樣為點云，每個點指向內(nèi)部人體的一個向量。盡管衣服存在非剛體形變，但修宇亮表示，在此類任務(wù)中，不完美的旋轉(zhuǎn)等變性仍可以大量減少訓(xùn)練所需數(shù)據(jù)。這也是ETCH工作的創(chuàng)新點之一，它或為首個通過向量定義衣服和人體之間關(guān)系的嘗試。

最后一項工作名為 Human3R，旨在實現(xiàn)人物及場景的實時動態(tài)呈現(xiàn)?！澳愫茈y只從動作就看懂人在做什么”，修宇亮教授解釋，“但如果把場景也給到你，語義就相對清晰?！?/p>

據(jù)介紹，Human3R在同時實現(xiàn)場景重建和人體狀態(tài)預(yù)測、追蹤的基礎(chǔ)上，可以做到實時 15 FPS，8GB 顯存占用。這意味著僅需一張商用 GPU，即可實現(xiàn) SOTA 級性能。

為了實現(xiàn)這一點，Human3R 保留了 CUT3R 的 3D 重建 backbone，以保留其對場景的幾何重建能力，同時新增了一條分支，用于從場景中顯式提取人體點云，并進一步估計該點云所對應(yīng)的人體姿態(tài)。同時，Human3R 還借鑒了 VPT（Visual-Prompt Tuning）策略，以實現(xiàn)高效微調(diào)。

展望未來，修宇亮教授最后分享了自身對于數(shù)字人技術(shù)的觀察。更強大的通用 3D 重建模型正在讓越來越多數(shù)字人重建任務(wù)迎刃而解，人體姿態(tài)重建，只需要在具有場景感知能力的視覺基礎(chǔ)模型上進行微調(diào)?！皵?shù)字人的重建任務(wù)，慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù)?！毙抻盍两淌谥赋?。

中山大學(xué)計算機學(xué)院青年研究員，拓元智慧首席科學(xué)家王廣潤博士：創(chuàng)新基礎(chǔ)模型，強化物理世界建模

隨后登場的是，中山大學(xué)計算機學(xué)院青年研究員、拓元智慧首席科學(xué)家王廣潤博士。他帶來了《創(chuàng)新基礎(chǔ)模型，強化物理世界建?！返闹黝}演講，王廣潤博士長期專注于新一代 AI 架構(gòu)、大物理模型與世界模型等方向。

在演講中，王廣潤博士首先解釋了物理空間智能的概念。10 年前，端到端是一個非?；鸬脑~，他認為，如今的物理空間智能也面臨著“感知-規(guī)劃-執(zhí)行”端到端的實現(xiàn)，這就需要非常多的數(shù)據(jù)去訓(xùn)練，但高質(zhì)量數(shù)據(jù)匱乏，難以學(xué)習(xí)到對齊物理世界的可靠執(zhí)行策略。

于是，王廣潤博士的團隊就在推理計算上提出了全局迭代生成，相比于順序生成，全局迭代生成有三種優(yōu)勢：全局性、漸進精化；快速性以及便于多模態(tài)統(tǒng)一。

王廣潤博士還分享了三種傳統(tǒng)方法，都存在著諸多不足。他們提出了一種全新的模型——原位 Tweedie 離散擴散模型，這個模型可以在 one-hot 單純形上實現(xiàn)嚴格的擴散過程，直接在擴散空間中去噪，而不是依賴嵌入或掩碼，也不依賴馬爾科夫性。

而且，在去噪的過程可以看出，隨著迭代的變化，token 的語義能夠從一開始t較高時的混亂噪聲逐步隨著t降低去噪為一個穩(wěn)定的語義表征。

有了框架之后，就可以開始訓(xùn)練模型了。王廣潤博士表示，VLA模型存在幾項瓶頸：泛化能力不足、動作控制粗糙、建模范式矛盾。所以他們構(gòu)建了新的方法——E0 具身大模型，在很多數(shù)據(jù)集和真機任務(wù)上都表現(xiàn)突出，并顯示出了強大的泛化性能。

王廣潤博士還分享了一個比喻：VLA =“你在監(jiān)控中心，通過看不同房間的監(jiān)控視頻，遙操不同房間的機械臂”。其實人的泛化能力已經(jīng)很強了，但在新環(huán)境下，還是需要在線簡單學(xué)習(xí)。據(jù)此，王廣潤博士提出了物理建模與空間建模的解耦。

最后，王廣潤博士表示自己的實驗室做出了一個 24 小時運行無人機化物理智能評測平臺，提供多種遠程接口，無痛測評 VLA。

王廣潤博士的報告從框架、模型到基準形成完整閉環(huán)，為 AI 從虛擬數(shù)字空間走向真實物理世界提供了關(guān)鍵技術(shù)支撐。

香港中文大學(xué)（深圳）助理教授韓曉光—— 3DAIGC：人類安全感之戰(zhàn)

韓曉光教授在此次大會梳理了三維生成技術(shù)的發(fā)展脈絡(luò)與未來挑戰(zhàn)，并深入探討了在視頻生成與 AI 大模型時代，三維技術(shù)所扮演的關(guān)鍵角色及其不可替代的價值。

韓曉光教授表示，三維生成技術(shù)在過去十年經(jīng)歷了飛速發(fā)展。早期階段屬于“類別限定”時代，需為椅子、車輛、人臉等不同物體分別訓(xùn)練獨立模型。隨著 Dreamfusion 等工作的出現(xiàn)，進入了“開放世界”時代，實現(xiàn)了文本生成 3D 模型，但生成速度較慢。當前已進入大模型時代，以 Adobe 的大型重建模型、混元 3D 等為代表，單圖生成 3D 模型的效果和速度均已大幅提升。

韓曉光教授指出了三維生成的三大趨勢：一是更精細，追求幾何細節(jié)的極致表現(xiàn)；二是更結(jié)構(gòu)化，生成模型可自動拆解為部件，以適配游戲、制造等行業(yè)需求；三是更對齊，確保生成的三維模型在結(jié)構(gòu)上與輸入的二維圖像精確對應(yīng)，避免細節(jié)錯亂。

然而，視頻生成（如Sora）的爆發(fā)式發(fā)展，對三維內(nèi)容創(chuàng)作構(gòu)成了“存在性”沖擊。其核心矛盾在于，傳統(tǒng)的三維流程復(fù)雜，但最終產(chǎn)出是視頻；而 Sora 等模型可直接從文本生成視頻，跳過了所有三維環(huán)節(jié)。這引發(fā)了行業(yè)對三維技術(shù)必要性的深刻質(zhì)疑。

對此，韓曉光教授分析，視頻生成當前存在細節(jié)可控性差、長程記憶缺失等核心難題，這為三維技術(shù)留下了關(guān)鍵價值空間。他提出了四種可能的結(jié)合路徑：一是純 2D 的端到端模型；二是將 3D 仿真作為“世界模擬器”，先生成 CG 視頻再使其逼真化；三是將 3D 信息作為額外控制信號輸入生成網(wǎng)絡(luò)；四是利用 3D 合成數(shù)據(jù)來增強視頻模型的訓(xùn)練。

在探討“世界模型是否需要 3D ”時，韓曉光教授認為，世界模型的核心目標是數(shù)字化世界規(guī)律以實現(xiàn)預(yù)測。它可分為三類：服務(wù)于人類共同體的宏觀模型、服務(wù)于個人探索的虛擬世界模型，以及服務(wù)于自動駕駛、具身智能等機器的具身世界模型。他強調(diào)，無論是為了滿足 VR/AR 中“可交互”所需的觸覺反饋，還是為機器人提供仿真訓(xùn)練環(huán)境，或是實現(xiàn)從虛擬到實體的智能制造，3D 都是不可或缺的基石。

演講最后聚焦于AI時代的“安全感”與“可解釋性”問題。韓曉光教授指出，當前AI領(lǐng)域過度追求性能，但以“端到端”和“潛變量”為代表的“黑箱”模型，因其不可解釋性而帶來了不安全感。人類能直觀理解 3D/4D 世界，而高維的潛變量則超出了我們的認知范圍。因此，3D 作為一種人類可直觀理解、可解釋的顯式表示，是構(gòu)建可信、安全AI系統(tǒng)的關(guān)鍵途徑。真正的安全感，源于模型效果與可解釋性之間的平衡，而三維技術(shù)在其中將扮演至關(guān)重要的角色。

圓桌環(huán)節(jié)：有關(guān)于世界模型的展望

圓桌環(huán)節(jié)，世界模型主題圓桌論壇在趙昊教授的主持下正式開啟。彭思達、胡文博、修宇亮、王廣潤、韓曉光幾位嘉賓齊聚一堂展開了關(guān)于世界模型展望的探討。

彭思達先從“技術(shù)替代問題”切入，提到關(guān)于世界模型的發(fā)展，不能只看算法提升，還必須關(guān)注硬件的迭代，同時，彭思達在motion方面也提出了一些見解，他結(jié)合 DeepMind 最新工作提出bet，3D tracking 在2027年會慢慢收斂，與此同時，自監(jiān)督學(xué)習(xí)也會出現(xiàn)巨大突破。

胡文博分享了對世界模型、視頻世界模型和空間智能之間的差異，他認為讓模型理解空間還需要探索，他更致力于做一個給個人用的世界模型，讓使用者可以體驗一些不知道的世界，或者虛構(gòu)的世界，甚至是他人的世界，這是非常有意義的。

王廣潤認為世界模型有一個非常標準的應(yīng)用，就在交互層面，現(xiàn)在已經(jīng)能從圖輸出很精簡的3D，王廣潤表示很期待從PI0到未來的PI1的過程。

韓曉光則從3D和視頻模型之間的聯(lián)系出發(fā)，認為2026年做好3D的骨架和可移動部分對具身智能依舊是非常有用的，并且呼吁更多人繼續(xù)做3D方向的探索。

修宇亮則針對解決數(shù)字人的情緒價值問題方向，讓多模態(tài)表征統(tǒng)一的角度展開表達，他提出2D和3D數(shù)字人無定式，以用戶開心為目標，但需要解決情緒價值難以量化、缺乏基準的問題。

關(guān)于世界模型的重建和生成工作，嘉賓們各抒己見，最終主持人趙昊呼吁這個領(lǐng)域需要共識和合作，一個關(guān)于“世界模型”的技術(shù)聯(lián)盟呼之欲出。「雷峰網(wǎng)(公眾號：雷峰網(wǎng))」

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

張進

主筆

發(fā)私信

當月熱門文章

對話九識、菜鳥無人車負責(zé)人：共同打造一家無人貨運領(lǐng)域的航母級企業(yè)

久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

GAIR 2025 世界模型分論壇：從通用感知到視頻、物理世界模型的百家爭鳴