久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

本文作者: 鄭佳美   2025-12-17 11:09
導語:港中文岳翔宇教授團隊提出統(tǒng)一多模態(tài)推理模型 OneThinker,驗證任務泛化能力。

在大模型邁向通用視覺智能的浪潮中,單一任務或單一模態(tài)的方法正面臨瓶頸?,F(xiàn)實世界的視覺理解系統(tǒng)不僅要回答問題,還要理解動態(tài)視頻、定位事件、跟蹤目標、生成描述乃至進行復雜的邏輯推理,這要求模型具備綜合的跨任務和跨模態(tài)能力。

然而,現(xiàn)有方法多數(shù)依賴任務專化模型,難以實現(xiàn)不同視覺任務間的協(xié)同與知識共享,這不僅導致系統(tǒng)復雜度高,也限制了模型在綜合推理場景中的表現(xiàn)。

在這樣的行業(yè)背景下, 香港中文大學多媒體實驗室(MMLab)與美團的聯(lián)合研究團隊提出了 OneThinker 多模態(tài)統(tǒng)一推理模型,并在論文中系統(tǒng)性地給出了答案。

不同于為每個視覺任務單獨設計模型,OneThinker 選擇了一條更激進的路線:將圖像與視頻中的問答、描述、時空定位、跟蹤和分割等任務統(tǒng)一抽象為“先推理、后作答”的通用形式,并通過多任務強化學習對模型進行整體優(yōu)化。

這項工作不僅關注模型在單一基準上的性能提升,更試圖驗證一個更根本的問題,“是否可以通過統(tǒng)一的推理機制,讓一個模型同時具備多種視覺理解與推理能力,而不犧牲任何單項任務的表現(xiàn)?”

圍繞這一問題,研究團隊構建了大規(guī)模多任務數(shù)據(jù)集,引入改進的強化學習算法,并在圖像與視頻兩種模態(tài)上進行了系統(tǒng)而全面的實驗評測,為通用視覺推理模型的設計提供了具有參考價值的實證結(jié)果。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

論文地址:https://arxiv.org/pdf/2512.03043v2

從任務割裂到統(tǒng)一推理

為驗證 OneThinker 模型在多模態(tài)、多任務場景下的有效性,研究團隊在圖像與視頻兩種模態(tài)上,對多類典型視覺理解任務進行了系統(tǒng)評測。實驗內(nèi)容涵蓋問答、描述、定位、跟蹤和分割等多個方向,旨在全面評估模型在不同任務類型和不同模態(tài)下的整體表現(xiàn)。

從整體實驗結(jié)果來看,OneThinker 在絕大多數(shù)視覺理解任務中均優(yōu)于基礎模型以及多種現(xiàn)有開源方法,表現(xiàn)出較為穩(wěn)定的性能優(yōu)勢。這一結(jié)果表明,通過統(tǒng)一建模并引入多任務強化學習機制,模型能夠在不犧牲單任務性能的前提下,有效提升其綜合推理能力和跨任務適應性。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

在圖像問答任務中,OneThinker 需要同時處理視覺內(nèi)容理解、數(shù)學推理、邏輯推斷以及跨模態(tài)信息融合等多種復雜能力。實驗結(jié)果顯示,該模型在多項高難度圖像問答任務中均取得了明顯優(yōu)于對比模型的表現(xiàn),尤其在涉及數(shù)學推理、科學推理和多步驟邏輯推斷的問題上優(yōu)勢更加突出。

上述結(jié)果表明,統(tǒng)一的推理框架不僅未削弱模型在復雜問答任務中的表現(xiàn),反而通過多任務聯(lián)合訓練,使模型獲得了更強的抽象推理能力和跨領域泛化能力。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

在視頻問答任務中,模型不僅需要理解單幀視覺信息,還需有效建模時間順序、事件演變以及長程依賴關系。實驗結(jié)果表明,OneThinker 在多項視頻問答任務中整體性能優(yōu)于專門針對視頻推理設計的模型,尤其在長視頻推理和視頻數(shù)學推理等任務中表現(xiàn)更為突出。

這一結(jié)果說明,在統(tǒng)一訓練框架下,OneThinker 成功學習到了穩(wěn)定而有效的時間建模能力,從而能夠在復雜視頻場景中進行連續(xù)推理和事件級理解。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

在圖像和視頻描述任務中,OneThinker 需要生成與視覺內(nèi)容高度一致、語義連貫且信息完整的自然語言描述。實驗結(jié)果表明,該模型在圖像描述和視頻描述任務中均取得了較為領先的性能,生成文本在準確性、完整性和語言質(zhì)量等方面均有明顯提升。

這進一步說明,推理能力的增強有助于模型更有效地組織和整合視覺信息,從而生成結(jié)構更加清晰、邏輯更加合理的描述文本。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

在時間定位任務中,模型需要準確判斷事件在視頻中發(fā)生的起止時間;而在空間定位任務中,則需要精確預測目標在圖像中的空間位置。實驗結(jié)果顯示,OneThinker 在這兩類任務中均取得了顯著性能提升,能夠更準確地理解事件發(fā)生的時間范圍以及目標的空間分布特征。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

進一步地,在同時涉及時間與空間信息的聯(lián)合定位任務中,OneThinker 同樣表現(xiàn)出較強的綜合建模能力,表明該模型能夠在統(tǒng)一框架下同時處理“何時發(fā)生”和“發(fā)生在哪里”這兩個關鍵問題。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

在目標跟蹤任務中,OneThinker 需要在視頻序列中持續(xù)、穩(wěn)定地定位同一目標。實驗結(jié)果顯示,該模型在跟蹤精度和整體穩(wěn)定性方面均明顯優(yōu)于對比方法,尤其在長時間序列中表現(xiàn)更加穩(wěn)健。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

在圖像與視頻分割任務中,OneThinker 能夠結(jié)合推理過程生成結(jié)構化提示,從而有效引導分割模型獲得更加精確的目標區(qū)域。實驗結(jié)果表明,該模型在細粒度視覺理解任務中同樣具備較強競爭力,說明推理機制能夠?qū)Ω兄惾蝿招纬捎行аa充。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

此外,通過消融實驗可以發(fā)現(xiàn),僅采用監(jiān)督微調(diào)而不引入強化學習,會導致模型在多項任務上的性能明顯下降;同時,用傳統(tǒng)強化學習方法替代論文提出的 EMA-GRPO 算法,也會引起整體性能的退化。這進一步驗證了強化學習策略及其改進方法在統(tǒng)一多任務訓練中的重要作用。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

最后,在未參與訓練的新任務上,OneThinker 依然表現(xiàn)出較好的零樣本泛化能力,說明統(tǒng)一多任務訓練有助于模型學習更加通用和可遷移的視覺推理知識。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

讓推理成為訓練的核心

為支持統(tǒng)一多模態(tài)推理模型的訓練,研究中構建了一個大規(guī)模、多任務的數(shù)據(jù)集,覆蓋圖像和視頻兩種模態(tài)。這個數(shù)據(jù)集包含問答、描述、時間定位、空間定位、時空定位、目標跟蹤以及分割等多種視覺理解任務,數(shù)據(jù)來源廣泛,涵蓋多個應用領域和不同難度層級,從而為模型學習多樣化的視覺推理能力提供了充分支撐。

在此基礎上,研究團隊還進一步構建了一個帶有推理過程標注的子數(shù)據(jù)集,用于模型的監(jiān)督微調(diào)階段。該子數(shù)據(jù)集中的推理過程由性能較強的模型自動生成,并經(jīng)過嚴格的篩選與校驗,以保證推理鏈條在邏輯正確性和表達一致性方面的可靠性,為后續(xù)強化學習階段奠定了良好的初始化基礎。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

在訓練過程中,所有任務均被統(tǒng)一表示為“先推理、后作答”的形式,即模型首先生成內(nèi)部推理過程,再輸出最終答案或結(jié)構化結(jié)果。這種統(tǒng)一的任務表達方式使不同類型的任務能夠在同一訓練框架下進行聯(lián)合優(yōu)化,同時也便于獎勵函數(shù)的自動計算與評估。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

對于感知類任務,模型需要輸出符合預定義格式的結(jié)構化結(jié)果,以確保評估過程具有良好的可重復性和穩(wěn)定性,從而避免因輸出格式差異帶來的評價偏差。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

在完成監(jiān)督微調(diào)之后,研究團隊引入強化學習進一步提升模型的推理能力。在訓練過程中,模型根據(jù)不同任務類型獲得相應的準確性獎勵和格式獎勵,從而引導模型生成既符合任務目標又滿足輸出規(guī)范的結(jié)果。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

針對多任務訓練中不同任務獎勵分布差異較大的問題,研究中提出了一種基于指數(shù)滑動平均的歸一化方法,使各類任務在訓練過程中能夠獲得相對平衡的優(yōu)化信號,從而有效避免模型過度偏向少數(shù)獎勵分布較強的任務。

模型訓練在大規(guī)模 GPU 集群上完成,整體訓練流程分為監(jiān)督微調(diào)和強化學習兩個階段。通過合理設置學習率、批大小以及視頻幀數(shù)上限,在保證訓練效率的同時,實現(xiàn)了穩(wěn)定而有效的多任務聯(lián)合優(yōu)化。

讓推理跨越任務邊界

從實驗結(jié)果可以看出,統(tǒng)一的多模態(tài)推理模型在性能層面具有良好的可行性和有效性。這一發(fā)現(xiàn)表明,將不同視覺任務整合到同一模型中進行建模,并不會削弱模型在單一任務上的表現(xiàn),反而能夠在整體上提升其推理能力。雷峰網(wǎng)

同時,實驗也顯示,強化學習并非只適用于語言推理任務,在引入合適的建模方式后,同樣可以有效作用于視覺感知和時序理解等多模態(tài)場景。

在這一背景下,OneThinker 所采用的模型設計思路展現(xiàn)出一定的普適性。通過統(tǒng)一接口、統(tǒng)一訓練流程以及統(tǒng)一優(yōu)化策略,不同任務和不同模態(tài)之間得以共享推理能力和結(jié)構性知識,從而減少了重復建模的需求。這種設計范式為通用視覺推理模型的構建提供了一條相對清晰且具有復用價值的技術路徑。

從應用層面來看,統(tǒng)一的多模態(tài)推理模型也更貼近真實場景的實際需求。在諸如自動駕駛、智能監(jiān)控以及機器人感知與決策等任務中,系統(tǒng)往往需要在同一框架下同時完成理解、推理和定位等多種功能。相比依賴多個獨立模型的方案,統(tǒng)一模型在系統(tǒng)復雜度控制和任務協(xié)同方面具有更大的潛在優(yōu)勢。

總體而言,這些實驗結(jié)果提示,多模態(tài)通用模型的發(fā)展方向不應僅停留在模型規(guī)模的擴展上,而更值得關注的是任務建模方式的統(tǒng)一、推理機制的合理設計以及訓練策略的協(xié)同優(yōu)化。

這些方面的探索為后續(xù)多模態(tài)通用智能系統(tǒng)的研究提供了有益的參考。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說