清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

本文作者：鄭佳美

2026-02-24 14:26

導(dǎo)語(yǔ)：DOCTOR-R1：將臨床問(wèn)診建模為 POMDP，用強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)動(dòng)態(tài)提問(wèn)的醫(yī)療智能體。

在醫(yī)療人工智能的發(fā)展歷程中，能力評(píng)估方式在很大程度上塑造了技術(shù)演進(jìn)的方向。

過(guò)去相當(dāng)長(zhǎng)一段時(shí)間里，醫(yī)療 AI 的進(jìn)步主要圍繞醫(yī)學(xué)知識(shí)獲取與推理展開(kāi)，模型是否“足夠聰明”通常通過(guò)醫(yī)學(xué)考試題、臨床問(wèn)答數(shù)據(jù)集等靜態(tài)基準(zhǔn)來(lái)衡量。在這一評(píng)價(jià)框架下，模型只需在信息完整、問(wèn)題封閉的條件下給出正確答案，便被視為具備較高的醫(yī)療能力。

隨著大語(yǔ)言模型的興起，這一路徑迅速取得突破性進(jìn)展，多種系統(tǒng)在 MedQA 等測(cè)試中達(dá)到甚至超過(guò)人類專家水平，使得“醫(yī)療 AI 是否已經(jīng)成熟”一度成為行業(yè)內(nèi)的樂(lè)觀判斷。

然而，隨著這些模型被逐步引入更貼近真實(shí)臨床的交互場(chǎng)景，一個(gè)長(zhǎng)期被掩蓋的問(wèn)題開(kāi)始顯現(xiàn)：真實(shí)醫(yī)療實(shí)踐并非基于完整信息給出診斷，而是一種在高度不確定條件下，通過(guò)連續(xù)提問(wèn)、風(fēng)險(xiǎn)識(shí)別與信息整合來(lái)逐步逼近決策的動(dòng)態(tài)過(guò)程。

模型在靜態(tài)評(píng)測(cè)中展現(xiàn)出的知識(shí)優(yōu)勢(shì)，并未自然轉(zhuǎn)化為對(duì)真實(shí)問(wèn)診場(chǎng)景的可靠支持，反而在多輪對(duì)話中暴露出提問(wèn)策略僵化、對(duì)高風(fēng)險(xiǎn)信號(hào)反應(yīng)遲鈍、過(guò)早形成結(jié)論以及缺乏基本溝通與共情能力等缺陷。

這種“高分通過(guò)考試，卻難以勝任臨床問(wèn)診”的斷層，逐漸成為醫(yī)療 AI 領(lǐng)域的核心瓶頸，也迫使研究者重新思考一個(gè)根本性問(wèn)題：醫(yī)療智能體真正需要被訓(xùn)練和評(píng)估的，究竟是什么能力。

在這一背景下，清華大學(xué)劉洋團(tuán)隊(duì)提出了題為《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》的研究工作，試圖從問(wèn)題建模和訓(xùn)練范式層面打破以靜態(tài)知識(shí)評(píng)測(cè)為中心的既有路徑。

這項(xiàng)研究不再將模型能力簡(jiǎn)單等同于知識(shí)覆蓋度或參數(shù)規(guī)模，而是將臨床問(wèn)診本身視為一個(gè)長(zhǎng)期、多輪、部分可觀測(cè)且高度風(fēng)險(xiǎn)敏感的決策過(guò)程，重點(diǎn)探索如何讓模型學(xué)會(huì)在信息不完整的條件下提出高價(jià)值問(wèn)題、動(dòng)態(tài)調(diào)整詢問(wèn)策略，并在整個(gè)過(guò)程中保持安全意識(shí)與溝通質(zhì)量。為醫(yī)療智能體從工具型問(wèn)答系統(tǒng)邁向具備臨床推理與交互能力的決策主體提供了新的研究范式。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

論文鏈接：https://arxiv.org/pdf/2510.04284

從模板化提問(wèn)到策略性問(wèn)診

這項(xiàng)研究的實(shí)驗(yàn)結(jié)果本質(zhì)上圍繞三個(gè)核心問(wèn)題展開(kāi)，即現(xiàn)有模型在真實(shí)臨床問(wèn)診場(chǎng)景中究竟面臨哪些挑戰(zhàn)，DOCTOR-R1 在哪些具體能力層面彌補(bǔ)了這些不足，以及這些能力提升是否確實(shí)源于研究團(tuán)隊(duì)提出的方法機(jī)制而非偶然因素。

研究人員首先通過(guò)對(duì)照實(shí)驗(yàn)揭示了一個(gè)關(guān)鍵事實(shí)：在靜態(tài)醫(yī)學(xué)問(wèn)答任務(wù)中表現(xiàn)優(yōu)異的模型，在需要多輪交互的動(dòng)態(tài)臨床問(wèn)診環(huán)境中會(huì)出現(xiàn)系統(tǒng)性失效。

這種失效并非源于醫(yī)學(xué)知識(shí)儲(chǔ)備不足，而主要體現(xiàn)在問(wèn)診策略層面，例如提問(wèn)順序缺乏針對(duì)性，傾向于使用信息增益較低的標(biāo)準(zhǔn)化體檢式問(wèn)題；在患者給出潛在高危信號(hào)后，仍難以及時(shí)調(diào)整提問(wèn)路徑，而是沿用固定模板繼續(xù)詢問(wèn)；在關(guān)鍵信息尚未充分收集的情況下過(guò)早形成判斷，甚至給出不恰當(dāng)?shù)陌矒嵝曰蝈e(cuò)誤建議；以及整體溝通方式與真實(shí)醫(yī)療場(chǎng)景不匹配，表現(xiàn)為共情不足、語(yǔ)氣過(guò)于武斷或?qū)Σ淮_定性處理不當(dāng)。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

由于這些問(wèn)題在 MedQA、MMLU 等靜態(tài)評(píng)測(cè)中幾乎不會(huì)暴露，研究指出傳統(tǒng)評(píng)測(cè)方式對(duì)模型真實(shí)臨床能力存在失真。與之相比，DOCTOR-R1 的性能提升并非體現(xiàn)在單一指標(biāo)上，而是整體改變。DOCTOR-R1模型除了在上述傳統(tǒng)測(cè)試的表現(xiàn)優(yōu)于已有模型，在 MAQuE等模擬評(píng)測(cè)數(shù)據(jù)集上，其最終表現(xiàn)也優(yōu)于 GPT-4.1 等模型。

這一點(diǎn)在對(duì)話輪次與準(zhǔn)確率關(guān)系的分析中也得以體現(xiàn)，DOCTOR-R1 從首輪對(duì)話開(kāi)始即占據(jù)優(yōu)勢(shì)，并且隨著對(duì)話推進(jìn)持續(xù)擴(kuò)大領(lǐng)先幅度，體現(xiàn)出一種越問(wèn)越準(zhǔn)的策略特征。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

同時(shí)，在 HealthBench 的溝通質(zhì)量、上下文理解和回答完整性等指標(biāo)上，DOCTOR-R1 的提升幅度明顯高于準(zhǔn)確率本身，表明良好的溝通與共情能力并非附帶收益，而是其問(wèn)診策略的內(nèi)在組成部分，即共情本身有助于提高信息獲取效率。

進(jìn)一步的消融實(shí)驗(yàn)驗(yàn)證了這一結(jié)論。研究團(tuán)隊(duì)發(fā)現(xiàn)，在移除過(guò)程獎(jiǎng)勵(lì)、僅保留最終診斷獎(jiǎng)勵(lì)的情況下，模型雖然仍能學(xué)習(xí)到正確的診斷結(jié)果，但中間問(wèn)診過(guò)程明顯退化為模板化和低風(fēng)險(xiǎn)偏好模式，在高風(fēng)險(xiǎn)場(chǎng)景中更容易產(chǎn)生安全性不足的回答，說(shuō)明如果不對(duì)提問(wèn)過(guò)程本身進(jìn)行顯式獎(jiǎng)勵(lì)，模型會(huì)傾向于忽略如何提問(wèn)這一關(guān)鍵能力。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

而當(dāng)經(jīng)驗(yàn)庫(kù)機(jī)制被移除時(shí)，模型在新場(chǎng)景中的適應(yīng)能力顯著下降，在相似病例上的表現(xiàn)也更加不穩(wěn)定，對(duì)話策略波動(dòng)明顯增大，這表明僅依賴 on-policy 強(qiáng)化學(xué)習(xí)不足以模擬真實(shí)醫(yī)生通過(guò)長(zhǎng)期經(jīng)驗(yàn)積累形成的穩(wěn)定問(wèn)診策略。

因此，這些實(shí)驗(yàn)結(jié)果并非對(duì)整體性能的簡(jiǎn)單補(bǔ)充，而是從多個(gè)角度直接支撐了研究團(tuán)隊(duì)提出的核心機(jī)制設(shè)計(jì)。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

讓模型在不確定中學(xué)會(huì)決策

在實(shí)驗(yàn)設(shè)計(jì)層面，研究團(tuán)隊(duì)認(rèn)為必須采用強(qiáng)化學(xué)習(xí)而非單純的微調(diào)方法，其核心判斷在于兩者所能學(xué)習(xí)的能力本質(zhì)不同。

微調(diào)主要教會(huì)模型在獲取完整信息后如何生成回答，而臨床問(wèn)診的關(guān)鍵并不在于“如何作答”，而在于模型在尚不清楚答案的情況下，如何決定下一步應(yīng)該詢問(wèn)什么信息。

這一過(guò)程本質(zhì)上屬于行動(dòng)會(huì)改變未來(lái)可獲取信息結(jié)構(gòu)的序列決策問(wèn)題，因此天然更適合用強(qiáng)化學(xué)習(xí)來(lái)建模。進(jìn)一步地，研究人員指出臨床問(wèn)診并非一個(gè)完全可觀測(cè)的決策過(guò)程。在真實(shí)醫(yī)療場(chǎng)景中，患者自身往往也無(wú)法完整理解病情，醫(yī)生只能通過(guò)患者的回答逐步反推出潛在狀態(tài)，且大量關(guān)鍵信息只有在被主動(dòng)詢問(wèn)后才會(huì)顯現(xiàn)。

基于這一現(xiàn)實(shí)，該研究將問(wèn)診過(guò)程建模為部分可觀測(cè)馬爾可夫決策過(guò)程，而非簡(jiǎn)單的馬爾可夫決策過(guò)程，其中真實(shí)病情狀態(tài)對(duì)醫(yī)生模型不可見(jiàn)，醫(yī)生所獲得的觀察信息具有噪聲和不完整性，而每一次提問(wèn)行為都會(huì)直接影響下一步能夠獲得的信息內(nèi)容。

這一建模方式對(duì)于保留“問(wèn)什么才有意義”這一核心問(wèn)題至關(guān)重要。與此同時(shí)，研究團(tuán)隊(duì)強(qiáng)調(diào)多智能體交互環(huán)境并非形式上的復(fù)雜化，而是提升泛化能力的必要條件。如果患者僅由固定腳本模擬，模型很容易學(xué)會(huì)針對(duì)腳本進(jìn)行應(yīng)對(duì)，從而在真實(shí)場(chǎng)景中表現(xiàn)出極差的泛化能力。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

為此，研究人員使用大語(yǔ)言模型扮演患者智能體，因此即便在相同疾病背景下，患者的表述方式、回答順序以及風(fēng)險(xiǎn)信號(hào)的暴露時(shí)機(jī)都具有高度多樣性，從而讓醫(yī)生智能體真正學(xué)習(xí)穩(wěn)定有效的問(wèn)診策略，而非記憶固定套路。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

在獎(jiǎng)勵(lì)設(shè)計(jì)方面，研究提出的雙層獎(jiǎng)勵(lì)機(jī)制旨在解決長(zhǎng)期存在的兩個(gè)關(guān)鍵難題。一方面，如果僅依據(jù)最終診斷結(jié)果給予獎(jiǎng)勵(lì)，模型往往會(huì)傾向于過(guò)早猜測(cè)并提前結(jié)束對(duì)話，導(dǎo)致中間問(wèn)診過(guò)程不可控，高風(fēng)險(xiǎn)錯(cuò)誤也難以及時(shí)被懲罰；另一方面，醫(yī)療決策中普遍存在否決型錯(cuò)誤，即一次危險(xiǎn)建議或嚴(yán)重誤判無(wú)法被多次禮貌或合理表達(dá)所抵消。

不同于傳統(tǒng)的權(quán)重平均得分，研究團(tuán)隊(duì)引入了分層懲罰機(jī)制，將安全性、推理合理性和醫(yī)學(xué)準(zhǔn)確性置于最高優(yōu)先級(jí)，一旦觸發(fā)底線錯(cuò)誤即直接給予強(qiáng)負(fù)獎(jiǎng)勵(lì)。這種在強(qiáng)化學(xué)習(xí)中相對(duì)激進(jìn)的設(shè)計(jì)雖然約束嚴(yán)格，但能讓模型守住臨床安全的底線，且更貼近真實(shí)醫(yī)療場(chǎng)景的風(fēng)險(xiǎn)要求。雷峰網(wǎng)

最后，在經(jīng)驗(yàn)利用機(jī)制上，該研究并未將經(jīng)驗(yàn)庫(kù)視為普通的記憶模塊，而是將其定位為經(jīng)過(guò)篩選的“高質(zhì)量醫(yī)生經(jīng)驗(yàn)”。研究人員通過(guò)僅存儲(chǔ)高獎(jiǎng)勵(lì)軌跡、在檢索時(shí)同時(shí)考慮語(yǔ)義相似度與歷史獎(jiǎng)勵(lì)，并引入新穎性約束以避免模型反復(fù)依賴同一問(wèn)診套路，使模型在面對(duì)新患者時(shí)更接近一名積累了大量臨床經(jīng)驗(yàn)的醫(yī)生，而非簡(jiǎn)單依賴答案記憶的學(xué)生。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

真實(shí)臨床能力導(dǎo)向的醫(yī)療 AI 方法論啟示

從整體意義上看，這項(xiàng)研究在醫(yī)療人工智能領(lǐng)域具有明確而深遠(yuǎn)的啟示作用。研究結(jié)果首先表明，當(dāng)前醫(yī)療 AI 的瓶頸不僅受限于模型所具備的醫(yī)學(xué)知識(shí)規(guī)模，還在于是否采用了與真實(shí)臨床實(shí)踐相匹配的訓(xùn)練范式。

通過(guò)實(shí)驗(yàn)可以看到，在參數(shù)規(guī)模僅為 8B 的條件下，結(jié)合合適的強(qiáng)化學(xué)習(xí)訓(xùn)練框架，模型在多項(xiàng)動(dòng)態(tài)問(wèn)診指標(biāo)上能夠超過(guò)參數(shù)規(guī)模達(dá)到 32B 甚至 70B 的知識(shí)型模型，這一現(xiàn)象對(duì)長(zhǎng)期以來(lái)以模型規(guī)模和知識(shí)覆蓋度為中心的發(fā)展路徑形成了糾偏。

其次，研究將以往被視為難以量化和系統(tǒng)訓(xùn)練的軟技能問(wèn)題轉(zhuǎn)化為可優(yōu)化目標(biāo)。研究人員通過(guò)合理的任務(wù)建模和獎(jiǎng)勵(lì)設(shè)計(jì)，使得共情表達(dá)、溝通質(zhì)量以及對(duì)不確定性的處理等能力能夠被穩(wěn)定評(píng)估并持續(xù)強(qiáng)化，驗(yàn)證了軟技能并非只能依賴隱式學(xué)習(xí)或人工規(guī)則，而是可以納入統(tǒng)一的訓(xùn)練與評(píng)價(jià)體系之中。

最后，從方法論層面來(lái)看，研究提出的框架為真實(shí)世界智能體的構(gòu)建提供了一種具有可復(fù)制性的通用模板。其核心問(wèn)題特征包括不完全信息條件下的決策、面向長(zhǎng)期目標(biāo)的序列行為、高風(fēng)險(xiǎn)情境中的安全約束以及對(duì)經(jīng)驗(yàn)積累機(jī)制的依賴，而這些特征正是大多數(shù)真實(shí)世界智能體任務(wù)所共有的。

因此，這項(xiàng)工作的意義不僅局限于醫(yī)療領(lǐng)域，也為更廣泛的智能體研究提供了具有參考價(jià)值的范式思路。

構(gòu)建 DOCTOR-R1 的人

論文第一作者為黎雍卉，清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系碩士研究生，導(dǎo)師為劉洋教授。她的主要研究方向?yàn)橹腔坩t(yī)療與大模型智能體，特別是在醫(yī)療模型的交互、進(jìn)化、推理等方面的能力優(yōu)化。她已發(fā)表了ICLR等多篇成果，曾獲中國(guó)政府獎(jiǎng)學(xué)金、北京市政府獎(jiǎng)學(xué)金、清華計(jì)算機(jī)系 84 創(chuàng)新未來(lái)獎(jiǎng)學(xué)金等多項(xiàng)榮譽(yù)。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

論文的共同通訊作者之一是馬為之，他是清華大學(xué)智能產(chǎn)業(yè)研究院副研究員，主要從事智能信息獲取與智慧醫(yī)療的研究工作。他在 SIGIR、ICLR 等國(guó)際頂級(jí)會(huì)議以及 Nature Medicine 等權(quán)威期刊上發(fā)表了100余篇論文，曾獲得SIGIR、EMNLP等會(huì)議的論文獎(jiǎng)項(xiàng)，入選中國(guó)科協(xié)青年人才托舉工程、北京市科技新星。目前擔(dān)任 ACM TOIS 副主編及中國(guó)中文信息學(xué)會(huì)青工委秘書長(zhǎng)。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026

參考鏈接：https://air.tsinghua.edu.cn/info/1046/1196.htm

論文的另一位共同通訊作者是劉洋，他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系萬(wàn)國(guó)數(shù)據(jù)教授、智能產(chǎn)業(yè)研究院院長(zhǎng)、人工智能醫(yī)院聯(lián)席執(zhí)行院長(zhǎng)。研究方向?yàn)樽匀徽Z(yǔ)言處理、智慧醫(yī)療和科學(xué)智能。

劉洋教授承擔(dān)國(guó)家自然科學(xué)基金委杰出青年項(xiàng)目、科技創(chuàng)新2030“新一代人工智能”重大項(xiàng)目等重要科研項(xiàng)目，獲得國(guó)家科技進(jìn)步二等獎(jiǎng)1項(xiàng)、省部級(jí)與一級(jí)學(xué)會(huì)科技獎(jiǎng)勵(lì)5項(xiàng)、重要國(guó)際會(huì)議優(yōu)秀論文獎(jiǎng)4項(xiàng)。主要學(xué)術(shù)兼職包括中國(guó)人工智能學(xué)會(huì)組織工作委員會(huì)主任、中國(guó)中文信息學(xué)會(huì)計(jì)算語(yǔ)言學(xué)專業(yè)委員會(huì)主任等。

清華劉洋團(tuán)隊(duì)論文：揭示為何 70B 的醫(yī)療模型，反而不如 8B 會(huì)問(wèn)診丨ILCR 2026