蜜臀色欲AV无码人妻,欧美性猛交xxxx免费看蜜桃,西西444WWW无码视频软件,中文字幕无码精品亚洲35,51国精产品自偷自偷综合

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

臨床診斷并非一次性的「快照」,而是一場動態交互、不斷「探案」的推理過程。然而,當下的大模型大多基于靜態數據訓練,難以掌握真實診療中充滿不確定性的多輪決策軌跡。如何讓AI學會「追問」、選擇檢查,并一步步抽絲剝繭,邁向正確診斷?

來自上海交通大學人工智能學院、上海人工智能實驗室、螞蟻集團與北京大學的聯合團隊提出了全新的「環境—智能體」訓練框架。他們構建了面向醫學診斷的世界模型 DiagGym,并在其中訓練可自主演進的診斷智能體 DiagAgent。在該框架中,診斷智能體可以在安全可控的虛擬世界中反復探索,通過與虛擬病人的交互反饋持續優化自身的動態決策策略。

研究團隊還設計了聚焦診斷推理過程的評測基準 DiagBench。該基準共包含 750 個病例,提供了經醫生驗證的中間檢查推薦和最終診斷結果;其中有 99 個病例,另外由醫生手工撰寫了 973 條關于診斷過程的詳細評估準則。在 DiagBench 上的實驗結果顯示,該框架下訓練得到的診斷智能體在 DiagAgent 多輪診斷流程管理能力方面,顯著優于 DeepSeek、Claude-4 等先進模型。

代碼、模型、測試數據均已全部開源。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

論文標題:Evolving Diagnostic Agents in a Virtual Clinical Environment

論文鏈接://arxiv.org/abs/2510.24654

代碼倉庫://github.com/MAGIC-AI4Med/DiagGym

問題背景:

從靜態問答到動態決策,

AI 診斷需要主動問詢

真實的臨床診斷是一個復雜的多輪決策過程:醫生需要根據不完整的初步信息,提出一系列可能的鑒別診斷,然后主動選取、推薦一系列的檢驗檢查「軌跡」來逐步排除或確認,最終在信息充足時做出診斷。

然而,當前多數醫療 LLM 的訓練范式更像是在做「開卷考試」——它們基于靜態、完整的病歷數據進行指令微調。這種模式忽略了診斷過程中的交互性長期策略性,導致模型難以處理真實診療中的三大核心挑戰:

主動探索:如何主動選擇下一步檢查?

動態調整:如何根據新的檢查結果更新診斷假設?

適時收斂:何時應該停止檢查并給出最終診斷?

為了攻克這一難題,研究團隊提出了一種創新的端到端智能體訓練范式:讓診斷智能體(DiagAgent)在一個面向醫學診斷的世界模型(DiagGym)構成的虛擬臨床環境中,自主交互,通過接受環境反饋和最終的強化學習獎勵,「摸爬滾打」,學會一套高效、準確的多輪診斷交互策略。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

圖1. 端到端的診斷智能體訓練范式

核心貢獻:

虛擬臨床環境、診斷智能體

與基于 Rubric 的評測基準

這項工作的核心貢獻可以概括為三個環環相扣的部分:

虛擬臨床環境:構建醫學診斷的世界模型 DiagGym

研究團隊基于海量真實電子病歷(EHR)訓練了一個條件生成模型。這個模型可以根據患者的初始情況和已有的檢查記錄,實時生成「下一項檢查的結果」。它構建了一個低成本、安全、可復現的閉環虛擬臨床環境,為智能體的交互式訓練提供了完美沙盒。更重要的是,這個環境兼具高保真度與高多樣性,能模擬從典型到罕見的各種診療路徑。

主動問詢能力:端到端診斷智能體自主演進 DiagAgent

在上述的虛擬環境中,DiagAgent 通過端到端強化學習進行訓練。智能體需要學習在每個決策點做出最優選擇——是繼續建議檢查,還是給出最終診斷,不斷同診斷學世界模型進行交互,獲得當前病人信息。其目標是學會通過動態決策,主動進行檢查推薦,并在信息足夠時做出診斷,從而實現高效動態問診。

診斷過程化評測基準:人工檢驗診斷軌跡規范性 DiagBench

為了全面評估診斷智能體的能力,團隊構建了 DiagBench。它不僅包含 750 個經人工檢查的帶有參考診斷路徑的案例,更創新性地引入了由醫生撰寫的 973 條診斷過程評估準則(rubrics)。這些準則帶有權重,可以細粒度地評估診斷交互過程的合規性與質量,強調「如何達成診斷」的過程,而不僅僅是「診斷結果是否正確」。

實驗結果顯示,無論是在單步決策場景,還是在端到端多步診斷決策場景,經過強化學習訓練的 DiagAgent 均顯著優于包括 GPT4o、DeepSeekv3 在內的 10 個代表性大模型,以及兩種主流智能體框架。這一結果表明,在交互式環境中進行策略學習,能夠賦予模型更強的動態決策與長期診斷管理能力。

技術框架:

訓練診斷學世界模型與端到端

交互式診斷智能體強化學習自主演進

第一步:DiagGym,構建可交互的診斷世界模型,打造虛擬臨床環境

首先,團隊需要一個能模擬真實臨床反饋的「沙盒」。他們收集了超過 11 萬份患者的真實診療數據,覆蓋近 5000 種疾病。這些數據包含了患者基本信息以及按時間排序的檢查序列(如化驗、影像等)。

利用這些數據,團隊訓練了一個自回歸語言模型。這個模型的核心能力是條件性文本生成:給定患者基本信息和歷史檢查記錄,它能精準預測下一項檢查可能出現的結果。這個模型就是 DiagGym,一個能夠實時模擬檢查反饋的診斷學世界模型。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

圖2:基于臨床序列數據的 DiagGym 自回歸語言模型訓練范式

第二步:DiagAgent,端到端強化學習驅動,讓診斷智能體自主演進

有了「虛擬臨床環境」,就可以開始訓練「診斷智能體」了。DiagAgent 的訓練分為兩個階段:

冷啟動(Supervised Fine-Tuning):首先,使用 1000 條從真實病歷中抽取的診斷互動軌跡進行監督微調,讓模型學會基本的交互格式和臨床語言。

強化學習(Reinforcement Learning):接著,將智能體放入 DiagGym 中進行多輪實戰演練。智能體在環境中自主決策,獲得環境反饋,并根據最終的獎勵進行策略優化。

獎勵函數的設計是關鍵,它由三部分構成:

診斷正確性:最終診斷是否準確?

檢查推薦質量:推薦的檢查是否關鍵、有效?(通過 F1 分數衡量)

交互輪數懲罰:是否用最少的步驟完成診斷?(鼓勵高效)

通過 GRPO 強化學習算法,DiagAgent 逐漸學會了如何在不確定性下進行「主動搜證-評估-收斂」,將診斷從「單輪問答」升級為「軌跡級決策與策略學習」。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

圖3:采用強化學習驅動的DiagAgent策略演進的訓練架構

第三步:DiagBench,手工打造規則驅動新評測基準,評估AI診斷交互能力

在評估診斷性能方面,不僅需要模型能給出正確答案,更要能展示出嚴謹的診斷思路。但如何衡量這個「思路」呢?傳統的自動化指標顯然不夠。

為此,研究團隊打造了一套全新的手工打造規則驅動的評測基準——DiagBench,旨在深入評估AI在多輪診斷交互中的過程質量。具體步驟如下:

醫生驗證的高質量案例庫:基準包含了 750 個經過醫生團隊逐一驗證的真實診斷案例,每個案例都附有標準的參考診斷路徑和最終結果。

手工打造的核心評估準則(Rubrics):研究團隊還引入了一套由資深醫生手工打造的、基于規則的評估體系。研究團隊邀請多位醫生,對 99 個復雜病例進行深度復盤,將診斷過程中的關鍵決策點、推理邏輯、以及必須遵守的臨床準則,提煉成 973 條具體的評估細則(Rubrics)。

帶權重的精細化打分:在此基礎上,醫生還為每一條準則都附上權重,以區分其臨床重要性。

通過這套體系,DiagBench 對診斷全過程進行細粒度過程審查,全面評估其在信息收集、假設檢驗、風險控制等維度的綜合能力。

實驗結果:

虛擬環境與智能體的雙重驗證

DiagGym:虛擬環境有多真實?

一個可靠的虛擬環境是成功訓練智能體的前提。實驗證明,DiagGym在多個維度上都表現出色:

高保真度:DiagGym 在逐步生成檢查結果時展現出卓越性能。如表 1 所示,在逐步生成檢查結果時,其步驟相似度(3.57/5分)和整鏈一致性(96.9%)均遠超 Qwen2.5-72B 等強基線模型。更關鍵的是,根據醫生評測結果(表2),DiagGym 同樣大幅領先,其生成的報告獲得了 4.49 分的平均相似度和 95.00% 的多數投票一致性,這證明 DiagGym 的結果更連貫,更少出現與病情矛盾的「過度陽性」結果,臨床可信度高。

高多樣性:生成的檢查結果分布與真實數據高度對齊。如表1所示,數值型 1-Wasserstein 距離僅 0.128,同時保持了接近真實數據的多樣性,有效避免了模型模式崩潰。

高效率:DiagGym 的部署和推理成本極低。表 1 數據顯示,它僅需單卡 A100 即可部署,單次生成僅耗時約 0.52 GPU·s,而同類任務若使用 DeepSeek-v3-671B 則需要至少 16 張GPU和超過 62 GPU·s 的算力。這為大規模、高頻次的智能體交互訓練提供了可能。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

表1:DiagGym 與基線模型的定量評測結果。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

表2:DiagGym 與基線模型生成結果的臨床專家主觀評測結果。

DiagAgent:診斷智能體的「醫術」如何?

1、單輪能力評測:決策精準度大幅提升

在單輪能力評測中,如圖 4a 所示,我們評估了智能體在給定部分病歷、僅需做出下一步決策的能力。結果證明,DiagAgent 在這種單輪決策場景下展現了壓倒性優勢(結果見圖 4c)

檢查推薦命中率提升 44.03%,最終診斷準確率提升 9.34%(相較于次優模型)。

DiagAgent-7B 的檢查推薦命中率高達 72.56%,而 MedGemma 和 DeepSeek-v3 等強模型僅為 20%-28%。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

圖4:DiagAgent在單輪決策場景下的評估框架與性能對比。

2、端到端全程診斷評測:過程與結果雙優

在模擬真實診療、從頭到尾完成診斷的全流程測試中,如圖5a 所示,模型需要根據患者信息進行多輪問診,最終給出診斷。DiagAgent 在這一復雜任務中再次表現最佳:

核心診斷指標全面領先。如圖 5b 所示,DiagAgent-14B 平均交互 6.66 輪,檢查推薦F1分數達到 46.59%,最終診斷準確率 61.27%,均遠超其他模型。相比之下,許多大模型基線(如 DeepSeek-v3)傾向于在 2-4 輪內草草結束,導致檢查不充分(Recall 較低),診斷準確性也大打折扣。

過程質量獲臨床準則認可。我們進一步引入醫生制定的流程化準則(rubrics)進行評估(如圖5c 所示)。在圖5d的加權得分對比中,DiagAgent-14B的得分比強基線(如Claude-sonnet-4)高出7-8個百分點。這說明它不僅「診斷對」,而且「過程好」,更好地遵循了關鍵檢查優先、基于證據收斂等臨床金標準。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

圖5:DiagAgent端到端全程診斷評測框架與結果。

消融實驗:

訓練虛擬環境支撐強化學習

比簡單利用現有樣本進行SFT更加高效

框架的成功并非偶然。通過一系列消融實驗,我們深入探究了DiagAgent 成功的關鍵因素。我們的消融實驗結果如表3所示:

強化學習(RL)顯著優于監督微調(SFT):在同等模型規模下,由DiagGym 虛擬環境支撐的強化學習策略,普遍為模型帶來 10 至 15 個百分點以上的診斷準確率增益。

獎勵設計是策略優化的核心:同時優化「診斷準確性」和「檢查推薦質量」的雙重獎勵,能讓模型在提升最終準確率的同時,大幅改善診斷路徑的合理性。

強基座模型潛力更大:雖然所有模型都能從RL中獲益,但更強的基座模型(如Qwen2.5-14B)能達到更高的性能上限。

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體-有駕

表3:消融實驗結果

研究價值與未來展望

研究價值

對齊真實臨床工作流:它將AI診斷從靜態問答升級為動態策略學習,讓智能體學會在不確定性下「主動搜證-評估-收斂」,更貼近真實世界。

開創「環境-智能體」閉環訓練范式:DiagGym作為一個診斷學世界模型,提供了一個安全、可擴展的診斷智能體「訓練場」,讓智能體系統能自主探索海量診療路徑,包括各種非典型的診斷交互軌跡,擺脫了舊有監督學習范式對收集有限、保守的診斷過程數據的依賴。

推動過程化評估:DiagBench首次在診斷交互軌跡上引入了帶權重的rubrics來衡量「診斷過程」的質量,推動診斷AI的開發從「唯結果論」轉向關注中間決策的合理性。

局限與展望

模型規模:當前實驗主要基于7B-14B模型,未來擴展到千億級模型有望進一步提升策略的深度和推理的上限。

任務范圍:目前聚焦于「診斷」,未來可將「治療方案、預后評估」等環節納入虛擬環境和獎勵函數,構建「診療一體化」的超級智能體。

環境擴展:DiagGym未來可以加入更多維度的模擬,如治療反饋、費用/安全約束等,構建一個更全面的虛擬臨床系統。

總結

這項工作通過「虛擬臨床環境+端到端強化學習」的范式,成功地將 LLM 從一個靜態的「問答引擎」轉變為一個能夠進行「長期、多輪」診斷管理的「AI醫生」。高保真、低成本的世界模型DiagGym為訓練提供了沃土,而智能體DiagAgent則在其中學會了動態決策的藝術,在各項評測中全面領先。

0

全部評論 (0)

暫無評論