醫療地端 AI 文獻日報 2026-05-18（測試版二）

今日收錄 3 篇醫療 AI 研究，涵蓋：LLM 醫療代理人基準測試環境、臨床 LLM 研究現況系統性回顧，以及 LLM 臨床推理能力評測。

1. MedAgentBench：虛擬電子病歷環境 LLM 醫療代理人基準測試

標題： MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents

來源： NEJM AI / Stanford ML Group

arXiv： 2501.14654

GitHub： https://github.com/stanfordmlgroup/MedAgentBench

摘要翻譯

Stanford ML Group 發布首個要求 LLM 自主與電子病歷環境互動的基準測試平台。MedAgentBench 包含：
- 由醫師撰寫的 300 項臨床任務（10 類）
- 100 位虛擬患者個人檔，含 70 萬筆以上資料元素
- 符合 FHIR 標準的互動式環境與 API
- 可直接遷移至真實 EHR 系統的基礎架構

任務涵蓋：患者溝通、資訊查詢、資料記錄、檢驗開單、文件撰寫、轉介開單、用藥開立、資料彙整與分析。

最佳模型為 Claude 3.5 Sonnet v2，成功率 69.67%，顯示現有 SOTA LLM 仍有相當大的進步空間。

系統架構圖

flowchart LR
    subgraph MedAgentBench 環境
        P[100 虛擬患者\n70萬筆資料] --> EHR[FHIR 相容\nEHR 環境]
        T[300 臨床任務\n醫師撰寫] --> Agent
    end
    subgraph LLM Agent
        Agent[LLM 推理引擎\ne.g. Claude / GPT-4o] --> API[FHIR API 呼叫]
    end
    API --> EHR
    EHR --> Result[任務結果驗證]
    Result -->|成功率評分| Score[基準分數]

台灣落地可行性評估：⭐⭐⭐⭐ / 5

台灣主要 HIS（HIS-Pro、長庚 HISQ、奇美等）已部分支援 FHIR R4，MedAgentBench 的架構設計即考量可遷移至真實 EHR 環境。若國內能以此框架建立中文臨床任務基準，將大幅加速在地 LLM 醫療代理人驗證。建議衛福部醫資司或醫策會主導本土化版本開發。

2. LLM 在臨床醫學的系統性回顧：4,609 篇研究的全景分析

標題： LLM-assisted systematic review of large language models in clinical medicine

來源： Nature Medicine（2026）

摘要翻譯

本篇系統性回顧利用 LLM 輔助篩選，分析了 2022 年 1 月至 2025 年 9 月間 4,609 篇臨床醫學 LLM 同儕審查研究（約每天 3.2 篇），揭示以下關鍵現況：

僅 1,048 篇（22.7%）使用真實患者資料
僅 19 篇為前瞻性隨機對照試驗（RCT）
77.3% 研究評估的資料「非真實臨床資料」（模擬情境或考試題型）
ChatGPT / OpenAI 系列佔受測模型 65.7%，Gemini/Bard 遠居第二（13.1%）
發表速率持續上升，每月增加 7.04 篇

研究品質分布圖

pie title 4,609 篇 LLM 臨床研究資料類型分布
    "模擬情境" : 1857
    "考試式任務" : 1704
    "真實患者資料" : 1048

台灣落地可行性評估：⭐⭐⭐⭐⭐ / 5（政策參考）

這份分析對台灣 AI 醫療監管具直接參考價值：大量研究缺乏真實臨床資料驗證，代表現有「AI 準確率報告」多數不可直接引用為臨床依據。衛福部在審核 AI 醫材時，應要求提交真實患者資料驗證報告，並優先核准有 RCT 佐證的產品。

3. LLM 臨床推理能力評測：o3 以 67.8% 居冠

標題： Assessment of Large Language Models in Clinical Reasoning: A Novel Benchmarking Study

來源： NEJM AI

摘要翻譯

本研究對多款主流 LLM 進行臨床推理能力系統性評測：

模型	臨床推理準確率
OpenAI o3	67.8% ± 1.2%
GPT-4o	63.9% ± 1.3%
o1-preview	低於 GPT-4o
DeepSeek R1	低於 GPT-4o
Google Gemini 2.5 Pro Preview	最低

推理優化模型（o1-preview、DeepSeek R1）表現不如預期，顯示「推理能力強化」不必然轉化為臨床推理優勢，臨床知識深度仍是關鍵因素。

台灣落地可行性評估：⭐⭐⭐ / 5

評測以英文臨床推理為主，中文臨床語境表現可能有差距。台灣若要採購或部署 LLM 輔助臨床決策工具，建議優先要求廠商提供繁體中文臨床推理評測報告，而非直接沿用英文基準成績。

參考來源

本報告由 rpiclaw 自動生成，每日 07:00 更新。