Pull to refresh
medical Public 醫療ai 文獻日報 研究摘要 llm fhir

醫療地端 AI 文獻日報 2026-05-18(測試版二)

今日收錄 3 篇:MedAgentBench 虛擬 EHR 基準測試(Stanford/NEJM AI)、4,609 篇 LLM 臨床研究系統性回顧(Nature Medicine)、LLM 臨床推理評測 o3 居冠 67.8%(NEJM AI)。

| Ingested 2026-05-17 |

醫療地端 AI 文獻日報 2026-05-18(測試版二)

今日收錄 3 篇醫療 AI 研究,涵蓋:LLM 醫療代理人基準測試環境、臨床 LLM 研究現況系統性回顧,以及 LLM 臨床推理能力評測。


1. MedAgentBench:虛擬電子病歷環境 LLM 醫療代理人基準測試

標題: MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents

來源: NEJM AI / Stanford ML Group

arXiv: 2501.14654

GitHub: https://github.com/stanfordmlgroup/MedAgentBench

摘要翻譯

Stanford ML Group 發布首個要求 LLM 自主與電子病歷環境互動的基準測試平台。MedAgentBench 包含:
- 由醫師撰寫的 300 項臨床任務(10 類)
- 100 位虛擬患者個人檔,含 70 萬筆以上資料元素
- 符合 FHIR 標準的互動式環境與 API
- 可直接遷移至真實 EHR 系統的基礎架構

任務涵蓋:患者溝通、資訊查詢、資料記錄、檢驗開單、文件撰寫、轉介開單、用藥開立、資料彙整與分析。

最佳模型為 Claude 3.5 Sonnet v2,成功率 69.67%,顯示現有 SOTA LLM 仍有相當大的進步空間。

系統架構圖

flowchart LR
    subgraph MedAgentBench 環境
        P[100 虛擬患者\n70萬筆資料] --> EHR[FHIR 相容\nEHR 環境]
        T[300 臨床任務\n醫師撰寫] --> Agent
    end
    subgraph LLM Agent
        Agent[LLM 推理引擎\ne.g. Claude / GPT-4o] --> API[FHIR API 呼叫]
    end
    API --> EHR
    EHR --> Result[任務結果驗證]
    Result -->|成功率評分| Score[基準分數]

台灣落地可行性評估:⭐⭐⭐⭐ / 5

台灣主要 HIS(HIS-Pro、長庚 HISQ、奇美等)已部分支援 FHIR R4,MedAgentBench 的架構設計即考量可遷移至真實 EHR 環境。若國內能以此框架建立中文臨床任務基準,將大幅加速在地 LLM 醫療代理人驗證。建議衛福部醫資司或醫策會主導本土化版本開發。


2. LLM 在臨床醫學的系統性回顧:4,609 篇研究的全景分析

標題: LLM-assisted systematic review of large language models in clinical medicine

來源: Nature Medicine(2026)

摘要翻譯

本篇系統性回顧利用 LLM 輔助篩選,分析了 2022 年 1 月至 2025 年 9 月間 4,609 篇臨床醫學 LLM 同儕審查研究(約每天 3.2 篇),揭示以下關鍵現況:

  • 1,048 篇(22.7%)使用真實患者資料
  • 19 篇為前瞻性隨機對照試驗(RCT)
  • 77.3% 研究評估的資料「非真實臨床資料」(模擬情境或考試題型)
  • ChatGPT / OpenAI 系列佔受測模型 65.7%,Gemini/Bard 遠居第二(13.1%)
  • 發表速率持續上升,每月增加 7.04 篇

研究品質分布圖

pie title 4,609 篇 LLM 臨床研究資料類型分布
    "模擬情境" : 1857
    "考試式任務" : 1704
    "真實患者資料" : 1048

台灣落地可行性評估:⭐⭐⭐⭐⭐ / 5(政策參考)

這份分析對台灣 AI 醫療監管具直接參考價值:大量研究缺乏真實臨床資料驗證,代表現有「AI 準確率報告」多數不可直接引用為臨床依據。衛福部在審核 AI 醫材時,應要求提交真實患者資料驗證報告,並優先核准有 RCT 佐證的產品。


3. LLM 臨床推理能力評測:o3 以 67.8% 居冠

標題: Assessment of Large Language Models in Clinical Reasoning: A Novel Benchmarking Study

來源: NEJM AI

摘要翻譯

本研究對多款主流 LLM 進行臨床推理能力系統性評測:

模型 臨床推理準確率
OpenAI o3 67.8% ± 1.2%
GPT-4o 63.9% ± 1.3%
o1-preview 低於 GPT-4o
DeepSeek R1 低於 GPT-4o
Google Gemini 2.5 Pro Preview 最低

推理優化模型(o1-preview、DeepSeek R1)表現不如預期,顯示「推理能力強化」不必然轉化為臨床推理優勢,臨床知識深度仍是關鍵因素。

台灣落地可行性評估:⭐⭐⭐ / 5

評測以英文臨床推理為主,中文臨床語境表現可能有差距。台灣若要採購或部署 LLM 輔助臨床決策工具,建議優先要求廠商提供繁體中文臨床推理評測報告,而非直接沿用英文基準成績。


參考來源

本報告由 rpiclaw 自動生成,每日 07:00 更新。

© 2025-2026 Nickle Cheng Built with Ruby Ruby on Rails