臺灣50優良SMART on FHIR應用程式徵案會後報導系列2｜Keynote：SMART on FHIR for Responsible AI- 臺灣智慧醫療三大中心

Kenneth D. Mandl 教授（Smart on FHIR 平台創始人）專題演講

很高興能與各位分享我們在建構下一代醫療數位基礎建設方面的思考與實踐。當前，醫療正面臨一場巨大的變革，特別是人工智慧（AI），不論是語言模型還是分析演算法，其發展速度已遠超我們對「如何負責任地使用」的理解。因此，「負責任 AI」的倡議顯得既重要又迫切。

我們必須共同思考：應該如何評估這些人工智慧系統？

挑戰一：臨床驗證與數據的真實難題

要負責任地評估 AI，臨床驗證至關重要。我們必須確認模型所診斷到的，確實就是我們臨床上所關心的狀況。最理想的情況是，這些驗證能在醫療數位系統，例如電子病歷（EMR）中完成。然而，這需要兩個先決條件：「互通性」（interoperability）和「可動態更新」的能力。

目前電子病歷資料本身的使用體驗並不好。例如，在美國，若要準確識別系統裡到底有多少「氣喘」病人，這往往需要一個真正的運算專案，甚至需要博士後等級的人力來整理。這是因為病歷上的 ICD-10 診斷碼不一定代表病人真的患有氣喘，它可能只是排除診斷，或是一次短暫的喘鳴事件（例如接觸貓毛）被編碼。要做**「真正的氣喘族群辨識」**，我們必須綜合「多模態」資訊，包括長期用藥、急性惡化、住院與加護病房紀錄，甚至影像徵象（如胸部 X 光的過度充氣）等。

挑戰二：AI 的事後負責監測缺失

除了數據本身的複雜性，我們目前也缺乏對 AI 進行「事後負責監測」的機制。在常規照護流程中，往往沒有一個「裝置的唯一識別碼」來追蹤 AI 的使用。當我打開電子病歷，我通常不知道臨床上是否用到了某個 AI、它是哪一套、哪個版本、給了什麼建議，以及臨床醫師最終如何採納。

要做責信追溯，我們至少需要知道「有用到」AI，然後必須拿到**「事實真相（ground truth）」**。舉例來說，如果模型判定某人患有人類流感，後續是否進行了流感快篩或 PCR 陽性，或是否出現了相符的症狀，這些都是驗證的依據。但在現況下，AI 的使用情況和 ground truth 的回溯往往非常困難。

有人提議將 AI 的監管比照「醫師」，例如要求它們通過「專科考試」並持續測驗。這固然是一條思路，但我們也必須承認，我們無法總是解釋語言模型為何會產出某一特定結果。

解決方案：SMART on FHIR 的誕生與法律規範

面對這些挑戰，我們需要一個可重複、可擴散、可通用的數位基礎建設。這個建設必須能讓病人掌握自己的資料，並能將資料交給聊天機器人或其他服務；同時，也讓 AI 開發者能夠「負責任地」開發與監測。

十多年前，美國在歐巴馬政府時期投入 480 億美元推動電子病歷，將採用率從 2010 年的約 5% 提升到今天的約 95%。當時我建議，既然多數 EMR 仍是網際網路前時代的「單體軟體」，就應該像 iPhone 一樣，提供「應用程式介面（API）」，允許第三方 App 在醫療環境中連結 EMR 運作。就像 iPhone 的 App 不需要去見 Apple，就能呼叫標準 API 讀取行事曆或定位一樣，醫療體系也應如此。

這套構想最終發展成為「SMART on FHIR」：

1. FHIR（Fast Healthcare Interoperability Resources）作為醫療數據的「通用語言」。

2. SMART 規範了 App 的啟動與授權機制。

關鍵性的進展是，美國的《21 世紀治癒法案》（21st Century Cures Act）將「所有 EMR 必須提供 API」寫入法律，並且後續規範指定必須使用 SMART on FHIR。

釋放患者數據權利與人口級別創新

這項法案的結果是深遠的：病人依法擁有「可計算格式」的資料拷貝權。他們不僅能看到圖表，還能把 FHIR 資料匯到手機，並「直接交給語言模型」做各種分析。

此外，我們還推動了「人口層級」的 API，即 Bulk FHIR。這讓醫療體系可以成批取出十萬人等級的資料，用於觀察 A1C 的族群分布，或是訓練預測 A1C 的 AI 模型。

為什麼這很重要？因為資料能以「處處同樣格式」輸出，我們就能夠跨院、跨區甚至全國彙整數據，真正啟動創新經濟。這就像萬維網的故事：Tim Berners-Lee 發明了 HTML 和 HTTP 標準，儘管他當年不需要預見 Netflix 或網路銀行，但他「使之成為可能」。

SMART on FHIR 讓各種「資料重混（mash-up）」成為現實，將任何地方的資料（包括基因體）帶到照護現場、帶到病人與群體分析者手中。在「負責任 AI」時代，這至關重要：我們需要這些標準化數據來訓練演算法，也需要它們來評估與進行上市後監測。

實踐範例：COVID-19 生物偵測系統

在 COVID-19 疫情期間，我們實作了一個例子，重構了「生物偵測（biosurveillance）」的方法。

早些年，我們只能依賴急診「主訴」這種 20 幾個字的短字串來偵測呼吸道疾病。但藉由 SMART on FHIR 與 Bulk FHIR 架構，我們現在可以將「整份病歷的內容」引入偵測，包括每位病人可能有上千則醫師筆記以及完整的結構化資料。我們快速在 5 個醫療體系落地了一套 COVID 監測系統，它不只處理結構化資料，還使用 AI 去解析臨床筆記。

值得一提的是，在我們計畫進行期間，ChatGPT-3.5 發布了。因為我們的架構是模組化的，我們能夠從開源語言模型（如 cTAKES、BERT）無縫切換到較新的大模型，幾乎可以運行各類語言模型。這之所以能辦到，正是因為這些 API 在美國的所有 EMR 中「依法」普遍可用。

展望未來

OpenAI 最近發布了一份大型分析，評估語言模型在美國 GDP 主要產業部門相對人類的表現，結果相當驚人。我們必須超前部署，將我們的數據系統做好準備。建立互通性、可動態更新、且標準化的數位基礎建設，是我們能夠負責任地推進 AI 應用的唯一途徑。我也期待在國際上能彼此協作，共同迎接醫療領域的巨變。