Google 宣佈推出 MedLM,這是一個針對醫療行業進行了精細調整的模型家族。基於 Google 開發的 Med-PaLM 2 模型,該模型在數十個醫學考試問題上表現出「專家級」的水平,MedLM 現已提供給 Google 雲的美國客戶使用(在某些其他市場上處於預覽階段),這些客戶已通過 Google 的全面管理的 A.I. 開發平台 Vertex AI 獲得白名單。
目前有兩個可用的 MedLM 模型:一個更大的模型,專為 Google 描述的「複雜任務」而設計,以及一個更小的、可微調的模型,最適合「跨任務擴展」。
「通過與不同組織合作試點我們的工具,我們了解到,對於特定任務來說,最有效的模型因使用情境而異,」 Google 的工程和研究副總裁 Yossi Matias 在今天的公告之前向 TechCrunch 提供的一篇博客文章中寫道。「例如,對話摘要可能最適合由一個模型處理,而搜索藥物可能更適合由另一個模型處理。」
Google 表示,早期使用 MedLM 的一家用戶,盈利醫療機構 HCA Healthcare 已經與醫生一起試驗這些模型,以幫助撰寫急症科醫院的病人註記。另一家測試者 BenchSci 已將 MedLM 集成到其用於識別、分類和排名新生物標記的「證據引擎」中。
Google 與其主要競爭對手 Microsoft 和 Amazon 一起,正競相爭取價值數十億美元的醫療 A.I. 市場,這一市場預計到 2032 年可能價值數十億美元。最近, Amazon 推出了名為 AWS HealthScribe 的產品,該產品使用生成式 A.I. 將患者與醫生之間的對話進行轉錄、摘要和分析。 Microsoft 正在試驗各種基於大型語言模型的 A.I. 醫療產品,包括基於醫療「助手」應用程式。
但是,對於這種技術仍然要謹慎。在醫療領域, A.I. 在歷史上取得了參差不齊的成功。英國國家衛生服務支援的 A.I. 初創公司 Babylon Health 因聲稱其疾病診斷技術比醫生更好而一直受到監管機構的重點審查。IBM 在技術問題導致客戶合作關係惡化後,不得不以損失割讓其專注於 A.I. 的 Watson Health 部門。
有人可能會認為, Google 的 MedLM 家族中的生成模型比之前的模型要複雜得多。但研究表明,當涉及回答與醫療相關的問題,即使是相對基本的問題,生成模型的準確性也不是特別高。
一項由一組眼科醫生共同撰寫的研究向 ChatGPT 和 Google 的 Bard ChatBot 提問了有關眼睛疾病和疾病的問題,發現所有三種工具的大多數回答都完全錯誤。ChatGPT 生成了充滿潛在致命錯誤的癌症治療計劃。ChatGPT 和 Bard 等模型在回答有關腎功能、肺功能和皮膚問題的查詢時,會產生關於種族主義、被證實錯誤的醫學觀點。
世界衛生組織(WHO)在 10 月警告說,在醫療領域使用生成式 A.I. 存在風險,可能導致模型生成有害的錯誤答案,傳播有關健康問題的虛假資訊,或者洩露健康數據或其他敏感資訊。(由於模型有時會記住訓練數據並在得到正確提示時返回部分訓練數據,所以訓練在醫療記錄上的模型可能意外洩露這些記錄。)