儘管大語言模型 (LLM) 變得越來越複雜和強大,但它們仍然存在幻覺問題:提供不準確的資訊,或者更直白地說,就是在撒謊。
這在醫療保健等領域尤其有害,因為錯誤資訊可能會帶來嚴重後果。
作為美國頂級醫院之一的 Mayo Clinic 採用了一種新穎的技術來應對這一挑戰。為了取得成功,該醫療機構必須克服檢索增強生成 (RAG) 的局限性。這是大語言模型從特定相關數據源獲取信息的過程。該醫院採用了本質上是反向 RAG 的方法,模型先提取相關信息,然後將每個數據點連結回其原始源內容。
remarkably,這種方法在非診斷用例中幾乎消除了所有基於數據檢索的幻覺,使 Mayo 能夠在其臨床實踐中推廣該模型。
"通過這種通過連結引用源資訊的方法,數據提取不再是問題,"Mayo 的戰略醫療主任兼放射科主任 Matthew Callstrom 告訴 VentureBeat。
處理每一個數據點 處理醫療保健數據是一個複雜的挑戰,也可能是一個耗時的過程。雖然電子健康記錄 (EHR) 中收集了大量數據,但數據可能非常難以查找和解析。
Mayo 在處理所有這些數據時首先使用 AI 的場景是出院總結 (包含術后護理提示的就診總結),其模型使用傳統的 RAG。正如 Callstrom 所解釋的,這是一個自然的起點,因為它只是簡單的提取和總結,這正是 LLM 擅長的領域。
"在第一階段,我們不是在試圖得出診斷結果,比如向模型詢問'現在對這個病人來說最好的下一步是什麼?',"他說。
幻覺的危險也遠不如在醫生輔助場景中那麼顯著;這並不是說數據檢索錯誤不令人困惑。
"在我們最初的幾次反覆運算中,我們遇到了一些明顯無法容忍的有趣幻覺,比如病人年齡錯誤,"Callstrom 說。"所以你必須謹慎構建。"
雖然 RAG 是增強 LLM 能力的關鍵元件,但該技術有其局限性。模型可能檢索到不相關、不準確或低質量的數據;無法確定資訊是否與人類提問相關;或創建與請求格式不匹配的輸出(如返回簡單文本而不是詳細表格)。
雖然這些問題有一些解決方案——比如使用知識圖譜提供上下文的圖形 RAG,或者評估檢索文檔質量的糾正型 RAG (CRAG)——但幻覺問題並未消除。
引用每個數據點 這就是反向 RAG 過程發揮作用的地方。具體來說,Mayo 將聚類使用代表 (CURE) 演算法與 LLM 和向量資料庫配對,以雙重檢查數據檢索。
聚類對機器學習 (ML) 至關重要,因為它基於相似性或模式組織、分類和分組數據點。這本質上説明模型"理解"數據。CURE 通過層次技術超越了典型的聚類,使用距離度量基於鄰近度對數據進行分組(想像:相互靠近的數據比遠離的數據更相關)。該演算法能夠檢測"異常值",即與其他數據不匹配的數據點。
結合 CURE 和反向 RAG 方法,Mayo 的 LLM 將生成的總結分解成單獨的事實,然後將這些事實與源文檔匹配。第二個 LLM 然後對事實與這些源的對齊程度進行評分,特別是兩者之間是否存在因果關係。
"任何數據點都會被引用回原始實驗室源數據或影像報告,"Callstrom 說。"系統確保引用是真實的且準確檢索的,有效解決了大多數與檢索相關的幻覺。"
Callstrom 的團隊首先使用向量資料庫攝入病歷,以便模型可以快速檢索資訊。他們最初使用本地資料庫進行概念驗證 (POC);生產版本是帶有 CURE 演算法邏輯的通用資料庫。
"醫生非常謹慎,他們想確保他們不會被提供不可信的資訊,"Callstrom 解釋說。"所以對我們來說,信任意味著驗證任何可能作為內容呈現的東西。"
Mayo 實踐中的"巨大興趣" CURE 技術在綜合新病歷方面也證明瞭其用處。詳述患者複雜問題的外部記錄可能有不同格式的"大量"數據內容,Callstrom 解釋說。這些需要被審查和總結,以便臨床醫生在首次見到患者之前熟悉情況。
"我總是把外部醫療記錄描述為有點像電子表格:你不知道每個儲存格裡有什麼,你必須查看每一個來提取內容,"他說。
但現在,LLM 進行提取、分類材料並創建患者概述。通常,這項任務可能佔用醫生一天中約 90 分鐘的時間,但 AI 可以在大約 10 分鐘內完成,Callstrom 說。
他描述了在 Mayo 實踐中擴展這一能力以幫助減輕行政負擔和挫折感的"巨大興趣"。
"我們的目標是簡化內容處理——我如何增強醫生的能力並簡化他們的工作?"他說。
用 AI 解決更複雜的問題 當然,Callstrom 和他的團隊看到了 AI 在更高級領域的巨大潛力。例如,他們與 Cerebras Systems 合作構建了一個基因組模型,用於預測哪種關節炎治療對患者最有效,並且還在與 Microsoft 合作開發圖像編碼器和影像基礎模型。
他們與 Microsoft 的第一個影像專案是胸部 X 光。到目前為止,他們已經轉換了 150 萬張 X 光片,並計劃在下一輪轉換另外 1100 萬張。Callstrom 解釋說,構建圖像編碼器並不特別困難;複雜性在於使結果圖像真正有用。
理想情況下,目標是簡化 Mayo 醫生審查胸部 X 光的方式並增強他們的分析。例如,AI 可能識別插入氣管內導管或中心靜脈導管以説明患者呼吸的位置。"但這可以更廣泛,"Callstrom 說。例如,醫生可以解鎖其他內容和數據,如從胸部 X 光簡單預測射血分數——或從心臟泵出的血液量。
"現在你可以開始考慮更廣泛尺度上的治療反應預測,"他說。
Mayo 在基因組學(DNA 研究)以及其他"組學"領域,如蛋白質組學(蛋白質研究)方面也看到了"令人難以置信的機遇"。AI 可以支援基因轉錄(複製 DNA 序列的過程),創建與其他患者的參考點,幫助為複雜疾病建立風險檔案或治療路徑。
"所以你基本上是將患者與其他患者進行映射,圍繞一個佇列建立每個患者,"Callstrom 解釋說。"這就是個人化醫療真正要提供的:'你看起來像這些其他患者,這是我們應該治療你以看到預期結果的方式。'目標實際上是在我們使用這些工具時讓醫療保健回歸人性。"
但 Callstrom 強調,診斷方面的一切都需要更多工作。證明基因組學的基礎模型適用於類風濕性關節炎是一回事;在臨床環境中實際驗證則是另一回事。研究人員必須從測試小數據集開始,然後逐步擴大測試組並與常規或標準治療進行比較。
"你不會立即說'嘿,讓我們跳過甲氨蝶呤'[一種常用的類風濕性關節炎藥物],"他指出。
最終:"我們認識到這些[模型]有令人難以置信的能力,可以真正改變我們護理患者和以有意義的方式診斷的方式,使護理更以患者為中心或更具患者特異性,而不是標準治療,"Callstrom 說。"我們關注的是在患者護理中處理的複雜數據。"