當前,人們對人工智能的興趣和熱情空前高漲。
而關(guān)于醫(yī)療領(lǐng)域的人工智能,我們不得不面臨以下問題:在何處、何時和如何部署AI,以及如何理解其風險、問題和可能性。
但首先,需要理清楚人工智能在醫(yī)療領(lǐng)域的三個時代:專家系統(tǒng)、深度學習和大模型時代。
而基礎(chǔ)模型和生成AI代表了AI能力的一場重大革命,為改善醫(yī)療提供了巨大潛力。今天,醫(yī)療領(lǐng)導者正在就人工智能做出決策。
在最初的50多年里,大多數(shù)人工智能都專注于將人類的知識編碼成機器的規(guī)則。你可以把它想象成很多很多的“如果-那么”規(guī)則或決策樹。
這一具有象征意義的人工智能取得了一些顯著的成就,例如IBM的DeepBlue在1997年擊敗了國際象棋世界冠軍。
在醫(yī)療保健中,INTERNIST-I等工具旨在代表有關(guān)疾病的專家知識,以幫助處理病例。今天,許多電子實現(xiàn)的臨床路徑在決策樹中編碼專家知識。
象征性AI也有關(guān)鍵的局限性,特別是在其構(gòu)建過程中存在人類邏輯錯誤的風險,以及在其規(guī)則中編碼的偏見,因為它的知識庫完全依賴于創(chuàng)造它的人。
但也許最重要的問題是,從經(jīng)驗上看,象征性AI具有基本的能力限制,在面對真實世界的情況時顯得脆弱。
作為回應,研究開始更多地關(guān)注概率模型,如傳統(tǒng)回歸,然后是貝葉斯網(wǎng)絡(luò),這使得專家知識和經(jīng)驗數(shù)據(jù)都有助于推理系統(tǒng)。
這些模型對真實世界情況的處理更優(yōu)雅,在醫(yī)療保健中也有一定用途,但在實踐中難以縮放,并且管理圖像、自由文本和其他復雜臨床數(shù)據(jù)的能力有限。
AI2.0:深度學習的時代
研究更多由數(shù)據(jù)驅(qū)動的方法,也就是被廣泛稱為機器學習的方法,其根源在于,智能的關(guān)鍵在于從錯誤中學習。
在2010年代初,一場真正的革命發(fā)生了。
隨著數(shù)據(jù)集的增長和計算機的加速,具有多層神經(jīng)網(wǎng)絡(luò)的深度學習開始嶄露頭角,AI 2.0時代開始了。
首先,卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)賦予計算機“看”的能力,它們獲得了對照片中的圖像進行分類的能力(比如“貓”vs“狗”)。其次,一項名為word2vec的發(fā)現(xiàn)創(chuàng)造了大規(guī)模使用文字進行數(shù)學運算的能力。
這場革命改變了我們?nèi)粘I钪械脑S多事情。如今,在手機上搜索數(shù)千張照片,而不需要手動為每張照片貼上標簽,這已經(jīng)是一件微不足道的事情了。
一個人可以在100多種語言之間進行翻譯,無論是通過打字,還是用相機對著用一種他們不知道的語言寫的文字。
深度學習還讓新事物在醫(yī)療領(lǐng)域變得實用。《美國醫(yī)學會雜志》(JAMA)十年來最具影響力的一篇文章顯示,眼科醫(yī)師可在視網(wǎng)膜照片中發(fā)現(xiàn)糖尿病性視網(wǎng)膜病變。研究人員還展示了在乳腺癌和肺癌篩查、病理學、皮膚疾病識別和電子健康記錄數(shù)據(jù)預測等許多領(lǐng)域的突破。
深度學習算法從標記了基本事實的例子中學習(“這張照片是一只貓”)。然后他們學習模式,而不是按照模式編程。
在這個時代,通過編程使計算機學會比用專家提供的規(guī)則硬編碼計算機更容易,至少對于許多任務來說是這樣。這些模型具有非凡的能力,但也有重要的風險。
當實時數(shù)據(jù)與它們所訓練的數(shù)據(jù)不同時,模型可能會失敗。例如,如果一個模型只接受“貓vs狗”的訓練,但給出的是一幅飛機的圖片,它不會給出一個好的結(jié)果。
更微妙的是醫(yī)療保健中一個關(guān)鍵的安全問題。還可能出現(xiàn)與以下因素相關(guān)的復雜偏見:基礎(chǔ)數(shù)據(jù)的包容性、基于種族的不平等和不公平的診斷和治療選擇、算法設(shè)計選擇和其他問題。
監(jiān)管機構(gòu)已經(jīng)開發(fā)了框架來評估這類特定任務的人工智能;例如,美國食品和藥物管理局已經(jīng)批準或批準了數(shù)百種人工智能醫(yī)療設(shè)備。
AI 3.0:基礎(chǔ)模型和生成AI
AI 2.0有一個關(guān)鍵問題,與災難性遺忘有關(guān):當處理長文本序列時,它很難記住序列中較早的內(nèi)容。
2017年出現(xiàn)的transformer架構(gòu)幫助解決了這一問題,讓模型能夠?qū)⒆⒁饬Ψ旁陂L文本上。
在接下來的幾年里,transformer與大數(shù)據(jù)結(jié)合在一起,創(chuàng)建了基礎(chǔ)模型和大型語言模型。2022年和2023年的進展速度顯著加快,標志著第三個時期。
區(qū)分AI 2.0和AI 3.0的兩個關(guān)鍵因素。首先,AI 2.0是針對特定任務的。它一次只做一件事。如果一個人想要它做其他的事情,他們將需要一個新的數(shù)據(jù)集和訓練一個新的模型。
其次,AI 2.0在很大程度上可以對事物進行預測或分類。它生成新詞、圖像或其他內(nèi)容的能力是有限的。
AI 3.0有本質(zhì)上的不同。它可以完成許多不同的任務,而不需要重新訓練。例如,一個簡單的文本指令將改變模型的行為。像“給??漆t(yī)生寫這張紙條”和“給病人的母親寫這張紙條”這樣的提示會產(chǎn)生明顯不同的內(nèi)容。
這些模型的能力也有了顯著提高:解釋真正復雜的問題;接受并產(chǎn)生文本、圖像和聲音;生成回復并進行長時間的交談。
這些模型有幾種類型,但在本節(jié)的其余部分中,我們將重點關(guān)注一個重要的類別——大型語言模型。
它們已經(jīng)影響了我們的日常生活,包括寫作助手、圖像生成器、軟件編碼助手和聊天機器人。目前也存在與健康相關(guān)的大型語言模型。
例如,Med-PaLM和Med-PaLM 2是在谷歌開發(fā)的醫(yī)學調(diào)優(yōu)基礎(chǔ)模型,在醫(yī)師資格考試類型的問題上達到了專家水平的表現(xiàn)。他們還能寫出人們健康問題的長篇答案。
當醫(yī)師將Med-PaLM 2的答案與不知道起源的醫(yī)師所寫的答案進行比較時,他們強烈傾向于評估的9個維度中的8個方面的模型答案。
如何訓練大型語言模型?
想象一下拿著一大堆文件,一個人按順序向模型顯示每個單詞,但不讓它看到下一個單詞。相反,這個模型被要求一次又一次地預測這個詞。
每當模型出錯時,它就會改變單詞如何組合在一起的內(nèi)部表示。最終,它構(gòu)建了這些單詞(以及概念)如何組合在一起的表示。當模型稍后被問及一個問題時,它會通過預測答案中可能出現(xiàn)的下一個單詞來做出回應。
把這些模型的基本版本看作下一個單詞的預測引擎。這有助于理解它們一些令人驚訝的行為。例如,這些模型可能擅長編寫計算機程序,但不擅長算術(shù)。
為什么?這是因為他們不是在做數(shù)學,而是在按順序預測下一個單詞。同樣地,他們可能會返回聽起來似是而非的期刊引用。為什么?
出于同樣的原因:他們不是在PubMed上查找東西,而是預測下一個可信的單詞。這些“幻覺”代表了AI 3.0的新風險類別。
在這一領(lǐng)域,檢索增強生成等領(lǐng)域的技術(shù)進步正在積極改善性能,而且這些模型使用計算器等工具或?qū)崟r訪問網(wǎng)絡(luò)的能力也改善了結(jié)果。
AI 2.0中存在的偏差和股權(quán)風險仍然是AI 3.0的問題。此外,由于在語言語義中編碼的偏見,語言模型可能會產(chǎn)生新的風險。
我們預計AI 3.0將作為增強工具投入實踐,最初幫助解決醫(yī)療保健方面的問題,如文檔負擔。
隨著這些工具隨后開始支持臨床實踐,并且臨床醫(yī)師參與其中,我們需要一個經(jīng)過深思熟慮的監(jiān)管框架,以幫助確?;颊甙踩孬@益于這一技術(shù)。
Copyright ? 2022 上??评讜狗沼邢薰?旗下「智慧醫(yī)療網(wǎng)」版權(quán)所有 ICP備案號:滬ICP備17004559號-5