AI醫(yī)療領域大熱,F(xiàn)DA應如何加強監(jiān)管?
隨著一大波公司涌入AI醫(yī)療領域,一股現(xiàn)代的淘金風潮再度掀起。
但由于其高風險性,F(xiàn)DA將會監(jiān)管這些軟件。在美國,雖然《21世紀治愈方案》已經(jīng)撤銷對部分CDS的監(jiān)管(ClinicalDecisionSupport,臨床決策支持),并表示還將撤銷對更多項目的監(jiān)管,但確鑿無疑的是,F(xiàn)DA會繼續(xù)監(jiān)管高風險的CDS。問題的關(guān)鍵在于:FDA該如何監(jiān)管集成了機器學習技術(shù)的高風險CDS?
一些人稱醫(yī)療領域中的機器學習應用太新,我們并不知道FDA將會作何反應,但事實并非如此,F(xiàn)DA已經(jīng)有數(shù)十年的機器學習監(jiān)管經(jīng)驗了,并且幸運的是,這能給我們一些有用的提示:當這種技術(shù)大幅擴張時,F(xiàn)DA將會作何反應?
FDA對機器學習技術(shù)的監(jiān)管實踐
1998年始,F(xiàn)DA放射健康部門已經(jīng)開始監(jiān)管計算機輔助識別系統(tǒng),在大多數(shù)情況下,這些軟件利用復雜的算法找出醫(yī)學影像中的病灶區(qū)。最初,他們被認定為三級設備——這意味著最高風險級別和最大監(jiān)管力度,后來,F(xiàn)DA又評定其為二級,即認定其風險級別適中。這些軟件被出售給臨床影像醫(yī)生使用,指導醫(yī)生看片,但醫(yī)生不能完全依靠這些軟件。在理論上,這些軟件風險為零,但是FDA懷疑影像醫(yī)生將會完全依靠系統(tǒng)檢查,而對其風險警告置若罔聞。
2012年,F(xiàn)DA發(fā)表了一系列指導文件,其中涵蓋了與這類軟件有關(guān)的所有規(guī)定。在這些文件中,F(xiàn)DA重申了此前法規(guī)明確說明了的內(nèi)容:按軟件的臨床應用分類將有效提升監(jiān)管水平。FDA區(qū)分出了CADe和CADx,前者僅標出病灶,后者還會進一步給出疾病診斷和分類,明顯,CADx的風險級別更高,因為需要監(jiān)管更加嚴格,通常被認定為三級。
但是FDA對于CADx的態(tài)度也在與時俱進。就在上個月,2017年7月,F(xiàn)DA決定將識別可以癌癥病變的CADx降級為二級,F(xiàn)DA的此項舉措強調(diào)了“計算機輔助醫(yī)療影像中可疑癌癥病變識別”,這種軟件基于從醫(yī)療影像中提取的信息或特征,識別病變,并且提供病變信息。
將其評定為二級軟件是一個“大跨步”,極大促進了這種軟件的發(fā)展。因為三類產(chǎn)品的制造商必須提交一大摞上市前批準申請,并進行大范圍的臨床試驗;而二級產(chǎn)品制造商僅需要闡明他們的產(chǎn)品基本上與市面上已有的產(chǎn)品相同(可能也需要臨床試驗,但無論臨床設計或?qū)嶒灧秶?,都更加適中。)
而對于集成了機器學習算法的影像分析軟件,F(xiàn)DA已經(jīng)有了一套相對成熟的臨床試驗監(jiān)管辦法。研究人員可以創(chuàng)建一套醫(yī)學影像數(shù)據(jù)集,其中包含了已確診的正常人和患者影像,申請者可以設計臨床試驗對比有無軟件輔助的情況下每組最終的診斷效果。當然,還有其他可能的臨床設計,這取決于申請者需要證明的假設是什么。
除此之外,F(xiàn)DA有了一套相對明確的審查指標來審查集成了機器學習算法軟件。在2012年的指導性文件中,F(xiàn)DA列出了這些指標,比如算法設計、特征、模型、用于訓練和測試算法的數(shù)據(jù)集以及使用的測試數(shù)據(jù)“衛(wèi)生程度”。后者是非常重要的,因為有些申請者沒有基于測試集選擇分類 ,顯然這是不允許的。FDA想要知道公司是如何獲取數(shù)據(jù)的,以保證數(shù)據(jù)能反應真實情況。
FDA判斷公司試驗所用的統(tǒng)計方案和研究假設是否合適方面已經(jīng)有了豐富的經(jīng)驗,以他們的經(jīng)驗來看,許多申請者的研究中包含了多個假設,這可能影響后續(xù)的數(shù)據(jù)分析、統(tǒng)計方案等,總而言之,F(xiàn)DA最重要的目標之一是確保產(chǎn)品設計和臨床驗證中能反映其預期用途。
FDA已經(jīng)收到了一些申請,其中明確聲明了他們的系統(tǒng)中有機器學習算法——這被FDA稱作“適應性系統(tǒng)”,隨著之后進入市場,使用過程中搜集更多新證據(jù),這樣的系統(tǒng)會不斷進化。
事實上,開發(fā)一套適應性系統(tǒng)是大多數(shù)開發(fā)者的終極目標,但這給FDA造成一定的挑戰(zhàn),因為現(xiàn)有的法規(guī)是:醫(yī)療設備一旦有改動,必須重新取得批準。如果這個設備自行進化,到哪個時間點需要重新批準呢?同樣,F(xiàn)DA必須決定什么程度的改變需要重新驗證。至少在某些情況下,簡單的確定軟件參數(shù)以控制軟件是遠遠不夠的。
除此之外,還有許多其他懸而未決的問題,比如軟件開發(fā)商是否能重新使用其測試數(shù)據(jù)集;訓練或測試的數(shù)據(jù)量如何確定。FDA很可能要求開發(fā)上在數(shù)據(jù)集匯總加入噪聲以確保其驗證軟件的變化。
這些大都是醫(yī)療影像軟件領域的事情,F(xiàn)DA也開始插手其他機器學習技術(shù)在其他醫(yī)療軟件領域應用,他們已經(jīng)收到大量這些領域的批準申請,比如分析實驗結(jié)果;關(guān)鍵生命體征的遠程監(jiān)控以及腦電圖等信號領域。FDA設備中心的其他部門也在面臨機器學習相關(guān)問題,很有可能咨詢放射健康部門的同事。
基于FDA的經(jīng)驗,我們可以推斷出至少4點:
公司不得不長期布局,并且著重考慮系統(tǒng)的預期臨床用途。除為醫(yī)生解釋具體疾病提供要點參考和特定的低風險特征外,任何其他的事情都可能提升面臨的監(jiān)管力度。
分類將會是個大問題。FDA可能會考慮到機器學習的特定用途,將其視作一項全新的技術(shù),因此規(guī)定全新的分類規(guī)則。如果是這樣,將此類產(chǎn)品帶入市場的第一家公司或者以三類設備的標準申請批準,或通過將產(chǎn)品風險重新分類以尋求產(chǎn)品分類標準的降級。但這并非意味著前途黯淡和厄運連連,我們知道,F(xiàn)DA在將會靈活應對。在許多例子中,F(xiàn)DA允許在現(xiàn)有的產(chǎn)品中集成機器學習技術(shù),并以二類設備的標準批準。
如果產(chǎn)品不能構(gòu)建一個令人信服的驗證標準,那么研究設計可能會很復雜。在放射科,大多數(shù)案例中,通過活檢和其他診斷過程,我們能建立一個客觀性的標準。其他領域的智能化需要更加有創(chuàng)造性的臨床試驗設計。
應用機器學習技術(shù)到放射科過程中,F(xiàn)DA已經(jīng)意識到的所有技術(shù)性問題將轉(zhuǎn)化成其他形式的機器學習問題。FDA官員很可能求助于放射健康部門的官員咨詢機器學習問題,這尤其適用于與自適應系統(tǒng)有關(guān)的其他更具挑戰(zhàn)的監(jiān)管問題。
好消息是,F(xiàn)DA似乎很關(guān)注機器學習的價值以及這項技術(shù)將如何變革醫(yī)療行業(yè),所以,在大多數(shù)情況下,他們可能對該技術(shù)的缺陷抱有理解態(tài)度,并不想不合時宜地一貫阻止。此外,近期,F(xiàn)DA發(fā)布了軟件監(jiān)管的一系列改善性措施,這可能對正在開發(fā)的機器學習產(chǎn)品有益。例如,F(xiàn)DA似乎有益讓產(chǎn)品上市前批準更加容易一些,與此同時, 對上市后制造商搜集大范圍應用的證據(jù)要求高。無論如何,F(xiàn)DA對于臨床和嚴謹性的擔心必須要用恰當?shù)淖C據(jù)來應對。
結(jié)論
FDA一直在研究機器學習技術(shù),對其的了解越來越多。但是,從實踐操作層面來講,F(xiàn)DA很難招募并且留下機器學習專家,因為他們在公司中掙得更多。
FDA的醫(yī)學影像、診斷等部門已經(jīng)在研究計算機輔助診斷技術(shù)了,有一天,可能會公布一系列模擬、分析工具和有價值的數(shù)據(jù),這將加速醫(yī)療軟件的發(fā)展。同時,通過研究機器學習先驅(qū)者20多年的路途,后來者或許能找到推廣新技術(shù)的最佳方法。





