經濟觀察網 記者 瞿依賢 “您好,麻煩您告訴我您的年齡及性別,以及哪里不舒服?”當真人醫生和AI醫生以同樣的問題開始問診,最后的診療結果、治療方案會一致嗎?
6月30日,國內首次AI醫生與真人醫生一致性評測完成。這場PK發生在成都高新海爾森醫院,AI醫生為互聯網醫療公司醫聯推出的MedGPT,真人醫生是四川大學華西醫院的10位醫生,包括副主任醫師和主治醫師,涉及科室包括骨科、內分泌代謝科、心內科、腎內科、老年呼吸科、消化科和泌尿外科。參與這場義診評測的患者共120多位。
(資料圖片僅供參考)
問診過程中,真人醫生和AI醫生都沒有與患者直接接觸,患者與醫生助理接觸,醫生助理通過電腦輸入文字分別與真人醫生和AI醫生聯系,真人醫生和AI醫生的問題也經由醫生助理傳遞給患者。
引導患者說出完整病情、收集足夠多決策因子后,真人醫生與AI醫生為患者開具檢查單或診斷,患者直接在成都高新海爾森醫院完成檢查;獲得檢查結果后,患者再復診,并由AI醫生及真人醫生提供臨床診斷及治療方案。
從開始問診到評審結果,整個過程在網上直播。
8個小時的問診結束后,形成有效病例91份,由北大人民醫院、中日友好醫院、阜外醫院和友誼醫院的7位專家教授進行審核。7位專家教授的專業與前述科室對應,評價維度包括7個——問診準確性、診斷準確性、治療建議準確性、輔助檢查方案準確性、數據分析準確性、提供可解釋信息、自然語言問診與交互。
最終,真人醫生綜合得分為7.5分,AI 醫生綜合得分為7.2分。AI醫生與真人醫生在比分結果上的一致性為96%。5位專家給真人醫生的打分都高于AI醫生,只有2位專家給AI醫生的打分高于真人醫生,一位差1.6,一位差0.1。
在專家評審環節,北大人民醫院腎內科主任醫師蔡美順表示,AI詢問比較全面,檢查也做得比較全面,不太容易漏診,但存在概念錯誤,比如AI醫生在其中一個病例的問診中說,“尿微量白蛋白在正常范圍內,腎臟的過濾功能是正常的”,這句話就不準確。
蔡美順表示,這次一致性測評的樣本量還不夠豐富,總體來說,“人工智能對我們的工作有一些幫助”。
北大人民醫院骨科主任醫師薛峰對AI醫生的評價是:總體不錯,稍稍有些超出預期。MedGPT是一項非常有發展前景的技術,應該定位在常見病和基礎病的診斷上。
薛峰以147號病例舉例,這個病例的癥狀是膝蓋痛,AI醫生問診非常詳細,“MedGPT不嫌累,話多,問題也很多”,會關注女性患者是否正在備孕、懷孕,而現實臨床工作中,骨科醫生較少會問這類問題,“有些細節問題漏掉之后很容易犯一些錯誤,一些癥狀漏掉之后也可能漏診”。對膝蓋痛這種常見疾病,很多時候醫生需要做一些科普,告知患者生活中需要注意的事項,AI醫生的詳細表達也會給患者更多信息。
薛峰還發現了一個“驚喜”:MedGPT根據患者腳底板疼痛判斷患者有可能出現神經壓迫,真人醫生卻沒有想到這一點。
對于AI醫生的不足,薛峰認為,AI醫生無法查體,但AI醫生也沒有關注查體結果,比如關節的活動度、有無壓痛點等等。此外,對檢查結果,AI醫生只會讀報告,報告怎么寫的就會認為是什么樣的,但??漆t生要自己會看片子,“片子上的細微改變,報告有時候是體現不出來的”。
中日友好醫院心內科主任醫師任景怡舉例,對早搏問題,AI醫生還關注了中度貧血,這在臨床上可能跟早搏密切相關,但在實際工作中,??漆t生比較聚焦自己的專業,可能會忽略相關癥狀。AI醫生的知識儲備比較全面。
多位專家認為,AI醫生雖然問診詳細,但是針對性不夠強,系統性和邏輯性也不夠強,還有待訓練。