國產健康大模型成功通過十二門核心學科的主任醫師筆試評測——
“主任級AI醫生”,來了

![]() |
在夸克APP搜索糖尿病該如何治療。 |
![]() |
在江蘇省無錫市濱湖區一家養老院,一名老人在使用AI健康檢測儀。 |
![]() |
武漢大學人民醫院精神衛生中心主任、主任醫師王惠玲講述“醫療與AI如何結合”。 |
7月23日,夸克健康大模型成功通過12門核心學科的主任醫師筆試評測,成為國內首個完成這一挑戰的大模型。繼5月通過副主任醫師考試后,該模型實現能力再躍升,並已全面集成至夸克AI搜索,提供“主任級AI醫生”服務,用戶在查詢健康問題時,選擇深度搜索即可調用。
很多臨床專家對其表現給予高度評價,並指出它在輔助診療、患者教育、心理支持等方面展現出巨大潛力。在垂類模型與通用模型對比中,國產健康大模型呈現出難度越高領先優勢越明顯的性能曲線,展現出在復雜醫學推理任務中的突破。
“給醫生提供更多的探索空間”
主任醫師的考試非常細致,此次夸克模型選取了12門最核心的學科作為模擬測試,如全科醫學等。在12門考試裡,夸克健康大模型全部過關。
主任醫師考試難度很高。比如,其中的多選題,不僅要判斷各選項的概率,還要理解正確性的邊界,否則很容易漏選或錯選。而案例分析題,更是需要直接解決很細微的、辯証的問題,對於大模型來說一直都是個難點。
夸克健康算法負責人徐健介紹,理解夸克健康大模型,有三個關鍵點:一是知識性,構建優質的大規模數據資源庫﹔二是正確性,通過技術系統性解決正確性這個大問題﹔三是推理能力,通過醫療慢思考推理能力解決復雜問題。
實現這三個關鍵點都不簡單。比如知識性,在這一模型中數據被分為四大類,資料、病例、知識以及在此基礎上的合成數據。這就要求將大量網頁數據、書籍、指南、藥品說明書等專業類數據,將臨床上積攢的病例,將醫學專家結構化思維的結晶,統一進行合成。
“我們不是在訓練AI回答醫學問題,而是在訓練它學會醫學思維。”徐健說。“我們的AI大模型可以做到從表象判斷到深度分析,這樣答題會更好,解釋性更強。”
這一成果背后是專業醫師團隊的深度參與,讓大模型有高質量數據支撐。目前,夸克健康大模型擁有千人規模的專業醫師標注團隊,其中超過400名均為副主任醫師及以上的高資歷醫療專家,構建了十幾萬條精標的樣本數據。
前不久,大模型產業應用技術聯盟醫療專業委員會發布報告,推出了基於大模型的患者醫療服務能力分級框架,並將其分為五級——L1級是信息輔助,L2級是單任務智能輔助,L3級是多任務智能輔助,L4級是高級協同決策輔助,L5級是智慧協同創新輔助。
“確實可以看到在一些疑難病上,AI可以輔助醫生,給醫生提供更多的探索空間和建議。”徐健說。
數據顯示,在有檢驗檢查的疾病上,這一模型的回答准確率已經達到90.78%,接近專科醫生水平﹔在疑難疾病上,其准確率達到85.51%。
憑借在醫學領域的專業性,夸克AI搜索已經吸引了一大批醫學生和醫生群體。夸克健康運營負責人趙存忠介紹,目前平台在全國醫學生中月活用戶已突破200萬,覆蓋率過半。
“醫生跟AI的結合是大趨勢”
對於這位“主任級AI醫生”的水平,多位主任醫師給出了高度評價。
“用完之后,感到確實會改變診療的過程。”北京大學醫學部皮膚與性病學系主任、北京大學人民醫院主任醫師李厚敏說。
李厚敏分享了她與健康大模型的一次互動。某一患者目前既要控制疾病,又需治療瘢痕,而且此前治療對患者皮膚屏障的破壞已經影響到其生活質量,在向夸克提供了該患者的年齡、性別、診斷、用藥情況后,夸克給出了讓李厚敏覺得“非常全面”的四方面建議——既包括對治療方案的調整,也給出了對瘢痕、色素的管理建議,最后還提出要對這位患者進行心理疏導。“治療方案合理,用藥方案規范,還有疾病的長期管理和患者的心理疏導。”
李厚敏認為,對皮膚科來說,與AI的結合非常容易取得成果。現有的4000多種皮膚疾病都長在皮膚表面,甚至可以通過AI進行識別,很多疾病在AI指導下可以獲得很好的處理結果。她說,全國范圍內隻有1萬多名皮膚科醫生,但皮膚科患者很多,而且有疾病種類多、發病率高的突出特點。她認為,在AI幫助下,大量全科醫生、基層醫生對皮膚問題的診療水平會大大提高,可以做好隨訪管理、慢病管理。
“以后AI可能取代不了醫生,但醫生跟AI的結合是大趨勢。”武漢大學人民醫院精神衛生中心主任、主任醫師王惠玲說。
王惠玲認為,對於抑郁症患者來說,因為醫生很忙,很難時刻回答,可以有效借助健康大模型尋找答案。比如,有些患者顧慮是否會吃藥成癮,有些患者顧慮藥物的副反應,在應對這些問題的過程中,原本需要醫生反復告知,如今AI可以常伴左右。
在李厚敏看來,患者使用健康大模型同樣很重要。比如,面對皮膚科醫生經常開出的激素藥物,很多患者會很猶豫,這時候AI反而可以通過詳細解釋,緩解大家的激素焦慮。“對於患者來講,AI既可以緩解焦慮,也傳遞了更好的慢病管理理念。”
此外,不少患者對於心理疾病存在恥感,不好意思告訴醫生。王惠玲說,這種情況下患者可以去問AI,在其幫助之下正確找到方向,比如哪些問題自己鍛煉可以起效,哪些問題需要去看醫生,能夠有效幫助患者避免走彎路。
應用場景日漸廣泛
夸克健康以阿裡巴巴通義千問大模型為基礎,走出了一條面向垂直場景的深度工程化路線。
其核心突破之一,是構建出“慢思考能力”。該能力融合了鏈式推理與多階段臨床演繹路徑建模,驅動模型在面對復雜醫療問題時,能夠分階段、層層深入地推導出最終回答。
構建慢思考能力的前提,是擁有高質量推理訓練數據。據了解,夸克構建了“雙數據產線+雙獎勵機制”的工程體系。一方面,將醫學數據劃分為“可驗証”和“不可驗証”兩類,分別對應診斷類任務和健康建議類任務﹔另一方面,在訓練方法上引入“過程獎勵模型”和“結果獎勵模型”,分別評估模型推理鏈的合理性與最終結論的准確性,顯著提升模型的臨床可解釋性和推理一致性。
該體系還設計了多階段強化學習流程,包括冷啟動數據的嚴格人工校驗、多輪樣本篩選與難度遞進訓練策略,以及用於防止“高分投機”的作弊識別機制。通過真實醫生標注、“問—思—答”整組數據驅動強化學習,大大強化了這一健康大模型的能力。
對於患者來說,通過AI的判斷,可以減少醫患信息差,讓他們更積極地參與到診療過程中。
趙存忠曾經是一名醫生,如今做健康大模型的運營負責人,對於患者的需求有了新的看法。他發現隨著AI本身的發展,用戶尤其是年輕人表達出的需求正在變化。在醫療大模型出現初期,用戶搜索的都是簡單問題,但在深度思考技術發展之下,用戶表達越來越精細。“他們在沒去醫院之前已經與AI交流過,這樣可以迅速了解醫生在說什麼,降低了溝通成本,有效提高了醫療資源的可用率和普及性。”
醫學生們也受益於健康大模型。趙存忠介紹,醫學生在夸克上面搜索了很多問題,比如專業的量表、泛知識的內容、臨床指南等。很多醫學生在做規培或者實習階段,遇到臨床案例分析時,會大量用到大模型的搜索功能。
隨著能力不斷提升、應用場景日漸廣泛,更多健康大模型正逐步走出“模擬考場”,走入真實診療場景。
分享讓更多人看到
- 評論
- 關注