搶佔人工智能“超級糧倉”,四川加快建設5個國省數據標注基地
助力AI練就“智慧眼”
訂閱已訂閱已收藏
收藏
數據標注
服務軟實力
發現先進制造業“隱形翅膀”
人工智能加速融入生產生活,離不開一項關鍵基礎支撐——數據標注,人工智能背后真的站著大量人工——數據標注員。
數據標注就是人工智能的“超級糧倉”。2024年底,國家發展改革委等部門出台《關於促進數據標注產業高質量發展的實施意見》,提出培育一批具有影響力的科技型數據標注企業,建設一批成效明顯、特色鮮明的數據標注基地。
目前,四川布局有1個國家數據標注基地和4個省級數據標注基地。作為生產性服務業的重要細分領域,數據標注是如何為AI“喂料”的?未來呈現怎樣的發展趨勢?近日,記者對此進行了走訪。
“投喂”海量數據 讓AI讀懂復雜的外科手術
臨近傍晚,成都與睿創新科技有限公司的參觀者依然絡繹不絕。該企業推出一款智能外科系統,通過搭載自研的外科手術大模型,能夠實時監測、追蹤出血點等術中關鍵信息,輔助醫生及時止血,有效降低手術風險。
新裝備的出現,像是為外科手術裝上了一套“智駕系統”。“練就這雙‘智慧眼’,起點是數據標注。”公司首席算法科學家秦典說,要讓AI讀懂復雜的外科手術,必須從理解外科手術信息做起。
這就涉及AI訓練的原理。其邏輯與人識別物體的過程高度相似:先通過人工在手術圖片上標注關鍵特征信息,再將海量標注后的數據輸入模型開展學習訓練。經過足量數據與周期訓練后,AI便具備了一定准確率的基礎識別能力,能分辨出畫面中的物體是什麼﹔而隨著標注的手術樣本、場景類型不斷豐富,AI的辨識准確率也會隨之迭代提升。
“好比AI在學習過海量不同種類的犬隻數據后,即使遇到從未見過的犬類,也能做出准確判斷。”秦典形象解釋了人工智能需要大量數據集支撐的核心邏輯。
教會AI辨認外科手術信息,難度顯然呈指數級提升。成都與睿創新科技和國內多家知名醫院開展合作,組織團隊累計標注了數百萬張醫學影像:大到人體器官,小到針尖大的出血點,從各類關鍵管道,如泌尿系統的腎動脈、腎靜脈、輸尿管,到手術刀、鑷子等手術器械,全都標注得清清楚楚。正是這些海量的學習素材,讓外科手術大模型變得越來越聰明。自2025年產品上市以來,已在全國超過110家醫院完成部署應用,累計輔助手術量超2.5萬台。
類似的標注故事,也在四川多個城市上演。可能許多人沒有料到,智能駕駛背后有著來自“千年鹽都”自貢的“投喂”。2023年7月,百度阿波羅智行(西南)人工智能基礎數據產業基地投入使用,短短兩年間,騰訊雲、火山引擎等頭部企業相繼落戶。這裡的數據標注,為全國車道級導航、無人駕駛等人工智能應用提供“原料”,創造出超億元的年產值。
四川數據標注產業規模9億元 5個國省基地有差異化定位
成都與睿創新科技的“睿術外科高質量數據集”,入選四川省首批人工智能高質量數據集。有意思的是,首批8個數據集均產自成都。
數據標注將原始數據轉化為可識別、可訓練、可計算的“語言”,沒有標注就沒有高質量的數據集,成都已被納入全國首批數據標注基地建設試點。兩年來,成都市在成都高新區、金牛區、新津區等地建設數據標注基地,建設儲備88個行業高質量數據集。
以新津牧山園區為例,產業載體入駐率接近90%,服務對象包括中國電信、字節跳動、百度、京東、比亞迪等,覆蓋智能駕駛、大模型、金融、醫療、低空經濟等多個領域。
據省發展改革委(省數據局)介紹,目前全省數據標注從業人員達1.4萬人,數據標注規模9420TB,相當於國家圖書館數字資源總量的3倍左右,產業規模達9億元。
這不只是成都一個城市的貢獻。我省支持宜賓、內江、自貢、遂寧四市以數據賦能人工智能發展為重點,布局建設首批省級數據標注基地。
內江市漢安大道一側,人工智能和服務外包產業園內,隨處可見朝氣蓬勃的年輕面孔。內江軟通動力數字運營有限公司、知道創宇信息技術有限公司等企業依托內容審核業務,切入數據標注賽道,根據合作平台要求,對商家上傳的短視頻等內容進行分類打標簽,其標注結果決定了內容能否進入平台推薦池、觸達更多用戶。
“結合本地特色優勢產業發展實際,我們的數據標注正朝著服務醫療健康方向發展。”內江市大數據中心主任、市發展改革委副主任范鐵夫說,該市已建立起覆蓋文本、語音、圖像、視頻的全模態數據生產流水線,園區內企業業務飽和度高,目前還有19個重點標注項目在談,其中6個落地意向明確。
實際上,四川對省級數據標注基地進行了差異化定位:宜賓聚焦白酒、交通等領域,建設“車路雲一體化”創新應用示范區﹔內江聚焦農業、醫療等領域,打造一核兩園數據標注基地﹔自貢聚焦文旅、交通等領域,打造“1+3+N”數據標注基地空間布局﹔遂寧聚焦電子信息、醫療等領域,構建覆蓋“數據標注—數據治理—數據應用”的數據要素全產業鏈集聚區。通過一系列舉措,打造各具地方特色的省級基地,並逐步發揮示范帶動效應,助力全省數據標注產業加速發展。
數據標注以前是“幫AI搬磚”如今是“研發讓搬磚更高效的AI”
數據標注是勞動密集型產業?以前這個特征很明顯,但未來未必如此。今年4月9日,路米科技(成都)有限公司在成都市國家數據標注基地產業發布大會上,發布“數米數據標注開源平台”。該企業自研的智能標注平台,支持50余種復雜場景,使得標注效率較純人工提升了20%至50%。
服務於人工智能的數據標注,如今迎來了人工智能的技術反哺。從“幫AI搬磚”到“研發讓搬磚更高效的AI”,智能標注已成為行業公認的未來發展方向。
去年4月,成都中醫藥大學“AI數據標注助力中醫藥領域高質量發展”入選全國首批數據標注優秀案例。該案例通過建設120種優勢病種、1000個亞種數據集,收錄100多名老中醫臨床病案,形成涵蓋診療全鏈條的標准化數據資源體系。在數據標注時,就開發了智能化標注平台,實現“機器+人工”高效標注,數據交付准確率達98%。
很多人覺得數據標注就是“拉框打字”的體力活,其實這個行業的門檻正在快速提升,尤其是在垂直領域,對從業者的要求越來越高。范鐵夫說,信息安全、智能駕駛輔助、AI大模型內容審核等領域的標注就是高門檻,“已不是人們印象中的簡單重復勞動,而是知識和技術密集型服務。”
秦典的體會更深:“沒有醫學知識的人,難以標注醫學影像。”經過6年沉澱,成都與睿創新科技依托臨床及與外科醫生協作,打造了專屬標注工具和培訓流程,50人的團隊曾一個月完成40萬張外科手術解剖結構標注,有力支撐了AI外科系統功能研發。
總體看,數據標注員以年輕人為主。在內江人工智能和服務外包產業園,30歲以下從業人員佔比達83%。這就提出了另外一個命題,如何留住人?
“待遇留人是基礎,環境留人是關鍵。”內江市東興區服務外包發展中心副主任廖常磊表示,園區著力打造高品質職場環境,一站式滿足從業者食住行游娛購需求,常態化組織各類文體活動,為從業者打造追逐夢想、實現價值的理想家園。(四川日報全媒體記者 張守帥)
分享讓更多人看到
- 評論
- 關注
































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量