如何加入 AIGC 競爭“下半場”?四川市州應關注數據標注產業
數據標注環節在大模型時代扮演著至關重要的角色,有標注的高質量數據才能釋放人工智能的價值﹔通過發展數據標注產業,可以大幅向新一代人工智能賽道靠攏﹔數據標注始終需要人的介入,無法完全被AI取代
數據標注業務門檻較低,對受資源稟賦約束的市州而言,更容易起步﹔雖然本身產值不高,但數據標注或能帶動人工智能全產業鏈發展﹔相比西部其他省份,四川各市州具備發展數據標注產業的場景優勢
目前就是四川大力布局數據標注產業的“最佳時機”。四川人工智能發展的牽引力主要來自成都,處於產業鏈下游的數據標注業務會向周邊外溢
如果說,2023年的ChatGPT引起了全世界對大模型的關注,那麼2024年將是生成式人工智能(簡稱AIGC)的爆發之年,這是來自大部分業內專家的共識。百度集團副總裁袁佛玉近日強調,AIGC正式進入拼落地、拼應用的“下半場”,“誰的效率高、誰能創造的業務價值更確定,誰就會勝出,而不僅僅是所謂的通用能力本身。”
川觀智庫了解到,騰訊雲(自貢)數字經濟產業基地項目已於今年1月正式投入運營,該項目將以數據標注業務為起點,為人工智能算法訓練提供數據產品及各類解決方案。此前,工業和信息化部信息技術發展司負責人王建偉提到,要加快培育數據標注、清洗、聚合等大數據產業。為更進一步了解布局數據標注產業,川觀智庫採訪了騰訊雲(自貢)數字經濟產業基地項目負責人王旭、四川省大數據產業聯合會秘書長朱小軍等業內人士,結合權威報告及相關研究,認為:數據標注產業是進入AIGC競爭“下半場”的入門券之一。除成都外,省內缺乏人工智能產業基礎的市州,可以關注數據標注產業。
【名詞解釋】
數據標注
指對市場上現存的大量原始數據(即非結構化數據,包括語音、圖片、文本、視頻等)進行分類、畫框、標注、注釋等處理,標記其數據特征,將非結構數據轉化為規范化的計算機可識別的結構化數據,進而應用於人工智能算法的研發與訓練。
為什麼是數據標注?
數據標注是新一代人工智能發展的關鍵抓手,重要程度上升
業內普遍認為,標注是對未處理的初級數據,包括語音、圖片、文本、視頻等進行加工處理,並轉換為機器可識別信息的過程。於人工智能發展而言,數據標注並非新業務。在大模型浪潮來臨前,我國已對作為職業的數據標注制定了相關標准——2021年人力資源社會保障部發布《人工智能訓練師》國家職業技能標准,數據標注員就是工種之一。但新職業的出現並不代表產業的發達。隨著ChatGPT的橫空出世,數據標注的重要程度上升,多方觀點認為,數據標注是新一代人工智能發展的關鍵抓手。
數據標注環節在大模型時代扮演著至關重要的角色。ChatGPT/GPT-4之所以能在GPT-3基礎上實現跨越式轉變,正是因為在數據層面加入了高質量人類標注。“谷歌大腦之父”吳恩達近日預測,有三件事在未來十年內都不會改變,其中之一便是“人工智能需要良好的數據才能更好地運行”,因為有標注的高質量數據才能釋放人工智能的價值。王旭也向川觀智庫表示,按照規范化流程開展數據標注工作,制定明確的標注、質檢、審核規則,構建高效數據標注體系,組建高效成熟的標注團隊,將有效加快人工智能的落地速度。換句話說,為大模型提供高精度和高質量的標注數據,將成為技術在具體場景落地的關鍵。
通過發展數據標注產業,可以大幅向新一代人工智能賽道靠攏。據公開報道,百度智能雲在全國已與各地政府合作共建十余個數據標注基地,累計為各區域提供超過11000個穩定就業崗位,間接帶動50000人就業,培育數萬名AI數據人才,同時吸引孵化優質企業超200家。朱小軍分析,地方政府一方面是從招商引資角度去考慮,通過和大廠的融合,打造信息化、數字化高地,以此吸引產業鏈上下游來落戶﹔另一方面,則是從技術布局角度考慮,先通過較低的門檻留住人才,為以后新的產業布局打基礎。普華永道發布的《人工智能基礎數據產業基地建設價值報告2023》顯示,結合百度智能雲數據標注基地的實踐,數據標注基地的確能為處於不同發展階段的區域破局人工智能產業帶來顯著助力。
數據標注始終需要人的介入,無法完全被AI取代。隨著人工智能的快速發展,很多人擔心自己的工作會被AI取代。對此,受訪專家大都認同AI介入數據標注過程是一大趨勢,但他們也強調,人工標注依然無法被替代。一是由於監管會更嚴。人工智能對於一些新生事物的理解不夠透徹,對意識形態的判斷也不夠清晰,還會涉及倫理法規等問題。“一個最簡單的例子,互聯網上聲音大的一方不一定是對的。”朱小軍強調,即便AI輔助人類提升標注效率,也仍然不能脫離人工監管。二是要求會更高。王旭表示,十年前和現在的數據量級差異極大,數據類型更豐富,內涵也更為復雜,所以未來的數據,尤其是行業數據集還會有更大的變化,因此人類將會去完成更高階、更復雜、精細度更高的數據標注任務,比如算法優化或是對數據集進行分解分類。
四川市州為什麼有機會?
“門檻低+場景多”,四川有充分條件和優勢發展數據標注產業
不久前舉辦的2023天府軟件園年度產業大會上,華為雲全球Marketing副總裁肖紀文提到,國內有很多數據產業園專門完成數據構建和標注,市場空間非常大。四川大數據產業聯合協會牽頭編寫的《四川省大數據產業白皮書(2023)》也提到,要發揮冷涼氣候條件和豐富清潔能源優勢,就要推動數據中心規模化建設,拓展數據標注等市場空間。中國工程院院士鄔賀銓也曾指出,西部數據中心需要向上游數據預處理(標注、清洗、脫敏)業務拓展,這是西部的一個機會。
對四川的機會,我們可以從以下兩方面來進一步理解和分析。
數據標注業務門檻較低,對於受資源稟賦約束的市州而言,更容易起步。《四川省“十四五”新一代人工智能發展規劃》提出,計劃到2025年,人工智能核心產業規模超1000億元。雖然暫無當前四川省人工智能產業規模的具體數據,但截至2023年三季度,成都市人工智能產業規模達612億元。對比上面的兩組數據來看,四川省人工智能產業的發展高度集中在成都,周邊市州則基礎薄弱甚至存在零基礎的現象。而數據標注業務目前進入門檻仍然較低,不需要極高的人力成本和算力成本,就可以讓城市開始發展人工智能產業。
去年6月,自貢市通過與百度共建數據基地,發展數據標注產業,實現了人工智能產業零的突破。王旭表示,這也是為什麼騰訊雲在自貢的數字經濟產業基地要“以數據標注業務為起點”,人工智能產業要實現從零到一的突破比較困難,市州沒有必要從一開始就錨定“高大上”的產業。
雖然本身產值不高,但數據標注或能帶動人工智能全產業鏈發展。據量子位智庫、艾瑞咨詢等多家機構預測,國內數據標注市場規模將在未來五年內達百億量級,看似並非一個“好生意”,但實際上,其背后有很大價值等待挖掘。在王旭看來,數據標注業務作為人工智能產業發展的重要基礎環節,成為自貢這樣的老工業城市切入數字經濟賽道、助推城市數字化轉型的有效途徑。“先選擇一個小切口進去,然后通過加快節奏把產業鏈的口子撕大,順著產業鏈的上下游或者縱向、橫向地去發展,才有可能進一步發展產業。”據王旭介紹,騰訊雲目前就利用自貢當地的一些基礎數據來訓練文旅大模型,“未來這個大模型訓練好了以后,我們還可以同步推到四川各地甚至全國,自貢的文旅大模型也算是我們做行業大模型的一個先行探索和嘗試。”
相比西部其他省份,四川各市州具備發展數據標注產業的場景優勢。量子位智庫發布的《中國AIGC數據標注產業全景報告》(以下簡稱量子位智庫報告)顯示,AIGC眾多垂直場景落地以及通用智能、具身智能等前沿領域探索,與高質量、專業化的場景數據密不可分。朱小軍解釋,人工智能通常會被比作一個正在學習的孩子,要在“讀萬卷書”的同時“行萬裡路”。“你隻給他關在一個房間裡,不接觸更多場景,學習是沒辦法學好的。”朱小軍認為,四川的市州恰好具備數據標注業務所需要的各種高質量場景,如農業上具備豐富的智慧農業場景﹔工業上涉及交通運輸、汽車制造業、生物醫藥等各方面﹔服務業也有餐飲、文旅等強項。
什麼時候以及怎樣發展?
數據標注業務顯現出由成都向周邊外溢趨勢,市州搶抓機遇時不我待
產業的發展需要“天時”與“地利”,才能更好更快地推進。川觀智庫認為,目前就是四川大力布局數據標注產業的“最佳時機”。
四川人工智能發展的牽引力主要來自成都,因此處於產業鏈下游的數據標注業務會向周邊外溢。數據顯示,2022年,成都人工智能產業增速位居全國第一,產業綜合實力排名全國第6,成為西部首個國家新一代人工智能創新發展試驗區和國家人工智能創新應用先導區。同時,成都依托四川大學、電子科技大學等高校,在學術人才上也不輸沿海地區。換言之,成都的人工智能產業具備創新資源、算力設施、應用場景、規模市場等綜合優勢,已經可以更多地去發力產業鏈中上游。
而數據標注屬於基礎業務,處於產業鏈下游。王旭表示,隨著業務發展的縱深,騰訊雲在四川的業務逐漸開始下沉到二、三線城市。朱小軍也提到,四川起碼有上百家企業在做數據標注,但由於成都的成本相對較高,目前的趨勢就是數據標注正在出現產業外溢的情況。“無論從地理的區位優勢來看,還是從本身的產業轉移承接來看,成都周邊市州都應該去把成都過剩的那一部分接過來。一旦有了最基本的思想意識和一定的經驗,后面再去轉型,必然要容易得多。”朱小軍稱,數據標注業務也是同理。因此,現在也正是各個市州搶抓機遇的好時機。
業務外溢會給市州提供一定就業崗位,可有效緩解四川人才的流失。《四川省2023屆高校畢業生生源信息與就業意向調查報告》顯示,畢業生意向在四川省就業的比例高達84.55%,且對從事信息傳輸、軟件和信息技術服務業有意向的人數在所有行業中排名第三。換言之,如果布局不及時,一些本有意向留在四川就業的人才可能會流向外地外省。王旭表示,目前數據標注還是一個勞動相對密集的產業,“我們也提出了一個遠期規劃,隨著業務的發展,希望未來三年能夠給整個基地帶去上千個就業崗位。自貢就有四川輕化工大學、自貢職業技術學院等高校,可以很好緩解年輕人就業的問題。”朱小軍補充,現階段需要加快轉變大眾對數據標注行業的認知,從政府到媒體到行業協會,要進行科普、宣講以及政策引導,鼓勵更多智力型、知識型的人才進入到行業裡。
數據標注員的工作含金量和工資待遇在提升,更可以留住高素質人才。數字經濟時代,數據已經成為“新石油”,而大模型的好壞,就取決於數據的質量、規模和多樣性。過去,由於數據標注業務的勞動相對密集、重復性較強,被很多人視作人工智能產業工廠流水線上的低端環節,但朱小軍表示,現在對於數據標注的要求早就不是“看到什麼說什麼”的階段了,“比如,針對一套茶具,數據標注員不僅要看到眼前是一套茶具,更要從中看到中國的文化、禮儀。”川觀智庫從百度阿波羅智行(西南)人工智能基礎數據產業基地了解到,當前大模型,尤其是行業大模型所需的數據,不再是互聯網的免費公開數據,要想訓練出高精度的模型,就需要更多垂直行業的數據集。除了通識領域外,對於編程、醫療、金融、政務等垂直細分領域的大模型訓練,都需要更高素質的專家團隊參與數據標注。也就是說,數據標注業務本身對從業人員的知識儲備、技術能力要求變得更高。
更高的要求對應著更高的薪酬待遇。比如海外人工智能企業Surge AI在為Open AI提供服務時,曾專門招募具有數學或STEM學位(即由科學、技術、工程、數學組成的綜合體)的員工組建標注團隊,頂級標注員薪酬可達25美元/小時。從國內來看,獵聘大數據研究院發布的《2023年度就業趨勢數據報告》顯示,2023年數據標注的職位招聘平均年薪為12.38萬元,不同類別的數據標注招聘薪資差別較大。僅從獵聘平台來看,最高月薪可達2萬元—4萬元。獵聘AIG部門負責人莫瑜也表示,偏專業領域如法律、醫療、跨境電商外語方面的數據標注員薪資較高。此外,量子位智庫報告顯示,大模型時代下,數據標注行業從勞動密集型向知識密集型轉變,從業者從專科為主變為本科及以上學歷、多領域專業人才聚集,未來五年人才缺口將達百萬量級。阿裡釘釘與國際數據公司(IDC)發布的《2024 AIGC應用層十大趨勢》白皮書也顯示,到2026年,三分之二的雲應用將使用AI,預計將有高達八成的企業需要AI熟練工,數據標注員等崗位都將具有更大的吸引力。
【他山石】
人工智能基礎數據服務產業賦能山西城市發展
人工智能行業的發展催生基礎數據服務產業。所謂的基礎數據服務,指的是為滿足AI算法訓練及優化所需的數據,提供的包括數據庫設計、數據採集、清洗、標注和質檢等在內的一系列數據服務,以數據採集、標注和質檢為主。普華永道認為,人工智能基礎數據服務產業能夠有效推動國內傳統資源型城市、工業型城市、內陸型區縣以及生態型區縣的轉型和振興,賦能城市可持續發展。
以傳統資源型城市山西為例。2018年,山西轉型綜合改革示范區與百度合作共建人工智能基礎數據產業基地。該基地由政府提供辦公場所與資金支持,百度智能雲負責基地運營和品牌建設,入駐企業開展基礎數據服務相關業務的具體實施。基地依托百度人工智能技術基礎與資源優勢,通過搭建數據標注平台,為入駐企業提供標注工具、作業管理和運營經驗,並幫助企業組建團隊、開展培訓以及導入業務資源,持續孵化培育企業,形成本地基礎數據服務和創新能力,逐步打造產業集群。
社會效益方面,該基地以數據標注員為核心開辟新興數字職業,有效吸納當地傳統行業下崗員工,並與本地院校合作完善人才培養體系,運用現代學徒制、學生頂崗實習、合作實習實訓等方式優化實踐教學,促進本地就業。截至去年9月,百度山西數據標注基地已擁有5000余名數據標注員,近90%為山西本省人員,有效提升了當地就業率、人才留存率。
經濟效益方面,基地規模性效應顯著。基地入駐山西轉型綜合改革示范區后,以華為鯤鵬雲、字節跳動、阿裡雲為代表的一批領軍企業也相繼落戶太原。截至去年9月,百度山西數據標注基地吸引和培育優質數據標注企業超50家,其中16家被評為國家級科技型中小企業,11家被評為國家級高新技術企業,2家被評為省級“專精特新”企業,累計產值超6億元。
科技創新方面,基地覆蓋無人駕駛、語音識別、人臉識別、內容審核等多種數據標注場景,並持續推動大數據與工業制造、新能源等實體經濟融合發展。(川觀智庫研究員 徐也晴)
(綜合普華永道、國家工信安全中心《2023人工智能基礎數據服務產業發展白皮書》、德勤《人工智能基礎數據服務白皮書》以及公開資料整理)
分享讓更多人看到
- 評論
- 關注






























第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量