人民網
人民網>>四川頻道>>綜合欄目>>社會

從數據“搬運工” 到專家“培養者”

“我給人工智能當老師”

2025年02月28日10:36 | 來源:北京晚報
小字號

原標題:“我給人工智能當老師”

  寫詩作畫樣樣精通、診病解題事事都行……如今,“十項全能”的AI(人工智能)令人驚嘆不已。作為幕后推手,AI訓練師逐漸走入大眾視野。

  從數據“搬運工”,到專家“培養者”,AI訓練師見証了人工智能的飛速發展,自身也正經歷著日新月異的變化,甚至悄然催生出新的培訓需求。

  現狀

  半路出家 從數據標注做起

  “這兩年國內AI越來越火,相關崗位也變多了。”今年初,物聯網專業本科畢業的小雅正式進入互聯網大廠外包公司,成為一名AI訓練師。“主要做數據標注,我分到的是數學方向,用LaTeX這種工具寫解題過程。”

  小雅坦言,這項工作並不需要太多專業背景,“有規則文檔,對照著把步驟整理出來。”

  去年底,美術專業出身的小琳也從UI(用戶界面)設計師轉行成為AI訓練師。“之前做了10年設計工作,后來覺得這個行業快要被AI取代,於是選擇改行。”小琳發現,如今的工作與設計基本毫無關系,“我主要做文本類的數據標注,按照公司規則對模型生成的內容打分、改寫,從而訓練大模型。”對於這份新工作,小琳有著自己的理解,“可以把大模型想象成一個小孩,你要教這個小孩怎麼輸出更合理的內容。如果小孩犯錯,還要給糾錯。”

  相比起這兩名剛入行的“新手”來說,小磊儼然已經是行業裡的“老兵”。作為金屬材料專業的肄業生,小磊手中的最高學歷隻有高中。2018年,從事客服工作的他偶然接觸到智能客服產品,“當時在一個外包項目裡負責輔助互聯網大廠的訓練師做數據標注,一年后被訓練師介紹過去專門做這個。”

  在當時,這項工作十分冷門,“對方看我有工作經驗,也就沒有卡學歷。”就這樣,小磊抱著學習的態度踏入AI行業。

  “最初主要為智能產品做個性化需求落地,以問答為主,可以算小模型,通過搭建知識庫、調整問答策略來提升回答質量。”2022年以來,小磊轉向從事與大模型有關的數據標注,主要負責提供各種語料,並帶領資源團隊進行數據生產。“需要與算法技術團隊密切溝通,將他們對數據的需求轉化為具體的標注規則。”

  以常見的問答文本標注為例,小磊不僅要制定答案質量的打分標准,如考量回答的正確性、全面性等,還要對低分答案進行修改,將其轉化為高分答案。“規則都是五花八門的,永遠不知道下一批任務的規則是什麼。”

  現階段,小磊面對的數據標注規模動輒上萬甚至幾十萬條,需要團隊協作完成。“團隊規模根據項目需求動態調整,小的時候可能隻有五六個人,大的時候則可達上百人。”

  變化

  崗位細分 薪資待遇差別大

  在行業內打拼多年,小磊目睹了大模型出現對AI訓練師帶來的影響。“在大模型出現之前,AI訓練師的工作相對聚焦。”小磊回憶說,“以前輸出內容主要依賴知識庫檢索,數據標注只是重新設計表現不好的語料,標注工作相對輕量,問題觸發的內容也都是行業內部知識,可控性比較強。”

  自從大模型誕生,這項工作變得復雜許多。“現在任務類型多種多樣,除了文本以外,還可能有圖像、音頻等,大模型根據語料推理出來的答案也更加不可控。”

  小磊提到,DeepSeek的出現也給行業帶來很大變化。“過去大家都在堆語料,覺得越多越好,但現在要打個問號,思考是不是應該調整方向。”小磊說,以往做小模型的知識庫構建時也曾遇到過類似問題,“一開始確實堆的知識越多效果越好,但超過臨界值以后,反而會出現意圖纏繞,知識變得混淆不清。”

  盡管大模型的功能日益強大,但小磊發現問題也逐漸凸顯。“大模型確實很擅長公文寫作,只是精准度依然有限。像央企國企的公文,通常要求較高,大模型暫時還很難達到這個標准。”

  此外,“AI幻覺”也成為備受關注的熱門話題。“大模型在回答時出現錯誤,甚至‘一本正經地胡說八道’,背后原因可能是多種多樣的,其中就包括語料的質量問題。”小磊說,需要針對案例進行排查,確認到底是哪個環節出了問題,然后再調整大模型本身的策略。

  為了提升語料的質量,小磊會嚴格篩選可靠信源。“比如,文本類主要選擇權威新聞、期刊和實體書等,而不是一些營銷號的內容。”在標注過程中,小磊也會對標注人員進行規范培訓,要求他們按照標准流程進行信息採集和處理。同時,團隊還會參考其他大模型的回復,“相互借鑒,不斷優化自己的模型。”

  在大模型的推動下,AI訓練師的崗位不斷細分。“之前給AI當老師,主要是教基本知識,有點像教小孩子學常識。現在AI具備了一定的認知能力,就需要有更高水平或者更專業的人來教它高階思維。”據小磊介紹,現在大模型涉及越來越多專業領域知識,也就需要更多具備醫療、教育、法律等專業知識背景和從業經驗的人才加入進來,“這些專業性強的語料生成,外行確實做不了。”

  在小磊看來,崗位細分的同時,AI訓練師的薪資待遇差距也在拉大。“像基礎的數據標注崗位,月薪可能隻有幾千元,而大公司裡要求較高的崗位,月薪可以達到三五萬元。”

  提醒

  學費較高 沒必要盲目跟風

  記者在調查中了解到,隨著AI訓練師崗位需求不斷增加,相關培訓迅速興起。

  “現在很多人轉行做這個,培訓班上什麼專業的都有。有剛畢業的,也有工作好多年的。”上崗前,小雅就報班參加了AI訓練師課程。“一共也就10次課,報班就是為了心裡有個底,其實也可以自己投簡歷,面試多了自然就知道會問什麼,面試通過以后可以在干中學。”

  轉行前,小琳同樣選擇先報班“補課”。“算是回流了,2013年剛畢業那會兒就在這個機構學的UI設計師。這兩年好多設計師的工作干不下去,機構就又開了AI訓練師的課,讓大家學完盡快轉行。”說到這裡,小琳不由得苦笑,“我要是有講課的天賦,我也去開班了,還是開班賺錢。”

  記者在社交平台上搜索,發現不少分享轉行經驗的AI訓練師都在小琳所說的這家機構報過課。

  “我們的AI訓練師課程是就業導向的,需要線下學習,在北京、深圳、杭州都設有校區,這些城市的工作崗位也比較集中。”據機構工作人員介紹,培訓持續5周,上課時間安排在周末,共10次課。從大綱來看,課程相當緊湊,學員需要在一天之內學習大模型行業通用規則、單輪對話項目實訓、多輪對話項目實訓和AI訓練師必學代碼課。“學完專業課,會分配一對一的就業輔導老師。”

  工作人員稱,學費每期漲1000元。“現在報名的話是第13期,3月29日開課。原價22999元,最近幾天有一個拼團折扣價,優惠完20999元。第14期的話是5月10日開課,差不多就是這麼一個招生節奏。每期50名學員,分成兩個班。”

  在去年10月的培訓中,小琳從課上了解到Reward模型、RAG項目等內容。“但這些只是基礎知識,到了公司還是要靠自己在實際工作中摸索。”如何在簡歷關和面試關解決零經驗的問題?小雅從培訓中學到了“應對策略”,“可以結合以前的經驗,把AI融入進去。”

  作為過來人,小磊發現,很多數據標注方面的外包公司招聘需求很大。“這項工作相對比較枯燥,成長性也有限,很多人干一段時間就走了。”小磊說,如果本身學歷有限,對這一行感興趣,暫時也沒有太多機會和選擇,那麼不妨嘗試從數據標注做起,“起碼也算接觸了這個行業,后期通過工作經驗積累,也能慢慢往更高階的訓練師方向轉。”

  至於要不要報班,小磊表示沒必要盲目跟風。“如果只是做數據標注,其實要求沒那麼高。就算是為了應對面試時的問題,也未必需要花高價報班,完全可以找一些相關知識自學一下。”(北京晚報記者 宗媛媛 文宋溪)

(責編:章華維、羅昱)

分享讓更多人看到

返回頂部