數據標註業務快速發展,專家建議加快推進規範化與標準化
更新于:2025-03-26 03:50:59

人工智慧正重構全球產業格局,同時也帶動一些新興產業快速發展,數據標註就是其中之一,市場已對此展現出強勁需求。

3月20日,由工業和資訊化部電子第五研究所、中國移動通信集團資訊技術中心、航太科工網路信息發展有限公司聯合主辦的“2025年數據標註產業供需對接會”在四川成都召開。

供需對接會現場,12億元數據標註業務合作意向簽約。其中,由韶關市推動的戰略合作以6600萬元的簽約金額成為當天單體金額最大合作專案。

圖片來源:每經記者 唐俊 攝

自動駕駛、醫療醫藥等行業已開始探索

所謂數據標註,是指對數據進行篩選、清洗、分類、註釋、標記和質量檢驗等加工處理的過程。國家發展改革委等部門去年底發佈《關於促進數據標註產業高質量發展的實施意見》(以下簡稱《意見》),明確將數據標註稱為新興產業。

“數據標註是提升數據供給品質的關鍵環節,是提升人工智慧產業競爭力的先手棋。”四川省大數據中心副主任、四川省大數據標準化技術委員會主任委員周學立在對接會現場說。

工信部電子五所人工智慧中心主任孔德智對《每日經濟新聞》記者表示,數據標註將無序的“潛在資源”轉化為可被演算法理解的“優質原料”,為機器學習提供精準的知識標籤,直接決定模型訓練的品質和效率。例如,OpenAI在訓練ChatGPT時投入數千人力和數億資金用於標註,確保模型理解人類指令的準確性和可靠性。

“在市場和政府的協同作用下,我國的標註產業已經進入快速發展階段。”國家數據發展研究院院長胡堅波現場表示,數據標註在自動駕駛、醫療醫藥等領域,結合人工智慧大模型,已構建起面向企業和個人的應用模式,成為在數據標註產業中較早的探索,且已較成熟。

胡堅波還提到,能源、交通、礦產、地質勘探等行業積累了大量專業數據,這些行業資金基礎較好、專業團隊完善,通過人工智慧解決行業性全域問題的潛力巨大,他們在數據標註領域正快速發力。低空經濟、具身智慧等未來產業,也在積極開展相關工作。

加快推進數據標註規範化與標準化

2024年4月,國家數據局確定了7個數據標註基地,分別是成都、瀋陽、合肥、長沙、海口、保定、大同。截至目前,七地數據標註總規模達到17282TB,相當於中國國家圖書館數位資源總量的6倍左右。

國家數據局表示,7個數據標註基地的標註從業人員達5.8萬人,帶動數據標註行業相關產值超過83億元。

不過,雖然數據標註在快速發展,但仍處於初期階段,仍有不少方面待完善。

胡堅波建議,要加快推進行業數據標註工作的規範化與標準化,引導數據標準上下游環節對接和合作;並且要加強數據標註技術的研發和推廣,加強對基於生成式AI的合成數據的自動化標註。

孔德智表示,我國正通過政策引導和技術攻關,推動數據標註從勞動密集型向知識密集型轉型,為人工智慧創新發展提供關鍵支撐。

他建議,當前數據標註產業應強化技術創新,重點突破跨模態語義對齊、大模型標註等核心技術,研發智慧化標註工具,提升標註效率;同時,優化生態佈局,培育龍頭企業與中小企業協同發展的產業鏈,推動數據標註基地建設,形成區域示範效應。

他還提到,應支援高校開設標註相關課程,聯動需求企業建立產教融合實訓基地,解決人才缺口問題。另外,還應保障數據安全,構建分類分級保護制度,強化隱私保護和風險防控,推動標註數據合規流通。

每日經濟新聞

特斯拉歐洲銷量銳減
特斯拉歐洲銷量銳減
2025-04-02 23:00:15