國家數(shù)據(jù)局近日發(fā)布公告,就《關于推進行業(yè)高質量數(shù)據(jù)集建設行動的實施方案(征求意見稿)》向社會公開征求意見。
行業(yè)高質量數(shù)據(jù)集是經過采集、加工等數(shù)據(jù)處理,可直接用于開發(fā)和訓練人工智能模型,并能有效提升模型、智能體、智能終端等應用效能的行業(yè)數(shù)據(jù)的集合,包含行業(yè)通識和行業(yè)專識數(shù)據(jù)集。
方案提出,到2028年底,建成一批覆蓋重點領域、經過應用驗證的行業(yè)高質量數(shù)據(jù)集,打造一批數(shù)據(jù)驅動人工智能創(chuàng)新發(fā)展的典型應用場景,培育一批具備領先優(yōu)勢的創(chuàng)新型數(shù)據(jù)企業(yè)和專業(yè)人才,形成一批行業(yè)高質量數(shù)據(jù)集建設標準和工具。
方案明確,面向人工智能預訓練、強化學習等階段,持續(xù)推進文本、圖像、音頻、視頻等多模態(tài)高質量數(shù)據(jù)集建設。面向智能體等新型智能應用形態(tài),加強知識庫、知識圖譜、本體等數(shù)據(jù)集建設。面向具身智能發(fā)展需求,加快重點場景物理交互、環(huán)境感知、運動控制等真機交互數(shù)據(jù)集建設。積極布局世界模型等前沿方向數(shù)據(jù)集建設。
在創(chuàng)新行業(yè)高質量數(shù)據(jù)集商業(yè)模式方面,方案提出,推動商業(yè)模式從基礎數(shù)據(jù)包銷售向應用程序接口(API)調用、模型化解決方案及全棧服務梯次躍升。探索詞元交易等新型數(shù)據(jù)集交易模式,構建以詞元為基礎,可量化、可定價的數(shù)據(jù)集價值體系。(記者王云杉)