圖:圖為民眾在北京亦莊舉行的2024世界智能網聯汽車大會上參觀自動駕駛汽車。\新華社
國家發改委、國家數據局等四部門13日聯合發布《關於促進數據標註產業高質量發展的實施意見》(下稱《意見》),是國家層面首次對數據標註這一新興產業進行系統謀劃。《意見》提出,到2027年數據標註產業規模大幅躍升,年均複合增長率超過20%。圍繞醫療健康、自動駕駛、低空經濟等場景,以業務創新拉動數據標註需求,並培育一批數據標註龍頭企業。
業內專家認為,高質量數據短缺是當前人工智能(AI)大模型發展中遇到的瓶頸。數據標註產業是對數據進行篩選、清洗、分類、註釋、標記和質量檢驗等加工處理的新興產業,能夠產生高質量數據集,讓機器讀得懂、吃得飽,學得快、訓得好,助力AI創新發展。\大公報記者 任芳頡北京報道
聚力自動駕駛 讓大模型「吃得飽」學得快
《意見》從深化需求牽引、增強創新驅動、培育繁榮生態、優化支撐體系等方面提出具體措施,並提出,到2027年,數據標註產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均複合增長率超過20%,培育一批具有影響力的科技型數據標註企業,打造一批產學研用聯動的創新載體,建設一批成效明顯、特色鮮明的數據標註基地,形成相對完善的數據標註產業生態,構建創新要素聚集、產業鏈上下游聯動、區域協同發展的新格局。此前,我國已確定成都、瀋陽、合肥、長沙等7個城市承擔數據標註基地建設任務。
《意見》從13個具體方面對培育壯大數據標註產業進行全面謀劃,特別突出需求牽引和創新驅動。在深化需求牽引方面,首次提出釋放公共數據標註需求,依法依規有序推動公共數據標註與開發利用,在現代農業、智能製造、信息服務等重點領域發掘公共數據標註需求。推動數據標註服務納入政府採購範疇。在增強創新驅動方面,提出完善數據標註標準,支持軟硬一體、自主可控的數據標註領域技術和關鍵設備研發。
據測算,2023年我國數據標註產業規模達800億元左右。在挖掘數據標註需求方面,《意見》指出,加大企業數據開發利用,加強交通、醫療、金融、科學、製造、農業等重點行業領域數據標註,建設行業高質量數據集,支撐人工智能在行業領域的應用賦能。圍繞醫療健康、人力資源、數字貿易、自動駕駛、低空經濟等場景,以業務創新拉動數據標註需求。
支持自主可控關鍵設備研發
在壯大經營主體方面,《意見》強調,培育一批數據標註龍頭企業,鼓勵通過資源整合、併購重組等方式做大做強,推動數據標註企業規模化、標準化、集約化發展。支持和鼓勵科技創新型數據標註企業承擔基礎研究、技術攻關、產業應用等重點任務,提高產業鏈協同創新水平。培育一批深耕行業的數據標註瞪羚企業、獨角獸企業。
在開展關鍵技術攻關方面,《意見》特別提到,依託國家重點研發計劃、國家科技重大專項等,加強跨領域跨模態語義對齊、4D標註、大模型標註等數據標註領域的關鍵技術攻關應用。支持多模態標註、標註審查、質量評估、基於思維鏈的專家標註等智能化工具研發。支持建設集數據、模型、工具、場景為一體的數據標註創新平台,推動數據標註技術融合創新。支持軟硬一體、自主可控的數據標註領域關鍵設備研發。
此外,在優化支撐體系上,《意見》還提到,加大財稅金融支持力度,鼓勵各類產業基金、專業投資機構加大數據標註產業投資力度,引導社會資本有序參與。同時加強標註人才隊伍建設,制(修)定人工智能訓練、數據標註相關職業國家職業標準。