圖:全球科技巨頭圍繞AI大模型的競爭日趨激烈,Meta斥資148億美元購得Scale AI的49%股份,旨在未來大模型數據訓練中能夠拔得頭籌。
為提高自身人工智能(AI)業務的競爭力,上周Meta斥資近150億美元收購了一間數據標註公司,並拿下初創企業單筆外部融資新紀錄。今次交易突顯出數據質量對於模型性能的關鍵作用,或引爆新一輪行業軍備競賽。
所謂數據標註,是指通過人工或算法方式為原始數據(如文本、圖片、語音、視頻等)添加標籤或註釋的過程,為機器學習(Machine Learning)提供訓練與推理的支持。須指出的是,早在本輪大語言模型爆發之前(2022年底),數據標註已經廣泛應用於學術研究領域。如2007年史丹福大學李飛飛團隊啟動ImageNet(圖像數據庫)項目,憑藉眾包方式標註了大量圖片,正式拉開了數據標註行業發展的序幕。
2016年後,數據標註行業進入快速發展期,大量初創公司與平台湧現,Google、Meta也開始自建標註團隊。與此同時,數據標註的應用領域從傳統互聯網行業滲透到自動駕駛、科技金融、高端製造業等多個領域。而ChatGPT的橫空出世,進一步刺激了數據標註的需求,因為只有持續「投餵」高質量、專業化的文本內容,才能幫助AI大模型實現更高效、更智能的決策能力。
估值飆升 創始人一夜暴富
作為行業的執牛耳者,Scale AI成立於2016年,初期是為企業提供內容審核、數據提取等服務。2018年,公司正式轉型為AI訓練數據服務提供商,並開始與OpenAI合作、深度參與到GPT-2及以後模型的數據標註工作。數年間,Scale AI逐步從標註服務商轉型為AI基礎設施公司,積累了廣泛的政企客戶資源。
數據顯示,2024年Scale AI的營收約為8.7億美元,僅Google一間公司支付的服務費就達1.5億美元。至2025年初,公司的估值已經達到140億美元,聯合創始人郭如意(Lucy Guo)也以13億美元的身價被評為「全球最年輕的白手起家女首富」。
眼下全球科技巨頭圍繞AI大模型的競爭日趨激烈。Meta於今年4月發布的Llama 4大型語言模型在市場上遇冷,被外界指責未能達到預期水平,公司創始人朱克伯格面臨來自投資人的巨大壓力。在此背景下,Meta作價148億美元購得Scale AI的49%無投票權股份,旨在未來大模型數據訓練中能夠拔得頭籌。交易完成後,Scale AI的估值將升至290億美元。
零工經濟 招聘記者作碼農
另有一件動向引發筆者關注,Scale AI旗下專注於大模型訓練的平台Outlier,近年來大肆招聘職業記者從事數據標註的在線工作。即便記者在數據處理、機器學習或科技行業等方面缺乏經驗,但Outlier十分看重媒體工作者的文本理解、事實核查與寫作能力。由於這類兼職工作在時間上較為靈活,17至20美元的時薪水平也相對優厚,記者對此趨之若鶩。
諷刺的是,媒體行業正是受到AI技術衝擊的重災區。根據美國職場數據機構Challenger, Gray & Christmas的年度報告,2024年美國新聞機構裁掉近5000個工作崗位,比上一年增加了59%。從無休打工人到賽博牛馬,記者的職業軌跡成為了時代轉型的註腳。