大公產品

首页 > 简体站 > 正文

通義千問推理能力增 訓練成本降90%

時間:2025-09-13 05:01:47來源:大公报

  圖:百度使用自家內部設計的芯片,訓練人工智能大模型。

  【大公報訊】互聯網巨頭正陸續採用自研芯片訓練人工智能(AI)模型,逐步減少對輝達(Nvidia)芯片的依賴。其中,阿里巴巴(09988)旗下通義千問團隊發布了新一代基礎模型架構Qwen3-Next,其訓練成本降低逾90%,長文本推理吞吐量提升超過10倍,並可支援百萬Tokens級別的超長上下文處理。

  據了解,擅長理解和執行指令的指令模型Qwen3-Next,採用了全新的高稀疏MoE(混合專家)結構,結合線性注意力與自研門控注意力機制,顯著降低了計算複雜度,更易於處理超長上下文任務。基於該架構的模型Qwen3-Next-80B-A3B,屬於擅長多步推理和深度思考的推理模型。

  在訓練成本方面,Qwen3-Next模型較今年4月發布的密集模型Qwen3-32B,大幅下降超過90%。新模型在Qwen3預訓練數據的子集15T Tokens上進行訓練,僅需Qwen3-32B所用GPU計算資源的9.3%,即可訓練出性能更優的Qwen3-Next-Base基座模型,顯著提升了訓練效率。

  據市場調研機構沙利文(Frost & Sullivan)發布的報告顯示,中國企業級大模型調用量呈現爆發式增長。2025年上半年日均調用量較2024年底增長逾3.6倍,目前已超過10萬億Tokens。其中,阿里通義以17.7%的佔比位列第一,成為中國企業選擇最多的大模型。

  百度文心使用自研芯片

  此外,百度(09888)也已開始使用自研AI芯片訓練AI模型,目前正嘗試以內部設計的Kunlun P800芯片升級文心(Ernie)大模型。

  外電早前報道,中國DeepSeek選擇華為科技的芯片作為其AI模型的訓練硬件,以降低對西方芯片製造商的依賴。輝達坦言競爭已經到來,但強調集團將繼續努力,爭取贏得各地主流開發者的信任與支持。

最新要聞

最受歡迎