通義千問推理能力增訓練成本降90%

時間：2025-09-13 05:01:47來源：大公报

　　圖：百度使用自家內部設計的芯片，訓練人工智能大模型。

　　【大公報訊】互聯網巨頭正陸續採用自研芯片訓練人工智能（AI）模型，逐步減少對輝達（Nvidia）芯片的依賴。其中，阿里巴巴（09988）旗下通義千問團隊發布了新一代基礎模型架構Qwen3-Next，其訓練成本降低逾90%，長文本推理吞吐量提升超過10倍，並可支援百萬Tokens級別的超長上下文處理。

　　據了解，擅長理解和執行指令的指令模型Qwen3-Next，採用了全新的高稀疏MoE（混合專家）結構，結合線性注意力與自研門控注意力機制，顯著降低了計算複雜度，更易於處理超長上下文任務。基於該架構的模型Qwen3-Next-80B-A3B，屬於擅長多步推理和深度思考的推理模型。

　　在訓練成本方面，Qwen3-Next模型較今年4月發布的密集模型Qwen3-32B，大幅下降超過90%。新模型在Qwen3預訓練數據的子集15T Tokens上進行訓練，僅需Qwen3-32B所用GPU計算資源的9.3%，即可訓練出性能更優的Qwen3-Next-Base基座模型，顯著提升了訓練效率。

　　據市場調研機構沙利文（Frost & Sullivan）發布的報告顯示，中國企業級大模型調用量呈現爆發式增長。2025年上半年日均調用量較2024年底增長逾3.6倍，目前已超過10萬億Tokens。其中，阿里通義以17.7%的佔比位列第一，成為中國企業選擇最多的大模型。

　　百度文心使用自研芯片

　　此外，百度（09888）也已開始使用自研AI芯片訓練AI模型，目前正嘗試以內部設計的Kunlun P800芯片升級文心（Ernie）大模型。

　　外電早前報道，中國DeepSeek選擇華為科技的芯片作為其AI模型的訓練硬件，以降低對西方芯片製造商的依賴。輝達坦言競爭已經到來，但強調集團將繼續努力，爭取贏得各地主流開發者的信任與支持。



大公產品

通義千問推理能力增訓練成本降90%

時間：2025-09-13 05:01:47來源：大公报

最新要聞

最受歡迎



大公產品

﻿通義千問推理能力增 訓練成本降90%

時間：2025-09-13 05:01:47來源：大公报

最新要聞

最受歡迎

通義千問推理能力增訓練成本降90%