大公產品

首页 > 新闻 > 正文

突破創新/從M6大模型到打造「通義千問」

時間:2025-04-22 05:01:30來源:大公报

  圖:從M6大模型到打造「通義千問」

  在加入香港理工大學之前,楊紅霞教授在阿里巴巴領導了M6大模型的研發,這也是AI大模型「通義千問」(見圖)的前身,同時也是當時全球最大的中文多模態模型。楊紅霞表示,M6大模型的研發實現了三個技術上的突破點:用更少的算力去運行、有當時領先的稀疏模型架構,以及首次大面積地運用在推薦系統這樣的核心業務上。

  M6的研發源於推薦系統的「冷啟動」難題。「像手機淘寶這樣的推薦系統,每天的新增用戶、新增商品的數量都相當可觀,如果你沒有任何的用戶行為數據,如何有效分發流量?」楊教授回憶道,「我們決定通過學習商品的屬性、圖片、視頻等多模態信息來解決這個問題。」

  藉MOE突破盲點 大幅提升效率

  然而,當年的楊紅霞團隊卻面臨一個近乎不可能的任務:用526張GPU卡訓練萬億參數模型。「當時全球大廠都在拚算力,但我們的算力資源遠遠少於同行。」她回憶道。

  如何破局?楊紅霞表示,團隊的突破點在於「混合專家模型」(MOE,Mixture of Experts)─通過稀疏架構,讓模型僅激活部分參數處理特定任務,大幅提升效率。「我們的MOE從2021年就開始在做,而Open AI都是這兩年才開始做MOE。」她強調。

  她續表示,像DeepSeek這樣的國產AI大模型,其算力資源亦有限,但在預訓練階段,其算子精度竟做到了FP8,她形容這件事「非常有挑戰性」,「現在全球達到FP8的也就還有一個Open AI。」她解釋,目前許多大廠的算子精度還只是FP16,而FP8相較FP16,理論上是可以節省一半的存儲、節省一半的算力開銷。「當然,現在各大廠都是用的混合精度,不是說清一色FP8或者FP16。」

  另外,M6大模型的創新點,還在於它的應用情況。「它是首次大規模地用了非常大流量的、類似於像推薦系統這樣的一個核心場景當中。」楊紅霞說道。

最新要聞

最受歡迎