突破創新/從M6大模型到打造「通義千問」

時間：2025-04-22 05:01:30來源：大公报

　　圖：從M6大模型到打造「通義千問」

　　在加入香港理工大學之前，楊紅霞教授在阿里巴巴領導了M6大模型的研發，這也是AI大模型「通義千問」（見圖）的前身，同時也是當時全球最大的中文多模態模型。楊紅霞表示，M6大模型的研發實現了三個技術上的突破點：用更少的算力去運行、有當時領先的稀疏模型架構，以及首次大面積地運用在推薦系統這樣的核心業務上。

　　M6的研發源於推薦系統的「冷啟動」難題。「像手機淘寶這樣的推薦系統，每天的新增用戶、新增商品的數量都相當可觀，如果你沒有任何的用戶行為數據，如何有效分發流量？」楊教授回憶道，「我們決定通過學習商品的屬性、圖片、視頻等多模態信息來解決這個問題。」

　　藉MOE突破盲點　大幅提升效率

　　然而，當年的楊紅霞團隊卻面臨一個近乎不可能的任務：用526張GPU卡訓練萬億參數模型。「當時全球大廠都在拚算力，但我們的算力資源遠遠少於同行。」她回憶道。

　　如何破局？楊紅霞表示，團隊的突破點在於「混合專家模型」（MOE，Mixture of Experts）─通過稀疏架構，讓模型僅激活部分參數處理特定任務，大幅提升效率。「我們的MOE從2021年就開始在做，而Open AI都是這兩年才開始做MOE。」她強調。

　　她續表示，像DeepSeek這樣的國產AI大模型，其算力資源亦有限，但在預訓練階段，其算子精度竟做到了FP8，她形容這件事「非常有挑戰性」，「現在全球達到FP8的也就還有一個Open AI。」她解釋，目前許多大廠的算子精度還只是FP16，而FP8相較FP16，理論上是可以節省一半的存儲、節省一半的算力開銷。「當然，現在各大廠都是用的混合精度，不是說清一色FP8或者FP16。」

　　另外，M6大模型的創新點，還在於它的應用情況。「它是首次大規模地用了非常大流量的、類似於像推薦系統這樣的一個核心場景當中。」楊紅霞說道。



大公產品

突破創新/從M6大模型到打造「通義千問」

時間：2025-04-22 05:01:30來源：大公报

最新要聞

最受歡迎



大公產品

﻿突破創新/從M6大模型到打造「通義千問」

時間：2025-04-22 05:01:30來源：大公报

最新要聞

最受歡迎

突破創新/從M6大模型到打造「通義千問」