人才
團隊成員不超過140人、平均年齡不到30歲,成員多是來自清華、北大、北航等頂尖高校的應屆博士畢業生、在讀生以及碩士生。
技術
高性能,主要來自混合專家模型(MoE)、多標記預測(MTP)和多頭潛在注意力機制(MLA)等多項技術創新。
成果
今年1月10日推出的DeepSeek-R1模型聊天機器人程式,於1月27日超過ChatGPT成為美區iOS應用商店免費應用程式榜首。
合作
微軟、英偉達、亞馬遜等多家科技巨擘已接入DeepSeek-R1模型。
研發
DeepSeek-V3模型的訓練成本為557.6萬美元,性能比肩世界頂級大模型。
大公報整理