大公產品

首页 > 新闻 > 正文

專家剖析DeepSeek技術

時間:2025-02-08 05:02:17來源:大公报

  謬誤1

  DeepSeek是在ChatGPT大模型上通過「蒸餾」產生的,這涉及「偷取」知識產權,且任何人都可以以低成本蒸餾出「精華」。

  高飛:否。模型蒸餾並不是一項新技術,目前沒有任何公司利用蒸餾方法,訓練出超過其他模型性能的產品。這兩年,擁有高端芯片、強大算力、在ChatGPT上蒸餾數據的模型,不下幾十個,沒有一個能「跑」出類似的效果,都達不到DeepSeekR1強大的性能。而且,DeepSeek的技術秘密是公開的,它既模型開源,又在原始技術論文中公開了細節。

  謬誤2

  DeepSeek背後是接近50000台英偉達最先進A100芯片在支撐,不可能只用2000塊GPU就訓練出這麼高性能的模型。

高飛:否。DeepSeek的技術論文中清楚地寫明了訓練模型所需要的GPU數量,DeepSeek團隊沒有必要在這個數字上作假。目前所有聲稱「DeepSeek靠五萬卡訓練模型」的說法,都是坊間猜測,無任何權威出處。

  謬誤3

  DeepSeek模型只受國人追捧,美國有OpenAI、Meta等前沿模型,沒有必要用DeepSeek的產品。

高飛:否。近期全球眾多大廠紛紛宣布支持DeepSeek的模型,包括亞馬遜、英特爾、微軟、Perplexity、NVIDIA等。DeepSeek的APP也登頂多個國家的App Store下載排行榜。可以說,DeepSeek在全球範圍內都是一個現象級的產品。

最新要聞

最受歡迎