大公產品

首页 > 新闻 > 正文

強化學習 博採衆長

時間:2025-02-08 05:02:17來源:大公报

  圖:人工智能發展一日千里。圖為2016年3月9日至15日,人工智能程序「阿爾法圍棋」在韓國首爾進行的五番棋比賽中,以4比1的總比分擊敗韓國九段棋手李世石。\新華社

  大公報:我們現在知道,DeepSeek的高性能根本上來自於新算法,即強化學習方法,這似乎和當年Alpha Zero與人類棋手博弈相似,是嗎?

  高飛:是的。DeepSeek的強化學習,不是新理論。大家最耳熟能詳的強化學習模型,應該是谷歌DeepMind的圍棋模型Alpha Zero。它之所以叫Zero,是指模型是從零數據開始,通過與自身進行數百萬次對弈,積累數據,提升性能。

  DeepSeek R1也是這樣,通俗地說,它就是人工智能界的「Alpha Zero棋手」,用AI和AI對弈的強化學習方式(而不是學習人類知識行為數據),提高性能。需要說明的是,DeepSeek R1並非單一地運用強化學習方法,而是新老方法並用,博採眾長。例如,DeepSeek團隊發現模型出現中英文雙語混用、答案不易被人理解的現象,所以也使用了傳統的監督式學習(SFT),即人類數據輔助優化,讓內容輸出更友好。

  大公報:但谷歌DeepMind八年前就已推出圍棋模型Alpha Zero,強化學習法早已有之。在這方面,DeepSeek是否算抄襲了谷歌的技術呢?

  高飛:這就是科學、技術、工程的區別了。強化學習技術早有公開論文,大家都可學習借鑒。但科學原理如何在技術和工程上實現,是另一回事。

  此外,屬於封閉性問題(即有標準答案、可判斷勝負)的圍棋問題,與處理開放性問題的語言大模型是不同的。這種強化學習技術,並不容易在大語言模型的訓練中使用,從去年開始湧現的千百個大模型,都沒能取得這方面突破,沒能走通這條技術路徑。

最新要聞

最受歡迎