大公產品

首页 > 简体站 > 正文

機器人融合大模型

時間:2025-10-25 05:01:29來源:大公报

  圖:機器人可以擔任準確拿取藥品的工作。\新華社

  近年來,隨着大型語言模型(LLM)和視覺語言模型(VLM)的崛起,具身智能邁入了大模型融合期。利用大規模預訓練的多模態模型進行高層語義理解和任務規劃,然後由大模型調度低層的動作執行模塊。機器人大模型就像一個高智商的「指揮官」。當你說「幫我把桌上的水杯拿到廚房」,大模型會理解你的意圖,然後將這個複雜任務分解成一系列子任務:識別水杯、規劃路徑、抓取水杯、移動到廚房、放置水杯。但它的挑戰在於對算力要求極高,且執行速度(推理延遲)和成功率仍有待提高。

  讓機器人學會「聰明地提問」

  具身智能的未來,在於如何克服模仿學習的「無法超越專家」和「遇到新情況就傻眼」的局限,以及如何高效地利用人類的指導。

  華裔人工智能女工程師Anrui Gu在加州大學伯克利分校的研究,聚焦於交互式模仿學習和基於預訓練模型的規劃。從高中獲得全美學術十項全能大賽的個人冠軍,到伯克利畢業後在xAI從事大模型與社交媒體交互的工作,Anrui Gu的目標是讓機器人能夠交互式感知環境、從異質示範者學習並利用語義特徵進行泛化。

  Anrui Gu參與發表的IIFL(隱式交互式集群學習)項目,正是對傳統模仿學習的革命性改進。IIFL的核心創新是它讓機器人不僅能「看着學」,還能夠在學習過程中主動向人類提問。IIFL給機器人裝了一個「不確定性傳感器」。當機器人覺得「我很不確定該怎麼做」時,它才會請人類接手。

  傳統的訓練方法只學「一種正確方式」,但IIFL能表示多種正確的動作。比如在自動駕駛中,有的人喜歡提前打方向盤,有的人喜歡晚一點再轉彎,IIFL都能學會並理解這些都是「可行的策略」。如果一輛自動駕駛汽車遇到一個「奇怪情況」(比如擺放方式不同的臨時交通錐),它可以遠程請求人類司機接管一次,學到的經驗會立刻分享給整個機器人集群。

  機器人通用能力的挖掘

  Anrui Gu還探索了如何利用感知基礎模型來實現更好的泛化,甚至零樣本泛化。她開發了一個Transformer模型,通過自監督視覺模型來獲取物體的「關鍵點」(比如杯柄的位置、傾斜角度),然後通過學習這些關鍵點之間的關係來構建策略。這表明模型學習到了關於對應物體抓取點的有用共性,而不是僅僅記住圖像像素。

  這就像教機器人一個「舉一反三」的本領。你教它如何抓取一個紅色馬克杯的杯柄,它就能自動將這個「抓取杯柄」的技能,泛化到藍色水瓶、白色茶壺等不同背景或不同形狀的物體上。這種方法正是當前具身智能訓練的最新趨勢:先用大模型提取強大的、與具體任務無關的表徵,再把它們用於小樣本甚至零樣本的新任務,從而解決分布差異和泛化問題。

  AI視覺的工業實踐與泛化

  Anrui Gu將這種「讓模型在新環境中也能可靠發揮」的核心理念,帶入了工業界,並在電子元件分銷商Smith & Associates擔任首位AI工程師時,從零開始構建了AI視覺元件檢測項目Argus。

  在半導體銷售行業,確保元器件的真實性至關重要。一個卷帶中可能包含多達一萬個元件,以往人工檢測只能抽樣少量零件,耗時耗力且容易出錯。Argus系統利用AI對元件表面進行分析,實現了高通量、全覆蓋、實時檢測,能以每分鐘180個零件的速度實時分析,極大提升了質量控制能力和防偽能力。

  Anrui Gu沒有依賴需要大規模基礎設施和算力的方案,而是用一套自研方案,將實驗室中對不確定性、泛化和高效學習的理解,巧妙地應用於工業AI視覺領域。這種原創性的方法,比常規AI集成方式節省了數月的開發周期,並已在Smith位於全球的多個運營中心規模化應用。

  這項技術能幫助任何需要大規模、高精度質檢的產業(如製藥業、汽車製造業、食品飲料業、奢侈品鑒定等)提高效率、降低人力成本,並強化產品的可信度與市場競爭力。

最新要聞

最受歡迎