機器人融合大模型

時間：2025-10-25 05:01:29來源：大公报

　　圖：機器人可以擔任準確拿取藥品的工作。\新華社

　　近年來，隨着大型語言模型（LLM）和視覺語言模型（VLM）的崛起，具身智能邁入了大模型融合期。利用大規模預訓練的多模態模型進行高層語義理解和任務規劃，然後由大模型調度低層的動作執行模塊。機器人大模型就像一個高智商的「指揮官」。當你說「幫我把桌上的水杯拿到廚房」，大模型會理解你的意圖，然後將這個複雜任務分解成一系列子任務：識別水杯、規劃路徑、抓取水杯、移動到廚房、放置水杯。但它的挑戰在於對算力要求極高，且執行速度（推理延遲）和成功率仍有待提高。

　　讓機器人學會「聰明地提問」

　　具身智能的未來，在於如何克服模仿學習的「無法超越專家」和「遇到新情況就傻眼」的局限，以及如何高效地利用人類的指導。

　　華裔人工智能女工程師Anrui Gu在加州大學伯克利分校的研究，聚焦於交互式模仿學習和基於預訓練模型的規劃。從高中獲得全美學術十項全能大賽的個人冠軍，到伯克利畢業後在xAI從事大模型與社交媒體交互的工作，Anrui Gu的目標是讓機器人能夠交互式感知環境、從異質示範者學習並利用語義特徵進行泛化。

Anrui Gu參與發表的IIFL（隱式交互式集群學習）項目，正是對傳統模仿學習的革命性改進。IIFL的核心創新是它讓機器人不僅能「看着學」，還能夠在學習過程中主動向人類提問。IIFL給機器人裝了一個「不確定性傳感器」。當機器人覺得「我很不確定該怎麼做」時，它才會請人類接手。

　　傳統的訓練方法只學「一種正確方式」，但IIFL能表示多種正確的動作。比如在自動駕駛中，有的人喜歡提前打方向盤，有的人喜歡晚一點再轉彎，IIFL都能學會並理解這些都是「可行的策略」。如果一輛自動駕駛汽車遇到一個「奇怪情況」（比如擺放方式不同的臨時交通錐），它可以遠程請求人類司機接管一次，學到的經驗會立刻分享給整個機器人集群。

　　機器人通用能力的挖掘

　　Anrui Gu還探索了如何利用感知基礎模型來實現更好的泛化，甚至零樣本泛化。她開發了一個Transformer模型，通過自監督視覺模型來獲取物體的「關鍵點」（比如杯柄的位置、傾斜角度），然後通過學習這些關鍵點之間的關係來構建策略。這表明模型學習到了關於對應物體抓取點的有用共性，而不是僅僅記住圖像像素。

　　這就像教機器人一個「舉一反三」的本領。你教它如何抓取一個紅色馬克杯的杯柄，它就能自動將這個「抓取杯柄」的技能，泛化到藍色水瓶、白色茶壺等不同背景或不同形狀的物體上。這種方法正是當前具身智能訓練的最新趨勢：先用大模型提取強大的、與具體任務無關的表徵，再把它們用於小樣本甚至零樣本的新任務，從而解決分布差異和泛化問題。

　　AI視覺的工業實踐與泛化

　　Anrui Gu將這種「讓模型在新環境中也能可靠發揮」的核心理念，帶入了工業界，並在電子元件分銷商Smith & Associates擔任首位AI工程師時，從零開始構建了AI視覺元件檢測項目Argus。

　　在半導體銷售行業，確保元器件的真實性至關重要。一個卷帶中可能包含多達一萬個元件，以往人工檢測只能抽樣少量零件，耗時耗力且容易出錯。Argus系統利用AI對元件表面進行分析，實現了高通量、全覆蓋、實時檢測，能以每分鐘180個零件的速度實時分析，極大提升了質量控制能力和防偽能力。

　　Anrui Gu沒有依賴需要大規模基礎設施和算力的方案，而是用一套自研方案，將實驗室中對不確定性、泛化和高效學習的理解，巧妙地應用於工業AI視覺領域。這種原創性的方法，比常規AI集成方式節省了數月的開發周期，並已在Smith位於全球的多個運營中心規模化應用。

　　這項技術能幫助任何需要大規模、高精度質檢的產業（如製藥業、汽車製造業、食品飲料業、奢侈品鑒定等）提高效率、降低人力成本，並強化產品的可信度與市場競爭力。



大公產品

機器人融合大模型

時間：2025-10-25 05:01:29來源：大公报

最新要聞

最受歡迎



大公產品

﻿機器人融合大模型

時間：2025-10-25 05:01:29來源：大公报

最新要聞

最受歡迎

機器人融合大模型