
圖:機器人可以擔任準確拿取藥品的工作。\新華社
近年來,隨着大型語言模型(LLM)和視覺語言模型(VLM)的崛起,具身智能邁入了大模型融合期。利用大規模預訓練的多模態模型進行高層語義理解和任務規劃,然後由大模型調度低層的動作執行模塊。機器人大模型就像一個高智商的「指揮官」。當你說「幫我把桌上的水杯拿到廚房」,大模型會理解你的意圖,然後將這個複雜任務分解成一系列子任務:識別水杯、規劃路徑、抓取水杯、移動到廚房、放置水杯。但它的挑戰在於對算力要求極高,且執行速度(推理延遲)和成功率仍有待提高。
讓機器人學會「聰明地提問」
具身智能的未來,在於如何克服模仿學習的「無法超越專家」和「遇到新情況就傻眼」的局限,以及如何高效地利用人類的指導。
華裔人工智能女工程師Anrui Gu在加州大學伯克利分校的研究,聚焦於交互式模仿學習和基於預訓練模型的規劃。從高中獲得全美學術十項全能大賽的個人冠軍,到伯克利畢業後在xAI從事大模型與社交媒體交互的工作,Anrui Gu的目標是讓機器人能夠交互式感知環境、從異質示範者學習並利用語義特徵進行泛化。
Anrui Gu參與發表的IIFL(隱式交互式集群學習)項目,正是對傳統模仿學習的革命性改進。IIFL的核心創新是它讓機器人不僅能「看着學」,還能夠在學習過程中主動向人類提問。IIFL給機器人裝了一個「不確定性傳感器」。當機器人覺得「我很不確定該怎麼做」時,它才會請人類接手。
傳統的訓練方法只學「一種正確方式」,但IIFL能表示多種正確的動作。比如在自動駕駛中,有的人喜歡提前打方向盤,有的人喜歡晚一點再轉彎,IIFL都能學會並理解這些都是「可行的策略」。如果一輛自動駕駛汽車遇到一個「奇怪情況」(比如擺放方式不同的臨時交通錐),它可以遠程請求人類司機接管一次,學到的經驗會立刻分享給整個機器人集群。
機器人通用能力的挖掘
Anrui Gu還探索了如何利用感知基礎模型來實現更好的泛化,甚至零樣本泛化。她開發了一個Transformer模型,通過自監督視覺模型來獲取物體的「關鍵點」(比如杯柄的位置、傾斜角度),然後通過學習這些關鍵點之間的關係來構建策略。這表明模型學習到了關於對應物體抓取點的有用共性,而不是僅僅記住圖像像素。
這就像教機器人一個「舉一反三」的本領。你教它如何抓取一個紅色馬克杯的杯柄,它就能自動將這個「抓取杯柄」的技能,泛化到藍色水瓶、白色茶壺等不同背景或不同形狀的物體上。這種方法正是當前具身智能訓練的最新趨勢:先用大模型提取強大的、與具體任務無關的表徵,再把它們用於小樣本甚至零樣本的新任務,從而解決分布差異和泛化問題。
AI視覺的工業實踐與泛化
Anrui Gu將這種「讓模型在新環境中也能可靠發揮」的核心理念,帶入了工業界,並在電子元件分銷商Smith & Associates擔任首位AI工程師時,從零開始構建了AI視覺元件檢測項目Argus。
在半導體銷售行業,確保元器件的真實性至關重要。一個卷帶中可能包含多達一萬個元件,以往人工檢測只能抽樣少量零件,耗時耗力且容易出錯。Argus系統利用AI對元件表面進行分析,實現了高通量、全覆蓋、實時檢測,能以每分鐘180個零件的速度實時分析,極大提升了質量控制能力和防偽能力。
Anrui Gu沒有依賴需要大規模基礎設施和算力的方案,而是用一套自研方案,將實驗室中對不確定性、泛化和高效學習的理解,巧妙地應用於工業AI視覺領域。這種原創性的方法,比常規AI集成方式節省了數月的開發周期,並已在Smith位於全球的多個運營中心規模化應用。
這項技術能幫助任何需要大規模、高精度質檢的產業(如製藥業、汽車製造業、食品飲料業、奢侈品鑒定等)提高效率、降低人力成本,並強化產品的可信度與市場競爭力。