一連寫了多篇關於生成式人工智能(AI)的文章,不難察覺目前發展比較成熟的應用,主要還是通過裝上軟件和演算法的終端機與用戶互動。科幻電影中看到像人類般懂聽懂說、對答如流、活動自如的智能機器人,迄今還沒走出電影的虛擬世界。要實現這個終極目標,AI領域的下一個挑戰將是實現「具身智能」(Embodied Artificial Intelligence),即能夠通過自我學習掌握各種技能,並具備執行能力的高端機器人。
具身智能簡單來說,就是賦予AI系統一個支援物理交互的軀體,把兩者結合成一個軟硬體合一的智能體後,可以像人類一樣與環境交互感知,通過觀察、移動、說話和與世界互動,從而完成現實生活中各種任務。目前,日常生活中可見的一些智能服務機器人、自動駕駛汽車、聊天機器人等都是具身智能的雛形。但由於主要依賴預載的程式來實現控制,與具身智能的終極形態存在相當大距離。
要了解具身智能可先從與之相對、較多人接觸過的非具身智能(Disembodied AI或Internet AI)開始。非具身智能聚焦於AI的軟件應用,不考慮具體形態、不需要物理交互、專注於抽象演算法的開發,如近年發展迅速的深度學習和生成式AI大模型等,衍生出如ChatGPT、Midjourney等各種多模態應用。具身智能同樣擁有AI,但一個重要條件是具有能支援感覺和活動的物理身體,理想中的具身智能是能夠像人類般主動去感受世界,聽得懂人類語言,然後分析任務進而採取行動,過程中可即時驗證並調整模型,最終完成相應任務。
要複製人類眼耳口鼻身意般的五感,自然不是一件容易的事,具身智能包含了AI領域幾乎所有的技術,包括機器視覺、自然語言理解、認知和推理、機器人學、博弈倫理、機器學習等,是AI的集大成者。隨着深度學習的不斷進步,生成式AI大模型日益向多模態發展,特別是大語言模型的發展,結合視覺等多種感測器的複雜多模態模型,大大加快了具身智能的研發和落地速度。
具身智能的「頭腦」通常是由深度神經網路模型驅動,GPT等大模型的出現提供了新思路,具有通用能力的大語言模型和視覺語言模型等模型,通過將圖像、文字、具身數據聯合訓練,增強模型對現實環境中物件的理解,賦予具身智能強大的泛化能力。機器人技術則提供了可以與物理世界互動的「身體」,通過集成攝影鏡頭、麥克風和觸覺感測器等一系列感測器,讓AI可以像人類一樣依靠感官來感知世界;再配上輪子、電動關節等執行器為AI提供了運動能力的身體。
更重要的一點是,非具身智慧沒有眼耳口鼻和四肢感官,無法自主地採集數據,只能被動地接受人類已經採集好的資料。目前大部分深度學習模型訓練使用的都是來自於互聯網的歷史數據,一旦遇到訓練環境中沒有出現過的問題,就需要收集資料再重新反覆運算優化,這個過程的效率很低。未來具身智能模型的訓練與測試可以與雲服務相結合,在雲端虛擬模擬場景下,進行端到端的實時訓練與測試,毋須再靠人手寫代碼去更新迭代,自然大大加速了具身智慧體的進化速度。
有望取代危險工種
目前,谷歌、微軟、特斯拉等科技公司都公布了自家的具身智能產品,如今年3月份谷歌推出的PaLM-E,就是一種多模態具身視覺語言模型(VLM),讓機器人可以基於大模型來理解圖像、語言等數據,執行複雜的指令,而無需重新訓練。這種一步到位的研發路線看起來很酷,但耗時漫長,距離產業可用還比較遙遠。
更可行的技術落地路徑是,讓不同任務通過不同模型來實現,比如用語言大模型來學習對話、視覺大模型來識別地圖、多模態大模型來完成肢體驅動,把所有的指令分解執行,再通過大模型來完成自動化調度和協作。
中國的政策也在推進具身智能的發展,工信部於今年11月2日發布《人形機器人創新發展指導意見》,為中國人形機器人發展定位。提出以大模型等AI技術突破為引領,在機器人已有成熟技術基礎上,重點在人形機器人「大腦」和「小腦」、「肢體」關鍵技術、技術創新體系等領域取得突破。
產業智能化的浪潮為具身智能提供了市場,比如在工業場景下的「抓、拿、放」,可以取代人工操作危險或繁瑣重複的工序,如煤礦井下作業、港口倉庫搬卸、搬家快遞服務、清理事故現場和救災等領域。若再加上引入多模態輸入,讓使用者可用語言直觀控制如機械臂、無人機、家庭輔助機器人等,更可將應用範圍迅速擴展至日常生活層面,並產生巨大的產業價值。