具身智能無疑是2025中關(guān)村論壇年會最熱的話題之一。3月29日,智源研究院在2025中關(guān)村論壇“未來人工智能先鋒論壇”上發(fā)布首個跨本體具身大小腦協(xié)作框架RoboOS與開源具身大腦RoboBrain。

 

在接受媒體采訪時,智源研究院院長王仲遠表示,多模態(tài)大模型技術(shù)會給整個具身智能帶來一些新的變量。這些技術(shù)有助于機器人更快、更高效地擁有“大腦”,從而具備更強的智能。

 

多模態(tài)大模型讓機器人具備更強智能

 

王仲遠表示,大語言模型已經(jīng)在理解和推理能力上達到了非常高的水平,甚至在某些領(lǐng)域可以接近碩士或博士水平,已經(jīng)從實驗室進入產(chǎn)業(yè)界,但隨著互聯(lián)網(wǎng)文本數(shù)據(jù)基本已經(jīng)被使用完畢,大語言基礎(chǔ)模型的性能提升進入相對緩慢的階段。

 

在現(xiàn)實世界中,存在大量多模態(tài)數(shù)據(jù),比如流程圖、醫(yī)療領(lǐng)域的X光片數(shù)據(jù)、CT數(shù)據(jù)和各行業(yè)的傳感器數(shù)據(jù)等。多模態(tài)大模型能夠讓人工智能真正看到、理解、感知世界,并從數(shù)字世界進入物理世界,跟物理世界里的硬件結(jié)合,也就是具身智能。

 

“具身智能概念出現(xiàn)的時間比較早,對于具身智能的理解,傳統(tǒng)研究者和從AI大模型領(lǐng)域轉(zhuǎn)向具身智能的研究者,并沒有在技術(shù)路線上完全達成共識。”他說,傳統(tǒng)機器人訓(xùn)練依然在大量使用強化學(xué)習(xí),通過重復(fù)練習(xí),教機器人學(xué)抓杯子、倒水、寫毛筆字等,這種類型的人形機器人,泛化性會弱一些。

 

但是大模型技術(shù),尤其是多模態(tài)大模型技術(shù),會給整個具身智能帶來一些新的變量。這些技術(shù)有助于機器人更快、更高效地擁有“大腦”,從而具備更強的智能。

 

具身多模態(tài)大腦模型RoboBrain開源

 

當(dāng)天下午,智源研究院發(fā)布了跨本體具身大小腦協(xié)作框架RoboOS與開源具身大腦RoboBrain,可實現(xiàn)跨場景多任務(wù)輕量化快速部署與跨本體協(xié)作,推動單機智能邁向群體智能。“簡單來講,它可以支持不同構(gòu)型、不同品牌的機器人。不管是單臂機器人、雙臂機器人,還是輪式機器人、人形機器人,都可以使用我們的具身大腦。”

 

王仲遠說,RoboBrain能夠幫助這些硬件具備一些泛化的智能,面向具身智能應(yīng)用領(lǐng)域的多模態(tài)大模型,能夠幫助機器人真正看到這個世界,對人類發(fā)出的指令進行拆解、邏輯推理和規(guī)劃決策,再分配給不同的小腦模型來執(zhí)行,“這是我們把多模態(tài)大模型向具身智能進行落地的一個嘗試。”

 

RoboBrain能夠解讀人類指令和視覺圖像,以生成基于實時圖像反饋的行動計劃和評估,預(yù)測每一步的軌跡并感知相應(yīng)的可操作區(qū)域。目前,可支持松靈雙臂、睿爾曼單/雙臂、智元人形、宇樹人形等不同類型的具身本體。

 

王仲遠說,為了促進整個行業(yè)的發(fā)展,智源研究院將具身多模態(tài)大腦模型RoboBrain開源,希望能夠與本體的廠商、模型的廠商、應(yīng)用的廠商一起協(xié)作,促進整個具身智能行業(yè)更好更快發(fā)展。

 

他說,開源一直是推動計算機行業(yè)乃至人工智能行業(yè)過去這幾十年快速發(fā)展的核心動力。“開源能夠讓我們的研究站在巨人的肩膀上,減少資源的浪費和無效的工作。不少商業(yè)化公司也探索出了開源與閉源結(jié)合的商業(yè)化模式。”

 

實現(xiàn)廣泛意義上的AGI至少還需5-10年

 

針對人形機器人賽道扎堆的問題,王仲遠說,行業(yè)內(nèi)也有不少機器人公司迭代輪式構(gòu)型的人形機器人,以避免雙足機器人不穩(wěn)定帶來的能力局限。但從長遠來看,人形機器人具有獨特優(yōu)勢,其與人的構(gòu)型相似,能更好適應(yīng)社會基礎(chǔ)設(shè)施,從海量互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí)人類技能,有利于具身智能和具身大腦模型的迭代。

 

短期內(nèi),人形機器人在產(chǎn)業(yè)落地方面仍面臨諸多挑戰(zhàn),很多機器人尚處于“能走”階段,正向“走得快、走得穩(wěn)”的目標努力。

 

他預(yù)測,今年人工智能應(yīng)用有望迎來大爆發(fā),尤其是大語言模型的落地應(yīng)用,中國海量的應(yīng)用場景將加速這一進程。多模態(tài)大模型目前仍處于相對早期階段,實現(xiàn)廣泛意義上的AGI(通用人工智能)可能還需5-10年,甚至更長時間,這取決于本體能力、世界模型構(gòu)建和數(shù)據(jù)等多方面因素。

 

他表示,讓人工智能理解人類的語言、解決實際生活中的具體問題,如做飯、洗碗等,距離實現(xiàn)這種程度的AGI還有很長距離。在這個過程中,依賴于本體的能力、對世界模型構(gòu)建的進展和不同的落地場景中數(shù)據(jù)的積累等。多模態(tài)大模型和世界模型是實現(xiàn)真正AGI的必經(jīng)之路。

 

新京報記者 張璐

編輯 張磊 校對 張彥君