就在本周,湖北人形機器人創新中心官宣投用,目前這一創新中心已經有9家機器人企業入駐
從商業化情況來看,已經成為中國人形機器人企業最具代表性的存在的宇樹科技,此前曾官方回應,宇樹在2020年就實現了盈利,公司的四足機器人、人形機器人也已經賣到了全球不少高校、研究所和機器人團隊。
近日,宇樹更是傳出了更名、或將上市的消息,宇樹科技90后創始人王興興也成了杭州具身智能產業聯盟首任輪值董事長。
就“當下發展勢頭正猛,但未來商業化不明朗”的人形機器人,今天在2025北京智源大會上,宇樹科技創始人王興興、北京人形機器人創新中心總經理熊友軍、銀河通用創始人王鶴、穹徹智能聯合創始人盧策吾,以及Physical Intelligence聯合創始人Karol Hausman——
這幾位產業派、學術派,以及創新中心的代表人物進行了一場人形機器人主題對話,談了各家機器人的最新進展,各類機器人大賽帶來的行業影響,以及VLA的價值和邊界。
問:前幾天在CMG世界機器人大賽機甲格斗擂臺賽中,宇樹的機器人獲得了冠軍,請介紹一下這個冠軍機器人?
無論是今年春晚上的機器人表演,還是近期的機器人格斗賽,我們是希望真正給大家展示一下當前全球人形機器人發展情況,并且帶動整個機器人行業發展。
目前,機器人還不能直接在家里或工廠里干活,這是全球機器人產業面臨的挑戰。
當然,我們是希望機器人可以真正去干活,但在機器人能夠真正干活之前,我們希望可以通過已經達到的一些技術成果進行商業化拓展。
我相信機器人格斗大賽在未來一兩年會成為比較受歡迎的體育賽事,我覺得這是一件激動人心的事。
問:兩個月前,在北京首個人形機器人半程馬拉松比賽中,天工機器人奪冠,請介紹一下奪冠的天工和天工2.0的升級?
熊友軍:天工1.0在半程馬拉松比賽中跑出2小時40分的成績,被證明是最能跑的機器人。
天工2.0在1.0版本基礎上做了升級,我們希望它能更好用、做更多事,所以我們的升級重點在上肢——在機器人上肢增加了自由度和靈巧手,提升了負重能力。
北京人形機器人創新中心成立于2023年11月2日,是全國首個省級人形機器人創新中心,2024年10月升級為國家地方共建具身智能機器人創新中心。
一是硬件平臺,之前1.0版本主打適應草地、沙地、丘陵等多種復雜地形,現在的2.0版本可用于工廠或危險環境完成任務;
二是軟件平臺,今年3月我們發布了第一個通用具身智能體“慧思開物”,一腦多機、一腦多能平臺,包括具身智能大腦和小腦,大腦負責人機交互、環境感知、意圖識別、任務規劃,小腦負責運動和執行,并將執行結果反饋給大腦,實現閉環;
三是數據平臺,我們圍繞訓練具身智能體構建了一個大型數據采集和機器人訓練中心,我們構建了20多個虛實結合采集場景;
王鶴:去年我們展示了人形機器人吸取盒狀物體,今年我們基于VLA技術打造了更貼近一般商超貨架場景的應用。
我們輪式底盤的人形機器人基于自研端到端大模型,不依賴軌跡生成就可以從密集貨架上抓取物品,目前可以處理瓶裝、袋裝、薯片等多樣商品。
這個模型是閉環的,支持動態交互,我們的技術特點是使用低成本合成數據訓練的機器人模型。
盧策吾:從產品角度來看,去年我們發布了穹徹大腦V1版本,我們今年7月馬上將會發布V2版本,這里體現了對物理世界的理解和交互。
力反饋對復雜、動態接觸、魯棒性極高的模仿人類下意識場景很關鍵,例如刮胡子需要持續接觸,力度要恰到好處,否則會刮傷或刮不干凈。
我們的技術已經批量在食品加工行業落地,例如制作冰淇淋要求動作控制要精確到每毫秒,還要模仿人類手感。
必一運動
我們的力反饋結合位置反饋的模型適用于高密度接觸場景,未來也可以拓展到生活場景,如照顧老人、幫人類擦臉等。
Karol:π 0.5是我們引以為傲的模型,目前對于具身智能機器人來說,最大的挑戰是如何在從未見過的環境中執行任務。
我們最終選擇了極具多樣性的家庭環境作為機器人的訓練環境,在家庭環境中,每個房間都和另一個房間都是完全不一樣的。
從實驗結果來看,我們的機器人只需在100個房間中完成訓練,就能泛化到第101個房間中,盡管成功率還不完美。
這表明具身智能機器人訓練對于數據需求已經不高,泛化前景也很樂觀,但目前我們仍處于早期階段。
問:今年具身智能很火,也出現了很多機器人賽事,如何看機器人賽事活動的意義?
王興興:從春晚上表演節目到打格斗比賽,我認為這些賽事是向大眾展示機器人一個很好的平臺,可以讓大眾更早接觸到機器人。
我們現在讓機器人跳舞、打格斗賽,其實是希望通過AI技術讓機器人實現各種全身動作,跳舞、格斗只是其中的一部分,我們是希望機器人最終可以執行端茶倒水、洗衣做飯等任務。
我一直相信,當具身智能發展到一定階段后,一個足夠智能的家用機器人一定可以跳舞,也可以打格斗比賽。
我們公司的終極目標是希望機器人能干活,但目前直接讓機器人進入家庭或工廠干活還不現實。
在這個終極目標沒有實現之前,我們可以通過表演和比賽展示機器人,讓大眾更了解機器人,并產生一些商業價值。
熊友軍:機器人比賽很有意義,尤其是北京即將在鳥巢舉辦世界人形機器人運動會,我認為它的意義體現在三個方面:
第一,它是機器人知識普及的盛會,通過比賽我們可以讓大眾對機器人發展狀況有一個全面的了解。
據我們所知,這次在鳥巢的機器人比賽會有短跑、長跑、障礙賽、接力賽、足球、舞蹈等大家喜聞樂見的項目,大家愿意看,看的過程中就會對機器人知識和發展狀況有比較深的了解,做了科技普及。
第二,它也是一個很好的技術訓練場,很多比賽場景源自于人類真實生活場景,如物流搬運、醫藥分揀、酒店服務場景,這些都是企業或行業提出的需求,對提升機器人技術有很大幫助。
第三,它是機器人企業與潛在客戶溝通的橋梁,通過這類比賽會加速機器人產業化。
Karol:國外的機器人比賽沒有中國這樣火爆,海外也有如Robot Cup機器人比賽,不過更多還是學術性比賽,我很期待看到這些賽事未來的發展。
雖然我們看到了很多炫酷的技能,但是要反思這樣的技能在新的環境里、新的目標物體下,以及挑剔的用戶和高成功率場景下能否成功執行任務。
銀河通用和智源共同的思考是:一定要先將一些最重要的技能打通,我們這里主要關注移動、抓取、放置三項技能。
無論是在生活超市、工廠料庫,還是在外賣前置倉中,如果我們可以用人形機器人進行24小時服務,這樣就可以形成具身智能走向產業化、服務人類、創造生產力的開始,推動人形機器人生產力時刻的到來。
一個好消息是,銀河通用的機器人在北京已經開了7家無人藥店,機器人可以24小時分揀藥品并對接騎手,解決夜間急需用藥的需求,我們年底將會在北京、上海、深圳開100家藥店。
未來我們希望超市下訂單、車廠配料這些場景可以由機器人來實現,我們也希望可以和后續賽事進行對接,通過賽事推動可落地的技能形成。
賽事是很好的起點,能看到機器人的性能,但下一步要讓機器人產生價值,能干活兒,需要進行技能比賽。
我們正在逐步將機器人的技能性提高,我們穹徹智能正在逐步將物理世界中持續接觸所需的力位反饋模型應用到食品加工等場景中,未來我們希望可以看到更多關于機器人技能的比賽。
問:張拔院士指出,人形機器人不是具身智能和AGI的最佳路徑,通用機器人需要有硬件多樣性和軟件通用性。你如何看人形機器人的形態?
王興興:我并不堅持必須要做人形機器人。我們之前是做四足機器人的,從四足機器人到做人形機器人是順理成章的事。
這是因為現在的AI大部分是基于人的數據采集和訓練,尤其是機器人的上半身保持與人類動作一致,便于AI數據采集和訓練。
此外,就跳舞、格斗等任務而言,如果機器人做成別的樣子,也就沒辦法執行這些任務。
未來在AGI、通用AI出現后,會出現千奇百怪的機器人形態,工廠、醫療等領域出現的機器人形態會是現在的百倍不止。
不過,目前的AI都是數據驅動的,長的像人的人形機器人在訓練和落地過程中會有很大優勢。
熊友軍:具身智能載體多樣,不一定局限于人形,人形只是其中一種形態,但從未來市場容量開看,我認為人形機器人是具身智能的最佳載體,具體可以從以下幾個方面來考慮:
首先,今天機器人不一定像人,但從市場應用來看,商用服務和家庭市場會是一個很大的市場,今天走入工廠只是“開胃小菜”,人形機器人市場體量未來會很大。
其次,人形機器人便于人機交互,未來機器人走入家庭成為我們的伙伴、朋友,人形更容易讓人接受。
最后,人類環境是為人而設計的,人形機器人在部署和適應環境過程中,更便于使用工具,也不需要過多環境改造。
雖然短期來看,人形機器人成本和技術不占優勢,但長期來看,人形將會是最佳形態。
必一運動
問:VLA已經成為自動駕駛的主流方案,但機器人操作空間更復雜,如何看VLA的泛化性?
王鶴:自動駕駛驗證了端到端方案有更好的擴展性,能夠通過數據驅動模型而非規則驅動,現在進入道路的自動駕駛車輛采用的就是這種端到端方法。
VLA的意義在于可以直接通過視覺觀察,通過自然語言下達命令,最終模型會不經過任何中間環節、端到端的輸出動作。
從端到端角度來看,VLA模型可以充分吸收數據背后的知識并發揮出最大性能,不用受制于模塊化方案中間的錯誤和即連誤差,也不需要寫無窮無盡規則兜底的問題。
有人希望可以將人類能夠做的所有事在VLA中快速實現,然后形成基座模型,從這個角度來講,我們還是太著急了。
人類除了有視覺外,還有力覺、觸覺、嗅覺、味覺等,VLA只是起點,要想真正做到人類級別的具身智能,需要不斷融合新的模態。
VLA現在最適合做的是移動、抓取、放置,這幾個技能是以視覺為主,末端加一個觸覺或力覺傳感器就能執行的很好,在工業、商業領域的很多場景可以得到廣泛應用。
如果我們能將這樣的VLA先做好,在任何場景中不需要微調就能實現部署落地,這將會是見證具身智能高潮到來的起點。
盧策吾:VLA的本質是:通過視覺理解世界,通過語言與人類溝通,通過動作改變世界。
VLA要做到通用,就需要壓縮它的不確定性,VLA相當于是個“火鍋底料”,現在只能“清湯寡水”,只能服務一部分人,要服務更多人的話,就需要不斷往里面加“東西”,需要不斷加入額外的信息,使得它能執行更多任務。
例如,我們可以加入力反饋,很多時候人的下意識動作是不用動腦的,人擦桌子的時候不用每毫秒計算,有了力反饋后穩定性和魯棒性會很高。
此外,我們如果能夠更好地理解物理世界,就可以進一步壓縮空間,所以我們在穹徹V2版本大腦里加入了“數字基因”——可以將世界產生的無窮無盡的數據資產加入其中,力反饋也帶來了新的訓練模型,使得數據量需求逐漸下降。
只要找到好的模態不斷壓縮空間,找到聰明的方式融到模型中,就可以將VLA一步一步往前推進。
Karol:目前最大的瓶頸是成功率不足,尤其在復雜、長時序、靈巧任務中。即使有無限數據,現有算法也難以達到100%成功率,需新算法再突破。
幾個月前我認為泛化性是瓶頸,但π 0.5顯示泛化可通過數據改善,而性能更需算法創新。