“機器人跑步、跳舞、搏擊等更傾向于炫技,給大家展示的是機器人的硬件、運動控制和算法等。從技術角度看,這都是泛運動控制類的技術,而產業落地屬于具身操作領域,要創造生產力價值。”智元機器人合伙人、具身業務部總裁、
2023年2月,智元機器人剛成立就成了資本最炙手可熱的追逐對象。今年3月,智元完成了騰訊領投的B輪融資,估值飆升至超150億人民幣。近期智元又完成新一輪融資,投資方包括京東及上海具身智能基金。
資本青睞智元機器人的原因主要有二。一是其創始團隊自帶光環,CTO彭志輝(稚暉君)是前華為“天才少年”和科技達人,有技術創新能力和行業影響力;CEO鄧泰華曾任華為公司副總裁、計算產品線總裁,有著深厚的產業背景。二是智元是為數不多在本體、小腦和大腦全棧布局、且偏重產業落地的人形機器人公司。
2024年被智元定義為量產元年,實現了1000臺的人形機器人的量產。2025年則將是智元人形機器人商用元年。
在姚卯青看來,要實現具身智能的產業化落地,關鍵在于解決操控難題。而操控目前最大的瓶頸不是算法,而是獲取真實用戶場景下的泛化數據。他指出:“真機數據采集存在‘雞生蛋’的問題——沒有足夠的數據難以優化模型,而缺乏優化的模型又難以激勵客戶提供數據。”
以下為姚卯青對具身智能產業落地難點、數據采集困境、靈巧手量產挑戰、人形機器人“進家”與“進廠”瓶頸等問題的觀點,在不改變原意的基礎上有所刪減:
姚卯青:具身智能產業化落地更多的是指能創造生產力,或者在為替代人力服務。人形機器人跑步、跳舞等是為給大家展示機器人的硬件、運動控制和算法等。但從技術角度看,這都是泛運動控制類的技術,而產業落地屬于具身操作領域。
從技術來看,在2020年,機器人的運動控制已經被解決,具身操作目前還在探索過程中,兩者難度至少差了兩個數量級。
姚卯青:運動控制通常在有限的速度和空間范圍內進行,不涉及到與其他物體的直接互動,例如走路時并不會改變周圍物體的狀態。此外,這類動作(如走路、跑步)因為具有較高的規律性和可預測性,所以比較容易通過技術手段實現精確控制和優化。
必一運動官網
具身操作就不一樣了,要和物理世界去交互,而且物理世界有各種材質和物理特性,具身都要先理解。而且操作本身有千種技能,不僅是抓、拿、放、撕東西。跑步、跳舞、搏擊等傾向于炫技,和創造生產力價值不是一個概念。
智元比較看重操作這一塊,今年已經在做一些POC(概念驗證)的項目,在可控的環境里做重復性勞動。
姚卯青:智元機器人個別任務已經具備了端到端的操作能力,但還沒有覆蓋全部技能。從智力水平來看,目前的系統大概相當于大語言模型從GPT-1到GPT-2之間的階段,類似“咿呀學語”的狀態,能表達一些簡單的指令和反應,但理解和執行的準確性還有待提升。
問:在智力水平方面,能把智元推出的通用具身基座模型(GO-1)理解為機器人的大腦嗎?
姚卯青:在G3這個階段,GO-1一部分是大腦,一部分是小腦。現在具身智能的這些VLA模型(視覺-語言-動作),屬于小腦的部分,來執行某一個明確的動作。我們定義的大腦,是給它一個指令,它能規劃出來,然后拆解成小腦可以做的一個個動作。
問:在小腦方面,行業普遍在豐富步態庫,比如用強化的學習去做一些自適應的控制,智元在小腦方面有哪些突破?
姚卯青:具身智能的小腦方面,已經很成熟了,主要做工程的落地,比如調雜耍的動作、編排一些舞蹈。我們更多的研發聚焦在操作類的大小腦,比如端到端具身VR操作模型、大腦推理規劃模型,關鍵點還是真實場景的數據。
姚卯青:頸部的復雜度其實沒有那么高,真正難的是手。因為未來通用型機器人要像人一樣完成各種任務,手的靈活性至關重要。目前整個行業在靈巧手方面還沒有實現真正意義上的量產,技術成熟度和規模化生產仍在推進當中。
姚卯青:手雖然體積很小,卻占據了全身大部分的自由度。一條手臂大約有7個自由度,腰部大約3個自由度,每條腿約6個自由度。然而,僅僅一只手就可能擁有20多個自由度,所以,靈巧手在實現精細動作方面所需的靈活性和復雜性遠高于身體其他部位。人類區別于動物的核心價值,在于有一雙靈巧的雙手。
姚卯青:在個別的場景下,我們通過模仿學習、強化學習等已經能做到操控。比如在制造工業,其本身對泛化性要求不高,比如把一個零部件從一個位置搬到另一個位置。但如果要智能泛化到更多動作,比如機器人要在商店里完成上貨、掃碼等操控就需要海量數據來驅動。目前算法不是最大的瓶頸,最大的瓶頸是,獲取真實用戶場景下的泛化數據。
姚卯青:為了在實際作業環境和流程中收集數以千萬甚至上億條的數據,需要將這些場景開放出來,但這存在一定難度。由于商業邏輯的限制,客戶既沒有義務也沒有動力去開放其使用場景供數據采集。因此,這里存在一種“雞生蛋”的問題:沒有足夠的數據難以優化模型,而缺乏優化的模型又難以激勵客戶提供數據。
但在國外,這種機會比較多,因為國外用人難且貴,他們愿意嘗試用機器人替代人這件事。
姚卯青:我們現在走的路線是一條技術上被論證過的路線。要實現Scaling Law(規模擴展規律),必須依賴海量且多樣化的數據進行預訓練,從而獲得強大的表征學習能力。在此基礎上,再結合具體行業和場景的數據進一步訓練,才能構建出真正有泛化能力的模型。
舉個例子,做大語言模型不能只靠單一場景的數據就想實現通用人工智能。比如在客服領域,如果我們先用整個互聯網的多樣化數據訓練一個通用模型,然后再針對客服任務做微調,效果會遠遠優于直接使用少量客服數據訓練出來的小模型。
姚卯青:國內采集真實數據的成本比海外低一些,但要采集上億數據,還是一筆很大的投入。
姚卯青:智元在上海張江有自己的數據采集工廠,在外地也有一些合作的數據生成中心。今年有幾百臺機器人可以采集數據。每條數據的成本涉及商業秘密,不方便說。我們一臺機器人一天(白班)能采集約500多條數據。
姚卯青:我們在行業里已經算比較高效了,做個對比,我們采集百萬數據集花了兩個月,谷歌采集了10萬條數據,花了兩年。
姚卯青:我們的整個數據采集體系運營效率高,機器人全天候滿負荷運行采數據;其次我們整個數據有效性高,我們采集的數據百分之八九十都是有效的。
姚卯青:很難簡單的換算,仿線億條也達不到線萬條的效果,因為仿真數據存在明顯局限,沒有真實的物理環境支撐。仿真數據是利用一些生成式的技術,把視覺部分,比如在傳感器這個層面做的擬真。
但現有仿真技術的物理建模有局限性,特別是涉及復雜力學行為(如柔性物體、液體、摩擦力)的行為很難模仿。比如,摩擦力是一種弱相互作用力,柔性物體本來就是一個混沌系統,沒有解析解,不可能去用一種有限元方法去逼近。
姚卯青:不是特別難的任務,大約10條數據就能泛化性的理解一個動作的本質。
問:輪式機器人在工業場景,比如巡檢和搬運中已經開始落地應用。在家庭場景,你曾預判機器人線年,為什么?
姚卯青:在算法層面,行業需要找到一條清晰的具身智能技術路徑,包括穩定的算法框架和基于大量多樣化數據的Scaling Law(規模擴展規律);在硬件方面,則要實現量產的穩定性,探索出最適合家庭場景的形態與自由度組合,并開發出可靠的末端執行器。比如靈巧手,無論是三指還是五指,都是軟硬件協同演進的過程。
之所以判斷5年后具身智能可以進入家庭場景,是基于對大語言模型發展走勢的判斷。2020年,GPT2.0時代,沒人會想到GPT-3.5和GPT-4會發展這么快就到來了。我個人判5年后具身智能的模型能達到現在大語言模型的高度。
姚卯青:是的,因為具身智能的數據量遠遠不足。大語言模型有整個互聯網現成的10萬億token放在那里。此外,很多大模型公司開始挖互聯網以外的數據,將各種文檔、PDF、圖書和習題集等電子化。比如,通義千問的token數約40萬億了,OpenAI的token數在50萬億至60萬億之間。現在具身智能的條數僅有可憐的100萬左右,差了好幾個量級。
姚卯青:具身智能和物理世界的交互多,對真機數據要求更高。同時,物理世界本身比語言世界更加復雜和多樣,這也增加了數據采集和處理的難度。
姚卯青:家庭場景對具身智能的智能泛化要求更高,因為每個家庭的環境和布局各不相同,而工業場景則相對固定,可以針對特定車間進行定向優化。在家庭環境中落地具身智能,不僅要適應各種不同的環境和物體,還需要能夠理解并執行多樣化的指令。比如,針對讓機器人去倒水這個動作,有些人說我口渴了,但有些人會說給我倒一杯水,指令層面都要泛化。
此外,當要求機器人倒水時,它需要準確理解這一指令并在不同家庭環境中找到并使用正確的工具完成任務。比如,有些家庭的水杯帶有杯蓋,有些則沒有,這就要求具身智能具備更高的靈活性和泛化能力。
問:現在互聯網大廠、新能源汽車公司、手機公司等都在入局具身智能。入局的門檻有多高?
姚卯青:具身智能入局門檻很高,不是家電、3C等廠商能全棧做的事情。他們內部開展對具身智能的研究,更多的是預研團隊跟蹤這個新技術,要場景落地就比較難了。
問:何小鵬說,人形機器人研發難度遠超AI汽車,500億僅是入場券,你怎么看?
姚卯青:智元聚焦商用場景落地,但會采取“沿途下蛋”推出中間態的產品,滿足一些商用場景,逐步向智能和場景泛化進化。整個行業實現盈虧平衡至少需要3年的時間,但在細分領域形成收入,今年已經可以做到了。
問:你在2024年加入智元機器人之前,在Waymo和蔚來做智能駕駛,什么契機讓你加入智元?
姚卯青:智能駕駛和具身智能有很多共通的地方,硬件等工程方面有很多可以復用的地方,比如底層都依賴多模態傳感器融合(如激光雷達/攝像頭)、實時決策系統(如ROS框架)、高精度運動控制(如電機伺服系統)等,但二者在算法和應用場景有很大的差異。
我加入智元機器人主要基于兩點。首先,無論是L2還是L4級別的智能駕駛,目前在感知技術領域,如視覺處理、激光雷達應用、融合算法以及靜態和動態環境下的算法創新等方面,行業已經相當成熟。在這些方面,我們已經有實際的項目落地并成功交付。
其次,從行業看,現在新能源企業領域已經相對紅海,且同質化;而具身智能處于藍海賽道,在智元機器人入局之前沒有太多玩家,行業場景空間廣闊。
從公司角度看,從2024年開始,具身智能已經很火了,我此前也接觸了不少機器人團隊和創業公司,還處于野蠻生長狀態。從公司愿景、規劃、人才團隊、融資能力,智元都比較成熟了。
姚卯青:我更看重創始團隊核心成員經驗互補。鄧泰華曾是華為無線產品線和計算產品線的執掌者;彭志輝是科技達人,有技術創新能力和行業影響力,此外,公司供應鏈、商業甚至是職能部門的負責人過往都有成功經驗。
姚卯青:遠征系列主做全尺寸機器人,高度一米七,有50多個自由度,可以進行一些簡單作業和交互;靈犀系列主要做半尺寸的人形機器人,高度一米三,具有自動運控、多模交互和具身操作的能力;精靈主要做輪式、有雙臂機器人產品。
姚卯青:目前看,大尺寸系列賣的更好,單價高,收入更多。今年以來,輪式雙臂機器人在科研場景已經賣了大幾百臺了。
問:智元機器人發布首款具身智能一站式開發平臺Genie Studio,為什么?
姚卯青:Genie Studio是針對具身開發的大模型開發和部署的軟件開發平臺,這個平臺早期是為了賦能我們的生態合作伙伴去用我們的機器人訓練一些場景能力,后期希望越來越多的普通開發者也來做開發和設計,我們作為一家機器人本體公司,不可能去開發和交付所有客戶項目,方便客戶和開發者把智元的硬件用起來的一個生態工具,相當于英偉達的CUDA。
姚卯青:人形未必是具身智能的終極形態。在當前階段,由于我們還不清楚最終的理想形態是什么,人形機器人被認為是比較安全和實用的選擇。這是因為人形機器人在外形上與人類相似,能夠適應大多數為人類設計的環境和任務,從而可以執行許多人類能做的工作和活動。然而,這并不意味著人形就是最終的方向,它只是目前一個較為合適的選擇。
但在工廠等具體操作場景中,輪式底盤相比雙足形態更有優勢:一是穩定性更強,不存在摔倒的風險;二是定位精度更高,可實現厘米級精準移動;三是運動速度更快,能夠更高效地完成任務;四是續航能力更強,底盤結構便于安裝大容量電池,從而支持長時間運行。因此,在特定應用場景中,輪式底盤比雙足設計更具實用性和適應性。
這最終都是市場決定的,找到合適的場景,才能去做極致的成本優化和功能優化,去做減掉那些不必要和不需要的一些東西。