在北京亦莊舉辦的「人形機器人半程馬拉松」活動引發(fā)熱議,展示了機器人在賽事中的耐力和穩(wěn)定性。
2.推行科技創(chuàng)始人兼CEO盧鷹翔表示,更復雜、更智能的具身智能機器人需要建立在上一代具身智能完成商業(yè)閉環(huán)和真實世界數(shù)據(jù)閉環(huán)的基礎上。
3.為此,推行科技打造了「騎手影子系統(tǒng)」,構建了覆蓋多種任務類型與環(huán)境變數(shù)的高密度人類行為數(shù)據(jù)集,提升了機器人在開放物理世界中的泛化能力與可靠性。
4.除此之外,推行科技還完成了近10萬單配送,證明了其機器人技術的快速迭代和商業(yè)化落地能力。
5.目前,推行科技已與國內(nèi)三家頭部全國性即時配送平臺達成業(yè)務合作,計劃進軍海外,為全球用戶提供服務。
前段時間,在北京亦莊舉辦的「人形機器人半程馬拉松」活動引發(fā)全民熱議。有人對機器人在賽事中展現(xiàn)出的耐力和穩(wěn)定性表示贊賞;當然,也有人因機器人頻繁摔倒、出狀況而感到失望,畢竟,這和短視頻里那些跳舞、跑酷、側空翻的機器人形成了巨大反差。
比賽跑成這樣,是不是說明近幾年圍繞機器人、具身智能的熱議是一場炒作?答案肯定不是簡單的「是」或「否」。
但除此之外,還有一個問題更加值得討論:如何打造一個真正可以走入現(xiàn)實世界的機器人?
「更復雜、更智能的具身智能機器人需要建立在上一代具身智能完成商業(yè)閉環(huán)和真實世界數(shù)據(jù)閉環(huán)的基礎上。」這是我們從具身智能從業(yè)者 、推行科技創(chuàng)始人兼 CEO 盧鷹翔口中得到的觀點。而他所做的工作,就是打造這樣一個商業(yè)和數(shù)據(jù)閉環(huán)。
如果你在蘇州、深圳、上海等地點過機器人送的外賣,那你可能見過推行科技的機器人。它們和行人、自行車、電動車一起穿行、過馬路,還會自己進小區(qū)、坐電梯,把外賣、商品送到用戶手里。
推行科技的第二代移動操作機器人Carri Flex,增加了靈活的上肢操作能力。
重要的是,這是一個商業(yè)化程度非常高的機器人。在實際運營過程中,它們會和人類騎手一起在商家門口等待接單,履約率考核標準也和騎手一致。由于履約率非常高(已達 98.5%),在一些高價值場景中,它們拿到的報酬已經(jīng)可以覆蓋自身的成本,做到了單個機器人盈虧平衡。
從容錯性高、技術可及的場景入手,在具身智能發(fā)展早期就把機器人大量投入現(xiàn)實世界,實現(xiàn)商業(yè)化運營,并基于機器人的實際商用構建數(shù)量和豐富度逐漸進階的數(shù)據(jù)飛輪,這就是盧鷹翔所說的「上一代具身智能的商業(yè)和數(shù)據(jù)閉環(huán)」。以此為基礎,推行科技將逐步打造更復雜、更智能的具身智能機器人,并將它們投入更多場景。
那么,這個商業(yè)加數(shù)據(jù)閉環(huán)是怎么實現(xiàn)的,具體如何推進?我們和盧鷹翔以及推行科技另一位聯(lián)創(chuàng)、CTO 龍禹含進行了多次溝通,旨在揭秘一條現(xiàn)階段可行且后續(xù)可持續(xù)的具身智能發(fā)展路徑。
在今年的 GTC 大會上,英偉達高級研究科學家 Jim Fan 提到了具身智能的「數(shù)據(jù)金字塔」概念。
金字塔的塔尖代表的是真機數(shù)據(jù)。這部分數(shù)據(jù)非常重要,包括 Jim Fan 導師李飛飛在內(nèi)的很多人都相信,機器人的智能水平也像生物進化一樣,需要在不斷與真實物理世界產(chǎn)生互動、適應更復雜的環(huán)境的過程中逐漸進化。當然,這部分數(shù)據(jù)也非常稀缺,需要通過機器人的大規(guī)模部署來實現(xiàn)。
也有一些公司建立了自己的「數(shù)據(jù)工廠」,讓機器人在人工搭建的場景中與數(shù)據(jù)采集師協(xié)同作業(yè),逐條積累數(shù)據(jù)。但這種方式不僅成本高昂,而且人工搭建的場景在豐富度上天然存在局限性,這種局限性不可避免地會對機器人在真實世界中的泛化能力產(chǎn)生負面影響。
不過,除了真機數(shù)據(jù),合成 / 仿真數(shù)據(jù)和互聯(lián)網(wǎng)級的通識數(shù)據(jù)也是通用泛化具身模型訓練所必須的。從 ChatGPT 走紅至今,這兩類數(shù)據(jù)的價值已經(jīng)被充分認可,尤其是在語言模型的演進過程中,互聯(lián)網(wǎng)通識數(shù)據(jù)的有效利用已成為提升模型能力的核心基礎。
必一運動官網(wǎng)
但在具身智能領域,互聯(lián)網(wǎng)級的通識數(shù)據(jù)仍處于真空狀態(tài)。填補這一空白,是推動機器人能力穩(wěn)定泛化至真實復雜場景的關鍵前提,也是邁向通用智能高階能力的必經(jīng)之路。針對這一行業(yè)痛點,推行科技自研了「騎手影子系統(tǒng)」,構建了覆蓋多種任務類型與環(huán)境變數(shù)的高密度人類行為數(shù)據(jù)集,從根本上提升了機器人在開放物理世界中的泛化能力與可靠性。相較仍困于數(shù)據(jù)瓶頸的行業(yè)現(xiàn)狀,推行科技已率先完成通識級數(shù)據(jù)體系的構建與驗證,形成顯著的技術競爭力。
ChatGPT 能夠通過學習海量人類對話數(shù)據(jù),掌握語言的規(guī)律和模式,從而實現(xiàn)自然流暢的對話。特斯拉 FSD 則通過分析和篩選人類駕駛數(shù)據(jù),擇優(yōu)學習駕駛決策和操作,進而實現(xiàn)自動駕駛。同樣地,物流機器人也可以借助人類騎手的騎行和操作數(shù)據(jù),學習自主應對各類交通環(huán)境、取放各種包裝袋等技能,從而實現(xiàn)高效送外賣,這便是推行科技所打造的「騎手影子系統(tǒng)」的工作原理。
在之前的采訪文章(參見《跟騎手學習送外賣,這家具身智能公司的機器人已經(jīng)上崗掙錢了》)中,我們詳細介紹過這個系統(tǒng) —— 它主要通過安裝在外賣騎手電瓶車上的車載硬件采集三種關鍵數(shù)據(jù):環(huán)境數(shù)據(jù)(攝像頭采集的路況、障礙物等視覺信息)、定位數(shù)據(jù)(通過 RTK 技術采集)以及駕駛數(shù)據(jù)(騎手在特定情況下的操作,如踩油門、剎車或轉向)。系統(tǒng)獲取這些數(shù)據(jù)后,通過模仿學習和強化學習算法讓機器人學習人類騎手的行為,從而使機器人能夠在復雜多變的城市環(huán)境中自主導航。這是「騎手影子系統(tǒng)」的 1.0 版本。
如今,這個系統(tǒng)已經(jīng)進化成了「2.0」。除了電瓶車,它還可以將騎手的頭盔、外套轉化為動捕設備,記錄人類騎手如何開關門、拿放外賣以及其他更復雜的操作軌跡,從而為加上「上肢」的機器人積累操作行為數(shù)據(jù)。
這種數(shù)據(jù)采集方式最顯著的優(yōu)勢在于「量大管飽」:中國騎手平均每人每天跑 100-200 公里,一個普通超市前置倉的 15-20 個騎手一個月就能產(chǎn)生超過 10 萬公里數(shù)據(jù),一年可達近 200 萬公里。所以,依靠這一模式,推行科技平均每日即可采集數(shù)萬公里的騎行行為數(shù)據(jù)用于具身模型訓練,在短短兩三年的時間內(nèi)就積累了數(shù)千萬公里的行駛數(shù)據(jù),數(shù)量級相當于國內(nèi)頭部自動駕駛公司的歷史路測數(shù)據(jù)積累總和。
在推行科技 2024 年開始部署包含上肢數(shù)據(jù)采集設備的「騎手影子系統(tǒng)」2.0 版本以來,不到一年時間積累的上肢軌跡數(shù)據(jù)也達到了近百萬條,采集效率和成本效率遠超其它方式。此外,推行科技所采集的數(shù)據(jù)在場景類型、任務結構、操作目標等方面與機器人實際訓練需求高度一致,具備強目標導向性與時空連續(xù)性,優(yōu)于互聯(lián)網(wǎng)視頻等數(shù)據(jù)源中常見的碎片化、弱結構化內(nèi)容,這些與機器人實際訓練目標高度匹配的數(shù)據(jù)能更有效地驅動模仿學習與強化學習過程。
通過這種創(chuàng)新的數(shù)據(jù)采集方式,推行科技有效地解決了具身智能領域普遍面臨的「數(shù)據(jù)魔咒」問題,為其機器人技術的快速迭代和商業(yè)化落地提供了可靠的原材料保障。
騎手的行為數(shù)據(jù)蘊含著豐富的信息,推行科技的數(shù)據(jù)閉環(huán)平臺可以對騎手的動作行為進行自動分解及標注。龍禹含提到,推行科技通過對海量騎手配送過程中的上肢行為數(shù)據(jù)的深入分析發(fā)現(xiàn),看似復雜多變的騎手遞送任務,實際上都由三個核心原子任務排列組合而成 ——按按鈕、推拉門以及拿放貨,就像是顏色里的「三原色」。值得注意的是,這三個原子任務通常僅需騎手使用右手進行單臂操作即可完成。
基于這一發(fā)現(xiàn),推行科技成功定義了具備單臂操作能力的 Carri Flex 機器人,首次將具備上肢操作能力的機器人產(chǎn)品成功部署于真實開放的物理世界。在此基礎上,推行科技進一步對機器人在真實場景中的服務數(shù)據(jù)進行收集,以訓練可支持雙臂協(xié)同等更為復雜任務且可靠性能達到商用標準的具身模型。
能將機器人部署于真實服務場景的關鍵是他們構造的行為樹 VLA(Vision-Language-Action)模型。和很多 VLA 模型一樣,這個模型使用 VLM 結合實時感知信息和當前任務來生成具體原子任務,而后通過一個行動模型將原子任務轉化成機器人的關節(jié)軌跡。
和傳統(tǒng) VLA 結構不同的是,行為樹 VLA 使用 LLM 進行高層任務規(guī)劃,可將高級指令(如,前往某店取單)轉化為一個行為樹結構。行為樹將根據(jù)當前任務狀態(tài)向 VLA 模型發(fā)布子任務(如,行進至某店,開門,于柜臺上取貨等)。行為樹將接收 VLM 任務狀態(tài)解碼器通過回環(huán)反饋邏輯輸出的任務狀態(tài)信息,從而改變行為樹當前所處的子任務分支。
這個反饋使得 LLM 能夠了解到任務的實際執(zhí)行情況。如果遇到問題或者環(huán)境發(fā)生變化,LLM 可以基于這個反饋調(diào)整或重新生成行為樹,從而解決 VLA 模型在追求局部最優(yōu)的過程中忽略了具體任務可行性的問題,使得模型在泛化場景中保持對齊,提高了整個系統(tǒng)的適應性和可靠性。
以 Carri Flex 機器人為例,其典型任務之一是在電梯間的外賣桌上放置外賣袋。然而,當桌面已被其他外賣占滿這一特殊情況發(fā)生時,如果模型未經(jīng)過類似場景的專門訓練,基于模仿學習的 VLA 模型可能因為出現(xiàn)分布外(Out-of- Distribution,OOD)場景而產(chǎn)生行為退化現(xiàn)象,進而可能陷入無法恢復的執(zhí)行失敗,這在真實商業(yè)應用中是不可接受的。而在客戶實際需求中,理想應對方式通常涉及任務層級的反饋機制與策略調(diào)整,例如將外賣轉移至附近空曠區(qū)域,或通過電話通知收件人等。
推行科技針對這一類現(xiàn)實問題,在模型中構建了多層級反饋機制,使機器人能夠在不確定環(huán)境中做出更符合人類預期的靈活應對,確保任務的穩(wěn)定交付與用戶體驗的一致性。
廉價、量大、質(zhì)優(yōu)的數(shù)據(jù)獲取方式和可靠的模型為推行科技實現(xiàn)一條可落地、可持續(xù)的具身智能發(fā)展路徑提供了可靠基礎。目前,他們已經(jīng)和國內(nèi)三家頭部全國性即時配送平臺同時達成業(yè)務合作,完成了近 10 萬單配送。
而且,由于數(shù)據(jù)是從復雜、多元的人類活動場景中采集而來,推行科技訓練得到的模型具有較強的泛化能力,可以實現(xiàn)「?腦多形」和「?腦多棲」的部署。「?腦多形」指的是他們的模型不僅可以在自己的機器人身上部署,還可以泛化到四足機器狗平臺和傳統(tǒng)阿克曼底盤。「?腦多棲」指的是除了陸地環(huán)境,他們的模型還可以直接在靜水船只上發(fā)揮作用(不需要為水面訓練投入額外數(shù)據(jù)采集和調(diào)試成本),從而拿到了漁業(yè)養(yǎng)殖場景超百臺訂單(用于自動灑藥及投料)。
之所以能夠取得這些成果,除了路線的選擇,推行科技的人才儲備也發(fā)揮了重要作用。推行科技團隊曾于卡內(nèi)基梅隆大學國家機器人工程中心負責研發(fā) CHIMP 人形救援機器人,并獲美國國防高級研究計劃局 DARPA 機器人挑戰(zhàn)賽全球第二名。他們的機器人是當時將 8 個比賽任務全部完成并獲得 8 分滿分的三個機器人作品之一,也是唯一一個在失誤摔倒后,沒有借助人力自行恢復站立,繼續(xù)完成任務的。
除此之外,團隊還曾負責研發(fā)全球第二型獲批美國加州 OL318 「全無人」牌照的 L4 級自動駕駛乘用車,這一背景為團隊提供了搭建「騎手影子系統(tǒng)」的技術靈感和工程基礎。
可以說,推行科技所選的具身智能路線,以及當前已經(jīng)研發(fā)出的 Carri Flex 等機器人,在多年前就已經(jīng)埋下了種子。
在海外,也有一些機器人公司在做和推行科技類似的事情,比如 Hinton 擔任顧問的 Vayu Robotics。他們所在的市場有著誘人的前景,人力成本、遞送費用高達國內(nèi)的五到十倍,存在巨大的運力缺口。不過,盧鷹翔提到,和這些公司相比,推行科技的「國情優(yōu)勢」更加明顯,因為我國有著龐大的騎手隊伍和更復雜的城市末端環(huán)境,能夠以更高的效率訓練出強泛化能力的機器人。在綜合考慮這些因素后,推行科技打算進軍海外,為全球用戶提供服務。
和機器人馬拉松一樣,具身智能的發(fā)展注定是一場持續(xù)多年的長跑。雖然在養(yǎng)老、家政等備受關注的場景中,機器人表現(xiàn)尚未達到預期,但在城市角落里,配送機器人已默默完成了數(shù)萬單真實訂單。推行科技的故事告訴我們,不必追求一步登天的技術突破,而是先在真實環(huán)境中找到商業(yè)閉環(huán),再以此為基礎逐步迭代。這種務實的進化路徑,或許才是具身智能走向未來的最短捷徑。