無論是斯坦福Mobile ALOHA、DeepMind機(jī)器人技術(shù)三大進(jìn)展,還是Figure 01機(jī)器人,都相繼引爆社交媒體,將“機(jī)器人”在網(wǎng)絡(luò)上的曝光度和討論聲量推上新高度。
只見機(jī)器人,一手鍋一手鏟,將去骨雞腿肉煎至兩面金黃,再加入干貝增香調(diào)味,并燜煮收汁,最后靈魂蔥花一撒,一道誘人的干貝燒雞就做好啦?。ㄊ裁磿r(shí)候才能擁有能聞到味的手機(jī),在線等挺饞的)
必一運(yùn)動(dòng)官網(wǎng)
它不僅能炒菜,還能“收拾戰(zhàn)場”,洗鍋擦桌、整理櫥柜全都得心應(yīng)手,并且業(yè)務(wù)范圍也不困于廚房的三寸之地,目光所及之處“全是活”。
一時(shí)間,不少網(wǎng)友為之驚艷,表示“眼里有活的機(jī)器人終于來了!”(讓家長看見,不僅比不過叉燒,這回連機(jī)器人也比不過了)
研究論文中表示,Mobile ALOHA是一個(gè)低成本的移動(dòng)操作平臺,由移動(dòng)基座、雙手操作系統(tǒng)、傳感器和攝像頭組成,可以搜集機(jī)器人運(yùn)動(dòng)控制數(shù)據(jù)并加以訓(xùn)練。
研究團(tuán)隊(duì)發(fā)現(xiàn),通過監(jiān)督學(xué)習(xí)方法,Mobile ALOHA在觀看人類示范同一個(gè)任務(wù)50次后,,就可以在復(fù)雜環(huán)境中學(xué)會移動(dòng)操控任務(wù),完成如叫電梯、開柜門等操作,成功率可高達(dá)90%。
Mobile ALOHA采用全模塊化和開源設(shè)計(jì),整體硬件成本只有32000美元(約合人民幣22萬元),其中移動(dòng)平臺成本只有7000美元,并配備14kg的電池供電,使機(jī)器人可以自主移動(dòng);而在“大腦”方面,英特爾RTX3070Ti芯片就足以支撐其運(yùn)算。這相比許多專業(yè)機(jī)器人平臺具有顯著的價(jià)格優(yōu)勢,研究門檻大幅降低。
在視頻爆火后,研究團(tuán)隊(duì)“自行打臉”,放出“翻車”視頻,澄清Mobile ALOHA并非全知全能,目前還有很多能力需要人類遠(yuǎn)程操控,視頻中的很多“極限操作“也是采用混合模式。
在Zhao放出失敗集錦后,在鼓勵(lì)大家關(guān)注原論文的同時(shí)也表示:“這可能是我迄今為止最喜歡的視頻”,也有網(wǎng)友表示認(rèn)同:“還怪可愛的!”(暫時(shí)不用擔(dān)心被取代啦)
Mobile ALOHA視頻一出,確實(shí)給了不少人震撼,讓人感慨機(jī)器人的自動(dòng)化已經(jīng)發(fā)展到如此精細(xì)的程度,但它的“混動(dòng)”其實(shí)也在意料之中。
一是依照現(xiàn)有技術(shù),想讓機(jī)器人完成如此復(fù)雜的完全自主運(yùn)作,還需時(shí)日;而是主創(chuàng)團(tuán)隊(duì)也壓根沒想瞞的,只要細(xì)心一點(diǎn)就能發(fā)現(xiàn),在不少鏡頭都出現(xiàn)了人工操控的身影,視頻結(jié)尾也有出現(xiàn)機(jī)器人駕駛員的說明。
但很明顯絕大多數(shù)人都被機(jī)器人前面的炫技吸引,沒有將目光落到最后的細(xì)節(jié),更不會去看項(xiàng)目網(wǎng)站和原論文。
英偉達(dá)科學(xué)家Jim Fan也在平臺發(fā)文:我們距離擁有完全自主的機(jī)器人廚師或女仆還很遙遠(yuǎn),但我對這項(xiàng)新研究依然感到振奮!
在Mobile ALOHA發(fā)布同日,DeepMind從數(shù)據(jù)采集、決策速度、泛化能力方面,祭出三大研究進(jìn)展“隔空對打”。
撿水果、從抽屜拿出可樂、擺牙刷……讓機(jī)器人達(dá)成這些操作的是一個(gè)自動(dòng)化數(shù)據(jù)收集系統(tǒng)AutoRT,以及加速?zèng)Q策速度的新模型SARA-RT。
研究人員花費(fèi)7個(gè)月時(shí)間,利用AutoRT系統(tǒng)控制機(jī)器人完成任務(wù),已經(jīng)收集了涵蓋7000次試驗(yàn)和6650個(gè)獨(dú)特任務(wù)的多樣化數(shù)據(jù),可同時(shí)控制最多52臺機(jī)器人,讓機(jī)器人操作速度提高14%、準(zhǔn)確度上升10.6%。
此外,還有一個(gè)主打泛化能力的新框架RT-Trajectory,通過解釋機(jī)器人的具體動(dòng)作,來幫助其深入理解如何完成一個(gè)任務(wù),而不僅是簡單匹配指令和動(dòng)作,能讓機(jī)器人面對41項(xiàng)從未見過的任務(wù)時(shí),成功率高達(dá)63%。
在推出一系列重要系統(tǒng)進(jìn)展的同時(shí),谷歌DeepMind團(tuán)隊(duì)還起草了世界上第一部面向智能機(jī)器人的憲法。
其靈感來源于科幻小說家阿西莫夫的“機(jī)器人三定律”,主要核心是確保機(jī)器人不傷害人類。DeepMind為LLM模型設(shè)置了護(hù)欄,確保其生成的任務(wù)建議不涉及人類、動(dòng)物、尖銳物品等不安全內(nèi)容,同時(shí)編程限制機(jī)器人關(guān)節(jié),并添加控制的物理開關(guān)。
之前圍繞著AI倫理的討論多集中在算法本身是否存在偏見等問題上,很少涉及AI尤其是具有物理形態(tài)的智能機(jī)器人應(yīng)該遵循哪些道德規(guī)范。
首部機(jī)器人憲法體現(xiàn)了技術(shù)應(yīng)該為人類服務(wù)的理念,而非單純追求功能、效率。雖然作為第一步的嘗試,這部機(jī)器人憲法還較為簡單和原則,如何使其擁有更嚴(yán)密的邏輯體系,如何覆蓋各種情形和倫理,還需要廣泛討論和不斷完善。
但人類文明進(jìn)步史,是一個(gè)不斷學(xué)習(xí)、探索、犯錯(cuò)、修正的過程,當(dāng)我們站在技術(shù)發(fā)展的新階段,既然已經(jīng)邁出第一步,其影響力就絕不會限于技術(shù)層面。
號稱要做世界上第一臺商業(yè)上可行的通用機(jī)器人的Figure,在去年先后完成共計(jì)7900萬美元的融資(約合人民幣566萬元),股東陣容更是包括英偉達(dá)等明星企業(yè)。
繼去年10月的初亮相后,F(xiàn)igure 01這次不“蹣跚踱步”了,而是煮起了咖啡!
Figure 01配備了端到端的AI系統(tǒng),主要觀看10小時(shí)人類煮咖啡的視頻,就能完全自主地完成打開機(jī)蓋、放入咖啡、按下沖泡按鈕等步驟,中途遇到問題還會自我調(diào)試優(yōu)化。
公司創(chuàng)始人表示視頻速度沒有經(jīng)過任何加速,那這么看來Figure 01的操作速度和流暢程度還是十分可觀的,甚至可以說令人驚喜。
若之后具備了強(qiáng)大的泛化能力,F(xiàn)igure 01能通過視頻演示實(shí)現(xiàn)快速遷移學(xué)習(xí),讓機(jī)器人擺脫傳統(tǒng)的編程模式,轉(zhuǎn)向大數(shù)據(jù)和AI實(shí)現(xiàn)自主控制,極大優(yōu)化人機(jī)交互。
伴隨著AI技術(shù)熱度的持續(xù)升騰,人形機(jī)器人和通用機(jī)器人成為行業(yè)新風(fēng)口,不僅眾多高玩下場入局,國家也出臺政策強(qiáng)勢撐腰,儼然已成為機(jī)圈的新一代“流量王”。
據(jù)高盛預(yù)測,未來10至15年,機(jī)器人市場空間至少達(dá)60億美元,而在最理想情況下,預(yù)計(jì)2035年機(jī)器人市場空間有望達(dá)1540億美元。
然即便潛力在前,也奮力狂追,但憑現(xiàn)今的技術(shù)與市場,機(jī)器人離“走進(jìn)千家萬戶”的目標(biāo)差得不止一兩步。
但Mobile ALOHA、DeepMind和Figure的最新成果,也為機(jī)器人行業(yè)提振了不少信心,讓“機(jī)器人元年”也顯得更加未來可期了一點(diǎn)。當(dāng)這些先進(jìn)技術(shù),真正從實(shí)驗(yàn)室落到實(shí)地,融入生活,或許我們才將迎來真正的“機(jī)器人元年”。