最近看了記錄短片《斯坦福AI六十年》。從1962年到2022年,機(jī)器人或者具身智能的研究從第一天起就貫穿了人工智能的發(fā)展。2024年,這六十年中提出的大多數(shù)問題,從象棋,視覺,語音識(shí)別都獲得了解決——除了機(jī)器人。而如何創(chuàng)造通用機(jī)器人便是我日思夜想的問題。做科研自然是令人疲乏的,然而思考這個(gè)問題卻是令人興奮的。
2023年可謂是具身智能在中文圈被知曉的元年。這種爆紅是我不必再和每個(gè)VC解釋我們的究極理想并不是制造一個(gè)機(jī)械軀殼,而是未來能徹底解放人類勞動(dòng)力的“人”??v觀歷史,每一件新興事物的爆紅都伴隨著機(jī)遇和泡沫。作為麻省理工具身智能實(shí)驗(yàn)室的一名博士生學(xué)者,我希望通過這篇隨筆讓世界各地的從業(yè)者更好更理性地了解具身智能的機(jī)遇與挑戰(zhàn),為領(lǐng)域帶來可持續(xù)性的發(fā)展。
以ChatGPT為代表的大模型讓我們瞥見了未來的一隅。機(jī)器人大模型在過去一年里出現(xiàn)在了幾乎每一個(gè)機(jī)器人公司的PPT里。PaLM-E,RT1,RT2等論文也拋磚引玉式的向大家展現(xiàn)了可以讓大模型直接輸出控制信號(hào)這個(gè)愿景。那么大語言模型的思路會(huì)給我們帶通用機(jī)器人么?要解答這個(gè)問題,我愿意把“大模型”這個(gè)詞展開為“大模型與大數(shù)據(jù)”。
大語言模型不光需要十億級(jí)別的神經(jīng)網(wǎng)絡(luò)參數(shù),還需要在大量的網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。例如Llama3這樣的開源大語言模型光預(yù)訓(xùn)練就使用了15萬億個(gè)token。相比之下,機(jī)器人的數(shù)據(jù)采集就難得多。人們每天都在網(wǎng)絡(luò)上拍照片,發(fā)文字,自然而然地產(chǎn)生著這兩個(gè)模態(tài)的數(shù)據(jù)。你會(huì)拿著排隊(duì)買到的網(wǎng)紅奶茶拍照發(fā)朋友圈,但是永遠(yuǎn)不會(huì)在配字里寫上“我的大拇指關(guān)節(jié)分別轉(zhuǎn)動(dòng)了30度,20度,45度來抓住這杯奶茶”。我認(rèn)為只要有足夠多的高質(zhì)量機(jī)器人數(shù)據(jù),機(jī)器人大模型絕對(duì)能帶來接近通用的泛化性,但是機(jī)器人的動(dòng)作數(shù)據(jù)哪里來是一個(gè)不容樂觀的問題——這些直接輸出動(dòng)作模態(tài)的大模型的泛化性也因此非常有限。這個(gè)問題即便是在文字-圖像這樣較為成熟的多模態(tài)模型里仍然存在——我在Google Deepmind實(shí)習(xí)期間的論文SpatialVLM發(fā)現(xiàn)最好的多模態(tài)大模型都常常左右不分,因此可以推測(cè)目前很多有動(dòng)作模態(tài)輸出的“機(jī)器人大模型”之所以能操縱機(jī)械手正確地往左往右,很可能只是在有限的動(dòng)作數(shù)據(jù)上過擬合了而已,并不是魔法般地因?yàn)榻Y(jié)合了文字-圖像基礎(chǔ)模型而泛化。因此,問題的答案取決于我們能否在動(dòng)作模態(tài)的數(shù)據(jù)上達(dá)到GPT的量級(jí)。
好消息是工業(yè)界和學(xué)術(shù)界大家都在著手解決機(jī)器人數(shù)據(jù)缺乏的問題。我與很多學(xué)者愿意將其中的努力概括為兩個(gè)維度,靈巧性(dexterity) 與泛化性(generalization)。靈巧性主要反映在在單一場(chǎng)景和任務(wù)比較固定情況下能讓機(jī)器人做成多難的任務(wù),例如在同一張桌子上用同一臺(tái)卷筆刀削放在差不多同一個(gè)位置的同一支鉛筆。泛化性則研究讓機(jī)器人能去新的場(chǎng)景下執(zhí)行新的任務(wù),哪怕這些任務(wù)看起來很簡單很蠢,例如在任何房間的任何桌子上能用手把任何指定的鉛筆推到指定的地方。讓機(jī)器人兼具靈巧性與泛化性是具身智能的終極目標(biāo)。目前在靈巧性維度上最火的方向是模仿學(xué)習(xí)中的行為克隆——依靠人工采集關(guān)節(jié)動(dòng)作數(shù)據(jù),再用監(jiān)督學(xué)習(xí)的方法訓(xùn)練機(jī)器人。
在硬件層面,ALOHA式的關(guān)節(jié)到關(guān)節(jié)mapping,VR眼鏡的手部動(dòng)作捕捉,特斯拉的動(dòng)捕手套,RT-X數(shù)據(jù)集都是學(xué)術(shù)界和工業(yè)界進(jìn)行更高效數(shù)據(jù)采集的嘗試。這些方法中的大多數(shù)需要給每個(gè)數(shù)據(jù)采集員配一臺(tái)昂貴的機(jī)器人,但特斯拉擎天柱,figure AI到斯坦福炒蝦機(jī)器人已經(jīng)讓我們看到了行為克隆的潛力。行為克隆讓一些特別驚艷且泛化需求有限的任務(wù)能用簡單的算法完成。但與此同時(shí),因?yàn)槿斯げ杉瘎?dòng)作數(shù)據(jù)的效率低,所有demo中展現(xiàn)的泛化性都是極其有限的——如果把香蕉換成橙子并移動(dòng)個(gè)半米,換一張花紋不一樣的桌子,這些視頻里的機(jī)器人用他們發(fā)布時(shí)在有限數(shù)據(jù)上訓(xùn)練的模型就無能為力了,更不用提跨任務(wù)了。
當(dāng)然,你也可以收集多任務(wù)的數(shù)據(jù),例如香蕉和橙子的數(shù)據(jù)混起來,并采集很多不同初始位置的demo,但是除非你的任務(wù)數(shù)量多到大語言模型那種程度,剝香蕉和剝橙子上訓(xùn)練的動(dòng)作模型還是不能解決剝芒果的問題。很多通用人形機(jī)器人公司也采用了行為克隆作為切入點(diǎn),因?yàn)樗钊菀壮龊每吹囊曨l——沒人能把你視頻里的場(chǎng)景換成從沒見過的任務(wù)來測(cè)試你模型的泛化性。
公眾也更喜歡看機(jī)器人做日常家務(wù)的視頻而不是在實(shí)驗(yàn)室桌子上推方塊——哪怕做家務(wù)的視頻背后需要雇一個(gè)人在背后手動(dòng)操作。對(duì)此我的看法是,目前行為克隆路線解決的主要是靈巧性而不是泛化性問題,難以帶來通用機(jī)器人但也很重要。目前很多流水線上的任務(wù)就符合模仿學(xué)習(xí)的適用條件,且具有極高商業(yè)價(jià)值,從業(yè)者并不一定要刻意追求通用機(jī)器人。[水印,原文出自https://boyuan.space/]
如果算一筆賬,通用機(jī)器人公司投入大量金錢去用模仿學(xué)習(xí)的思路采集機(jī)器人大模型的數(shù)據(jù),確實(shí)用上一段落提到的方法有可能采集到指令微調(diào)所需要的數(shù)據(jù)規(guī)模的一部分 (Llama3的指令微調(diào)用了一千萬條人工標(biāo)注的數(shù)據(jù),這里類比為一千萬個(gè)不同任務(wù)的機(jī)器人數(shù)據(jù)),但也千萬別忽略了用于預(yù)訓(xùn)練的數(shù)據(jù)可能是指令微調(diào)的千千萬萬倍。
因此也有很多學(xué)者認(rèn)為行為克隆本身無法帶來通用機(jī)器人,并以泛化性為核心進(jìn)行研究。當(dāng)我在談?wù)摍C(jī)器人缺乏數(shù)據(jù)的時(shí)候,我指代的是我們?nèi)狈Π瑒?dòng)作模態(tài)的數(shù)據(jù)。然而我們可以退而求其次通過大量其他模態(tài)的數(shù)據(jù)去獲得動(dòng)作。舉個(gè)例子,雖然SORA這樣的視頻模型不直接輸出手指頭每個(gè)關(guān)節(jié)轉(zhuǎn)了多少度這樣的信息,但它生成的視頻仍然包含了大量人類動(dòng)作的信息,可以被人體姿態(tài)估計(jì)提取。
如果你進(jìn)入到一個(gè)新的場(chǎng)景中去,假設(shè)視頻預(yù)測(cè)模型足夠好,它就能根據(jù)新場(chǎng)景的圖片和文字的任務(wù)描述去生成帶有技能的視頻,例如MIT和Google的UniPi。不光如此,當(dāng)視頻模型與文字模型結(jié)合的時(shí)候,我們就擁有了一個(gè)(不嚴(yán)謹(jǐn)意義上的)世界模型,可以和大語言模型一樣用搜索(search)產(chǎn)生數(shù)據(jù)自我提升自我學(xué)習(xí),而不只是單步策略policy。世界模型甚至可以與基于模型的強(qiáng)化學(xué)習(xí)(model based reinforcement learning) 結(jié)合。正是因?yàn)橐曨l數(shù)據(jù)取之不竭,我作為一個(gè)具身智能學(xué)者在過去一年里也短暫地放下硬件把自己的科研方向轉(zhuǎn)移到對(duì)視頻的探索上,讓視頻模型不光能生成好看的藝術(shù)視頻還能在機(jī)器人需要的物理規(guī)律和任務(wù)上有好的表現(xiàn)。[水印,原文出自https://boyuan.space/]
除了視頻世界模型,大規(guī)模強(qiáng)化學(xué)習(xí)也是有可能帶來泛化性的路線。作為曾經(jīng)的強(qiáng)化學(xué)習(xí)研究者,我曾經(jīng)很長一段時(shí)間都對(duì)強(qiáng)化學(xué)習(xí)的兩大問題感到絕望——需要人工設(shè)計(jì)的場(chǎng)景模擬和需要人工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。如果要讓機(jī)器人在一個(gè)房間里學(xué)會(huì)一個(gè)任務(wù),我就需要手動(dòng)給這個(gè)房間建模輸入到模擬器里,并且設(shè)計(jì)一個(gè)好的獎(jiǎng)勵(lì)函數(shù)告訴機(jī)器人它在某一次嘗試中做的有多好。這兩者曾經(jīng)都需要極其大量的人工參與,根本不能大規(guī)模鋪開到泛化所需要的場(chǎng)景和任務(wù)數(shù)量。
但是生成式人工智能改變了這一切——我們現(xiàn)在可以很容易地生成大量3D物體,也逐步能夠生成大量場(chǎng)景。多模態(tài)模型雖然還很孱弱,但是在一些任務(wù)上已經(jīng)標(biāo)記任務(wù)的成功與否,或者把大任務(wù)拆分成小任務(wù)讓智能體學(xué)習(xí)動(dòng)作,甚至和我之前論文里那樣標(biāo)注更加細(xì)節(jié)的設(shè)計(jì)到距離等的非稀疏獎(jiǎng)勵(lì)函數(shù)。GenSim已經(jīng)展示了生成簡單的機(jī)器人任務(wù),而當(dāng)3D場(chǎng)景生成成熟時(shí),VLM足夠便宜時(shí),我們將看到真正讓人驚艷的大規(guī)模強(qiáng)化學(xué)習(xí)。模仿學(xué)習(xí)也很容易與強(qiáng)化學(xué)習(xí)增強(qiáng)其效果。
在此之外,傳統(tǒng)的機(jī)器人動(dòng)作規(guī)劃(motion planning)對(duì)解決通用機(jī)器人的數(shù)據(jù)問題也至關(guān)重要。雖然很很多靈巧任務(wù)必須通過人產(chǎn)生的數(shù)據(jù)(關(guān)節(jié)到關(guān)節(jié)演示或視頻)學(xué)習(xí),這些靈巧任務(wù)中很大一部分子任務(wù)確實(shí)花在非?;A(chǔ)的接近物體(reach), 接觸物體(contact),移動(dòng)物體和躲避障礙上。這些子任務(wù)的數(shù)據(jù)完全可以靠動(dòng)作規(guī)劃生成進(jìn)行預(yù)訓(xùn)練,節(jié)約人工的時(shí)間。例如,波士頓動(dòng)力的spot機(jī)器狗可以非??煽康刈詣?dòng)撿起放在不同環(huán)境里的奇形怪狀的物體,且不會(huì)撞到障礙物,這種泛化性如果要用行為克隆達(dá)到會(huì)需要極其夸張的人工數(shù)據(jù)采集。
上一段講大規(guī)模強(qiáng)化學(xué)習(xí)時(shí)已經(jīng)提到了未來生成式AI生成場(chǎng)景的潛力,而有了這些場(chǎng)景之后把強(qiáng)化學(xué)習(xí)替換為動(dòng)作規(guī)劃可能會(huì)達(dá)起到更高的效率。記得在我申請(qǐng)PhD時(shí),一位教授曾在面試中問我怎么看待end2end(端到端)的方法在機(jī)器人中的應(yīng)用。我給出的解答是,數(shù)據(jù)足夠的情況下端到端會(huì)做的很好,然而我們需要先花數(shù)十年用模塊化的方法去分析實(shí)踐形成足夠好的數(shù)據(jù)閉環(huán)。這個(gè)思路在特斯拉的自動(dòng)駕駛中獲得了很好的驗(yàn)證——在數(shù)據(jù)不夠的時(shí)候,規(guī)劃算法視覺網(wǎng)絡(luò)模塊化地結(jié)合可以先讓車跑起來,在一定時(shí)間后用產(chǎn)生的數(shù)據(jù)與用戶數(shù)據(jù)混合在一起訓(xùn)練端到端自動(dòng)駕駛,孕育了FSD12。我相信在通用機(jī)器人中動(dòng)作規(guī)劃也會(huì)在前期起到相同重要的作用。
我可以負(fù)責(zé)任地告訴大家具身智能一定是下一個(gè)一百年最令人激動(dòng)的技術(shù),并且我們?cè)谟猩旰苡邢M娮C通用機(jī)器人的誕生。但也正因?yàn)槲姨珶釔圻@個(gè)領(lǐng)域了,我也更愿意看到社會(huì)細(xì)水長流地投入通用機(jī)器人的發(fā)展——看科研工作者如我導(dǎo)師Russ所說的那樣,“可以以結(jié)果為導(dǎo)向的科研,但不可以網(wǎng)紅視頻為導(dǎo)向”;看到政府和投資人在長線看好具身智能的同時(shí),不因?yàn)橛布镜娜谫Y需要而盲目相信機(jī)器人大模型;看到創(chuàng)業(yè)者勇往直前,用細(xì)分領(lǐng)域的成功和硬件的進(jìn)步為真正的通用機(jī)器人鋪路。而我自己也愿意用自己的一生給世界帶來真正的通用機(jī)器人。