GR-2登場(chǎng)!ByteDance Research提出機(jī)器人大模型,具備世界建模和強(qiáng)大泛化能力
相信很多大家對(duì)GR-2登場(chǎng)!ByteDance Research提出機(jī)器人大模型,具備世界建模和強(qiáng)大泛化能力還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
最近,ByteDance Research 的第二代機(jī)器人大模型 —— GR-2,終于放出了官宣視頻和技術(shù)報(bào)告。GR-2以其卓越的泛化能力和多任務(wù)通用性,預(yù)示著機(jī)器人大模型技術(shù)將爆發(fā)出巨大潛力和無限可能。
GR-2官方項(xiàng)目頁面:
https://gr2-manipulation.github.io
初識(shí) GR-2:百煉出真金
和許多大模型一樣,GR-2的訓(xùn)練包括預(yù)訓(xùn)練和微調(diào)兩個(gè)過程。
如果把機(jī)器人和人做比較,預(yù)訓(xùn)練過程就好像是人類的 “嬰兒期”。而 GR-2的嬰兒期與其他機(jī)器人截然不同。
在預(yù)訓(xùn)練的過程中,GR-2在互聯(lián)網(wǎng)的海洋中遨游。
它在3800萬個(gè)互聯(lián)網(wǎng)視頻片段上進(jìn)行生成式訓(xùn)練,也因此得名 GR-2(Generative Robot2.0)。這些視頻來自學(xué)術(shù)公開數(shù)據(jù)集,涵蓋了人類在不同場(chǎng)景下(家庭、戶外、辦公室等)的各種日?;顒?dòng)。
這個(gè)過程,就像是它在經(jīng)歷一個(gè)快速的 “生長(zhǎng)痛”,迅速學(xué)會(huì)了人類日常生活中的各種動(dòng)態(tài)和行為模式。
該圖展示了 GR-2預(yù)訓(xùn)練數(shù)據(jù)中的樣本視頻和動(dòng)詞分布。下圖中的 y 軸是最熱門單詞的對(duì)數(shù)頻率。
這種預(yù)訓(xùn)練方式使 GR-2具備了學(xué)習(xí)多種操作任務(wù)和在多種環(huán)境中泛化的潛能。龐大的知識(shí)儲(chǔ)備,讓 GR-2擁有了對(duì)世界的深刻理解,仿佛它已經(jīng)環(huán)游世界無數(shù)次。
微調(diào)的藝術(shù):視頻生成能力拔高動(dòng)作準(zhǔn)確率
據(jù)悉,GR-2的開發(fā)團(tuán)隊(duì)采用了一種創(chuàng)新的微調(diào)方法。
在經(jīng)歷大規(guī)模預(yù)訓(xùn)練后,通過在機(jī)器人軌跡數(shù)據(jù)上進(jìn)行微調(diào),GR-2能夠預(yù)測(cè)動(dòng)作軌跡并生成視頻。
GR-2的視頻生成能力,讓它在動(dòng)作預(yù)測(cè)方面有著天然的優(yōu)勢(shì)。它能夠通過輸入一幀圖片和一句語言指令,預(yù)測(cè)未來的視頻,進(jìn)而生成相應(yīng)的動(dòng)作軌跡。
如下圖所示,只需要輸入一句語言指令:“pick up the fork from the left of the white plate”,就可以讓 GR-2生成動(dòng)作和視頻??梢钥吹?,機(jī)械臂從白盤子旁邊抓起了叉子。右圖中預(yù)測(cè)的視頻和真機(jī)的實(shí)際運(yùn)行也相差無幾。
以下是幾個(gè)進(jìn)一步展示 GR-2視頻生成能力的示例,包括把物品放進(jìn)烤箱、將物品置于咖啡壺嘴下方等任務(wù)。
這種能力,不僅提升了 GR-2動(dòng)作預(yù)測(cè)的準(zhǔn)確性,也為機(jī)器人的智能決策提供了新的方向。
Scaling Law:機(jī)器人 + 大模型的要訣
在人工智能領(lǐng)域,Scaling Law 是一個(gè)備受矚目的概念。它描述了模型性能與其規(guī)模之間的關(guān)系。對(duì)于 GR-2這樣的機(jī)器人模型來說,這一法則尤為關(guān)鍵。
隨著模型規(guī)模的增加,GR-2的性能呈現(xiàn)出顯著的提升。
(a)(b)(c) 分別展示了不同尺寸 GR-2在 Ego4d、RT-1、GR-2三個(gè)數(shù)據(jù)集的驗(yàn)證集上的視頻生成損失。(d) 展示了不同尺寸 GR-2在真機(jī)實(shí)驗(yàn)中的成功率。
在7億參數(shù)規(guī)模的驗(yàn)證中,團(tuán)隊(duì)看到了令人鼓舞的結(jié)果:更大的模型不僅能夠處理更多復(fù)雜的任務(wù),而且在泛化到未見過的任務(wù)和場(chǎng)景時(shí)也表現(xiàn)得更加出色。
這表明,通過擴(kuò)大模型規(guī)模,我們可以解鎖機(jī)器人更多的潛能,使其在多任務(wù)學(xué)習(xí)和適應(yīng)新環(huán)境方面更加得心應(yīng)手。
多任務(wù)學(xué)習(xí)與泛化:未知場(chǎng)景的挑戰(zhàn)者
在多任務(wù)學(xué)習(xí)測(cè)試中,GR-2能夠完成105項(xiàng)不同的桌面任務(wù),平均成功率高達(dá)97.7%。
GR-2的強(qiáng)大之處不僅在于它能夠處理已知任務(wù),更在于其面對(duì)未知場(chǎng)景和物體時(shí)的泛化能力。無論是全新的環(huán)境、物體還是任務(wù),GR-2都能夠迅速適應(yīng)并找到解決問題的方法。
我開、我放……我眼里有活兒
更讓人驚艷的是,GR-2還能夠與大語言模型相結(jié)合,完成復(fù)雜的長(zhǎng)任務(wù),并與人類進(jìn)行互動(dòng)。
比如,我們想要喝一杯咖啡。GR-2會(huì)先從托盤里拿起杯子,并將其放在咖啡壺嘴下方。接著,它會(huì)按下咖啡機(jī)上的按鈕來煮一杯咖啡。最后,當(dāng)咖啡煮好了,機(jī)器人會(huì)把杯子放回托盤上。整個(gè)過程無需人類干預(yù)。
又如,我們?cè)绮拖胍渣c(diǎn)東西。根據(jù)場(chǎng)景中的物體,機(jī)器人決定為我們制作一份烤面包。機(jī)器人首先按下烤面包機(jī)上的開關(guān)來烤制面包。然后它拿起烤好的面包,并將其放入紅色的碗中。
認(rèn)真工作中,勿擾
ByteDance Research 還想強(qiáng)調(diào),GR-2能夠魯棒地處理環(huán)境中的干擾,并通過適應(yīng)變化的環(huán)境成功完成任務(wù)。
以果蔬分類任務(wù)為例:桌子上放置著水果和蔬菜,我們需要機(jī)器人幫忙將水果和蔬菜分裝到不同的盤子里。機(jī)器人能夠自主識(shí)別物體的類別,并自動(dòng)將它們放入正確的盤子中。
當(dāng)在機(jī)器人移動(dòng)的過程中移動(dòng)盤子,GR-2依然能回過神來,準(zhǔn)確找回它要放的目標(biāo)盤子。
穿越“果”群,仍能找到你
工業(yè)應(yīng)用中的突破:端到端的絲滑物體揀選
在實(shí)際應(yīng)用中,GR-2相比前一代的一個(gè)重大突破在于能夠端到端地完成兩個(gè)貨箱之間的物體揀選。
這個(gè)任務(wù)要求機(jī)器人從一個(gè)貨箱中逐個(gè)拿起物體,并將其放入旁邊的貨箱。看似簡(jiǎn)單,但在實(shí)際應(yīng)用中,能夠?qū)崿F(xiàn)這個(gè)需求的多模態(tài)端到端模型卻難得一見。
端到端揀選任務(wù)場(chǎng)景
如下圖所示,GR-2可以實(shí)現(xiàn)貨箱之間絲滑且連續(xù)的物體揀選。
真 · 無情的揀選機(jī)器人
無論是透明物體、反光物體、柔軟物體還是其他具有挑戰(zhàn)性的物體,GR-2均能準(zhǔn)確抓取。這展現(xiàn)了其在工業(yè)領(lǐng)域和真實(shí)倉(cāng)儲(chǔ)場(chǎng)景的巨大潛力。
除了能夠處理多達(dá)100余種不同的物體,例如螺絲刀、橡膠玩具、羽毛球,乃至一串葡萄和一根辣椒,GR-2在未曾見過的場(chǎng)景和物體上也有著出色的表現(xiàn)。
揀選任務(wù)中的122個(gè)測(cè)試物品,其中只有55個(gè)物體參與訓(xùn)練。
GR-2可以識(shí)別透明的、可變形的或反光的物體。
話分兩頭,盡管 GR-2在互聯(lián)網(wǎng)視頻上接受了大規(guī)模的預(yù)訓(xùn)練,但也存在一些進(jìn)步空間。例如,真實(shí)世界動(dòng)作數(shù)據(jù)的規(guī)模和多樣性仍然有限。
GR-2的故事,是關(guān)于 AI 如何推動(dòng)機(jī)器人發(fā)展的故事。它不僅僅是一個(gè)機(jī)器人大模型,更是一個(gè)能夠?qū)W習(xí)和適應(yīng)各種任務(wù)的智能體。我們有理由相信,GR-2在實(shí)際應(yīng)用中擁有巨大潛力。
GR-2的旅程,才剛剛開始。
以上就是關(guān)于【GR-2登場(chǎng)!ByteDance Research提出機(jī)器人大模型,具備世界建模和強(qiáng)大泛化能力】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!