三「?!孤?lián)盟,谷歌DeepMind締造終身學(xué)習(xí)智能體
相信很多大家對三「?!孤?lián)盟,谷歌DeepMind締造終身學(xué)習(xí)智能體還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
打造終身學(xué)習(xí)智能體,是研究界以來一直追求的目標(biāo)。最近,帝國理工聯(lián)手谷歌DeepMind打造了創(chuàng)新聯(lián)合框架擴散增強智能體(DAAG),利用LLM+VLM+DM三大模型,讓AI完成遷移學(xué)習(xí)、高效探索。
為了讓AI實現(xiàn)終身學(xué)習(xí),帝國理工、谷歌DeepMind竟動用了三大基礎(chǔ)模型!
「大模型+視覺語言模型+擴散模型」三模并用,構(gòu)建了全新框架——擴散增強智能體(DAAG)。
DAAG的誕生,就是讓具身智能體進行遷移學(xué)習(xí)、高效探索。
最新框架利用了「后見之明經(jīng)驗增強」(Hindsight Experience Augmentation)技術(shù),讓擴散模型以時間和幾何一致的方式轉(zhuǎn)換視頻。
讓其與目標(biāo)指令對齊,從而對智能體過去經(jīng)驗進行重新標(biāo)記。
論文地址:https://arxiv.org/pdf/2407.20798
大模型在無需人類監(jiān)督情況下,自主協(xié)調(diào)這一過程,使其非常適合終身學(xué)習(xí)場景。
經(jīng)過一系列實驗,結(jié)果表明,DAAG改進了獎勵檢測器的學(xué)習(xí)、過去經(jīng)驗的遷移以及新任務(wù)的獲取。
這些都是開發(fā)高效終身學(xué)習(xí)智能體的關(guān)鍵能力。
?
無需人類監(jiān)督,AI終身強化學(xué)習(xí)
一直以來,具身AI的訓(xùn)練數(shù)據(jù)極其稀缺,特別是在強化學(xué)習(xí)場景中尤為突出。
因為這類智能體需要與物體環(huán)境進行互動,而傳感器和執(zhí)行器成為了主要瓶頸。
然而,克服這一挑戰(zhàn)需要開發(fā)出,能夠從有限經(jīng)驗中高效學(xué)習(xí)、適應(yīng)的智能體。
對此,研究人員假設(shè),具身智能體可以通過利用過去經(jīng)驗,有效探索,并在任務(wù)之間轉(zhuǎn)移知識,實現(xiàn)更高數(shù)據(jù)搬運效率。
即便在沒有外部獎勵的情況下,他們希望讓智能體可以自主設(shè)置、評分子目標(biāo),并能重新利用之前任務(wù)經(jīng)驗,加速新任務(wù)學(xué)習(xí)。
因此,最新研究中,團隊成員使用預(yù)訓(xùn)練的基礎(chǔ)模型Gemini1.0Pro來解決這些問題。
通過視覺、語言和擴散模型的相互作用,讓智能體更有效推理任務(wù),解釋環(huán)境和過去經(jīng)驗,并操縱自身收集的數(shù)據(jù),以重新用于新任務(wù)和目標(biāo)。
更重要的是,DAAGG可以自主運行,無需人類監(jiān)督,凸顯其特別適合終身強化學(xué)習(xí)的場景。
如下圖1,是擴散增強智能體完整框架。
其中,LLM充當(dāng)主要控制器/大腦,查詢和指導(dǎo)VLM和DM,以及智能體的高級行為。
通過一系列在不同環(huán)境中的實驗,研究人員證明了DAAGG在改進智能體在關(guān)鍵能力上的表現(xiàn):
1)用擴散模型生成合成樣本增強的數(shù)據(jù),微調(diào)視覺語言模型,自主計算已見和未見任務(wù)的獎勵;
2)為給定任務(wù)設(shè)計和識別有用的子目標(biāo),通過擴散模型修改記錄的觀察,重新利用原失敗的軌跡,從而更有效地探索和學(xué)習(xí)新任務(wù);
3)提取相關(guān)數(shù)據(jù),使用擴散模型重新利用其他軌跡,有效地將先前收集的數(shù)據(jù)轉(zhuǎn)移到新任務(wù)中。
圖2所示,DAAGG方法如何通過擴散增強,重新利用智能體的經(jīng)驗。
研究人員提出了一個擴散管道,提高了幾何和時間一致性,并修改了智能體收集的部分視頻。
方法DAAGG具體設(shè)計方法如下。
研究人員將環(huán)境形式化為「馬爾可夫決策過程」(MDP):在每個時間步t,環(huán)境和智能體處于狀態(tài)s ∈ S。
從該狀態(tài),智能體接收視覺觀察o ∈ O,并可以執(zhí)行動作a ∈ A。
在每個回合中,智能體接收一個指令,這是用自然語言T描述的要執(zhí)行的任務(wù)。
如果任務(wù)成功執(zhí)行,智能體可以在回合結(jié)束時,獲得獎勵r = +1。
這項論文中,除了獨立學(xué)習(xí)新任務(wù)外,作者還研究了DAAGG框架以終身方式連續(xù)學(xué)習(xí)任務(wù)的能力。
因此,智能體將交互經(jīng)驗存儲在兩個緩沖區(qū)中:當(dāng)前任務(wù)緩沖區(qū),稱之為新緩沖區(qū)
:這個緩沖區(qū)在每個新任務(wù)開始時初始化。
然后是離線終身緩沖區(qū)
:智能體將所有任務(wù)的所有回合存儲在這個緩沖區(qū)中,無論它們是否成功。
因此,后者是一個不斷增長的經(jīng)驗緩沖區(qū),智能體隨后可以用它來引導(dǎo)新任務(wù)的學(xué)習(xí)。
以下是,作者選用的三種模型目的:
- 大模型LLM:編排智能體的行為,以及指導(dǎo)VLM和DM。LLM接受文本指令和數(shù)據(jù),并輸出文本響應(yīng)。而且,利用LLM將任務(wù)分解為子目標(biāo),比較不同任務(wù)/指令的相似性,并查詢VLM和DM。
- 視覺語言模型VLM:使用的是對比模型CLIP。CLIP由兩個分支組成:圖像分支和文本分支,它們分別以視覺觀察和文本描述作為輸入,最終輸出相同大小的嵌入向量。
- 擴散Pipeline:研究的核心是通過語言指導(dǎo)的擴散模型,修改視覺觀察。擴散Pipeline是為了提取智能體記錄的觀察
或一系列時間觀察
,并保持幾何和時間一致性的同時,修改觀察中的一個或多個對象。
如下是,擴散Pipeline的示意圖。
在圖5中,作者比較了ROISE和自己提出的Pipeline輸出。前者不能保持對象姿勢和外觀,在幀之間的一致性。
擴散增強智能體框架在擴散增強數(shù)據(jù)上,微調(diào)VLM作為獎勵檢測器
VLM可以有效地用作獎勵檢測器,條件是基于語言定義的目標(biāo)和視覺觀察。
最近的研究顯示,為了提升準(zhǔn)確性,VLM通常需要在目標(biāo)環(huán)境中收集的token數(shù)據(jù)上進行微調(diào),適應(yīng)所需的任務(wù)。
這是一個耗時的任務(wù),而且每個新任務(wù)需要人類手動完成,嚴(yán)重阻礙了智能體以終身方式自主連續(xù)學(xué)習(xí)的多任務(wù)能力。
通過DAAGG框架,作者在先前收集的觀察上微調(diào)VLM來解決這一挑戰(zhàn)。
這個過程如上圖2所示,通過這個過程,微調(diào)VLM作為LLM分解當(dāng)前任務(wù)的所有子目標(biāo)
的成功檢測器。
通過后見之明經(jīng)驗增強,實現(xiàn)高效學(xué)習(xí)和遷移
在任何任務(wù)中收集的每個回合后,智能體收集一系列觀察和動作
。
在DAAGG中,研究人員旨在最大化智能體可以學(xué)習(xí)處理新任務(wù)的回合數(shù)量,即使它沒有達到任何所需的子目標(biāo)。
最后,他們通過一個稱為后見之明經(jīng)驗增強(HEA)的過程來實現(xiàn)這一點。
實驗結(jié)果
DAAGG框架提出了LLM+VLM+DM之間的相互作用,以解決終身學(xué)習(xí)智能體面臨的3個主要的挑戰(zhàn):
1)微調(diào)新的獎勵/子目標(biāo)檢測模型,
2)提取和轉(zhuǎn)移過去經(jīng)驗用于新任務(wù),
3)高效探索新任務(wù)。
DAAGG能否將VLM微調(diào)為新任務(wù)的獎勵檢測器?
圖7顯示了,在數(shù)據(jù)集中沒有示例的最左側(cè)任務(wù)中,DAAGG如何通過綜合其他任務(wù)中的示例實現(xiàn)大幅改進,同時在所見的任務(wù)中保持相同的性能。
在RGB Stacking和Language Table環(huán)境中,物體姿勢之間的精確幾何關(guān)系非常重要,而DAAGG與基線的差異則更為顯著,這說明需要進行擴散增強才能獲得有效的獎勵檢測器。
在「房間」環(huán)境中,CLIP接收到的觀察結(jié)果雖然來自低保真模擬器和渲染器,但更接近它在網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集(水果和家具圖片),上進行訓(xùn)練時接收到的觀察結(jié)果分布。
因此,CLIP「零樣本」性能要強得多,而在其他任務(wù)中,CLIP零樣本性能則接近于隨機猜測,這表明有必要進行微調(diào)。
DAAGG能否更高效地探索和學(xué)習(xí)新任務(wù)?
下圖8中,作者繪制了100個測試事件中,成功解決任務(wù)實例的數(shù)量與訓(xùn)練事件數(shù)量的函數(shù)關(guān)系圖。
在測試過程中,不執(zhí)行任何探索策略或指導(dǎo),而是讓策略網(wǎng)絡(luò)來引導(dǎo)智能體。
可以看到,DAAGG的學(xué)習(xí)速度比基線更快,將某些不成功的事件作為學(xué)習(xí)信號的能力,有助于提高在所有測試環(huán)境中的學(xué)習(xí)效率。
DAAGG能否更有效地連續(xù)學(xué)習(xí)任務(wù),從過去的任務(wù)中轉(zhuǎn)移經(jīng)驗?
圖9中,研究人員比較了每種方法在使用
時,在任務(wù)
上的性能,性能指標(biāo)是成功率。
可以看到,DAAGG超越了兩個基準(zhǔn)方法,主要歸功于它能夠從存儲在
中大部分經(jīng)驗中學(xué)習(xí),通過修改和重新利用解決
或其子目標(biāo)
之外的任務(wù)軌跡。
通過場景視覺增強提高魯棒性
然后,研究人員使用pipeline對每個觀察進行5次增強,查詢LLM來提出增強的描述(比如,一個有紅色地板和白色墻壁的房間)。
作者將所有這些增強的觀察添加到緩沖區(qū),并在其上訓(xùn)練策略。
在原始和增強數(shù)據(jù)集上,訓(xùn)練的策略都在5個視覺上修改的房間中進行測試,隨機改變墻壁和地板的顏色以及干擾物體,在每個房間進行20次測試回合。
圖11展示了,視覺增強如何帶來一個更加魯棒的策略,能夠在視覺上與單一訓(xùn)練Room中,與訓(xùn)練環(huán)境很不同的Room中也達到相同目標(biāo)。
總而言之,這項研究中,作者提出了擴散增強智能體(DAAGG)。
這是一個結(jié)合了大型語言模型、視覺語言模型和擴散模型的框架,旨在解決具身AI智能體終身強化學(xué)習(xí)中的關(guān)鍵挑戰(zhàn)。
關(guān)鍵研究結(jié)果表明,DAAGG能夠在新的、未見過的任務(wù)中準(zhǔn)確檢測獎勵,而傳統(tǒng)方法在這些任務(wù)上難以泛化。
通過重用先前任務(wù)的經(jīng)驗,DAAGG能夠逐步更高效地學(xué)習(xí)每個后續(xù)任務(wù),得益于遷移學(xué)習(xí)而需要更少的回合。
最后,通過將不成功的回合,擴散為相關(guān)子目標(biāo)的成功軌跡,DAAGG顯著提高了探索效率。
參考資料:
https://arxiv.org/pdf/2407.20798
https://sites.google.com/view/diffusion-augmented-agents/
以上就是關(guān)于【三「?!孤?lián)盟,谷歌DeepMind締造終身學(xué)習(xí)智能體】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非常活躍。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學(xué)家確定腦細胞類型是排尿的主要控制者