多模態(tài)模型學(xué)會打撲克:表現(xiàn)超越GPT-4v,全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵
相信很多大家對多模態(tài)模型學(xué)會打撲克:表現(xiàn)超越GPT-4v,全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
只用強(qiáng)化學(xué)習(xí)來微調(diào),無需人類反饋,就能讓多模態(tài)大模型學(xué)會做決策!
這種方法得到的模型,已經(jīng)學(xué)會了看圖玩撲克、算“12點(diǎn)”等任務(wù),表現(xiàn)甚至超越了GPT-4v。
這是來自UC伯克利等高校最新提出的微調(diào)方法,研究陣容也是相當(dāng)豪華:
圖靈獎三巨頭之一、Meta首席AI科學(xué)家、紐約大學(xué)教授LeCun
UC伯克利大牛、ALOHA團(tuán)隊(duì)成員Sergry Levine
ResNeXt一作、Sora基礎(chǔ)技術(shù)DiT作者謝賽寧
香港大學(xué)數(shù)據(jù)科學(xué)學(xué)院院長、UC伯克利教授馬毅
該方法名為RL4VLM,論文預(yù)印本已經(jīng)上線,相關(guān)代碼也已在GitHub中開源。
RL4VLM提出了一種新的算法框架,直接使用強(qiáng)化學(xué)習(xí)方法對多模態(tài)大模型進(jìn)行微調(diào)。
其中獎勵信息直接來源于環(huán)境當(dāng)中,擺脫了RLHF中對于人類反饋的需要,從而直接賦予了多模態(tài)模型決策能力。
對于RL4VLM的意義,參與了這項(xiàng)工作的馬毅教授這樣說:
那么,用這種方法微調(diào)出來的多模態(tài)大模型,都能讓智能體學(xué)會哪些能力呢?
多模態(tài)決策能力超GPT-4v
為了評估訓(xùn)練出的多模態(tài)大模型給智能體帶來的能力,作者一共使用了兩類物種評測任務(wù):
第一類任務(wù)(a-d) 主要考驗(yàn)?zāi)P屠脠D像中的細(xì)粒度視覺信息做決策的能力,包括對于數(shù)字的識別能力和利用識別的數(shù)字進(jìn)行邏輯推理的能力
第二類任務(wù)(e)主要考察多模態(tài)大模型在具身智能環(huán)境中的視覺語義推理能力。
具體來說,這五個任務(wù)分別是:
a.數(shù)軸(Numberline):模型需要通過輸出“+” 或者 “-”,將當(dāng)前數(shù)字移動到目標(biāo)數(shù)字
b.簡易12點(diǎn)(EZPoint):模型需要識別兩張牌,并用加號和乘號運(yùn)算“12點(diǎn)”
c.24點(diǎn)(Point24): 模型需要識別四張牌,并用加減乘除和括號運(yùn)算“24點(diǎn)”
d.21點(diǎn)(Blackjack):模型需要通過牌面上的信息來決定“要牌”或者“停牌”
e.ALFWorld:一個標(biāo)準(zhǔn)具身智能環(huán)境
其中任務(wù)a-d為作者的原創(chuàng)任務(wù),任務(wù)e的ALFWorld是微軟等于2020年提出的開源具身智能任務(wù)集。
實(shí)驗(yàn)結(jié)果表明,直接使用強(qiáng)化學(xué)習(xí)微調(diào)7B的多模態(tài)模型之后,能使其在兩類決策問題上的表現(xiàn)超過商用模型GPT-4v Gemini,同時也能超過傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法。
而在ALFWorld的具身智能任務(wù)中,作者的模型也取得了最高的平均分,特別是在單物體拾取任務(wù)上表現(xiàn)尤為突出。
先生成思維鏈,再做決策
這套VLM智能體主要解決的是需要視覺識別和語言理解的任務(wù),它的工作流程是這樣的:
首先,對于每一個任務(wù),系統(tǒng)會直接將該任務(wù)的當(dāng)前狀態(tài),以圖片和文字描述的形式輸入多模態(tài)大模型,并要求模型輸出一段思維鏈之后,再以文字形式輸出要執(zhí)行的動作。
最后將,動作信息會被輸入進(jìn)對應(yīng)的環(huán)境并獲得獎勵值,該獎勵值會被用來進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
例如下圖中,智能體在執(zhí)行玩21點(diǎn)的任務(wù)時,系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài),在輸出思維鏈之后選擇“停牌” (stand)或者“拿牌”(hit),然后直接將對應(yīng)的動作輸入到環(huán)境中,得到獎勵函數(shù)值以及下一個狀態(tài)。
為了能用直接將強(qiáng)化學(xué)習(xí)運(yùn)用到多模態(tài)模型的訓(xùn)練中,需要對模型的輸入和輸出做一些調(diào)整,以適應(yīng)RL訓(xùn)練框架中。
具體來說,作者將任務(wù)圖像o和任務(wù)描述的文本v-in合并后,直接作為當(dāng)前任務(wù)的狀態(tài)s,即:
在獲得了多模態(tài)模型的文字輸出v-out以后,該框架直接將其中文字形式的動作(“action: {act}”) 轉(zhuǎn)化為可與環(huán)境交互的動作指令a。
接下來把a(bǔ)輸入到環(huán)境當(dāng)中,就能獲得獎勵函數(shù)r,以及操作后的下一個狀態(tài)。
在獲得了來自環(huán)境的獎勵函數(shù)r之后,文章利用PPO直接對整個多模態(tài)模型進(jìn)行微調(diào)。
而從提示詞上看,這項(xiàng)研究采取了如下的提示過程作為多模態(tài)模型的輸入,并且給出了期望的輸出形式:
(其中藍(lán)色的部分是讓模型生成思維鏈提示過程, 紅色的部分是告訴模型以文字形式輸出動作a)
消融實(shí)驗(yàn)結(jié)果表明,如果這一過程中不采用思維鏈,則任務(wù)成功率會出現(xiàn)大幅下降。
論文地址:
https://arxiv.org/abs/2405.10292
GitHub:
https://github.com/RL4VLM/RL4VLM
—完—
以上就是關(guān)于【多模態(tài)模型學(xué)會打撲克:表現(xiàn)超越GPT-4v,全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵】的相關(guān)內(nèi)容,希望對大家有幫助!