與「李白」賞圖賦詩(shī),同「猴哥」直面天命,人大高瓴提出MMRole多模態(tài)角色扮演
相信很多大家對(duì)與「李白」賞圖賦詩(shī),同「猴哥」直面天命,人大高瓴提出MMRole多模態(tài)角色扮演還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
隨著大語(yǔ)言模型的飛速發(fā)展,角色扮演智能體(RPAs)正逐漸成為 AI 領(lǐng)域的熱門(mén)話題。這類(lèi)智能體不僅能夠?yàn)槿藗兲峁┡惆椤⒒?dòng)和娛樂(lè),還在教育、社會(huì)模擬等領(lǐng)域展現(xiàn)出重要的應(yīng)用潛力。然而,當(dāng)前市面上的大多數(shù)角色扮演智能體都只會(huì)「文字聊天」,其理解能力僅限于單一的文本模態(tài),遠(yuǎn)遠(yuǎn)無(wú)法與具備多模態(tài)感知能力的人類(lèi)相比。這讓我們不禁思考:我們真的只能與這些「單調(diào)」的智能體對(duì)話嗎?顯然,答案是否定的!
近日,中國(guó)人民大學(xué)高瓴人工智能學(xué)院的研究團(tuán)隊(duì)率先提出了「多模態(tài)角色扮演智能體」(MRPAs)的概念。這類(lèi)智能體不僅能夠扮演特定角色,還能夠圍繞圖像進(jìn)行多模態(tài)對(duì)話。與此同時(shí),團(tuán)隊(duì)正式推出了 MMRole—— 一個(gè)專為 MRPAs 開(kāi)發(fā)與評(píng)測(cè)量身打造的綜合框架。
代碼倉(cāng)庫(kù):https://github.com/YanqiDai/MMRole
論文地址:https://arxiv.org/abs/2408.04203
圖1:MMRole 框架概述。
如圖1所示,該框架包括一個(gè)大規(guī)模、高質(zhì)量的多模態(tài)角色扮演數(shù)據(jù)集 MMRole-Data,并配備了一套健全的評(píng)測(cè)方法 MMRole-Eval,涵蓋三個(gè)維度下的八項(xiàng)指標(biāo)。在此基礎(chǔ)上,團(tuán)隊(duì)開(kāi)發(fā)了首個(gè)專門(mén)的多模態(tài)角色扮演智能體 ——MMRole-Agent,在多模態(tài)信息理解和角色扮演能力上明顯優(yōu)于同等參數(shù)規(guī)模的通用對(duì)話模型。
MMRole 打破了傳統(tǒng)角色扮演智能體僅限于單一模態(tài)的局限,讓智能體能夠在圖像和文字之間自由切換,帶來(lái)更為沉浸的對(duì)話體驗(yàn),進(jìn)一步擴(kuò)展了角色扮演智能體的應(yīng)用場(chǎng)景與價(jià)值。
MMRole-Data 數(shù)據(jù)集
如圖1(a)所示,MMRole-Data 是一個(gè)大規(guī)模、高質(zhì)量的多模態(tài)角色扮演數(shù)據(jù)集,包含85個(gè)角色及其身份信息、11K 張圖像,以及14K 段圍繞圖像展開(kāi)的單輪或多輪對(duì)話,共生成了85K 條訓(xùn)練樣本和294條測(cè)試樣本。在數(shù)據(jù)構(gòu)建過(guò)程中,團(tuán)隊(duì)借助了 GPT-4V 進(jìn)行輔助生成,并執(zhí)行了嚴(yán)格的人工質(zhì)量審查,為角色扮演智能體的訓(xùn)練和性能評(píng)測(cè)奠定了堅(jiān)實(shí)基礎(chǔ)。
圖2:MMRole-Data 中構(gòu)建的所有角色。
如圖2所示,MMRole-Data 涵蓋了三種角色類(lèi)型:虛構(gòu)角色、歷史和公眾人物,以及假想現(xiàn)實(shí)角色。前兩類(lèi)角色的身份信息由 GPT-4通過(guò)總結(jié) Wikipedia 或百度百科的人物介紹生成,而第三類(lèi)角色的身份信息則通過(guò) GPT-4采用兩階段生成方式,在確保多樣性的基礎(chǔ)上隨機(jī)生成。前兩類(lèi)角色在之前的研究中已有較多探討,團(tuán)隊(duì)特別引入了第三類(lèi)角色,旨在提升和評(píng)測(cè) MRPAs 在并不廣為人知的角色上的性能,使其在多樣化角色扮演場(chǎng)景中展現(xiàn)出更強(qiáng)的靈活性與泛化性。
進(jìn)一步地,MMRole-Data 引入來(lái)自 MS-COCO 數(shù)據(jù)集的通用圖像,確保了對(duì)廣泛視覺(jué)概念的覆蓋。同時(shí),團(tuán)隊(duì)還人工收集和標(biāo)注了劇照等與角色密切相關(guān)的圖像,以更有效地喚起角色的個(gè)人經(jīng)歷和情感。
圖3:MMRole-Data 中三種對(duì)話場(chǎng)景的示例。
最后,如圖3所示,團(tuán)隊(duì)利用 GPT-4V 生成了三類(lèi)以圖像為中心的對(duì)話場(chǎng)景:評(píng)論性交互、用戶 - 角色對(duì)話,以及角色間對(duì)話。這些對(duì)話經(jīng)過(guò)多輪規(guī)則過(guò)濾和嚴(yán)格的人工質(zhì)量審查,確保了對(duì)話內(nèi)容的準(zhǔn)確性和角色一致性。
圖4:MMRole-Data 中文示例。
特別地,如圖4所示,團(tuán)隊(duì)對(duì)數(shù)據(jù)集的中文部分進(jìn)行了精細(xì)打磨,成功再現(xiàn)了李白、孫悟空等經(jīng)典人物的形象。通過(guò)深入挖掘這些角色的獨(dú)特個(gè)性和背景故事,MRPAs 能夠在多模態(tài)對(duì)話中更具表現(xiàn)力和沉浸感,為用戶帶來(lái)更加真實(shí)的互動(dòng)體驗(yàn)。
MMRole-Eval 評(píng)測(cè)方法
如圖1(b)所示,MMRole-Eval 是一套穩(wěn)健而全面的多模態(tài)角色扮演智能體評(píng)測(cè)方法,涵蓋三個(gè)維度下的八項(xiàng)評(píng)測(cè)指標(biāo),確保對(duì)智能體的多方面能力進(jìn)行深入評(píng)估。具體的評(píng)測(cè)指標(biāo)包括:
基礎(chǔ)對(duì)話技巧
指令遵循度(Instruction Adherence, IA)
流暢度(Fluency, Flu)
連貫性(Coherency, Coh)
多模態(tài)理解能力
圖文相關(guān)性(Image-Text Relevance, ITR)
響應(yīng)準(zhǔn)確度(Response Accuracy, RA)
角色扮演質(zhì)量
性格一致性(Personality Consistency, PC)
知識(shí)一致性(Knowledge Consistency, KC)
語(yǔ)氣一致性(Tone Consistency, TC)
為了定量評(píng)估 MRPAs 在各項(xiàng)指標(biāo)上的性能,團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)專門(mén)的獎(jiǎng)勵(lì)模型。該模型首先對(duì)待評(píng)估的 MRPA 與構(gòu)建的標(biāo)準(zhǔn)答案之間的相對(duì)性能進(jìn)行簡(jiǎn)要的定性評(píng)價(jià),隨后為其生成一個(gè)定量的分?jǐn)?shù)對(duì),MRPA 的最終得分為該分?jǐn)?shù)對(duì)中兩個(gè)分?jǐn)?shù)的比值。為了開(kāi)發(fā)這一獎(jiǎng)勵(lì)模型,團(tuán)隊(duì)利用 GPT-4在所有測(cè)試樣本上對(duì)多個(gè) MRPAs 進(jìn)行評(píng)測(cè),生成了大量評(píng)測(cè)軌跡,這些軌跡隨后被轉(zhuǎn)換為獎(jiǎng)勵(lì)模型的訓(xùn)練和驗(yàn)證數(shù)據(jù)。
評(píng)測(cè)結(jié)果與分析
表1:MMRole-Eval 評(píng)測(cè)結(jié)果。In-Test 表示在訓(xùn)練集中出現(xiàn)過(guò)的角色上的測(cè)試,而 Out-Test 表示在訓(xùn)練集中未見(jiàn)過(guò)的角色上的測(cè)試。
如表1所示,團(tuán)隊(duì)開(kāi)發(fā)的首個(gè)專門(mén)的多模態(tài)角色扮演智能體 MMRole-Agent(9B)在各項(xiàng)指標(biāo)上表現(xiàn)出了卓越的性能,整體性能遠(yuǎn)超同等參數(shù)規(guī)模(<10B)的通用對(duì)話模型,甚至優(yōu)于部分參數(shù)量更大(10B-100B)的模型。此外, MMRole-Agent 在未見(jiàn)過(guò)的角色上同樣展現(xiàn)出了強(qiáng)大的泛化能力。
圖5:MMRole-Eval 評(píng)測(cè)結(jié)果的可視化。
此外,如圖5所示,團(tuán)隊(duì)將評(píng)測(cè)結(jié)果進(jìn)行了可視化分析,發(fā)現(xiàn)所有 MRPAs 在流暢度指標(biāo)上均獲得了較高分?jǐn)?shù),表明生成流暢內(nèi)容對(duì)于現(xiàn)有的大模型而言相對(duì)容易。然而,在其他評(píng)測(cè)指標(biāo)上,尤其是性格一致性和語(yǔ)氣一致性指標(biāo),不同的 MRPAs 之間存在顯著差異。這說(shuō)明,在多模態(tài)角色扮演智能體的開(kāi)發(fā)中,多模態(tài)理解能力和角色扮演質(zhì)量是更具挑戰(zhàn)性的方面,需要在未來(lái)的研究和優(yōu)化中予以特別關(guān)注。
以上就是關(guān)于【與「李白」賞圖賦詩(shī),同「猴哥」直面天命,人大高瓴提出MMRole多模態(tài)角色扮演】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!