日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      多圖場景用DPO對齊,上海AI實驗室等提出新方法,無需人工標注

      發(fā)布時間:2024-11-02 09:30:40 編輯: 來源:
      導讀 相信很多大家對多圖場景用DPO對齊,上海AI實驗室等提出新方法,無需人工標注還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 多圖像場景...

      相信很多大家對多圖場景用DPO對齊,上海AI實驗室等提出新方法,無需人工標注還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      多圖像場景也能用DPO方法來對齊了!

      由上海交大、上海AI實驗室、港中文等帶來最新成果MIA-DPO。

      這是一個面向大型視覺語言模型的多圖像增強的偏好對齊方法。

      通過將單圖像數(shù)據(jù)擴展至多圖像數(shù)據(jù),并設(shè)計序列、網(wǎng)格拼貼和圖中圖三種數(shù)據(jù)格式,MIA-DPO大幅降低了數(shù)據(jù)收集和標注成本,且具有高度可擴展性。

      要知道,理解多圖像上下文已經(jīng)成為視覺語言大模型的發(fā)展趨勢之一,許多數(shù)據(jù)集和評估基準被提出。不過幻覺問題依然很難避免,且引入多圖像數(shù)據(jù)可能削弱單圖像任務(wù)的表現(xiàn)。

      雖然偏好對齊方法(如DPO)在單圖像場景中已被證明有效,但多圖像偏好對齊仍然是一個解決問題。

      MIA-DPO不僅解決了這一問題,而且無需依賴人工標注或昂貴的API。

      通過分析視覺大語言模型在多圖像處理中的注意力分布差異,他們提出了一種基于注意力的選擇方法(Attention Aware Selection),自動過濾掉關(guān)注無關(guān)圖像的錯誤答案,構(gòu)建了自動化、低成本且適用于多圖像場景的DPO數(shù)據(jù)生成方法。

      △MIA-DPO的整體介紹與實驗結(jié)果。值得一提的是,該論文還獲得了當日HuggingFace DailyPaper #1.

      多圖推理容易有幻覺

      為從根本上研究LVLM的多圖推理問題,研究者首先深入探索了多圖情境下LVLM的幻覺問題。一些早期研究探討了不同類型的單圖像幻覺現(xiàn)象,例如物體幻覺,指的是模型錯誤描述圖像中不存在的物體。與單圖像幻覺相比,多圖像場景引入了更加復雜的幻覺類型。如圖2所示,研究者將多圖像幻覺分為兩類:

      (1) Sequence Confusion

      當模型面對多張圖片時,可能無法準確識別輸入提示所指向的圖像。例如,在圖2的上方案例中,問題是針對圖像1(人與大海),但模型的回答卻基于圖像4(鐵軌上的火車)。

      (2) Element Interference

      相比單圖像,多圖像場景中的視覺元素數(shù)量顯著增加,導致LVLMs在不同元素之間產(chǎn)生混淆。例如,在圖2的下方案例中,問題“圖像2中的汽車是什么顏色?”本應(yīng)回答為“白色”。然而,LVLM錯誤地將圖像3中摩托車的顏色屬性理解為圖像2中汽車的顏色,導致了錯誤的回答。

      △多圖幻覺

      用注意力機制檢測幻覺

      為構(gòu)建能夠提升多圖感知與推理能力并緩解幻覺的視覺文本對齊方法,研究者們提出了注意力機制作為檢測幻覺的指標。

      注意力機制揭示了模型在做出決策時“關(guān)注”的位置。研究者們觀察到,注意力機制為檢測多圖像幻覺提供了重要線索。

      理想情況下,注意力值應(yīng)集中在與問題相關(guān)的輸入圖像的特定區(qū)域上。如果注意力值分散或未強烈聚焦于正確的視覺元素或區(qū)域,表明模型在理解多圖像序列或區(qū)分不同圖像的元素時存在困難。

      基于這一觀察,研究者們設(shè)計了一種基于注意力感知的選擇機制,利用注意力值在DPO算法中選擇包含幻覺的被拒絕樣本。MIA-DPO的框架如下圖3所示。

      △MIA-DPO的整體架構(gòu)

      盡管基于注意力感知的選擇機制在構(gòu)建DPO數(shù)據(jù)時效果顯著,但仍可能會包含少量噪聲樣本,進而對模型產(chǎn)生不利影響。為此,研究者們引入后選擇步驟,通過以下三個指標來過濾噪聲樣本:(1) 困惑度(Perplexity, PPL);(2) 長度比率(Length Ratio);(3) 編輯距離(Edit Distance)。

      在構(gòu)造DPO數(shù)據(jù)的過程中,研究者通過引入無關(guān)圖像高效地轉(zhuǎn)換現(xiàn)有的單圖像數(shù)據(jù)集(例如LLaVA-665k)。

      該方法低成本、可擴展,數(shù)據(jù)形式豐富的優(yōu)勢,使MIA-DPO能夠較為全面地緩解LVLMs可能產(chǎn)生的各種多圖像幻覺類型。

      如下圖所示,研究者構(gòu)建了三種格式的多圖像DPO數(shù)據(jù):

      (1) 序列數(shù)據(jù):多張圖像按順序排列,問題針對特定圖像。圖像數(shù)量從2到5張不等;

      (2) 網(wǎng)格拼貼數(shù)據(jù):多張圖像合并為一張圖,每張圖像都有編號說明。問題根據(jù)語言描述定位到特定圖像。圖像數(shù)量從2到9張不等;

      (3) 圖中圖數(shù)據(jù):一張圖像被縮放并疊加在另一張圖像上,問題圍繞組合后的圖像展開。

      △MIA-DPO的三種數(shù)據(jù)類型

      研究者在多個多圖和單圖benchamrks上對MIA-DPO進行了測試。

      實驗結(jié)果顯示,在經(jīng)典的LLaVa1.5模型和更為強大的InternLM-Xcomposer2.5上,MIA-DPO都能顯著提升模型的多圖感知與推理能力,如圖所示,LLaVa1.5和InternLM-Xcomposer2.5在五個多圖benchmarks上分別取得了平均3%和4.3%的性能提升。

      除此之外,研究著在多個單圖benchmarks上也進行了豐富的實驗,結(jié)果顯示MIA-DPO在提升模型多圖感知與推理能力的同時,也能保持住模型原有的單圖理解能力。

      最后小結(jié)一下。

      MIA-DPO不僅為多圖像場景中對齊模型與人類偏好提出了全新解決方案,還通過引入低成本、可擴展的數(shù)據(jù)生成方法,推動了LVLMs在處理復雜多圖像任務(wù)中的應(yīng)用。MIA-DPO的成功證明了通過偏好優(yōu)化對齊模型與人類反饋,在提升模型多圖像感知與推理能力的同時,也可以保持原有的單圖任務(wù)性能,為未來的研究奠定了堅實基礎(chǔ)。

      論文地址:

      https://arxiv.org/abs/2410.17637

      Project Page:

      https://liuziyu77.github.io/MIA-DPO/

      Code:

      https://github.com/Liuziyu77/MIA-DPO

      以上就是關(guān)于【多圖場景用DPO對齊,上海AI實驗室等提出新方法,無需人工標注】的相關(guān)內(nèi)容,希望對大家有幫助!

      免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

      熱點推薦

      精選文章