日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥

      發(fā)布時間:2024-08-12 18:00:24 編輯: 來源:
      導讀 相信很多大家對2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥還不知道吧,今天菲菲就帶你們一起去了解一...

      相信很多大家對2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      最近,提升多模態(tài)大模型處理高分辨率圖像的能力越來越引起這個領域的關注。

      絕大多數(shù)方法致力于通過對圖像進行切分再融合的策略,來提升多模態(tài)大模型對圖像細節(jié)的理解能力。

      然而,由于對圖像的切分操作,不可避免會對目標、聯(lián)通區(qū)域帶來割裂,導致MLMMs對于微小或形狀不規(guī)則的目標的辨識能力。這個現(xiàn)象在文檔理解任務中,表現(xiàn)極為明顯,由于文字端經(jīng)常被中斷。

      針對這一挑戰(zhàn),華中科技大學和華南理工大學最近聯(lián)合發(fā)布一個多模態(tài)大模型Mini-Monkey,使用了可插拔的多尺度自適應策略(MSAC)的輕量化多模態(tài)大模型。

      Mini-Monkey自適應生成多尺度表示,允許模型從各種尺度中選擇未分割的對象,其性能達到了2B多模態(tài)大模型的新SOTA。

      論文地址:https://arxiv.org/pdf/2408.02034

      項目地址:https://github.com/Yuliang-Liu/Monkey

      為了減輕MSAC帶來的計算開銷,我們提出了一種有效壓縮圖像令牌的尺度壓縮機制(SCM)。

      Mini-Monkey不僅在文檔智能的多個任務上取得了領先的性能,在通用多模態(tài)模型理解任務上也取得了一致的性能的提升,取得了2B的SOTA性能。

      在OCRBench上,Mini-Monkey獲得了802分,優(yōu)于GLM-4v-9B等更大參數(shù)量的模型。

      圖3方法框圖:H-Attn代表高注意力權;L-Attn代表低注意權重;注意權重較低的令牌將被過濾;共享LLM層表示在SCM中使用LLM的塊層

      研究背景

      多模態(tài)大型語言模型(MLMM)在近年了引起了很大的關注。研究人員正在積極探索將視覺編碼器與LLM集成的有效方法。

      一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已經(jīng)取得了這些成就,但由于處理分辨率有限,以前的多模態(tài)大語言模型并沒有很好地實現(xiàn)詳細的場景理解。

      圖1切分在通用物體上引起的鋸齒效應:(a)輸入圖像;(b)切分擴大分辨率策略;(c)有重疊的切分擴大分辨率策略;(d)多尺度適應性切分策略

      研究者開始通過擴大圖像的輸入分辨率來解決這個問題。切分策略是最常用的方法之一。例如,Monkey,LLaVA1.6,InternVL1.5和LLama3-V等。

      盡管多模態(tài)大型語言模型取得了重大進展,但由于切分策略,在詳細場景理解方面仍然存在挑戰(zhàn)。

      對圖像的切分操作不可避免地會分割物體和連接區(qū)域,從而削弱了MLLM識別小物體或不規(guī)則形狀物體的能力,特別是在文檔理解的背景下。

      這種策略將引入兩種類型的語義不連貫:

      1. 如果一個對象或字符被分割,它可能無法被識別。例如,切分后的鼻子看起來非常像猴子,如圖1(b)所示;

      2. 如果對一個詞或句子進行分詞,會造成被分詞的語義損害。例如,單詞「Classrooms」可能被分為「Class」和「rooms」,這會對分割后的單詞造成語義損害。

      為簡單起見,作者稱這個問題為鋸齒效應。一個非常直接的想法是采用重疊切分策略來解決這個問題,如圖1(c)所示。

      然而,作者發(fā)現(xiàn)重疊切分策略引入了某些幻覺,導致性能下降而不是提高。

      方法思路

      作者提出了Mini-Monkey,一個輕量級的多模態(tài)大型語言模型,旨在減輕切分策略引起的鋸齒效應。方法框圖如圖2所示。

      圖2裁切在文字圖像上引起的鋸齒效應。

      與直接切分輸入圖像的現(xiàn)有方法不同,Mini-Monkey采用了一種即插即用的方法稱為多尺度自適應切分策略(MSAC)。

      MSAC可以在不同尺度的特征之間進行有效的互補,如圖1(d)所示。

      多尺度自適應切分策略(MSAC)

      MSAC先對這些網(wǎng)格進行分層操作,根據(jù)它們的縱橫比將它們分成三組。作者將為每個圖層選擇一個寬高比。不同的分層為模型提供不同的信息。

      詳細層負責提供詳細信息。它既限制了最大圖像分辨率和最小圖像分辨率,使圖像盡可能大,使圖像中的物體更清晰。由于使用了切分策略來剪裁圖像,該層生成的圖像可能存在語義不一致。

      因此,作者利用自適應層與細節(jié)層協(xié)同,使模型能夠從各種尺度中選擇未分割的對象。自適應層將根據(jù)細節(jié)層自適應生成縱橫比,確保細節(jié)層上的切分線與自適應層上的切分線不重疊,進而避免了同一個物體在不同層上被切分兩次。這個過程確保了細節(jié)層和自適應層為模型提供了不同的語義信息和視覺特征。

      尺度壓縮機制

      MSAC可能會引入一些額外的計算開銷。因此,作者提出了一種尺度壓縮機制(SCM),用于有計算開銷限制的情況。SCM是一個不用訓練并且無參數(shù)的機制,以減少計算開銷。

      作者選擇自適應層的視覺Tokens、全局層的視覺Tokens和文本Tokens來關注細節(jié)層的視覺標記,進而生成注意力圖,然后將注意力圖Top K的視覺特征提取出來。

      一個訓練好的LLM可以根據(jù)輸入問題有效地選擇必要的視覺特征。因此,SCM利用LLM的第一層和第二層來選擇視覺Tokens,而不生成任何額外的參數(shù)。

      Mini-Monkey最強2B多模態(tài)大模型

      作者在通用多模態(tài)理解和文檔理解上測試了他們的方法,實驗結果表明,Mini-Monkey在2B參數(shù)量的情況下,同時在通用多模態(tài)理解和文檔理解上取得了最好的性能。

      表1通用多模態(tài)理解上的結果

      表2文檔理解上的結果

      作者將提出的MSAC和現(xiàn)有的方法對比,第一行是動態(tài)切分的方法,第二行是固定分辨率切分的方法,第三行是有重疊的切分,第四行是多尺度策略S2。

      表3與不同的切分策略進行對比

      MSAC可以應用到不同的多模態(tài)架構上,穩(wěn)定提點

      同時作者也將MSAC應用到其他的方法進行對比,可以看到同時在通用多模態(tài)理解和文檔理解任務上都有一致的提升。

      表4將MSAC應用到不同的框架上

      有效緩解由切分增大分辨率導致的「后遺癥」

      同時作者也提供了一些定性的分析,如圖4所示。作者對切分到的位置進行提問,比如被切分到的「classrooms」和「school」。

      可以看到,Mini-Monkey通過MSAC可以有效的緩解由切分增大分辨率導致的「后遺癥」。

      圖4定性結果:(a)輸入圖像和Ground Truth;(b)采用重疊切分策略的結果,OSC表示重疊切分策略;(c)internv2-2b和internv2-26b的結果;(d)Mini-Monkey的結果

      可視化對比

      Mini-Monkey能準確的提取模糊的古籍里面的文字內(nèi)容,而MiniCPM-V2.6和InternVL2-2B都漏掉了比較多的文字,GPT4-O拒絕回答:

      (a)輸入圖片

      (b)Mimi-Monkey:準確識別出所有文字

      (c)MiniCPM-V2.6:漏掉了很多文字。

      (d)InternVL2-2B:漏掉了一整句比較模糊的文字

      (e)GPT-4o:拒絕回答

      總結

      使用切分擴大分辨率的方法經(jīng)常分割對象和連接區(qū)域,這限制了對小的或不規(guī)則形狀的對象和文本的識別,這個問題在輕量級的MLLM中尤為明顯。

      在這項研究中,作者提出了一個取得SOTA性能的2B多模態(tài)大模型Mini-Monkey,旨在解決現(xiàn)有切分策略的局限性,以提高MLLM處理高分辨率圖像的能力。

      Mini-Monkey采用了一種多尺度自適應切分策略(MSAC),生成多尺度表示,允許模型在不同尺度上選擇未分割的對象,進而緩解了這個問題。

      同時,作者也驗證了多尺度自適應切分策略在別的架構的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導致的「后遺癥」提供了一種簡單有效的解決方案。

      以上就是關于【2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥】的相關內(nèi)容,希望對大家有幫助!

      免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

      熱點推薦

      精選文章