2B多模態(tài)新SOTA,華科、華南理工發(fā)布Mini-Monkey,專治“切分增大分辨率”后遺癥
相信很多大家對2B多模態(tài)新SOTA,華科、華南理工發(fā)布Mini-Monkey,專治“切分增大分辨率”后遺癥還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導讀】Mini-Monkey 是一個輕量級的多模態(tài)大型語言模型,通過采用多尺度自適應切分策略(MSAC)和尺度壓縮機制(SCM),有效緩解了傳統(tǒng)圖像切分策略帶來的鋸齒效應,提升了模型在高分辨率圖像處理和文檔理解任務(wù)的性能。它在多項基準測試中取得了領(lǐng)先的成績,證明了其在多模態(tài)理解和文檔智能領(lǐng)域的潛力。
最近,提升多模態(tài)大模型處理高分辨率圖像的能力越來越引起這個領(lǐng)域的關(guān)注。
絕大多數(shù)方法致力于通過對圖像進行切分再融合的策略,來提升多模態(tài)大模型對圖像細節(jié)的理解能力。
然而,由于對圖像的切分操作,不可避免會對目標、聯(lián)通區(qū)域帶來割裂,導致MLMMs對于微小或形狀不規(guī)則的目標的辨識能力。這個現(xiàn)象在文檔理解任務(wù)中,表現(xiàn)極為明顯,由于文字端經(jīng)常被中斷。
針對這一挑戰(zhàn),華中科技大學和華南理工大學最近聯(lián)合發(fā)布一個多模態(tài)大模型Mini-Monkey,使用了可插拔的多尺度自適應策略(MSAC)的輕量化多模態(tài)大模型。
Mini-Monkey自適應生成多尺度表示,允許模型從各種尺度中選擇未分割的對象,其性能達到了2B多模態(tài)大模型的新SOTA。
論文地址:https://arxiv.org/pdf/2408.02034
項目地址:https://github.com/Yuliang-Liu/Monkey
為了減輕MSAC帶來的計算開銷,我們提出了一種有效壓縮圖像令牌的尺度壓縮機制(SCM)。
Mini-Monkey不僅在文檔智能的多個任務(wù)上取得了領(lǐng)先的性能,在通用多模態(tài)模型理解任務(wù)上也取得了一致的性能的提升,取得了2B的SOTA性能。
在OCRBench上,Mini-Monkey獲得了802分,優(yōu)于GLM-4v-9B等更大參數(shù)量的模型。
圖3方法框圖:H-Attn代表高注意力權(quán);L-Attn代表低注意權(quán)重;注意權(quán)重較低的令牌將被過濾;共享LLM層表示在SCM中使用LLM的塊層
研究背景
多模態(tài)大型語言模型(MLMM)在近年了引起了很大的關(guān)注。研究人員正在積極探索將視覺編碼器與LLM集成的有效方法。
一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已經(jīng)取得了這些成就,但由于處理分辨率有限,以前的多模態(tài)大語言模型并沒有很好地實現(xiàn)詳細的場景理解。
圖1切分在通用物體上引起的鋸齒效應:(a)輸入圖像;(b)切分擴大分辨率策略;(c)有重疊的切分擴大分辨率策略;(d)多尺度適應性切分策略
研究者開始通過擴大圖像的輸入分辨率來解決這個問題。切分策略是最常用的方法之一。例如,Monkey,LLaVA1.6,InternVL1.5和LLama3-V等。
盡管多模態(tài)大型語言模型取得了重大進展,但由于切分策略,在詳細場景理解方面仍然存在挑戰(zhàn)。
對圖像的切分操作不可避免地會分割物體和連接區(qū)域,從而削弱了MLLM識別小物體或不規(guī)則形狀物體的能力,特別是在文檔理解的背景下。
這種策略將引入兩種類型的語義不連貫:
1. 如果一個對象或字符被分割,它可能無法被識別。例如,切分后的鼻子看起來非常像猴子,如圖1(b)所示;
2. 如果對一個詞或句子進行分詞,會造成被分詞的語義損害。例如,單詞「Classrooms」可能被分為「Class」和「rooms」,這會對分割后的單詞造成語義損害。
為簡單起見,作者稱這個問題為鋸齒效應。一個非常直接的想法是采用重疊切分策略來解決這個問題,如圖1(c)所示。
然而,作者發(fā)現(xiàn)重疊切分策略引入了某些幻覺,導致性能下降而不是提高。
方法思路
作者提出了Mini-Monkey,一個輕量級的多模態(tài)大型語言模型,旨在減輕切分策略引起的鋸齒效應。方法框圖如圖2所示。
圖2裁切在文字圖像上引起的鋸齒效應。
與直接切分輸入圖像的現(xiàn)有方法不同,Mini-Monkey采用了一種即插即用的方法稱為多尺度自適應切分策略(MSAC)。
MSAC可以在不同尺度的特征之間進行有效的互補,如圖1(d)所示。
多尺度自適應切分策略(MSAC)
MSAC先對這些網(wǎng)格進行分層操作,根據(jù)它們的縱橫比將它們分成三組。作者將為每個圖層選擇一個寬高比。不同的分層為模型提供不同的信息。
詳細層負責提供詳細信息。它既限制了最大圖像分辨率和最小圖像分辨率,使圖像盡可能大,使圖像中的物體更清晰。由于使用了切分策略來剪裁圖像,該層生成的圖像可能存在語義不一致。
因此,作者利用自適應層與細節(jié)層協(xié)同,使模型能夠從各種尺度中選擇未分割的對象。自適應層將根據(jù)細節(jié)層自適應生成縱橫比,確保細節(jié)層上的切分線與自適應層上的切分線不重疊,進而避免了同一個物體在不同層上被切分兩次。這個過程確保了細節(jié)層和自適應層為模型提供了不同的語義信息和視覺特征。
尺度壓縮機制
MSAC可能會引入一些額外的計算開銷。因此,作者提出了一種尺度壓縮機制(SCM),用于有計算開銷限制的情況。SCM是一個不用訓練并且無參數(shù)的機制,以減少計算開銷。
作者選擇自適應層的視覺Tokens、全局層的視覺Tokens和文本Tokens來關(guān)注細節(jié)層的視覺標記,進而生成注意力圖,然后將注意力圖Top K的視覺特征提取出來。
一個訓練好的LLM可以根據(jù)輸入問題有效地選擇必要的視覺特征。因此,SCM利用LLM的第一層和第二層來選擇視覺Tokens,而不生成任何額外的參數(shù)。
Mini-Monkey最強2B多模態(tài)大模型
作者在通用多模態(tài)理解和文檔理解上測試了他們的方法,實驗結(jié)果表明,Mini-Monkey在2B參數(shù)量的情況下,同時在通用多模態(tài)理解和文檔理解上取得了最好的性能。
表1通用多模態(tài)理解上的結(jié)果
表2文檔理解上的結(jié)果
作者將提出的MSAC和現(xiàn)有的方法對比,第一行是動態(tài)切分的方法,第二行是固定分辨率切分的方法,第三行是有重疊的切分,第四行是多尺度策略S2。
表3與不同的切分策略進行對比
MSAC可以應用到不同的多模態(tài)架構(gòu)上,穩(wěn)定提點
同時作者也將MSAC應用到其他的方法進行對比,可以看到同時在通用多模態(tài)理解和文檔理解任務(wù)上都有一致的提升。
表4將MSAC應用到不同的框架上
有效緩解由切分增大分辨率導致的「后遺癥」
同時作者也提供了一些定性的分析,如圖4所示。作者對切分到的位置進行提問,比如被切分到的「classrooms」和「school」。
可以看到,Mini-Monkey通過MSAC可以有效的緩解由切分增大分辨率導致的「后遺癥」。
圖4定性結(jié)果:(a)輸入圖像和Ground Truth;(b)采用重疊切分策略的結(jié)果,OSC表示重疊切分策略;(c)internv2-2b和internv2-26b的結(jié)果;(d)Mini-Monkey的結(jié)果
可視化對比
Mini-Monkey能準確的提取模糊的古籍里面的文字內(nèi)容,而MiniCPM-V2.6和InternVL2-2B都漏掉了比較多的文字,GPT4-O拒絕回答:
(a)輸入圖片
(b)Mimi-Monkey:準確識別出所有文字
(c)MiniCPM-V2.6:漏掉了很多文字。
(d)InternVL2-2B:漏掉了一整句比較模糊的文字
(e)GPT-4o:拒絕回答
總結(jié)
使用切分擴大分辨率的方法經(jīng)常分割對象和連接區(qū)域,這限制了對小的或不規(guī)則形狀的對象和文本的識別,這個問題在輕量級的MLLM中尤為明顯。
在這項研究中,作者提出了一個取得SOTA性能的2B多模態(tài)大模型Mini-Monkey,旨在解決現(xiàn)有切分策略的局限性,以提高MLLM處理高分辨率圖像的能力。
Mini-Monkey采用了一種多尺度自適應切分策略(MSAC),生成多尺度表示,允許模型在不同尺度上選擇未分割的對象,進而緩解了這個問題。
同時,作者也驗證了多尺度自適應切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導致的「后遺癥」提供了一種簡單有效的解決方案。
以上就是關(guān)于【2B多模態(tài)新SOTA,華科、華南理工發(fā)布Mini-Monkey,專治“切分增大分辨率”后遺癥】的相關(guān)內(nèi)容,希望對大家有幫助!