超9000顆星,優(yōu)于GPT-4V!國內(nèi)開源多模態(tài)大模型
相信很多大家對超9000顆星,優(yōu)于GPT-4V!國內(nèi)開源多模態(tài)大模型還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
國內(nèi)著名開源社區(qū)OpenBMB發(fā)布了最新開源多模態(tài)大模型——MiniCPM-V2.6。
據(jù)悉,MiniCPM-V2.6一共有80億參數(shù),在單圖像、多圖像和視頻理解方面超越了GPT-4V;在單圖像理解方面優(yōu)于GPT-4o mini、Gemini1.5Pro 和 Claude3.5Sonnet。
值得一提的是,MiniCPM-V2.6顯著減少了模型的內(nèi)存占用并提高了推理效率,首次支持iPad等端側(cè)設(shè)備進(jìn)行實時視頻理解的模型。
開源地址:https://github.com/OpenBMB/MiniCPM-V
在線demo:https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6
MiniCPM-V2.6是基于SigLip-400M和阿里的Qwen2-7B模型開發(fā)而成,相比V2.5性能進(jìn)行了大幅度更新,并引入了多圖像和視頻理解的特色功能。
性能超強(qiáng):在最新版本的OpenCompass上平均得分達(dá)到65.2,在8個流行基準(zhǔn)測試中表現(xiàn)很好。僅用80億參數(shù)就超越了GPT -4o mini、GPT -4V、Gemini1.5Pro和Claude3.5Sonnet等知名多模態(tài)大模型在單圖像理解方面的性能。
多圖像理解和上下文學(xué)習(xí)能力:能夠?qū)Χ鄨D像進(jìn)行對話和推理,在Mantis - Eval、BLINK、Mathverse mv和Sciverse mv等多圖像基準(zhǔn)測試中達(dá)到了領(lǐng)先水平,同時展示出了卓越的上下文學(xué)習(xí)能力。
視頻理解能力優(yōu)秀:可以接受視頻輸入,對視頻進(jìn)行對話并為時空信息提供密集的字幕。在Video - MME測試中,無論是否有字幕的情況下,都優(yōu)于GPT -4V、Claude3.5Sonnet和LLaVA - NEXT - Video -34B。
特色OCR識別能力:該版本在OCR任務(wù)上展現(xiàn)了更強(qiáng)的能力,能夠更準(zhǔn)確地識別和轉(zhuǎn)錄圖像中的文字,例如,可以處理任何寬高比且高達(dá)180萬像素(如1344x1344)的圖像,在OCRBench上達(dá)到了領(lǐng)先水平,超越了GPT -4o、GPT -4V和Gemini1.5Pro等專有模型。
安全可靠:在可信行為方面,MiniCPM-V2.6基于最新的RLAIF - V和VisCPM技術(shù),減少了幻覺的產(chǎn)生提高了模型的可信度,在Object HalBench上的幻覺率顯著低于GPT -4o和GPT -4V。
多語言支持:MiniCPM-V2.6支持英語、中文、德語、法語、意大利語、韓語等多種語言,增加了對更多語種的識別和生成能力,幫助開發(fā)者開發(fā)不同語言的應(yīng)用。
卓越的推理效率:具有非常棒的token密度,例如,處理180萬像素的圖像時僅產(chǎn)生640個token,這比大多數(shù)模型少75%,極大提升了推理效率、首token延遲、內(nèi)存使用和功耗,使其能夠在iPad等終端設(shè)備上高效支持實時視頻理解。
易用擴(kuò)展性強(qiáng):可以通過多種方式輕松使用,包括llama.cpp和ollama支持在本地設(shè)備上進(jìn)行高效的CPU推理,提供int4和GGUF格式的量化模型,支持vLLM進(jìn)行高吞吐量和內(nèi)存高效的推理,支持在新領(lǐng)域和任務(wù)上進(jìn)行微調(diào)
目前,MiniCPM-V2.6在Github的評分超過9000顆星,是開源多模態(tài)中性能非常好用的一款模型。
本文素材來源OpenBMB,如有侵權(quán)請聯(lián)系刪除
END
以上就是關(guān)于【超9000顆星,優(yōu)于GPT-4V!國內(nèi)開源多模態(tài)大模型】的相關(guān)內(nèi)容,希望對大家有幫助!