日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<sup id="tlysb"><bdo id="tlysb"></bdo></sup>

Meta發(fā)布類GPT-4o多模態(tài)模型Chameleon

發(fā)布時(shí)間：2024-05-21 15:03:24 編輯：來源：

導(dǎo)讀相信很多大家對Meta發(fā)布類GPT-4o多模態(tài)模型Chameleon還不知道吧，今天菲菲就帶你們一起去了解一下~.~！站長之家（ChinaZ.com）5月21日消...

相信很多大家對Meta發(fā)布類GPT-4o多模態(tài)模型Chameleon還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

站長之家（ChinaZ.com）5月21日消息:Meta最近發(fā)布了一個(gè)名為Chameleon的多模態(tài)模型，它在多模態(tài)模型發(fā)展中設(shè)立了新的標(biāo)桿。Chameleon是一個(gè)早期融合的基于token的混合模態(tài)模型家族，能夠理解并生成任意順序的圖像和文本。它通過一個(gè)統(tǒng)一的Transformer架構(gòu)，使用文本、圖像和代碼混合模態(tài)完成訓(xùn)練，并且對圖像進(jìn)行分詞化，生成交錯(cuò)的文本和圖像序列。

Chameleon模型的創(chuàng)新之處在于其早期融合方法，所有處理流程從一開始就映射到一個(gè)共同的表示空間，讓模型能夠無縫處理文本和圖像。它在各種任務(wù)上展示了廣泛的能力，包括視覺問答、圖像標(biāo)注、文本生成、圖像生成和長形式混合模態(tài)生成。在圖像標(biāo)注任務(wù)上，Chameleon達(dá)到了最先進(jìn)的性能，并且在文本任務(wù)上超越了Llama-2，與Mixtral8x7B和Gemini-Pro等模型競爭。

論文地址:https://arxiv.org/pdf/2405.09818

Chameleon模型在技術(shù)上面臨了重大挑戰(zhàn)，Meta的研究團(tuán)隊(duì)引入了一系列架構(gòu)創(chuàng)新和訓(xùn)練技術(shù)。例如，他們開發(fā)了新的圖像分詞器，基于8192大小的codebook，將512×512的圖像編碼為1024個(gè)離散的token。此外，Chameleon使用了sentencepiece開源庫訓(xùn)練的BPE分詞器。

在預(yù)訓(xùn)練階段，Chameleon使用了混合模態(tài)數(shù)據(jù)，包括純文本、文本-圖像對以及文本和圖像交錯(cuò)的多模態(tài)文檔。預(yù)訓(xùn)練分為兩個(gè)階段，第一階段無監(jiān)督學(xué)習(xí)，第二階段混合更高質(zhì)量的數(shù)據(jù)。

Chameleon模型在基準(zhǔn)評估中全面超越了Llama2，在常識推理、閱讀理解、數(shù)學(xué)問題和世界知識領(lǐng)域都取得了顯著的效果。在人工評估和安全測試中，Chameleon-34B的表現(xiàn)也遠(yuǎn)遠(yuǎn)超過了Gemini Pro和GPT-4V。

盡管Chameleon缺少GPT-4o中的語音能力，但Meta的產(chǎn)品管理總監(jiān)表示，他們非常自豪能夠支持這個(gè)團(tuán)隊(duì)，并希望讓GPT-4o更接近開源社區(qū)。這可能意味著不久的將來，我們可能會得到一個(gè)開源版的GPT-4o。

Chameleon模型的發(fā)布，展示了Meta在多模態(tài)模型領(lǐng)域的重大進(jìn)展，它不僅推動(dòng)了多模態(tài)模型的發(fā)展，也為未來的研究和應(yīng)用提供了新的可能性。

以上就是關(guān)于【Meta發(fā)布類GPT-4o多模態(tài)模型Chameleon】的相關(guān)內(nèi)容，希望對大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新文章