英特爾團隊提出L-MAGIC新技術(shù) 通過結(jié)合語言模型讓圖像擴散模型生成高質(zhì)量360度場景

發(fā)布時間：2024-06-11 14:30:22 編輯：來源：

導讀相信很多大家對英特爾團隊提出L-MAGIC新技術(shù) 通過結(jié)合語言模型讓圖像擴散模型生成高質(zhì)量360度場景還不知道吧，今天菲菲就帶你們一起去了解...

相信很多大家對英特爾團隊提出L-MAGIC新技術(shù) 通過結(jié)合語言模型讓圖像擴散模型生成高質(zhì)量360度場景還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

站長之家（ChinaZ.com）6月11日消息:在CVPR2024上，美國英特爾研究院的蔡志鵬博士及其團隊提出了一種名為L-MAGIC（Language Model Assisted Generation of Images with Coherence）的新技術(shù)。這項技術(shù)通過結(jié)合語言模型和圖像擴散模型，實現(xiàn)了高質(zhì)量、多模態(tài)、零樣本泛化的360度場景生成。

核心特點:

結(jié)合語言模型和擴散模型:L-MAGIC利用自然圖像連接不同模態(tài)的輸入，并通過條件擴散模型如ControlNet從各種模態(tài)輸入生成自然圖像。

迭代變形和填充:在獲得自然圖像后，L-MAGIC通過迭代變形（warping）和填充(inpainting)生成360度場景的多個視角，使用基于擴散的圖像填充模型(如Stable Diffusion v2)生成缺失像素。

語言模型控制:L-MAGIC使用語言模型自動控制擴散模型，根據(jù)每個視角需要生成的場景內(nèi)容，有效保持語言及擴散模型的泛化性。

多樣化場景生成:L-MAGIC能夠生成多樣化的全局場景結(jié)構(gòu)，無需微調(diào)，從而實現(xiàn)多樣化場景的高質(zhì)量生成。

多模態(tài)輸入:除了自然圖像，L-MAGIC還能接受文字、手繪草圖、深度圖等多種模態(tài)的輸入。

實驗結(jié)果表明:

L-MAGIC在圖像到360度場景生成及文字到360度場景生成任務(wù)中均達到了SOTA（State of the Art）。

能夠生成具有多樣化360度場景結(jié)構(gòu)的全景圖，并且能夠平滑地完成360度閉環(huán)。

除了文字和自然圖像，L-MAGIC還能夠使用ControlNet接受多樣化的輸入，如深度圖、設(shè)計草圖等。

技術(shù)應(yīng)用:

L-MAGIC還能夠利用深度估計模型生成場景的沉浸式視頻和三維點云，為場景理解和可視化提供了更多可能性。

項目主頁：https://zhipengcai.github.io/MMPano/

以上就是關(guān)于【英特爾團隊提出L-MAGIC新技術(shù) 通過結(jié)合語言模型讓圖像擴散模型生成高質(zhì)量360度場景】的相關(guān)內(nèi)容，希望對大家有幫助！

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

英特爾團隊提出L-MAGIC新技術(shù) 通過結(jié)合語言模型讓圖像擴散模型生成高質(zhì)量360度場景

相關(guān)閱讀

最新文章

熱點推薦

精選文章