耗資數(shù)百萬(wàn),六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬(wàn)
相信很多大家對(duì)耗資數(shù)百萬(wàn),六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬(wàn)還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】研發(fā)6年,耗資數(shù)百萬(wàn),六屆學(xué)霸接力,上交牛力團(tuán)隊(duì)首創(chuàng)的圖像合成工具箱libcom,論文、代碼、數(shù)據(jù)集全開源。團(tuán)隊(duì)歡迎各位大佬共鑄libcom,貢獻(xiàn)突出者可享冠名權(quán)。
在AIGC 的浪潮中,對(duì)已有圖片做編輯的圖像編輯(image editing)技術(shù)受到了越來(lái)越多的關(guān)注。圖像編輯(image editing)的原子操作包括增、刪、改。
「增」是指在圖像中添加元素,該研究方向叫做圖像合成(image composition)
「刪」是指從圖像中擦除元素,該研究方向叫做圖像填充(image inpainting)
「改」是指改變圖像中元素的屬性,該研究方向叫做屬性編輯(attribute manipulation)
其余復(fù)雜的圖像編輯操作皆可轉(zhuǎn)化為「增」、 「刪」、「改」這三個(gè)原子操作的組合,通過(guò)按照一定順序執(zhí)行這些原子操作完成。
因此,圖像合成(image composition)在圖像編輯的版圖中三分天下居其一,在虛擬現(xiàn)實(shí)、藝術(shù)創(chuàng)作、電商廣告、數(shù)據(jù)增廣等領(lǐng)域有著廣泛應(yīng)用。
圖像合成(image composition)的通常用法是把一個(gè)前景物體插入到一張背景圖片中,得到一張合成圖。
但是通過(guò)簡(jiǎn)單的剪切粘貼得到的合成圖會(huì)存在諸多問(wèn)題,皆可視為前景和背景之間的不一致性,包括外觀不一致性、幾何不一致性、語(yǔ)義不一致性。三種不一致性可進(jìn)一步分解成若干子問(wèn)題(邊界、光照、陰影、放置、遮擋、視角等等)。
為了解決這些子問(wèn)題,很多子任務(wù)(圖像融合、圖像和諧化、陰影生成、物體放置等等)被相繼提出,用于解決一個(gè)或多個(gè)子問(wèn)題。
在圖像合成中,不一致性(inconsistency)、子問(wèn)題(issue)、子任務(wù)(sub-task)三者之間的關(guān)系如下圖所示。
上述這些子任務(wù)可以串行(sequential pipeline)或者并行(parallel pipeline)執(zhí)行,以解決前景和背景之間的不一致性,得到高質(zhì)量合成圖。
串行流程和并行流程如下圖所示,綠勾和紅叉表示是否執(zhí)行該子任務(wù)。
給定一對(duì)背景圖片和前景物體,串行流程先在背景中尋找前景物體的合理放置,通過(guò)圖像混合解決邊界不自然的問(wèn)題,通過(guò)圖像和諧化解決前背景光照不和諧的問(wèn)題,通過(guò)陰影生成為前景物體在背景上生成合理的陰影。而并行流程在一個(gè)模型中同時(shí)執(zhí)行多個(gè)子任務(wù),直接輸出最終的合成圖。
并行流程也叫做生成式圖像合成,近兩年隨著擴(kuò)散模型的爆火而進(jìn)入大眾的視野。
在這一領(lǐng)域,上海交通大學(xué)牛力團(tuán)隊(duì)從2018年底就開始從事圖像合成(image composition)領(lǐng)域的研究,從數(shù)據(jù)(10+原創(chuàng)數(shù)據(jù)集)到模型(30+原創(chuàng)模型)、論文(20+已發(fā)表論文),再到工具箱(libcom),歷時(shí)六年,耗資數(shù)百萬(wàn),由六屆學(xué)生接力完成。
所有數(shù)據(jù)集的每張圖片都經(jīng)過(guò)2~3人檢查,以嚴(yán)格保證數(shù)據(jù)集的質(zhì)量。所有模型的代碼都經(jīng)過(guò)2~3人檢查,以確保沒(méi)有嚴(yán)重的bug(如果有嚴(yán)重的bug請(qǐng)盡快打臉)。
實(shí)驗(yàn)室項(xiàng)目主頁(yè):github.com/bcmi
2023年底,團(tuán)隊(duì)推出了盡量無(wú)需訓(xùn)練微調(diào)、對(duì)任意圖片開箱即用的圖像合成工具箱libcom,該工具箱的形式也是首創(chuàng)的,體現(xiàn)了他們對(duì)image composition領(lǐng)域的理解。
截至2024年10月,libcom已經(jīng)下載安裝1.2萬(wàn)次。
工具箱地址:github.com/bcmi/libcom
因?yàn)閳D像合成旨在融合不同的圖片元素,所以libcom的logo采用了半人馬的形象,即人和馬的融合,并添加了裝飾性的藍(lán)圈和黃圈的融合。由于藍(lán)色和黃色的過(guò)渡色是綠色,因此半人馬系上了一條綠色的腰帶。
Libcom集成了圖像合成的十幾項(xiàng)功能,對(duì)圖像合成實(shí)現(xiàn)全方位覆蓋,每個(gè)功能選擇了一到兩個(gè)簡(jiǎn)單有效的方法。
經(jīng)過(guò)近一年的迭代,大多數(shù)功能的效果還湊合。并且,每一個(gè)功能都有對(duì)應(yīng)的倉(cāng)庫(kù),倉(cāng)庫(kù)里有訓(xùn)練代碼。
如果你發(fā)現(xiàn)某項(xiàng)功能在你的數(shù)據(jù)集上表現(xiàn)欠佳,很有可能是數(shù)據(jù)差異導(dǎo)致,用你收集的訓(xùn)練數(shù)據(jù)微調(diào)模型,替換掉原來(lái)的checkpoint即可。
和libcom一同打包贈(zèng)送的還有awesome-image-composition(匯總了該領(lǐng)域的論文、代碼、數(shù)據(jù)集),在線demo(很久沒(méi)更新了,不是最新模型)、以及一篇寫了四年的survey(一年一更)。
十二大功能全解
接下來(lái)依次介紹libcom的十幾項(xiàng)功能,涵蓋了圖像合成的方方面面:
1.get_composite_image
通過(guò)剪切粘貼、alpha融合和泊松融合混合前景背景。這些是最簡(jiǎn)單的傳統(tǒng)圖像融合方法。
2.OPAScoreModel
輸入合成圖和前景掩碼,判斷前景物體的放置(位置、大?。┦欠窈侠?。輸出的分?jǐn)?shù)介于[0,1]之間,1表示合理,0表示不合理。
左邊的合成圖分?jǐn)?shù)為1,右邊的合成圖分?jǐn)?shù)為0
3.FOPAHeatMapModel
輸入一對(duì)背景圖片和前景物體,輸出該物體按照不同尺寸放在背景圖片不同位置得到的合成圖的合理性分?jǐn)?shù)。
假設(shè)有K個(gè)離散的前景物體尺寸,背景圖片大小為H*W, 則輸出H*W*K的熱力圖。
熱力圖上的每個(gè)像素對(duì)應(yīng)一個(gè)放置的合理性分?jǐn)?shù),因此根據(jù)熱力圖可以獲取合理的前景物體放置框。
單個(gè)前景物體尺寸的熱力圖以及根據(jù)熱力圖得到的前景物體放置框
4.color_transfer
傳統(tǒng)的顏色遷移方法,用于將背景的顏色遷移到前景,適用于簡(jiǎn)單場(chǎng)景的圖像和諧化。
合成圖和顏色遷移后的結(jié)果
5.ImageHarmonizationModel
輸入合成圖和前景掩碼,圖像和諧化模型調(diào)整前景的光照使其與背景和諧,輸出和諧化結(jié)果。
6.PainterlyHarmonizationModel
藝術(shù)圖像和諧化與圖像和諧化類似,區(qū)別在于背景是藝術(shù)圖片。
輸入合成圖和前景掩碼,藝術(shù)圖像和諧化模型調(diào)整前景的風(fēng)格(顏色、紋理、筆觸等)使其與背景一致,輸出和諧化結(jié)果。
7.HarmonyScoreModel
輸入合成圖和前景掩碼,判斷前景和背景的光照是否匹配,輸出前景與背景的和諧化分?jǐn)?shù)。分?jǐn)?shù)介于[0,1]之間,1表示和諧,0表示不和諧。
左邊的合成圖分?jǐn)?shù)為0.25,右邊的合成圖分?jǐn)?shù)為0.72
8.InharmoniousLocalizationModel
輸入一張圖片,輸出該圖片不和諧區(qū)域的掩碼。
合成圖和模型預(yù)測(cè)的不和諧區(qū)域
9.FOSScoreModel
輸入一張合成圖,預(yù)測(cè)前景和背景在幾何和語(yǔ)義上的適配性分?jǐn)?shù),包括前景和背景的透視角度是否一致、前景物體的語(yǔ)義上下文是否合理等等。輸出的適配性分?jǐn)?shù)介于[0,1]之間,1表示適配,0表示不適配。
10.ShadowGenerationModel
輸入一張合成圖和前景掩碼,為前景物體在背景上生成合理的陰影。該功能不是很穩(wěn)定,通常隨機(jī)生成5張會(huì)有1~2張的陰影形狀較好。
隨機(jī)采樣5次生成的結(jié)果
11.ControlComModel
輸入一對(duì)背景圖片和前景物體,把前景物體插入背景圖片指定位置(黃色邊界框),保持前景物體的姿態(tài)不變,做圖像融合或者圖像和諧化。兩者的區(qū)別在于圖像和諧化需要進(jìn)一步調(diào)整前景物體的光照使其與背景和諧。
12.MureObjectStitchModel
輸入一對(duì)背景圖片和前景物體(支持多張參考圖),把前景物體插入背景圖片指定位置(黃色邊界框),調(diào)整前景物體的姿態(tài)和光照,得到合理的合成圖。
模型對(duì)于細(xì)節(jié)簡(jiǎn)單的物體和常見物體效果較好。對(duì)于細(xì)節(jié)復(fù)雜的物體,建議用前景物體的5~10張圖片花10分鐘微調(diào)模型,細(xì)節(jié)保留能力會(huì)有大幅提升。
同時(shí),團(tuán)隊(duì)還提供了微調(diào)模型的代碼,微調(diào)模型之后替換原來(lái)的checkpoint即可。
未來(lái)展望
總結(jié)來(lái)說(shuō),Libcom還有很多不足,還有很多事情要做,比如數(shù)據(jù)集擴(kuò)充、模型調(diào)優(yōu)、添加新功能、支持任意分辨率、工程優(yōu)化、推理加速、跨平臺(tái)遷移、版本升級(jí)迭代、用戶界面等等。
團(tuán)隊(duì)表示,歡迎對(duì)圖像合成(image composition)感興趣的大佬們指導(dǎo)工作,共鑄libcom,提供資金、數(shù)據(jù)、人力、技術(shù)等方面的支持,并加入貢獻(xiàn)者名單。如果貢獻(xiàn)特別突出,可以享有冠名權(quán)(比如JackLibcom, PonyLibcom)。
以上就是關(guān)于【耗資數(shù)百萬(wàn),六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬(wàn)】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工:別到山窮水盡才講問(wèn)題
-
奔馳GLE作為豪華SUV市場(chǎng)中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽(yáng)地區(qū)的帕薩特新能源汽車市場(chǎng)表現(xiàn)非常活躍。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來(lái)好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競(jìng)爭(zhēng)力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長(zhǎng)安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A05作為長(zhǎng)安汽車旗下的全新車型,自推出以來(lái)便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場(chǎng)上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場(chǎng)的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,消費(fèi)者在選購(gòu)車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場(chǎng)的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測(cè)試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問(wèn)題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬(wàn)起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長(zhǎng)安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬(wàn)起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長(zhǎng)安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購(gòu)車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測(cè)自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來(lái) 450 英里續(xù)航里程
- 泰國(guó)旅游呈現(xiàn)新趨勢(shì)
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測(cè)試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問(wèn)題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者