日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      首頁(yè) >> 今日更新 >

      耗資數(shù)百萬(wàn),六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬(wàn)

      2024-10-12 14:00:36 來(lái)源: 用戶: 

      相信很多大家對(duì)耗資數(shù)百萬(wàn),六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬(wàn)還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      【新智元導(dǎo)讀】研發(fā)6年,耗資數(shù)百萬(wàn),六屆學(xué)霸接力,上交牛力團(tuán)隊(duì)首創(chuàng)的圖像合成工具箱libcom,論文、代碼、數(shù)據(jù)集全開源。團(tuán)隊(duì)歡迎各位大佬共鑄libcom,貢獻(xiàn)突出者可享冠名權(quán)。

      在AIGC 的浪潮中,對(duì)已有圖片做編輯的圖像編輯(image editing)技術(shù)受到了越來(lái)越多的關(guān)注。圖像編輯(image editing)的原子操作包括增、刪、改。

      「增」是指在圖像中添加元素,該研究方向叫做圖像合成(image composition)

      「刪」是指從圖像中擦除元素,該研究方向叫做圖像填充(image inpainting)

      「改」是指改變圖像中元素的屬性,該研究方向叫做屬性編輯(attribute manipulation)

      其余復(fù)雜的圖像編輯操作皆可轉(zhuǎn)化為「增」、 「刪」、「改」這三個(gè)原子操作的組合,通過(guò)按照一定順序執(zhí)行這些原子操作完成。

      因此,圖像合成(image composition)在圖像編輯的版圖中三分天下居其一,在虛擬現(xiàn)實(shí)、藝術(shù)創(chuàng)作、電商廣告、數(shù)據(jù)增廣等領(lǐng)域有著廣泛應(yīng)用。

      圖像合成(image composition)的通常用法是把一個(gè)前景物體插入到一張背景圖片中,得到一張合成圖。

      但是通過(guò)簡(jiǎn)單的剪切粘貼得到的合成圖會(huì)存在諸多問(wèn)題,皆可視為前景和背景之間的不一致性,包括外觀不一致性、幾何不一致性、語(yǔ)義不一致性。三種不一致性可進(jìn)一步分解成若干子問(wèn)題(邊界、光照、陰影、放置、遮擋、視角等等)。

      為了解決這些子問(wèn)題,很多子任務(wù)(圖像融合、圖像和諧化、陰影生成、物體放置等等)被相繼提出,用于解決一個(gè)或多個(gè)子問(wèn)題。

      在圖像合成中,不一致性(inconsistency)、子問(wèn)題(issue)、子任務(wù)(sub-task)三者之間的關(guān)系如下圖所示。

      上述這些子任務(wù)可以串行(sequential pipeline)或者并行(parallel pipeline)執(zhí)行,以解決前景和背景之間的不一致性,得到高質(zhì)量合成圖。

      串行流程和并行流程如下圖所示,綠勾和紅叉表示是否執(zhí)行該子任務(wù)。

      給定一對(duì)背景圖片和前景物體,串行流程先在背景中尋找前景物體的合理放置,通過(guò)圖像混合解決邊界不自然的問(wèn)題,通過(guò)圖像和諧化解決前背景光照不和諧的問(wèn)題,通過(guò)陰影生成為前景物體在背景上生成合理的陰影。而并行流程在一個(gè)模型中同時(shí)執(zhí)行多個(gè)子任務(wù),直接輸出最終的合成圖。

      并行流程也叫做生成式圖像合成,近兩年隨著擴(kuò)散模型的爆火而進(jìn)入大眾的視野。

      在這一領(lǐng)域,上海交通大學(xué)牛力團(tuán)隊(duì)從2018年底就開始從事圖像合成(image composition)領(lǐng)域的研究,從數(shù)據(jù)(10+原創(chuàng)數(shù)據(jù)集)到模型(30+原創(chuàng)模型)、論文(20+已發(fā)表論文),再到工具箱(libcom),歷時(shí)六年,耗資數(shù)百萬(wàn),由六屆學(xué)生接力完成。

      所有數(shù)據(jù)集的每張圖片都經(jīng)過(guò)2~3人檢查,以嚴(yán)格保證數(shù)據(jù)集的質(zhì)量。所有模型的代碼都經(jīng)過(guò)2~3人檢查,以確保沒(méi)有嚴(yán)重的bug(如果有嚴(yán)重的bug請(qǐng)盡快打臉)。

      實(shí)驗(yàn)室項(xiàng)目主頁(yè):github.com/bcmi

      2023年底,團(tuán)隊(duì)推出了盡量無(wú)需訓(xùn)練微調(diào)、對(duì)任意圖片開箱即用的圖像合成工具箱libcom,該工具箱的形式也是首創(chuàng)的,體現(xiàn)了他們對(duì)image composition領(lǐng)域的理解。

      截至2024年10月,libcom已經(jīng)下載安裝1.2萬(wàn)次。

      工具箱地址:github.com/bcmi/libcom

      因?yàn)閳D像合成旨在融合不同的圖片元素,所以libcom的logo采用了半人馬的形象,即人和馬的融合,并添加了裝飾性的藍(lán)圈和黃圈的融合。由于藍(lán)色和黃色的過(guò)渡色是綠色,因此半人馬系上了一條綠色的腰帶。

      Libcom集成了圖像合成的十幾項(xiàng)功能,對(duì)圖像合成實(shí)現(xiàn)全方位覆蓋,每個(gè)功能選擇了一到兩個(gè)簡(jiǎn)單有效的方法。

      經(jīng)過(guò)近一年的迭代,大多數(shù)功能的效果還湊合。并且,每一個(gè)功能都有對(duì)應(yīng)的倉(cāng)庫(kù),倉(cāng)庫(kù)里有訓(xùn)練代碼。

      如果你發(fā)現(xiàn)某項(xiàng)功能在你的數(shù)據(jù)集上表現(xiàn)欠佳,很有可能是數(shù)據(jù)差異導(dǎo)致,用你收集的訓(xùn)練數(shù)據(jù)微調(diào)模型,替換掉原來(lái)的checkpoint即可。

      和libcom一同打包贈(zèng)送的還有awesome-image-composition(匯總了該領(lǐng)域的論文、代碼、數(shù)據(jù)集),在線demo(很久沒(méi)更新了,不是最新模型)、以及一篇寫了四年的survey(一年一更)。

      十二大功能全解

      接下來(lái)依次介紹libcom的十幾項(xiàng)功能,涵蓋了圖像合成的方方面面:

      1.get_composite_image

      通過(guò)剪切粘貼、alpha融合和泊松融合混合前景背景。這些是最簡(jiǎn)單的傳統(tǒng)圖像融合方法。

      2.OPAScoreModel

      輸入合成圖和前景掩碼,判斷前景物體的放置(位置、大?。┦欠窈侠?。輸出的分?jǐn)?shù)介于[0,1]之間,1表示合理,0表示不合理。

      左邊的合成圖分?jǐn)?shù)為1,右邊的合成圖分?jǐn)?shù)為0

      3.FOPAHeatMapModel

      輸入一對(duì)背景圖片和前景物體,輸出該物體按照不同尺寸放在背景圖片不同位置得到的合成圖的合理性分?jǐn)?shù)。

      假設(shè)有K個(gè)離散的前景物體尺寸,背景圖片大小為H*W, 則輸出H*W*K的熱力圖。

      熱力圖上的每個(gè)像素對(duì)應(yīng)一個(gè)放置的合理性分?jǐn)?shù),因此根據(jù)熱力圖可以獲取合理的前景物體放置框。

      單個(gè)前景物體尺寸的熱力圖以及根據(jù)熱力圖得到的前景物體放置框

      4.color_transfer

      傳統(tǒng)的顏色遷移方法,用于將背景的顏色遷移到前景,適用于簡(jiǎn)單場(chǎng)景的圖像和諧化。

      合成圖和顏色遷移后的結(jié)果

      5.ImageHarmonizationModel

      輸入合成圖和前景掩碼,圖像和諧化模型調(diào)整前景的光照使其與背景和諧,輸出和諧化結(jié)果。

      6.PainterlyHarmonizationModel

      藝術(shù)圖像和諧化與圖像和諧化類似,區(qū)別在于背景是藝術(shù)圖片。

      輸入合成圖和前景掩碼,藝術(shù)圖像和諧化模型調(diào)整前景的風(fēng)格(顏色、紋理、筆觸等)使其與背景一致,輸出和諧化結(jié)果。

      7.HarmonyScoreModel

      輸入合成圖和前景掩碼,判斷前景和背景的光照是否匹配,輸出前景與背景的和諧化分?jǐn)?shù)。分?jǐn)?shù)介于[0,1]之間,1表示和諧,0表示不和諧。

      左邊的合成圖分?jǐn)?shù)為0.25,右邊的合成圖分?jǐn)?shù)為0.72

      8.InharmoniousLocalizationModel

      輸入一張圖片,輸出該圖片不和諧區(qū)域的掩碼。

      合成圖和模型預(yù)測(cè)的不和諧區(qū)域

      9.FOSScoreModel

      輸入一張合成圖,預(yù)測(cè)前景和背景在幾何和語(yǔ)義上的適配性分?jǐn)?shù),包括前景和背景的透視角度是否一致、前景物體的語(yǔ)義上下文是否合理等等。輸出的適配性分?jǐn)?shù)介于[0,1]之間,1表示適配,0表示不適配。

      10.ShadowGenerationModel

      輸入一張合成圖和前景掩碼,為前景物體在背景上生成合理的陰影。該功能不是很穩(wěn)定,通常隨機(jī)生成5張會(huì)有1~2張的陰影形狀較好。

      隨機(jī)采樣5次生成的結(jié)果

      11.ControlComModel

      輸入一對(duì)背景圖片和前景物體,把前景物體插入背景圖片指定位置(黃色邊界框),保持前景物體的姿態(tài)不變,做圖像融合或者圖像和諧化。兩者的區(qū)別在于圖像和諧化需要進(jìn)一步調(diào)整前景物體的光照使其與背景和諧。

      12.MureObjectStitchModel

      輸入一對(duì)背景圖片和前景物體(支持多張參考圖),把前景物體插入背景圖片指定位置(黃色邊界框),調(diào)整前景物體的姿態(tài)和光照,得到合理的合成圖。

      模型對(duì)于細(xì)節(jié)簡(jiǎn)單的物體和常見物體效果較好。對(duì)于細(xì)節(jié)復(fù)雜的物體,建議用前景物體的5~10張圖片花10分鐘微調(diào)模型,細(xì)節(jié)保留能力會(huì)有大幅提升。

      同時(shí),團(tuán)隊(duì)還提供了微調(diào)模型的代碼,微調(diào)模型之后替換原來(lái)的checkpoint即可。

      未來(lái)展望

      總結(jié)來(lái)說(shuō),Libcom還有很多不足,還有很多事情要做,比如數(shù)據(jù)集擴(kuò)充、模型調(diào)優(yōu)、添加新功能、支持任意分辨率、工程優(yōu)化、推理加速、跨平臺(tái)遷移、版本升級(jí)迭代、用戶界面等等。

      團(tuán)隊(duì)表示,歡迎對(duì)圖像合成(image composition)感興趣的大佬們指導(dǎo)工作,共鑄libcom,提供資金、數(shù)據(jù)、人力、技術(shù)等方面的支持,并加入貢獻(xiàn)者名單。如果貢獻(xiàn)特別突出,可以享有冠名權(quán)(比如JackLibcom, PonyLibcom)。

      以上就是關(guān)于【耗資數(shù)百萬(wàn),六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬(wàn)】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

        免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

       
      分享:
      最新文章