比Flux更強(qiáng)大的文生圖模型來(lái)了!秘訣是“集百家之長(zhǎng)”
相信很多大家對(duì)比Flux更強(qiáng)大的文生圖模型來(lái)了!秘訣是“集百家之長(zhǎng)”還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
打造更強(qiáng)大文生圖模型新思路有——
面對(duì)Flux、stable diffusion、Omost等爆火模型,有人開(kāi)始主打“集各家所長(zhǎng)”。
具體來(lái)說(shuō),清北、牛津、普林斯頓等機(jī)構(gòu)的研究者提出了?個(gè)全新文生圖框架IterComp。
它能提取不同模型在各自領(lǐng)域的優(yōu)勢(shì),同時(shí)不引入額外的復(fù)雜指令或增加計(jì)算開(kāi)銷(xiāo)。
論文一經(jīng)發(fā)布,即在??(前推特)獲得AI論文領(lǐng)域大V轉(zhuǎn)發(fā),吸引大量關(guān)注。
那么,研究人員具體是如何實(shí)現(xiàn)的呢?
全新文生圖框架:IterComp
?2022年以來(lái),基于diffusion的文生圖模型取得了快速發(fā)展,尤其在復(fù)雜組合生成(complex/compositional generation)任務(wù)上取得了顯著進(jìn)展。
例如,今年8月發(fā)布的Flux展現(xiàn)出了十分震撼的復(fù)雜場(chǎng)景生成能力與美學(xué)質(zhì)量;
RPG通過(guò)MLLM的輔助,將復(fù)雜的組合生成任務(wù)分解為簡(jiǎn)單子任務(wù);
InstanceDiffusion通過(guò)布局控制(layoutbased),實(shí)現(xiàn)了與布局分布高度一致的精確圖像生成。
然而,這些模型的優(yōu)勢(shì)僅限于某些特定的組合生成任務(wù),且存在諸多局限。
基于文本的生成方法(如SDXL、SD3、Flux等),由于其訓(xùn)練數(shù)據(jù)和框架的優(yōu)勢(shì),在物體與場(chǎng)景的模擬上表現(xiàn)出色,特別在美學(xué)質(zhì)量、屬性綁定和非空間關(guān)系(non-spatial relationships)方面具有顯著優(yōu)勢(shì)。
然而,當(dāng)涉及多個(gè)物體,且存在復(fù)雜的空間關(guān)系時(shí),這類(lèi)模型往往表現(xiàn)出明顯不足。
基于大語(yǔ)言模型(LLM-based)的生成方法,如RPG和Omost,通常需要對(duì)LLM進(jìn)?額外訓(xùn)練或設(shè)計(jì)復(fù)雜的提示。
然而,對(duì)于LLM處理后的復(fù)雜指令,diffusion backbone并不具備精確生成的能力。
基于布局(layourbased)的生成方法,如Instancediffusion和LMD+,雖然提供了精確的控制,但在圖像的美學(xué)質(zhì)量和真實(shí)性上存在明顯下降,并且需要人為設(shè)計(jì)布局。
因此,一個(gè)值得深?探討的問(wèn)題是:
基于此,研究人員提出一個(gè)全新的文生圖框架:IterComp。
要充分解決這?問(wèn)題,研究面臨兩大難點(diǎn):
1、如何提取不同模型在各自領(lǐng)域的優(yōu)勢(shì),并引導(dǎo)模型進(jìn)行有效學(xué)習(xí)?
針對(duì)該問(wèn)題,研究人員首先構(gòu)建了模型庫(kù)(model gallery),其包含多種在不同方面表現(xiàn)出色的模型,每個(gè)模型都具備特定的組合生成偏好(composition-aware model preference)。
研究人員嘗試通過(guò)擴(kuò)散模型對(duì)齊方法,將base diffusion model與模型庫(kù)中的組合生成偏好進(jìn)行對(duì)齊。
團(tuán)隊(duì)聚焦于compositional generation的三個(gè)關(guān)鍵方面:
屬性綁定(attribute binding)
空間關(guān)系(spatial relationship)
?空間關(guān)系(non-spatial relationship)
為此,研究人員收集了不同模型在這些方面的偏好數(shù)據(jù),并通過(guò)人工排序,構(gòu)建了?個(gè)面向組合生成的模型偏好數(shù)據(jù)集(composition-aware model preference dataset)。
針對(duì)這三個(gè)方面,團(tuán)隊(duì)分別訓(xùn)練三個(gè)composition-aware reward models,并對(duì)base模型進(jìn)行多獎(jiǎng)勵(lì)反饋優(yōu)化。
2、組合生成任務(wù)很難優(yōu)化,如何更充分地學(xué)習(xí)到不同模型的組合偏好?
研究人員在diffusion領(lǐng)域創(chuàng)新地引入迭代式學(xué)習(xí)框架(iterative feedback learning),實(shí)現(xiàn)reward models與base diffusion model之間“左腳踩右腳登天”。
具體來(lái)說(shuō),在上述第一輪優(yōu)化后,團(tuán)隊(duì)將optimized base diffusion model以及額外選擇的其他模型(例如Omost等)添加進(jìn)model gallery。
對(duì)新增模型進(jìn)行偏好采樣,與初始model gallery中的圖像按照預(yù)訓(xùn)練的reward model構(gòu)建圖像對(duì)。
這些圖像對(duì)被用于進(jìn)?步優(yōu)化獎(jiǎng)勵(lì)模型,隨后繼續(xù)用更新的獎(jiǎng)勵(lì)模型優(yōu)化基礎(chǔ)擴(kuò)散模型。
具體的流程如下偽代碼所示:
實(shí)驗(yàn)
在定性實(shí)驗(yàn)中,與其他三類(lèi)compositional generation方法相比,IterComp取得了顯著的組合質(zhì)量的提升,并且不會(huì)引入額外的計(jì)算量。
從定量結(jié)果中可以看出,IterComp在T2I-CompBench上取得了各方面的領(lǐng)先。
另外,針對(duì)圖像真實(shí)性以及美學(xué)質(zhì)量,IterComp也表現(xiàn)出色。
然而IterComp的應(yīng)用潛力不限于此,其可以作為強(qiáng)大的backbone顯著提升Omost, RPG等模型的生成能力。
更多細(xì)節(jié)歡迎查閱原論文。
論文地址:
https://arxiv.org/abs/2410.07171
代碼地址:
https://github.com/YangLing0818/IterComp
模型地址:
https://huggingface.co/comin/IterComp
Civitai:
https://civitai.com/models/840857
以上就是關(guān)于【比Flux更強(qiáng)大的文生圖模型來(lái)了!秘訣是“集百家之長(zhǎng)”】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!