視頻生成控制提升幾十倍,新一代輕量級(jí)ControlNeXt火了,賈佳亞團(tuán)隊(duì)正挑戰(zhàn)Scaling Law
相信很多大家對(duì)視頻生成控制提升幾十倍,新一代輕量級(jí)ControlNeXt火了,賈佳亞團(tuán)隊(duì)正挑戰(zhàn)Scaling Law還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
最近,又一款國(guó)產(chǎn) AI 神器吸引了眾網(wǎng)友和圈內(nèi)研究人員的關(guān)注!它就是全新的圖像和視頻生成控制工具 —— ControlNeXt,由思謀科技創(chuàng)始人、港科大講座教授賈佳亞團(tuán)隊(duì)開(kāi)發(fā)。
X 平臺(tái)上知名 AI 博主「AK」推薦
從命名來(lái)看,ControlNeXt 「致敬」了斯坦福大學(xué)研究團(tuán)隊(duì)在2023年2月提出的 ControlNet,通過(guò)引入一些額外的控制信號(hào),讓預(yù)訓(xùn)練的圖像擴(kuò)散模型(如 Stable Diffusion)根據(jù)預(yù)設(shè)的條件調(diào)整和優(yōu)化,實(shí)現(xiàn)線稿生成全彩圖,還能做語(yǔ)義分割、邊緣檢測(cè)、人體姿勢(shì)識(shí)別。
如果說(shuō) ControlNet 開(kāi)啟了大模型多樣化玩法的先河,那么 ControlNeXt 在生成速度、精準(zhǔn)控制和用戶友好性等方面迎來(lái)全方位優(yōu)化。重要的是,ControlNeXt 只用不到 ControlNet10% 的訓(xùn)練參數(shù),可以稱得上是下一代「小鋼炮版」ControlNet 了。
截至目前,ControlNeXt 兼容了多款 Stable Diffusion 家族圖像生成模型(包括 SD1.5、SDXL、SD3),以及視頻生成模型 SVD。并且,ControlNeXt 對(duì)這些模型都做到即插即用,無(wú)需額外配置便能輕松玩轉(zhuǎn)各種控制指令,便捷性拉滿。該項(xiàng)目的 GitHub 星標(biāo)已達(dá)1.1k。
項(xiàng)目地址:https://github.com/dvlab-research/ControlNeXt
實(shí)戰(zhàn)效果究竟如何?下面一波 ControlNeXt 的 Demo 示例會(huì)給我們答案。
ControlNeXt 支持 Canny(邊緣)條件控制,在 SDXL 中,通過(guò)提取下圖(最左)輸入圖像的 Canny 邊緣,輸出不同風(fēng)格的圖像。
當(dāng)然,更復(fù)雜的畫(huà)面輪廓和控制線條也能輕松搞定。
ControlNeXt 還支持掩模(mask)和景深(depth)條件控制,下圖分別為 SD1.5中掩模與景深可控生成效果,很有一筆成畫(huà)的味道。
同樣在 SD1.5中,ControlNeXt 支持姿勢(shì)(pose)條件控制,并且無(wú)需訓(xùn)練即可無(wú)縫集成各種 LoRA 權(quán)重。配合使用人體姿勢(shì)控制與 LoRA,在保持動(dòng)作相同的前提下,多樣風(fēng)格的人物呼之欲出,比如戰(zhàn)士(Warrior)、原神(Genshin)、國(guó)畫(huà)(Chinese Painting)和動(dòng)畫(huà)(Animation)。
使用 ControlNeXt 后,SD3支持了超分辨率(SR),讓模糊圖像「變身」超高清畫(huà)質(zhì)。
在視頻生成模型 SVD 中,ControlNeXt 實(shí)現(xiàn)了對(duì)人體姿勢(shì)動(dòng)作的整體控制,尤其連手指動(dòng)作的模仿都非常精準(zhǔn)。
不夸張的說(shuō),在視覺(jué)條件生成這塊,ControlNeXt 成為了更全能的「選手」。它的亮眼視效折服了網(wǎng)友,甚至有人認(rèn)為「ControlNeXt 是游戲改變者,在可控圖像和視頻生成方面表現(xiàn)出色,可以想象未來(lái)社區(qū)會(huì)拿它做更多二創(chuàng)工作?!?/p>
而 ControlNeXt 體驗(yàn)全方位提升的背后,離不開(kāi)賈佳亞團(tuán)隊(duì)在輕量級(jí)條件控制模塊設(shè)計(jì)、控制注入位置和方式的選擇、交叉歸一化技術(shù)的使用等多個(gè)方面的獨(dú)到思路。
正是有了這些創(chuàng)新,才帶來(lái)了 ControlNeXt 訓(xùn)練參數(shù)、計(jì)算開(kāi)銷(xiāo)和內(nèi)存占用的全面「瘦身」,以及模型訓(xùn)練收斂和推理層面的「提速」。
架構(gòu)創(chuàng)新
讓 ControlNeXt 更輕、更快、更強(qiáng)
在剖析 ControlNeXt 有哪些創(chuàng)新之前,我們先來(lái)了解一下當(dāng)前可控生成方法的不足,這樣更能看到賈佳亞團(tuán)隊(duì)在架構(gòu)上「有的放矢」的優(yōu)化。
以 ControlNet、T2I-Adapter 等典型方法為例,它們通過(guò)添加并行分支或適配器來(lái)處理和注入額外條件。接下來(lái)與去噪主分支并行處理輔助控制以提取細(xì)粒度特征,利用零卷積和交叉注意力來(lái)整合條件控制并指導(dǎo)去噪過(guò)程。
這些操作往往會(huì)帶來(lái)計(jì)算成本和訓(xùn)練開(kāi)銷(xiāo)的顯著增加,甚至導(dǎo)致 GPU 內(nèi)存增加一倍,還需要引入大量新的訓(xùn)練參數(shù)。尤其針對(duì)視頻生成模型,需要重復(fù)處理每個(gè)單獨(dú)幀,挑戰(zhàn)更大。
賈佳亞團(tuán)隊(duì)首先要做的便是架構(gòu)層面的剪枝。他們認(rèn)為,預(yù)訓(xùn)練的大型生成模型已經(jīng)足夠強(qiáng)大,無(wú)需引入大量額外參數(shù)來(lái)實(shí)現(xiàn)控制生成能力。ControlNeXt 移除 ControlNet 中龐大的控制分支(control branch),改而使用由多個(gè) ResNet 塊組成的輕量級(jí)卷積模塊。
ControlNeXt 整體訓(xùn)練流程
該模塊的規(guī)模比預(yù)訓(xùn)練模型小得多,用于從控制條件中提取景深、人體姿勢(shì)骨骼、邊緣圖等特征表示,并與去噪特征對(duì)齊。過(guò)程中更多依賴模型本身來(lái)處理控制信號(hào),在訓(xùn)練期間凍結(jié)大部分預(yù)訓(xùn)練模塊,并有選擇性地優(yōu)化模型的一小部分可學(xué)習(xí)參數(shù),最大程度降低訓(xùn)練過(guò)程中可能出現(xiàn)的遺忘風(fēng)險(xiǎn)。
從結(jié)果來(lái)看,在適配 SD、SDXL、SVD 等預(yù)訓(xùn)練模型時(shí),ControlNeXt 的訓(xùn)練參數(shù)量通常不及 ControlNet 的10%,計(jì)算開(kāi)銷(xiāo)和內(nèi)存占用大大降低。ControlNeXt 在 SD1.5、SDXL 和 SVD 中的可學(xué)習(xí)參數(shù)量分別為3000萬(wàn)、1.08億和5500萬(wàn),相較于 ControlNet 有了數(shù)量級(jí)減少(3.61億、12.51億和6.82億)。
同時(shí)輕量級(jí)模塊的引入使得 ControlNeXt 在推理階段不會(huì)出現(xiàn)明顯的延遲,因而生成速度會(huì)更快。如下圖所示,在 SD1.5、SDXL 和 SVD 模型中,ControlNeXt 的推理時(shí)間更短,相較于 ControlNet 更具效率優(yōu)勢(shì)。
另一方面,ControlNeXt 在控制條件的注入層面做了創(chuàng)新。他們觀察到,在大多數(shù)可控生成任務(wù)中,條件控制的形式往往很簡(jiǎn)單或與去噪特征保持高度一致,因而沒(méi)有必要在去噪網(wǎng)絡(luò)的每一層重復(fù)注入控制信息。
賈佳亞團(tuán)隊(duì)選擇在網(wǎng)絡(luò)中間層聚合并對(duì)齊條件控制特征與去噪特征,這里用到了關(guān)鍵的交叉歸一化(Cross Normalization)技術(shù)。該技術(shù)讓 ControlNeXt 不用像傳統(tǒng)方法那樣利用零初始化來(lái)引入額外學(xué)習(xí)參數(shù),還解決了初始化階段的訓(xùn)練不穩(wěn)定性和收斂速度慢等問(wèn)題。
得益于交叉歸一化,ControlNeXt 的訓(xùn)練速度得到提升,并在訓(xùn)練初期也能確保生成控制的有效性,降低對(duì)網(wǎng)絡(luò)權(quán)重初始化的敏感度。從下圖可以看到,ControlNeXt 實(shí)現(xiàn)了更快的訓(xùn)練收斂和數(shù)據(jù)擬合,只需要400步左右便開(kāi)始收斂。相比之下,ControlNet 則需要走完十倍甚至幾十倍的訓(xùn)練步數(shù)。
可以說(shuō),ControlNeXt 很好解決了以往可控生成方法存在的較高計(jì)算成本、GPU 內(nèi)存占用和推理時(shí)延,用更少參數(shù)、更低成本實(shí)現(xiàn)了與以往方法相當(dāng)甚至更好的控制效果和泛化性能。
而跳出此次研究本身,ControlNeXt 也是過(guò)去兩年賈佳亞團(tuán)隊(duì)努力方向的寫(xiě)照,他們致力于拿少參數(shù)、少算力來(lái)深挖大模型潛能。這顯然與當(dāng)前大模型領(lǐng)域的「摩爾定律」Scaling Law 走的是不同的路,后者通常憑借大參數(shù)、大數(shù)據(jù)和大算力來(lái)提升模型性能。
不盲跟 Scaling Law
走出不一樣的大模型之路
當(dāng)前,Scaling Law 仍然在發(fā)揮著作用,通過(guò)「加碼」參數(shù)、數(shù)據(jù)和算力來(lái)增效是大多數(shù)圈內(nèi)玩家的主流做法,OpenAI 的 GPT 系列模型是其中的典型代表,對(duì)大模型領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。
隨之而來(lái)的是更高的訓(xùn)練成本、更多的數(shù)據(jù)和計(jì)算資源,這些不會(huì)對(duì)財(cái)力雄厚的大廠們?cè)斐商鄩毫?。但?duì)那些預(yù)算相對(duì)不足的科研機(jī)構(gòu)和個(gè)人開(kāi)發(fā)者而言,挑戰(zhàn)很大,尤其是當(dāng)下 GPU 顯卡還越來(lái)越貴。
其實(shí),拼 Scaling Law 并不是模型提效的唯一途徑,從長(zhǎng)期看也有局限性。很多業(yè)內(nèi)人士認(rèn)為,隨著時(shí)間推移,當(dāng)模型參數(shù)規(guī)模達(dá)到一定程度時(shí),性能提升速度可能會(huì)放緩。同時(shí)高質(zhì)量訓(xùn)練數(shù)據(jù)的持續(xù)獲取也是亟需解決的一大難題。
今年6月,普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系教授 Arvind Narayanan 等二人在他們的文章《AI scaling myths》中表示 AI 行業(yè)正經(jīng)歷模型規(guī)模下行的壓力,過(guò)去一年大部分開(kāi)發(fā)工作落在了小模型上,比如 Anthropic 的 Claude3.5Sonnet、谷歌的 Gemini1.5Pro,甚至 OpenAI 也推出了 GPT-4o mini,參數(shù)規(guī)模雖小、性能同樣強(qiáng)大且更便宜。
賈佳亞團(tuán)隊(duì)秉持類(lèi)似理念,沒(méi)有選擇無(wú)限堆數(shù)據(jù)、參數(shù)和算力的傳統(tǒng)做法。2024世界機(jī)器人大會(huì)上,賈佳亞在接受采訪時(shí)談到了 Scaling Law,他表示在自己團(tuán)隊(duì)的研究中不會(huì)對(duì)它進(jìn)行明確的定義,使用1萬(wàn)張卡訓(xùn)練出來(lái)的模型或系統(tǒng)不一定就比5000張卡訓(xùn)練出的更好。
賈佳亞認(rèn)為應(yīng)該更多地在模型算法層面進(jìn)行創(chuàng)新,在工程層面最大程度地提高 GPU 顯卡的利用率、降低功耗,力求用更少的計(jì)算量達(dá)到同樣的效果。
同時(shí)關(guān)注偏垂類(lèi)的行業(yè)和場(chǎng)景,通過(guò)持續(xù)的技術(shù)迭代,把算力等資源投入集中在一點(diǎn),將某個(gè)領(lǐng)域的模型做得更精、更專,而不像其他玩家那樣耗巨資開(kāi)發(fā)超大規(guī)模通用大模型。
小算力也能出大成果
包括 ControlNeXt 在內(nèi),不盲從 Scaling Law 的思路已經(jīng)在賈佳亞團(tuán)隊(duì)過(guò)去兩年的系列成果中得到了充分驗(yàn)證,覆蓋了多模態(tài)大模型、超長(zhǎng)文本擴(kuò)展技術(shù)和視覺(jué)語(yǔ)言模型等多個(gè)研究方向。
2023年8月,賈佳亞團(tuán)隊(duì)提出 LISA,解鎖多模態(tài)大模型「推理分割」能力。LISA 只需要在8張24GB 顯存的3090顯卡上進(jìn)行10000次迭代訓(xùn)練,即可完成70億參數(shù)模型的訓(xùn)練。
結(jié)果表明,LISA 在訓(xùn)練中僅使用不包含復(fù)雜推理的分割數(shù)據(jù),就能在推理分割任務(wù)上展現(xiàn)出優(yōu)異的零樣本泛化能力,并在使用額外的推理分割數(shù)據(jù)微調(diào)后讓分割效果更上一個(gè)臺(tái)階。
LISA 效果展示
LISA 的成功只是少算力探索的牛刀小試,賈佳亞團(tuán)隊(duì)在2023年10月提出了超長(zhǎng)文本擴(kuò)展技術(shù) LongLoRA,在單臺(tái)8x A100設(shè)備上,LongLoRA 將 LLaMA27B 從4k 上下文擴(kuò)展到100k, LLaMA270B 擴(kuò)展到32k。LongLoRA 還被接收為 ICLR2024Oral。
在喂給 LongLoRA 加持的 Llama2-13B 超長(zhǎng)篇幅的科幻巨著《三體》后,它可以為你詳細(xì)總結(jié)「史強(qiáng)對(duì)整個(gè)人類(lèi)社會(huì)的重要性」。
該團(tuán)隊(duì)還于2023年12月提出 LLaMA-VID,旨在解決視覺(jué)語(yǔ)言模型在處理長(zhǎng)視頻時(shí)因視覺(jué) token 過(guò)多導(dǎo)致的計(jì)算負(fù)擔(dān),通過(guò)將視頻中每一幀圖像的 token 數(shù)壓縮到了2個(gè),實(shí)現(xiàn)了單圖之外短視頻甚至3小時(shí)時(shí)長(zhǎng)電影的輸入處理。
LLaMA-VID 被 ECCV2024接收。此外,賈佳亞團(tuán)隊(duì)還提供了 LLaMA-VID 試用版本,由單個(gè)3090GPU 實(shí)現(xiàn),支持30分鐘的視頻處理。感興趣的小伙伴可以嘗試一下。
今年4月,賈佳亞團(tuán)隊(duì)又提出了 Mini-Gemini,從高清圖像精確理解、高質(zhì)量數(shù)據(jù)集、結(jié)合圖像推理與生成三個(gè)層面挖掘視覺(jué)語(yǔ)言模型的潛力。
為了增強(qiáng)視覺(jué) token,Mini-Gemini 利用額外的視覺(jué)編碼器來(lái)做高分辨率優(yōu)化。同時(shí)僅使用2-3M 數(shù)據(jù),便實(shí)現(xiàn)了對(duì)圖像理解、推理和生成的統(tǒng)一流程。實(shí)驗(yàn)結(jié)果表明,Mini-Gemini 在各種 Zero-shot 的榜單上毫不遜色各大廠用大量數(shù)據(jù)堆出來(lái)的模型。
在延續(xù)谷歌 Gemini 識(shí)別圖片內(nèi)容并給出建議的能力基礎(chǔ)上,Mini-Gemini 還能生成一只對(duì)應(yīng)的毛絨小熊
對(duì)于開(kāi)源社區(qū)最大的好消息是,Mini-Gemini 的代碼、模型和數(shù)據(jù)全部開(kāi)源,讓開(kāi)發(fā)者們體驗(yàn)「GPT-4+ Dall-E3」的強(qiáng)大組合。賈佳亞透露,Mini-Gemini 第二個(gè)版本即將到來(lái),屆時(shí)將接入語(yǔ)音模塊。
得益于開(kāi)源以及算力需求相對(duì)低的特性,賈佳亞團(tuán)隊(duì)的項(xiàng)目在 GitHub 上受到了開(kāi)發(fā)者的廣泛喜愛(ài),LISA、LongLoRA 和 Mini-Gemini 的星標(biāo)數(shù)分別達(dá)到了1.7k、2.6k 和3.1k。
從 LISA 到最新提出的 ControlNeXt,賈佳亞團(tuán)隊(duì)走穩(wěn)了少參數(shù)、小算力突破這條路。由于計(jì)算資源投入不大,這些模型也更容易實(shí)現(xiàn)商業(yè)化應(yīng)用落地。
可以預(yù)見(jiàn),未來(lái)在持續(xù)技術(shù)創(chuàng)新的驅(qū)動(dòng)下,我們將看到更多「小而彌堅(jiān)」的大模型成果出現(xiàn)。
以上就是關(guān)于【視頻生成控制提升幾十倍,新一代輕量級(jí)ControlNeXt火了,賈佳亞團(tuán)隊(duì)正挑戰(zhàn)Scaling Law】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!