支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate
相信很多大家對支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
人類跳舞視頻生成是一項引人注目且具有挑戰(zhàn)性的可控視頻合成任務(wù),旨在根據(jù)輸入的參考圖像和目標(biāo)姿勢序列生成高質(zhì)量逼真的連續(xù)視頻。隨著視頻生成技術(shù)的快速發(fā)展,特別是生成模型的迭代演化,跳舞視頻生成任務(wù)取得了前所未有的進(jìn)展,并展示了廣泛的應(yīng)用潛力。
現(xiàn)有的方法可以大致分為兩組。第一組通?;谏蓪咕W(wǎng)絡(luò)(GAN),其利用中間的姿勢引導(dǎo)表示來扭曲參考外觀,并通過之前扭曲的目標(biāo)生成合理的視頻幀。然而,基于生成對抗網(wǎng)絡(luò)的方法通常存在訓(xùn)練不穩(wěn)定和泛化能力差的問題,導(dǎo)致明顯的偽影和幀間抖動。
第二組則使用擴(kuò)散模型(Diffusion model)來合成逼真的視頻。這些方法兼具穩(wěn)定訓(xùn)練和強(qiáng)大遷移能力的優(yōu)勢,相較于基于 GAN 的方法表現(xiàn)更好,典型方法如 Disco、MagicAnimate、Animate Anyone、Champ 等。
盡管基于擴(kuò)散模型的方法取得了顯著進(jìn)展,但現(xiàn)有的方法仍存在兩個限制:一是需要額外的參考網(wǎng)絡(luò)(ReferenceNet)來編碼參考圖像特征并將其與3D-UNet 的主干分支進(jìn)行表觀對齊,導(dǎo)致增加了訓(xùn)練難度和模型參數(shù);二是它們通常采用時序 Transformer 來建模視頻幀之間時序依賴關(guān)系,但 Transformer 的復(fù)雜度隨生成的時間長度成二次方的計算關(guān)系,限制了生成視頻的時序長度。典型方法只能生成24幀視頻,限制了實際部署的可能性。盡管采用了時序重合的滑動窗口策略可以生成更長的視頻,但團(tuán)隊作者發(fā)現(xiàn)這種方式容易導(dǎo)致片段重合連接處通常存在不流暢的轉(zhuǎn)換和外貌不一致性的問題。
為了解決這些問題,來自華中科技大學(xué)、阿里巴巴、中國科學(xué)技術(shù)大學(xué)的研究團(tuán)隊提出了UniAnimate 框架,以實現(xiàn)高效且長時間的人類視頻生成。
論文地址:https://arxiv.org/abs/2406.01188
項目主頁:https://unianimate.github.io/
方法簡介
UniAnimate 框架首先將參考圖像、姿勢指導(dǎo)和噪聲視頻映射到特征空間中,然后利用統(tǒng)一的視頻擴(kuò)散模型(Unified Video Diffusion Model)同時處理參考圖像與視頻主干分支表觀對齊和視頻去噪任務(wù),實現(xiàn)高效特征對齊和連貫的視頻生成。
其次,研究團(tuán)隊還提出了一種統(tǒng)一的噪聲輸入,其支持隨機(jī)噪聲輸入和基于第一幀的條件噪聲輸入,隨機(jī)噪聲輸入可以配合參考圖像和姿態(tài)序列生成一段視頻,而基于第一幀的條件噪聲輸入(First Frame Conditioning)則以視頻第一幀作為條件輸入延續(xù)生成后續(xù)的視頻。通過這種方式,推理時可以通過把前一個視頻片段(segment)的最后一幀當(dāng)作后一個片段的第一幀來進(jìn)行生成,并以此類推在一個框架中實現(xiàn)長視頻生成。
最后,為了進(jìn)一步高效處理長序列,研究團(tuán)隊探索了基于狀態(tài)空間模型(Mamba)的時間建模架構(gòu),作為原始的計算密集型時序 Transformer 的一種替代。實驗發(fā)現(xiàn)基于時序 Mamba 的架構(gòu)可以取得和時序 Transformer 類似的效果,但是需要的顯存開銷更小。
通過 UniAnimate 框架,用戶可以生成高質(zhì)量的時序連續(xù)人類跳舞視頻。值得一提的是,通過多次使用 First Frame Conditioning 策略,可以生成持續(xù)一分鐘的高清視頻。與傳統(tǒng)方法相比,UniAnimate 具有以下優(yōu)勢:
無需額外的參考網(wǎng)絡(luò):UniAnimate 框架通過統(tǒng)一的視頻擴(kuò)散模型,消除了對額外參考網(wǎng)絡(luò)的依賴,降低了訓(xùn)練難度和模型參數(shù)的數(shù)量。
引入了參考圖像的姿態(tài)圖作為額外的參考條件,促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)參考姿態(tài)和目標(biāo)姿態(tài)之間的對應(yīng)關(guān)系,實現(xiàn)良好的表觀對齊。
統(tǒng)一框架內(nèi)生成長序列視頻:通過增加統(tǒng)一的噪聲輸入,UniAnimate 能夠在一個框架內(nèi)生成長時間的視頻,不再受到傳統(tǒng)方法的時間限制。
具備高度一致性:UniAnimate 框架通過迭代利用第一幀作為條件生成后續(xù)幀的策略,保證了生成視頻的平滑過渡效果,使得視頻在外觀上更加一致和連貫。這一策略也使得用戶可以生成多個視頻片段,并選取生成結(jié)果好的片段的最后一幀作為下一個生成片段的第一幀,方便了用戶與模型交互和按需調(diào)整生成結(jié)果。而利用之前時序重合的滑動窗口策略生成長視頻,則無法進(jìn)行分段選擇,因為每一段視頻在每一步擴(kuò)散過程中都相互耦合。
以上這些特點使得 UniAnimate 框架在合成高質(zhì)量、長時間的人類跳舞視頻方面表現(xiàn)出色,為實現(xiàn)更廣泛的應(yīng)用提供了新的可能性。
生成結(jié)果示例
1. 基于合成圖片進(jìn)行跳舞視頻生成。
2. 基于真實圖片進(jìn)行跳舞視頻生成。
3. 基于粘土風(fēng)格圖片進(jìn)行跳舞視頻生成。
4. 馬斯克跳舞。
5. Yann LeCun 跳舞。
6. 基于其他跨域圖片進(jìn)行跳舞視頻生成。
7. 一分鐘跳舞視頻生成。
獲取原始 MP4視頻和更多高清視頻示例請參考論文的項目主頁https://unianimate.github.io/。
實驗對比分析
1. 和現(xiàn)有方法在 TikTok 數(shù)據(jù)集上的定量對比實驗。
如上表所示,UniAnimate 方法在圖片指標(biāo)如 L1、PSNR、SSIM、LPIPS 上和視頻指標(biāo) FVD 上都取得了最好的結(jié)果,說明了 UniAnimate 可以生成高保真的結(jié)果。
2. 和現(xiàn)有方法的定性對比實驗。
從上述定性對比實驗也可以看出,相比于 MagicAnimate、Animate Anyone, UniAnimate 方法可以生成更好的連續(xù)結(jié)果,沒有出現(xiàn)明顯的 artifacts,表明了 UniAnimate 的有效性。
3. 剝離實驗。
從上表的數(shù)值結(jié)果可以看出,UniAnimate 中用到的參考姿態(tài)和統(tǒng)一視頻擴(kuò)散模型對性能提升起到了很關(guān)鍵的作用。
4. 長視頻生成策略對比。
從上圖可以看出之前常用的時序重合滑動窗口策略生成長視頻容易導(dǎo)致不連續(xù)的過渡,研究團(tuán)隊認(rèn)為這是因為不同窗口在時序重合部分去噪難度不一致,使得生成結(jié)果不同,而直接平均會導(dǎo)致有明顯的變形或者扭曲等情況發(fā)生,并且這種不一致會進(jìn)行錯誤傳播。而本文利用的首幀視頻延續(xù)生成方法則可以生成平滑的過渡。
更多的實驗對比結(jié)果和分析可以參考原論文。
總而言之,UniAnimate 的示例結(jié)果表現(xiàn)和定量對比結(jié)果很不錯,期待 UniAnimate 在各個領(lǐng)域的應(yīng)用,如影視制作、虛擬現(xiàn)實和游戲產(chǎn)業(yè)等,為用戶帶來更為逼真、精彩的人類形象動畫體驗。
以上就是關(guān)于【支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非常活躍。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價格,最低售價15.89萬起,趕緊行動
- 安徽淮南威然最新價格2024款,各配置車型售價全知曉
- 滁州途觀X最新價格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價格,最低售價9.69萬起,入手正當(dāng)時
- 安徽淮南探影多少錢 2023款落地價,各配置車型售價一目了然
- 淮南途觀X價格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價,購車前必看的費用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者