比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型
相信很多大家對(duì)比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
快手、北京大學(xué)和北京郵電大學(xué)的研究人員聯(lián)合開源了超高清視頻模型——Pyramid-Flow。yramid-Flow僅通過文本就能生成最多10秒、1280x768分辨率和24幀視頻,在光影效果、運(yùn)動(dòng)動(dòng)作一致性、視頻質(zhì)量、文本語義還原、色彩搭配等方面非常優(yōu)秀,生成的視頻很棒。
值得一提的是,Pyramid-Flow使用A100GPU在開源數(shù)據(jù)集上僅訓(xùn)練了20,700小時(shí),其能耗和生成效率比市面上同類開源視頻模型好很多,對(duì)于沒有大量算力的中小企業(yè)和個(gè)人開發(fā)者來說幫助很大。
開源地址:https://github.com/jy0205/Pyramid-Flow
huggingface:https://huggingface.co/rain1011/pyramid-flow-sd3
在線demo:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
Pyramid-Flow案例展示
以下是Pyramid-Flow生成的視頻展示,整體非常驚艷有今天Sora那種感覺了。
一名女子的側(cè)面照片,煙花在她身后的遠(yuǎn)處放了起來。
美麗的東京在雪中熙熙攘攘。鏡頭穿過繁忙的街道,跟隨著幾位享受美麗雪景并在附近店鋪購物的人們。
一艘船沿著塞納河悠閑地航行,背景是埃菲爾鐵塔,黑白色彩。
海嘯穿過保加利亞的一條小巷,動(dòng)態(tài)效果。
雞肉和青椒烤肉串的極端特寫鏡頭在燒烤架上用火焰烤。淺焦點(diǎn)、輕煙、色彩鮮艷。
無人機(jī)拍攝的海浪拍打大蘇爾加雷角海灘崎嶇懸崖的景象。蔚藍(lán)的海水激起白浪,夕陽的金色光芒照亮了巖石海岸。
Pyramid-Flow創(chuàng)新方法——金字塔流匹配
目前,文生視頻領(lǐng)域有一個(gè)非常難的技術(shù)挑戰(zhàn),就是如何有效地處理和生成高維度的視頻數(shù)據(jù)。這些數(shù)據(jù)不僅包含大量的空間信息,還涉及復(fù)雜的時(shí)間動(dòng)態(tài),而Pyramid-Flow使用了一種創(chuàng)新方法——金字塔流匹配。
金字塔流匹配算法的核心思想是將傳統(tǒng)的單一分辨率生成過程轉(zhuǎn)變?yōu)橐粋€(gè)多階段的金字塔結(jié)構(gòu)。視頻的生成不是一次性在全分辨率下完成,而是在不同的分辨率層次上逐步進(jìn)行。
在金字塔流匹配算法中,視頻生成過程被分解為多個(gè)階段,每個(gè)階段對(duì)應(yīng)一個(gè)特定的分辨率。這些階段從低分辨率開始,逐漸升級(jí)到高分辨率。在低分辨率階段,算法首先生成一個(gè)粗糙的視頻草圖,然后逐步增加細(xì)節(jié),直到在最高分辨率階段生成最終的視頻。
這種分階段的方法極大減少了AI算力,因?yàn)樗苊饬嗽谏蛇^程的早期階段就處理大量的高分辨率數(shù)據(jù),同時(shí)提高了生成流程的靈活性,可在不同的階段對(duì)視頻的不同方面進(jìn)行精細(xì)控制。
每個(gè)金字塔階段的生成過程被建模為一個(gè)從噪聲到數(shù)據(jù)的連續(xù)流。這個(gè)流通過插值的方式來生成視頻數(shù)據(jù),在每個(gè)階段的開始時(shí)從一個(gè)像素化的、噪聲較多的潛在表示開始,逐步演化為一個(gè)清晰、干凈的潛在表示。
這種流的設(shè)計(jì)允許不同階段之間的連續(xù)性和一致性。在從一個(gè)階段過渡到下一個(gè)階段時(shí),算法會(huì)重新引入噪聲,以確保概率路徑的連續(xù)性。而重新噪聲化的過程是通過一個(gè)校正高斯噪聲來實(shí)現(xiàn)的,有助于維持不同金字塔階段之間的連續(xù)性。
此外,金字塔流匹配算法還引入了一個(gè)自回歸的視頻生成框架,通過時(shí)間金字塔來壓縮全分辨率的歷史信息。使得視頻的每一幀都是基于之前生成的歷史幀來預(yù)測(cè)的。這不僅提高了訓(xùn)練效率,因?yàn)樗鼫p少了訓(xùn)練過程中需要處理的數(shù)據(jù)量,而且還提高了生成視頻的質(zhì)量和一致性。
為了進(jìn)一步優(yōu)化性能,研究人員還使用了一種塊狀因果注意力機(jī)制。這種機(jī)制確保了在生成過程中,每一幀只能關(guān)注它之前的幀,而不能關(guān)注它之后的幀。有助于保持視頻生成的連貫性和邏輯性,因?yàn)楸苊饬嗽谖磥淼膸幸氩幌嚓P(guān)或不一致的信息。
以上就是關(guān)于【比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!