日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<td id="vuqha"></td>

<legend id="vuqha"></legend>

<small id="vuqha"></small>

比肩Sora！快手、北大開源，超高清10秒、24幀視頻模型

發(fā)布時(shí)間：2024-10-11 09:00:51 編輯：來源：

導(dǎo)讀相信很多大家對(duì)比肩Sora！快手、北大開源，超高清10秒、24幀視頻模型還不知道吧，今天菲菲就帶你們一起去了解一下~.~！快手、北京大學(xué)和北...

相信很多大家對(duì)比肩Sora！快手、北大開源，超高清10秒、24幀視頻模型還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

快手、北京大學(xué)和北京郵電大學(xué)的研究人員聯(lián)合開源了超高清視頻模型——Pyramid-Flow。yramid-Flow僅通過文本就能生成最多10秒、1280x768分辨率和24幀視頻，在光影效果、運(yùn)動(dòng)動(dòng)作一致性、視頻質(zhì)量、文本語義還原、色彩搭配等方面非常優(yōu)秀，生成的視頻很棒。

值得一提的是，Pyramid-Flow使用A100GPU在開源數(shù)據(jù)集上僅訓(xùn)練了20，700小時(shí)，其能耗和生成效率比市面上同類開源視頻模型好很多，對(duì)于沒有大量算力的中小企業(yè)和個(gè)人開發(fā)者來說幫助很大。

開源地址:https://github.com/jy0205/Pyramid-Flow

huggingface:https://huggingface.co/rain1011/pyramid-flow-sd3

在線demo:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

Pyramid-Flow案例展示

以下是Pyramid-Flow生成的視頻展示，整體非常驚艷有今天Sora那種感覺了。

一名女子的側(cè)面照片，煙花在她身后的遠(yuǎn)處放了起來。

美麗的東京在雪中熙熙攘攘。鏡頭穿過繁忙的街道，跟隨著幾位享受美麗雪景并在附近店鋪購物的人們。

一艘船沿著塞納河悠閑地航行，背景是埃菲爾鐵塔，黑白色彩。

海嘯穿過保加利亞的一條小巷，動(dòng)態(tài)效果。

雞肉和青椒烤肉串的極端特寫鏡頭在燒烤架上用火焰烤。淺焦點(diǎn)、輕煙、色彩鮮艷。

無人機(jī)拍攝的海浪拍打大蘇爾加雷角海灘崎嶇懸崖的景象。蔚藍(lán)的海水激起白浪，夕陽的金色光芒照亮了巖石海岸。

Pyramid-Flow創(chuàng)新方法——金字塔流匹配

目前，文生視頻領(lǐng)域有一個(gè)非常難的技術(shù)挑戰(zhàn)，就是如何有效地處理和生成高維度的視頻數(shù)據(jù)。這些數(shù)據(jù)不僅包含大量的空間信息，還涉及復(fù)雜的時(shí)間動(dòng)態(tài)，而Pyramid-Flow使用了一種創(chuàng)新方法——金字塔流匹配。

金字塔流匹配算法的核心思想是將傳統(tǒng)的單一分辨率生成過程轉(zhuǎn)變?yōu)橐粋€(gè)多階段的金字塔結(jié)構(gòu)。視頻的生成不是一次性在全分辨率下完成，而是在不同的分辨率層次上逐步進(jìn)行。

在金字塔流匹配算法中，視頻生成過程被分解為多個(gè)階段，每個(gè)階段對(duì)應(yīng)一個(gè)特定的分辨率。這些階段從低分辨率開始，逐漸升級(jí)到高分辨率。在低分辨率階段，算法首先生成一個(gè)粗糙的視頻草圖，然后逐步增加細(xì)節(jié)，直到在最高分辨率階段生成最終的視頻。

這種分階段的方法極大減少了AI算力，因?yàn)樗苊饬嗽谏蛇^程的早期階段就處理大量的高分辨率數(shù)據(jù)，同時(shí)提高了生成流程的靈活性，可在不同的階段對(duì)視頻的不同方面進(jìn)行精細(xì)控制。

每個(gè)金字塔階段的生成過程被建模為一個(gè)從噪聲到數(shù)據(jù)的連續(xù)流。這個(gè)流通過插值的方式來生成視頻數(shù)據(jù)，在每個(gè)階段的開始時(shí)從一個(gè)像素化的、噪聲較多的潛在表示開始，逐步演化為一個(gè)清晰、干凈的潛在表示。

這種流的設(shè)計(jì)允許不同階段之間的連續(xù)性和一致性。在從一個(gè)階段過渡到下一個(gè)階段時(shí)，算法會(huì)重新引入噪聲，以確保概率路徑的連續(xù)性。而重新噪聲化的過程是通過一個(gè)校正高斯噪聲來實(shí)現(xiàn)的，有助于維持不同金字塔階段之間的連續(xù)性。

此外，金字塔流匹配算法還引入了一個(gè)自回歸的視頻生成框架，通過時(shí)間金字塔來壓縮全分辨率的歷史信息。使得視頻的每一幀都是基于之前生成的歷史幀來預(yù)測(cè)的。這不僅提高了訓(xùn)練效率，因?yàn)樗鼫p少了訓(xùn)練過程中需要處理的數(shù)據(jù)量，而且還提高了生成視頻的質(zhì)量和一致性。

為了進(jìn)一步優(yōu)化性能，研究人員還使用了一種塊狀因果注意力機(jī)制。這種機(jī)制確保了在生成過程中，每一幀只能關(guān)注它之前的幀，而不能關(guān)注它之后的幀。有助于保持視頻生成的連貫性和邏輯性，因?yàn)楸苊饬嗽谖磥淼膸幸氩幌嚓P(guān)或不一致的信息。

以上就是關(guān)于【比肩Sora！快手、北大開源，超高清10秒、24幀視頻模型】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新文章

<small id="3qkqb"><menuitem id="3qkqb"></menuitem></small>

<small id="3qkqb"></small>

<td id="3qkqb"><strong id="3qkqb"></strong></td><address id="3qkqb"></address>

<td id="3qkqb"><strong id="3qkqb"></strong></td>

<sub id="3qkqb"><strong id="3qkqb"><samp id="3qkqb"></samp></strong></sub>