日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      Meta又給OpenAI一記重?fù)?,視頻生成Movie Gen震撼登場,甚至可以配音、編輯

      發(fā)布時(shí)間:2024-10-05 11:30:07 編輯: 來源:
      導(dǎo)讀 相信很多大家對(duì)Meta又給OpenAI一記重?fù)?,視頻生成Movie Gen震撼登場,甚至可以配音、編輯還不知道吧,今天菲菲就帶你們一起去了解一下~.~...

      相信很多大家對(duì)Meta又給OpenAI一記重?fù)?,視頻生成Movie Gen震撼登場,甚至可以配音、編輯還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      在 OpenAI Sora 難產(chǎn)的時(shí)候,Meta 首次公開展示了自家的「用于媒體的突破性生成式 AI 研究」:Meta Movie Gen。

      Meta 在相應(yīng)博客中使用了「premiere」一詞,也就是初次展示,因此手癢的用戶可能還得再等上一段時(shí)間。

      Meta 表示:「無論是希望在好萊塢大展身手的電影制作人,還是愛好為觀眾制作視頻的創(chuàng)作者,我們相信每個(gè)人都應(yīng)該有機(jī)會(huì)使用有助于提高創(chuàng)造力的工具。」

      根據(jù) Meta 的描述,Movie Gen 的功能包括:文本生成視頻和音頻、編輯已有視頻、圖片生視頻。并且人類評(píng)估表明,Movie Gen 在這些任務(wù)上的表現(xiàn)均優(yōu)于行業(yè)內(nèi)類似模型。

      具體的效果如何,我們先來看幾個(gè)示例。

      可以看到,小女孩在奔跑的過程中衣服的褶皺就已經(jīng)吊打很多視頻生成應(yīng)用了。

      prompt:一個(gè)女孩正在海灘上奔跑,手里拿著一只風(fēng)箏。她穿著牛仔短褲和黃色 T 恤,陽光灑在她身上。

      在轉(zhuǎn)頭、正視前方、微笑的幾個(gè)動(dòng)作中,人物面部依然可以保持穩(wěn)定狀態(tài),克服了形變。怪不得 Meta 在博客中還談到,這是能夠用來分享日常生活的可貴技術(shù)。

      prompt:一名女子正坐在南瓜田的草地上。她圍著圍巾,手里拿著一個(gè)杯子。背景中是一排排南瓜。

      生成動(dòng)物對(duì) Movie Gen 來說也是小菜一碟。動(dòng)物的毛發(fā)、動(dòng)作都十分逼真。仔細(xì)看這只猴子的尾巴,在遮擋后依然能夠遵循遮擋前的運(yùn)動(dòng)軌跡。背景生成結(jié)果也十分貼合 prompt。水面的波動(dòng)、倒映都栩栩如生。不過水下折射的生成效果看起來還有些進(jìn)步空間。

      prompt:一只紅臉白毛的猴子正在天然溫泉中沐浴。猴子在玩水面上的一艘微型帆船,這艘帆船由木頭制成,配有白色的帆和小舵。溫泉周圍環(huán)繞著郁郁蔥蔥的綠植,有巖石和樹木點(diǎn)綴其間。

      視頻時(shí)間長一些,Movie Gen 也能有穩(wěn)定的表現(xiàn)。人物大幅度動(dòng)作的展現(xiàn)也比較逼真。但每一幀定格下來,還會(huì)有些瑕疵。不過這是視頻生成一貫的難題,Meta 或許會(huì)在未來進(jìn)行改進(jìn)。

      prompt:鏡頭位于一名男子的身后。男子赤裸上身,腰間系著綠色布料,赤腳站立。他的雙手各持一個(gè)燃燒的物體,做出大幅度的圓周動(dòng)作。背景是一片平靜的海面,火舞營造出迷人的氛圍。

      Sora 剛剛問世時(shí),往往還需要 Elevenlabs 這樣的音頻生成應(yīng)用來輔助。而 Movie Gen 顯然更加便捷,除了視頻生成,配備相應(yīng)的音樂、音效也是拿手好戲。

      面對(duì)一整個(gè)視頻的場景,合適的背景音樂能夠貫穿全程。不僅如此,音效的適配度也很高。這個(gè)瀑布傾瀉的水聲就十分逼真。

      prompt:雨水傾瀉在懸崖和人身上,有背景音樂。

      更讓人驚訝的是,音效還能夠精準(zhǔn)地與視頻內(nèi)容匹配。它能夠通過視頻中的動(dòng)作節(jié)點(diǎn)來把握音效出現(xiàn)的時(shí)機(jī),讓畫面和聲音相輔相成,給我們呈現(xiàn)出完整的生成效果。

      prompt:車輪飛速旋轉(zhuǎn),滑板落在水泥地上發(fā)出砰的一聲。

      無論是視頻,還是音頻 Movie Gen 看起來都表現(xiàn)優(yōu)異。

      如果 Meta 所言非虛,那么 Movie Gen 也真算得上是目前最先進(jìn)和最沉浸式的「講故事模型套件(storytelling suite of models)」。

      Meta 表示訓(xùn)練使用的數(shù)據(jù)集都是公開數(shù)據(jù)集或已獲得授權(quán)的數(shù)據(jù)集。下面將簡要介紹各項(xiàng)能力以及背后的技術(shù),更多詳情請(qǐng)參閱原論文。

      論文名稱:MovieGen: A Cast of Media Foundation Models

      論文鏈接:https://ai.meta.com/static-resource/movie-gen-research-paper

      更多演示:https://ai.meta.com/research/movie-gen/

      Meta 在博客中簡單回顧了自己的視頻生成之旅。他們的第一波生成式 AI 研究始于 Make-A-Scene 系列模型,這些模型可以生成圖像、音頻、視頻和3D 動(dòng)畫。

      隨著擴(kuò)散模型的出現(xiàn),他們又基于 Llama 基礎(chǔ)模型做出了第二波研究,成功實(shí)現(xiàn)了更高質(zhì)量的圖像和視頻生成以及圖像編輯。

      Movie Gen 則是 Meta 的第三波研究。他們將以上所有模態(tài)都組合到了一起,并能以前所未有的方式為用戶提供進(jìn)一步的細(xì)粒度控制。

      下面詳細(xì)介紹 Movie Gen 的各項(xiàng)能力。

      視頻生成

      給定文本提示詞,Movie Gen 會(huì)使用一個(gè)針對(duì)文生圖和文生視頻任務(wù)優(yōu)化過的聯(lián)合模型來創(chuàng)建高質(zhì)量和高清晰度的圖像和視頻。這個(gè)30B 參數(shù)的 Transformer 模型有能力生成長度最多16秒幀率為16FPS 的視頻。Meta 表示還發(fā)現(xiàn)這些模型可以推理物體運(yùn)動(dòng)、主客體交互和相機(jī)運(yùn)動(dòng),并且它們還能學(xué)習(xí)各種概念的合理運(yùn)動(dòng) —— 這也使它們成為了同類中的 SOTA 模型。

      具體流程如下圖所示,他們先通過一個(gè)時(shí)間自動(dòng)編碼器模型(TAE)訓(xùn)練了一個(gè)時(shí)空壓縮的隱空間,然后再基于此訓(xùn)練了一個(gè)生成模型。

      模型架構(gòu)上,他們采用了 Transformer,整體位于 Llama3的設(shè)計(jì)空間中。下表展示了其30B 參數(shù)基礎(chǔ)模型的各個(gè)超參數(shù)。值得注意的是,這里的30B 參數(shù)指的是 Transformer 本身的參數(shù)量,并不包含文本嵌入模型、TAE 等。

      為了訓(xùn)練這個(gè)模型,Meta 使用了多達(dá)6144臺(tái) H100GPU,每一臺(tái)的熱設(shè)計(jì)功耗為700W,并且都配備了80GB 的 HBM3。

      下圖展示了 Movie Gen Transformer 骨干網(wǎng)絡(luò)的整體結(jié)構(gòu)以及所使用的模型并行化機(jī)制。具體來說包括張量并行化(TP))、序列并行化(SP)、上下文并行化(CP)和全共享式數(shù)據(jù)并行(FSDP)。

      訓(xùn)練流程上,他們采用了一種多階段訓(xùn)練方法,該方法分為三個(gè)階段:

      在文生圖(T2I)任務(wù)上進(jìn)行初始訓(xùn)練,之后再在文生圖和文生視頻(T2V)任務(wù)上進(jìn)行聯(lián)合訓(xùn)練;

      逐步從低分辨率256像素的數(shù)據(jù)擴(kuò)展成768像素的高分辨率數(shù)據(jù);

      在計(jì)算和時(shí)間限制上,使用改進(jìn)過的數(shù)據(jù)集和已優(yōu)化的訓(xùn)練方法進(jìn)行持續(xù)訓(xùn)練。

      之后自然也會(huì)執(zhí)行微調(diào)。

      而在推理階段,Meta 的一個(gè)創(chuàng)新思路是首先使用 Llama3對(duì)用戶輸入的提示詞進(jìn)行重寫,將其擴(kuò)展成更加詳細(xì)的版本。實(shí)踐表明該方法確實(shí)有助于提升生成結(jié)果的質(zhì)量。此外,Meta 還在提升推理效率方面引入了一些新思路。

      效果上,下表展示了 Movie Gen Video 模型與之前相關(guān)研究的勝率情況。注意這里的數(shù)值是 Movie Gen 的獲勝百分比減去落敗百分比,因此可知 Movie Gen 的整體表現(xiàn)勝過之前的模型。

      個(gè)性化視頻

      基于上述基礎(chǔ)模型,Meta 還開發(fā)出了個(gè)性化視頻功能。用戶只需提供人物圖像輸入和對(duì)應(yīng)的文本提示詞,就能生成包含該人物以及文本描述的細(xì)節(jié)的視頻。Meta 表示 Movie Gen 生成的個(gè)性化視頻在保留人類身份和運(yùn)動(dòng)方面做到了 SOTA。

      下圖展示了個(gè)性化 Movie Gen Video 模型(PT2V)的架構(gòu)和推理流程。

      具體來說,首先使用 Movie Gen Video 模型的權(quán)重對(duì)該模型進(jìn)行初始化,然后添加額外的可學(xué)習(xí)參數(shù)來基于參考圖像實(shí)現(xiàn)條件化編輯。

      訓(xùn)練過程先是進(jìn)行預(yù)訓(xùn)練(分為身份注入、長視頻生成、提升自然度三個(gè)階段),然后執(zhí)行監(jiān)督式微調(diào)。

      結(jié)果上看,在經(jīng)過微調(diào)之后,PT2V 模型在身份和人臉一致性上的表現(xiàn)都相當(dāng)卓越。

      下圖展示了兩個(gè)與 ID-Animator 的對(duì)比示例:

      精確的視頻編輯

      還是基于同樣的基礎(chǔ)模型,Meta 也做出了視頻編輯功能,并且可以做到非常精確的編輯 —— 可僅操作相關(guān)像素!具體來說,給定一段視頻和文本提示詞,模型可以生成符合要求的經(jīng)過修改的輸出,其中包括一些非常高階的編輯功能,比如添加、移除和替換元素,修改背景和風(fēng)格等全局要素。

      如果后面實(shí)際效果真如 Meta 描述那么好,那么這項(xiàng)功能可能會(huì)成為一大利器。

      為了做到這一點(diǎn),Meta 團(tuán)隊(duì)同樣采用了一種多階段方法:首先執(zhí)行單幀編輯,然后進(jìn)行多幀編輯,之后再整體編輯視頻。

      為此,他們對(duì)前述的視頻生成模型進(jìn)行了一番修改。首先,通過向圖塊嵌入工具添加額外的輸入通道而實(shí)現(xiàn)了對(duì)輸入視頻的調(diào)節(jié),從而可沿通道維度將隱含的視頻輸入與有噪聲的輸出隱視頻連接起來,并將連接后的隱視頻提供給模型。

      此外,按照 Emu Edit 的做法,他們還加入了對(duì)特定編輯任務(wù)(例如添加對(duì)象、更改背景等)的支持。具體來說,該模型會(huì)對(duì)每個(gè)任務(wù)學(xué)習(xí)一個(gè)任務(wù)嵌入向量。對(duì)于給定的任務(wù),模型對(duì)相應(yīng)的任務(wù)嵌入應(yīng)用線性變換,產(chǎn)生四個(gè)嵌入,這些嵌入與文本編碼器的隱藏表示連接在一起。我們還對(duì)任務(wù)嵌入應(yīng)用了第二個(gè)線性變換,并將得到的向量添加到時(shí)間步嵌入中。另外,為了完全保留模型的視頻生成功能,他們將所有新添加的權(quán)重設(shè)置為零,并基于預(yù)訓(xùn)練的文生視頻模型初始化剩余的權(quán)重。

      該方法的效果非常顯著,在兩個(gè)數(shù)據(jù)集上的人類和自動(dòng)評(píng)估結(jié)果基本都優(yōu)于其它對(duì)比方法。順帶一提,Movie Gen Edit Bench 是 Meta 提出的一個(gè)新基準(zhǔn),用于評(píng)估「下一代視頻編輯模型的視頻編輯能力」。

      音頻生成

      此外,他們還訓(xùn)練了一個(gè)13B 參數(shù)的音頻生成模型 Movie Gen Audio。該模型可以基于視頻和可選的文本提示詞生成長達(dá)45秒的高質(zhì)量高保真音頻,包括環(huán)境聲音、音效(Foley)和背景音樂 —— 所有這些都與視頻內(nèi)容同步。

      下面是 Movie Gen Audio 的模型示意圖,可以看到其采用了基于流匹配(flow-matching 生成模型和擴(kuò)散 Transformer(DiT)的模型架構(gòu)。此外,還添加了一些條件化模塊來實(shí)現(xiàn)對(duì)模型的控制。

      此外,他們還提出了一種音頻擴(kuò)展技術(shù),可以為任意長度的視頻生成連貫的音頻。下面是該技術(shù)的示意圖。其目標(biāo)是一次生成30秒長度的音頻,然后利用該擴(kuò)展延展至任意長度。

      總體而言,他們?cè)谝纛l質(zhì)量、視頻到音頻對(duì)齊和文本到音頻對(duì)齊方面實(shí)現(xiàn)了 SOTA。

      結(jié)語

      Meta 在架構(gòu)、訓(xùn)練目標(biāo)、數(shù)據(jù)處理方法、評(píng)估協(xié)議和推理優(yōu)化等多個(gè)技術(shù)方面做出了創(chuàng)新突破。下圖展示了 Movie Gen 四項(xiàng)能力的人類 A/B 評(píng)估對(duì)比結(jié)果。正凈勝率表示人類相較于其他行業(yè)模型,更加偏愛 Movie Gen。

      Meta 這一次展示自己在視頻生成方面的研究成果確實(shí)出人意料,這也使其成為了這片越來越擁擠的戰(zhàn)場的又一強(qiáng)力競爭者,并且我們也還不清楚 Meta 是否會(huì)像發(fā)布 Llama 系列模型那樣完全免費(fèi)發(fā)布 Movie Gen,讓自己在真?OpenAI 之路上繼續(xù)前進(jìn)??傊?,網(wǎng)友們已經(jīng)在期待了。

      最后,例行慣例,還是得向 OpenAI 問一句:Sora?

      以上就是關(guān)于【Meta又給OpenAI一記重?fù)?,視頻生成Movie Gen震撼登場,甚至可以配音、編輯】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章