日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      央視點(diǎn)贊國(guó)產(chǎn)AI復(fù)活召喚術(shù),兵馬俑竟與寶石老舅對(duì)唱Rap?

      發(fā)布時(shí)間:2024-07-04 09:30:40 編輯: 來(lái)源:
      導(dǎo)讀 相信很多大家對(duì)央視點(diǎn)贊國(guó)產(chǎn)AI復(fù)活召喚術(shù),兵馬俑竟與寶石老舅對(duì)唱Rap?還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 沉睡了兩千多年...

      相信很多大家對(duì)央視點(diǎn)贊國(guó)產(chǎn)AI復(fù)活召喚術(shù),兵馬俑竟與寶石老舅對(duì)唱Rap?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      沉睡了兩千多年的兵馬俑,蘇醒了?

      一句秦腔開(kāi)場(chǎng),將我們帶到了黃土高原。如果不是親眼所見(jiàn),很多觀(guān)眾可能難以想象,有生之年還能看到兵馬俑和寶石 Gem 同臺(tái)對(duì)唱《從軍行》。

      「青海長(zhǎng)云暗雪山,孤城遙望玉門(mén)關(guān)。」古調(diào)雖存音樂(lè)變,聲音依舊動(dòng)人情:

      這場(chǎng)表演背后的「AI 復(fù)活召喚術(shù)」,叫做 EMO,來(lái)自阿里巴巴通義實(shí)驗(yàn)室。僅僅一張照片、一個(gè)音頻,EMO 就能讓靜止形象變?yōu)槲┟钗┬さ某菀曨l,且精準(zhǔn)卡點(diǎn)音頻中的跌宕起伏、抑揚(yáng)頓挫。

      在央視《2024中國(guó)?AI 盛典》中,同樣基于 EMO 技術(shù),北宋文學(xué)家蘇軾被「復(fù)活」,與李玉剛同臺(tái)合唱了一曲《水調(diào)歌頭》?!窤I 蘇軾」動(dòng)作古樸自然,仿佛穿越時(shí)空而來(lái):

      在 EMO 等 AI 領(lǐng)域前沿技術(shù)的激發(fā)下,首個(gè)以人工智能為核心的國(guó)家級(jí)科技盛宴《2024中國(guó)?AI 盛典》盛大開(kāi)幕,以「媒體 + 科技 + 藝術(shù)」的融合形式將最前沿的國(guó)產(chǎn) AI 技術(shù)力量傳遞給節(jié)目前的每一位觀(guān)眾:

      這不是 EMO 第一次「出圈」。曾在社交媒體爆火的「高啟強(qiáng)化身羅翔普法」,也是出自 EMO 之手:

      登陸通義 APP 之后,借助玩家各種腦洞大開(kāi)的試玩,EMO 火熱程度至今不減。還沒(méi)有嘗試的小伙伴可以前去下載這款應(yīng)用,進(jìn)入「頻道」選擇「全民舞臺(tái)」,就可以絲滑體驗(yàn)了。

      實(shí)際上,早在今年2月,通義實(shí)驗(yàn)室就公開(kāi)了 EMO(Emote Portrait Alive) 相關(guān)論文。這篇論文上線(xiàn)之初就好評(píng)如潮,更是有人稱(chēng)贊:「EMO 是一項(xiàng)革命性的研究?!?/p>

      論文地址:https://arxiv.org/pdf/2402.17485

      項(xiàng)目主頁(yè):https://humanaigc.github.io/emote-portrait-alive/

      為什么它能獲得如此高度的評(píng)價(jià)?這還要從當(dāng)前視頻生成技術(shù)的發(fā)展現(xiàn)狀和 EMO 的底層技術(shù)創(chuàng)新說(shuō)起。

      如此出圈,EMO 憑什么?

      過(guò)去幾年,AI 在圖像生成方面的成功是有目共睹的。當(dāng)前,AI 領(lǐng)域的研究熱點(diǎn)是攻克一個(gè)更困難的任務(wù):視頻生成。

      EMO 面對(duì)的恰好是其中非常難的一項(xiàng)任務(wù):基于音頻驅(qū)動(dòng)的人物視頻生成。

      不同于常見(jiàn)的文生視頻和圖生視頻玩法,基于音頻驅(qū)動(dòng)的人物視頻生成是一個(gè)從音頻直接跨越到視頻模態(tài)的過(guò)程。這類(lèi)視頻的生成往往涉及頭部運(yùn)動(dòng)、凝視、眨眼、唇部運(yùn)動(dòng)等多個(gè)要素,且要保持視頻內(nèi)容的一致性和流暢度。

      在此前的方法中,模型大多先針對(duì)人臉、人頭或者身體部分做3D 建?;蛉四橁P(guān)鍵點(diǎn)標(biāo)記,以此作為中間表達(dá)再生成最終的視頻。但借助中間表達(dá)的方法可能會(huì)導(dǎo)致音頻中的信息被過(guò)度壓縮,影響最終生成視頻中的情緒表達(dá)效果。

      通義實(shí)驗(yàn)室應(yīng)用視覺(jué)團(tuán)隊(duì)負(fù)責(zé)人薄列峰表示,EMO 的關(guān)鍵創(chuàng)新點(diǎn)「弱控制設(shè)計(jì)」很好地解決了上述問(wèn)題,不僅降低視頻生成成本,還大幅提升了視頻生成質(zhì)量。

      「弱控制」體現(xiàn)在兩個(gè)方面:首先,EMO 無(wú)需建模,直接從音頻中提取信息來(lái)生成表情動(dòng)態(tài)和嘴唇同步的視頻,從而在不需要復(fù)雜預(yù)處理的情況下,端到端地創(chuàng)造出自然流暢且表情豐富的人像視頻。其次,EMO 對(duì)生成表情和身體動(dòng)作不做過(guò)多「控制」,最終生成結(jié)果的自然和流暢,都是源于模型本身對(duì)高質(zhì)量數(shù)據(jù)的學(xué)習(xí)而訓(xùn)練出的泛化能力。

      拿兵馬俑和寶石 Gem 同框?qū)Τ稄能娦小穪?lái)說(shuō),歌聲中所要傳達(dá)的情緒(如激揚(yáng))在其面部得到了很好的展現(xiàn),不會(huì)給人違和感:

      基于弱控制的理念,研究團(tuán)隊(duì)為 EMO 模型構(gòu)建了一個(gè)龐大而多樣的音視頻數(shù)據(jù)集,總計(jì)超過(guò)250小時(shí)的錄影和超過(guò)1.5億張圖像,涵蓋各種內(nèi)容,包括演講、電影和電視片段以及歌唱表演,包括中文和英文在內(nèi)的多種語(yǔ)言,視頻的豐富多樣性確保了訓(xùn)練材料捕捉了廣泛的人類(lèi)表達(dá)和聲音風(fēng)格。

      學(xué)界有一種觀(guān)點(diǎn)是,對(duì)于一個(gè)數(shù)據(jù)集最好的無(wú)損壓縮,就是對(duì)于數(shù)據(jù)集之外的數(shù)據(jù)最佳泛化。能夠?qū)崿F(xiàn)高效壓縮的算法往往能夠揭示數(shù)據(jù)的深層規(guī)律,這也是智能的一個(gè)重要表現(xiàn)。

      因此,團(tuán)隊(duì)在訓(xùn)練過(guò)程中設(shè)計(jì)了高保真數(shù)據(jù)編碼算法,保證了在壓縮或處理數(shù)據(jù)的過(guò)程中,盡可能保持原始信息的豐富細(xì)節(jié)和動(dòng)態(tài)范圍。具體到 EMO 的訓(xùn)練上,只有音頻信息完整,人物情緒才能很好的展現(xiàn)。

      視頻生成賽道風(fēng)起云涌

      通義實(shí)驗(yàn)室如何躋身全球第一梯隊(duì)?

      今年2月初,Sora 的發(fā)布點(diǎn)燃了視頻生成賽道,背后的多項(xiàng)技術(shù)隨之受到關(guān)注,其中就包括 DiT(Diffusion Transformer )。

      我們知道,擴(kuò)散模型中的 U-Net 能模擬信號(hào)從噪聲中逐漸恢復(fù)的過(guò)程,理論上能夠逼近任意復(fù)雜的數(shù)據(jù)分布,在圖像質(zhì)量方面優(yōu)于生成對(duì)抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE),生成具有更自然紋理和更準(zhǔn)確細(xì)節(jié)的現(xiàn)實(shí)世界圖像。但 DiT 論文表明,U-Net 歸納偏置對(duì)擴(kuò)散模型的性能并非不可或缺,可以很容易地用標(biāo)準(zhǔn)設(shè)計(jì)(如 Transformer)取代,這就是該論文提出的基于 Transformer 架構(gòu)的新型擴(kuò)散模型 DiT。

      最重要的是,以 DiT 為核心的 Sora 驗(yàn)證了視頻生成模型中仍存在 Scaling Law ,研究者們可以通過(guò)增加更多的參數(shù)和數(shù)據(jù)來(lái)擴(kuò)大模型規(guī)模實(shí)現(xiàn)更好的結(jié)果。

      DiT 模型在生成真實(shí)視頻方面的成功,讓 AI 社區(qū)看到了這一方法的潛力,促使視頻生成領(lǐng)域從經(jīng)典 U-Net 架構(gòu)轉(zhuǎn)變到基于 Transformer 的擴(kuò)散主干架構(gòu)的范式?;?Transformer 注意力機(jī)制的時(shí)序預(yù)測(cè)、大規(guī)模的高質(zhì)量視頻數(shù)據(jù)都是推動(dòng)這一轉(zhuǎn)變的關(guān)鍵力量。

      但縱觀(guān)當(dāng)前的視頻生成領(lǐng)域,尚未出現(xiàn)一個(gè)「大一統(tǒng)」架構(gòu)。

      EMO 并不是建立在類(lèi)似 DiT 架構(gòu)的基礎(chǔ)上,也就是沒(méi)有用 Transformer 去替代傳統(tǒng) U-Net,同樣能夠很好地模擬真實(shí)物理世界,這給整個(gè)研究領(lǐng)域帶來(lái)了啟發(fā)。

      未來(lái),視頻生成領(lǐng)域會(huì)出現(xiàn)哪些技術(shù)路線(xiàn)?不管是理論研究者還是從業(yè)者,都可以保持「相對(duì)開(kāi)放的期待」。

      薄列峰表示,本質(zhì)上,當(dāng)前的語(yǔ)言模型、圖像 / 視頻生成模型都沒(méi)有超越統(tǒng)計(jì)機(jī)器學(xué)習(xí)的框架。即使是 Scaling Law ,也有自身的限制。盡管各個(gè)模型對(duì)強(qiáng)關(guān)系和中等關(guān)系的生成把握比較精準(zhǔn),但對(duì)弱關(guān)系的學(xué)習(xí)仍然不足。如果研究者們不能持續(xù)提供足夠多的高質(zhì)量數(shù)據(jù),模型的能力就難以有質(zhì)的提升。

      換個(gè)角度來(lái)看,即使視頻生成領(lǐng)域會(huì)出現(xiàn)一種「占據(jù)半壁江山」的大一統(tǒng)架構(gòu),也并不意味其具備絕對(duì)的優(yōu)越性。就像是自然語(yǔ)言領(lǐng)域,一直穩(wěn)居 C 位的 Transformer 也會(huì)面臨被 Mamba 超越的情況。

      具體到視頻生成領(lǐng)域,每種技術(shù)路線(xiàn)都有適合自身的應(yīng)用場(chǎng)景。比如關(guān)鍵點(diǎn)驅(qū)動(dòng)、視頻驅(qū)動(dòng)更適合表情遷移的場(chǎng)景,音頻驅(qū)動(dòng)更適合人物講話(huà)、唱演的場(chǎng)景。從條件控制的程度來(lái)說(shuō),弱控制的方法很適合創(chuàng)意類(lèi)任務(wù),同時(shí)很多專(zhuān)業(yè)、具體的任務(wù)更能受益于強(qiáng)控制的方法。

      通義實(shí)驗(yàn)室是國(guó)內(nèi)最早布局視頻生成技術(shù)的機(jī)構(gòu)之一,目前已有文生視頻、圖生視頻等多個(gè)方向的研發(fā)積累,特別是在人物視頻生成方面,已經(jīng)形成了包括人物動(dòng)作視頻生成框架 Animate Anyone、人物換裝視頻生成框架 Outfit Anyone、人物視頻角色替換框架 Motionshop、人物唱演視頻生成框架 Emote Portrait Alive在內(nèi)的完整研究矩陣。

      更多項(xiàng)目請(qǐng)關(guān)注:https://github.com/HumanAIGC

      比如在 EMO 之前,Animate Anyone 一度霸屏社交媒體和朋友圈。該模型解決了人物運(yùn)動(dòng)視頻生成中保持人物外觀(guān)短時(shí)連續(xù)性和長(zhǎng)時(shí)一致性的問(wèn)題,隨后上線(xiàn)通義 App「全民舞王」功能,掀起了一波全民熱舞小高潮。

      從技術(shù)到現(xiàn)實(shí)世界

      過(guò)去兩年,語(yǔ)言模型展現(xiàn)了強(qiáng)大的對(duì)話(huà)、理解、總結(jié)、推理等文本方面的能力,圖像生成模型展現(xiàn)了強(qiáng)大的自然生成、娛樂(lè)和藝術(shù)能力,兩大賽道都誕生了很多爆款產(chǎn)品。這些模型的成功至少告訴我們一點(diǎn):想在這個(gè)時(shí)代取得影響力的技術(shù)團(tuán)隊(duì),需要學(xué)會(huì)「基礎(chǔ)模型」和「超級(jí)應(yīng)用」兩條腿走路。

      目前,視頻內(nèi)容呈現(xiàn)爆發(fā)式增長(zhǎng)的趨勢(shì),人們都在期待能夠出現(xiàn)一個(gè)人人「可用」且「實(shí)用」的 AI 視頻生成平臺(tái)。EMO 可能是打破這一局面的重要技術(shù)突破,通義 App 則提供了一個(gè)技術(shù)落地的廣闊平臺(tái)。

      視頻生成技術(shù)的下一個(gè)挑戰(zhàn),是如何攻克專(zhuān)業(yè)級(jí)的內(nèi)容。

      科技公司們希望將 AI 技術(shù)轉(zhuǎn)化為真正的生產(chǎn)力工具,去服務(wù)短視頻博主、影視制作人、廣告和游戲創(chuàng)意人。這也是為什么視頻生成應(yīng)用不能只停留在「通用內(nèi)容」的水準(zhǔn)。

      環(huán)顧目前大部分的視頻生成應(yīng)用,大多是基于3到5秒的視頻生成模型,在應(yīng)用和體驗(yàn)上的限制比較明顯。但 EMO 技術(shù)對(duì)于音頻時(shí)長(zhǎng)的包容度很高,而且生成內(nèi)容質(zhì)量可以達(dá)到演播標(biāo)準(zhǔn)。比如登陸央視的這段「兵馬俑唱演」,全程四分鐘的兵馬俑部分表演視頻無(wú)一秒需要人工后期針對(duì)性「微調(diào)」。

      如今看來(lái),以 EMO 為代表的人物視頻生成技術(shù)是最接近「專(zhuān)業(yè)級(jí)生成水準(zhǔn)」的落地方向之一。相比于文生視頻技術(shù)中用戶(hù) Prompt 存在的諸多不確定性,EMO 技術(shù)高度符合人物視頻創(chuàng)作對(duì)內(nèi)容連貫性和一致性的核心需求,展示了極具潛力的應(yīng)用空間。

      EMO 之所以「出圈」,人們看到的不光是研發(fā)團(tuán)隊(duì)的技術(shù)實(shí)力,更重要的是看到了視頻生成技術(shù)落地的加速度。

      「人均專(zhuān)業(yè)創(chuàng)作者」的時(shí)代,或許不遠(yuǎn)了。

      以上就是關(guān)于【央視點(diǎn)贊國(guó)產(chǎn)AI復(fù)活召喚術(shù),兵馬俑竟與寶石老舅對(duì)唱Rap?】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章