日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      3秒讓AI變乖,生成風(fēng)險(xiǎn)圖片減少30%!復(fù)旦新研究拿下擴(kuò)散模型概念移除新SOTA|ECCV 2024

      發(fā)布時(shí)間:2024-08-26 09:30:36 編輯: 來(lái)源:
      導(dǎo)讀 相信很多大家對(duì)3秒讓AI變乖,生成風(fēng)險(xiǎn)圖片減少30%!復(fù)旦新研究拿下擴(kuò)散模型概念移除新SOTA|ECCV 2024還不知道吧,今天菲菲就帶你們一起去...

      相信很多大家對(duì)3秒讓AI變乖,生成風(fēng)險(xiǎn)圖片減少30%!復(fù)旦新研究拿下擴(kuò)散模型概念移除新SOTA|ECCV 2024還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      讓AI繪畫模型變“乖”,現(xiàn)在僅需3秒調(diào)整模型參數(shù)。

      效果be like:生成的風(fēng)險(xiǎn)圖片比以往最佳方法減少30%!

      像這樣,在充分移除梵高繪畫風(fēng)格的同時(shí),對(duì)非目標(biāo)藝術(shù)風(fēng)格幾乎沒(méi)有影響。

      在移除裸露內(nèi)容上,效果達(dá)到“只穿衣服,不改結(jié)構(gòu)”。

      這就是復(fù)旦大學(xué)提出的概念移除新方法——RECE。

      目前,基于擴(kuò)散模型的AI生圖有時(shí)真假難辨,常被惡意用戶用來(lái)生成侵犯版權(quán)和包含風(fēng)險(xiǎn)內(nèi)容(如虛假新聞、暴力色情內(nèi)容)的圖像。

      SD中使用的的安全措施是使用安全檢查器,對(duì)違規(guī)的生成圖像不予展示,還集成了一些用classifier-free guidance來(lái)規(guī)避風(fēng)險(xiǎn)概念的方法。

      但在開(kāi)源條件下,惡意用戶可以輕松繞過(guò)這些機(jī)制,網(wǎng)上甚至有大把的教程……

      針對(duì)此,學(xué)界提出了“概念移除”,即通過(guò)微調(diào)來(lái)移除文生圖擴(kuò)散模型中特定的風(fēng)險(xiǎn)概念,使其不再具備生成相應(yīng)內(nèi)容的能力。

      這種方法的資源消耗遠(yuǎn)低于從頭重新訓(xùn)練的SD v2.1版本,也不能被輕易繞過(guò)。

      而最新研究RECE,拿下概念移除SOTA效果,并且對(duì)無(wú)關(guān)概念破壞極小,論文已被頂會(huì)ECCV2024接收。

      整個(gè)過(guò)程基于高效的解析解

      此前,盡管概念移除進(jìn)展迅速,其問(wèn)題仍然明顯:

      已有的方法為了安全性犧牲了較多的生成質(zhì)量。

      已有方法即使對(duì)模型破壞較大,仍不能充分移除不當(dāng)概念,有很大幾率生成風(fēng)險(xiǎn)圖像。

      大多數(shù)方法需要大量的微調(diào)步數(shù),計(jì)算資源消耗大。

      那么RECE是如何實(shí)現(xiàn)的?

      RECE主要包含兩個(gè)模塊:模型編輯和嵌入推導(dǎo)。

      首先,RECE以解析解的形式,在交叉注意力層中將風(fēng)險(xiǎn)概念映射到無(wú)害概念。

      然后,RECE以解析解的形式推導(dǎo)出風(fēng)險(xiǎn)概念的新嵌入表示并用于下一輪的模型編輯。

      RECE還包括了一個(gè)簡(jiǎn)潔有效的正則項(xiàng),可以證明其具有保護(hù)模型能力的作用,進(jìn)而保證概念移除可以交替進(jìn)行多輪。整個(gè)概念移除的過(guò)程都基于高效的解析解。

      風(fēng)險(xiǎn)概念嵌入推導(dǎo)

      RECE的有效性來(lái)自于對(duì)已有方法概念移除不徹底的觀察:

      以”裸露“為提示詞,SD生成了裸露圖像,UCE(一種概念移除方法)成功避免了裸露內(nèi)容的生成;

      然而,輸入有意設(shè)計(jì)的提示詞或文本嵌入,UCE再次生成了裸露內(nèi)容。

      為引導(dǎo)編輯后的模型重新生成裸露內(nèi)容,接下來(lái)將以“裸露”為例,介紹RECE是如何推導(dǎo)上述具有攻擊性的概念嵌入的。

      既然是文生圖,那首先思考文本引導(dǎo)的機(jī)制——交叉注意力。

      SD利用CLIP作為文本編碼器得到提示詞的嵌入形式,并且獲得key與value,與表征視覺(jué)特征的query一起,得到輸出:

      如果能得到一個(gè)新的概念嵌入,滿足在編輯后的交叉注意力映射后,足夠接近經(jīng)過(guò)編輯前的映射值,那么應(yīng)能夠誘導(dǎo)生成裸露圖片:

      上式為凸函數(shù),因此具有解析解,不需要繁瑣的梯度下降近似求解:

      模型編輯

      接下來(lái)RECE將編輯交叉注意力以移除風(fēng)險(xiǎn)概念。RECE借鑒了已有的方法UCE,通過(guò)解析解來(lái)編輯交叉注意力的權(quán)重,一步到位,避免繁瑣微調(diào)。

      給定“源”概念(例如,“裸露”),“目標(biāo)”概念(例如,空文本“ ”),以及交叉注意力的K/V投影矩陣,UCE的目標(biāo)是找到新權(quán)重,將新權(quán)重下的映射值對(duì)齊到。

      其中后面兩項(xiàng)是為了控制參數(shù)變化,最小化對(duì)無(wú)關(guān)概念的影響。這也是凸函數(shù),將解析解直接賦值給新權(quán)重:

      正則項(xiàng)

      理想情況下,將公式(5)得到的移除就可以避免生成裸露內(nèi)容了,然而團(tuán)隊(duì)發(fā)現(xiàn)這會(huì)對(duì)模型能力產(chǎn)生極大的破壞。

      因此在相鄰的兩輪概念移除中,RECE對(duì)無(wú)關(guān)概念的映射值變化做了約束:

      學(xué)過(guò)線性代數(shù)的同學(xué)是不是覺(jué)得很熟悉呢?

      利用矩陣范數(shù)的相容性,證明得到:

      因此只需在推導(dǎo)時(shí)添加一個(gè)范數(shù)約束項(xiàng),就能保護(hù)模型的能力:

      其解析解為:

      綜上,RECE的算法流程歸納為:

      RECE效果如何?

      不安全概念移除

      首先來(lái)看最敏感的內(nèi)容——色情。在I2P基準(zhǔn)數(shù)據(jù)集上,RECE的裸露移除效果超過(guò)了全部已有方法。

      團(tuán)隊(duì)還評(píng)估了概念移除后模型的正常內(nèi)容生成能力,即無(wú)關(guān)概念集COCO-30k上的FID指標(biāo),也遠(yuǎn)超CA等方法。

      藝術(shù)風(fēng)格移除

      保護(hù)藝術(shù)版權(quán)不受AI侵犯同樣十分敏感。綜合效果方面,RECE優(yōu)于所有方法。

      并且細(xì)致來(lái)看,RECE是唯一一個(gè)在目標(biāo)藝術(shù)家擦除效果和無(wú)關(guān)藝術(shù)家保留效果方面都表現(xiàn)優(yōu)異的方法。

      紅隊(duì)魯棒性

      RECE對(duì)惡意用戶的有意攻擊同樣可以有效防護(hù),在紅隊(duì)攻擊下,RECE生成風(fēng)險(xiǎn)圖片的幾率仍是最低。

      模型編輯耗時(shí)

      RECE5個(gè)Epoch僅需3.4秒,參數(shù)改動(dòng)比例、編輯耗時(shí)遠(yuǎn)低于CA等方法。UCE的耗時(shí)也很短,但UCE的概念移除效果與RECE相差較大。

      作者簡(jiǎn)介

      論文共同第一作者為復(fù)旦大學(xué)視覺(jué)與學(xué)習(xí)實(shí)驗(yàn)室的碩士新生公超和博士生陳凱。

      通訊作者為陳靜靜副教授。

      研究團(tuán)隊(duì)專注于AI安全的研究,近年來(lái)在CVPR,ECCV,AAAI,ACM MM等頂會(huì)上發(fā)表過(guò)多篇AI安全的研究成果。

      論文地址:https://arxiv.org/abs/2407.12383

      代碼地址:https://github.com/CharlesGong12/RECE

      以上就是關(guān)于【3秒讓AI變乖,生成風(fēng)險(xiǎn)圖片減少30%!復(fù)旦新研究拿下擴(kuò)散模型概念移除新SOTA|ECCV 2024】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章