超越恐怖谷!全球500萬網(wǎng)友被騙,爆火TEDx演講者沒一個(gè)是真人?
相信很多大家對超越恐怖谷!全球500萬網(wǎng)友被騙,爆火TEDx演講者沒一個(gè)是真人?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】最近,這幾位TED演講者,在外網(wǎng)形成了病毒式傳播,然而,他們竟然全都不是真人?!答案揭曉后,五百萬網(wǎng)友簡直驚掉下巴。這5張圖里,你能發(fā)現(xiàn)幾個(gè)bug?
最近,這些「TED演講者」在外網(wǎng)火得一塌糊涂,堪稱病毒式傳播。
仔細(xì)看看,你能發(fā)現(xiàn)什么問題嗎?
答案揭曉——這五個(gè)人中,沒有一個(gè)是真人!
在線尋人的小哥要哭了
如此逼真,幾乎毫無破綻,這種級別的生圖AI直接讓網(wǎng)友們驚掉下巴。
甚至連AI識別軟件,都認(rèn)不出來這是AI生成的圖。
「看起來真實(shí),難道不是因?yàn)楸緛砭褪钦鎸?shí)的照片?」
「沒有一張是真人嗎?簡直令人毛骨悚然!」
網(wǎng)友銳評:這已經(jīng)超越了恐怖谷,到達(dá)了「超真實(shí)谷」。
短短十幾個(gè)小時(shí),分享這張圖片的帖子,在推上的觀看人數(shù)已經(jīng)破了500萬。
隨后,作者也被扒了出來——他就是Stable Diffusion團(tuán)隊(duì)的前成員Leo Kadieff。
他揭秘道:這些TEDx演講者,都是用最新的Flux真實(shí)版LoRA制作的。
以往的AI生圖,人眼多少都會看出違和感,而這次的圖片如此逼真,正是靠LoRA技術(shù)改進(jìn)了模型,才大大增加了真實(shí)感。
并且,作者介紹說,這個(gè)工作流還有一個(gè)好處,就是大大簡化了復(fù)雜的提示詞。
這個(gè)消息,簡直讓提示詞苦手們狂喜。
這個(gè)小小的22MB文件,就可以讓我們省去麻煩,不必再在每個(gè)提示詞中寫一堆與真實(shí)性相關(guān)的Token。
一句「一張RAW超現(xiàn)實(shí)主義照片,UHD,8k」,足矣。現(xiàn)實(shí)主義愛好者,絕對愛死了這個(gè)工具。
作者直言:我們還需要對現(xiàn)實(shí)模型進(jìn)行微調(diào)嗎?
- 這些圖像是Flux+LoRA的原始輸出,未經(jīng)過任何放大或后期處理
- 你需要對應(yīng)的「RealismLora」文件,以及ComfyUI工作流
Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main
ComfuUI:https://we.tl/t-zrC5tPFG17
真實(shí)版LoRA,效果拔群從下面這兩幅圖中不難看出,用LoRA和不用LoRA的效果對比,果然十分明顯。
網(wǎng)友已玩嗨
與此同時(shí),「TED演講者」的分享者Kyrannio,也嘗試用Midjourney復(fù)刻了一波。
最初的提示詞如下:
可以看出,生成效果還不錯(cuò),但與Leo Kadieff生成的圖片差距依然很大。
接著,博主又進(jìn)行了一些改進(jìn):
并在經(jīng)過多次生成之后,試出了最為接近的結(jié)果:
與此同時(shí),隨著谷歌Imagen3公開可用,網(wǎng)友們也在第一時(shí)間拿著這套prompt進(jìn)行了嘗試。
一時(shí)間,全網(wǎng)都掀起AI生圖的熱潮。
Imagen3全員可用
沒錯(cuò),正如剛剛提到的,谷歌最強(qiáng)文生圖模型Imagen3已經(jīng)正式開放可用了。
來源:Risphere
網(wǎng)友chrypnotoad表示,自己還沒見過哪個(gè)AI能把阿喀琉斯之盾做得這么好的!
能輕松hold住如此復(fù)雜的prompt,Imagen3果然不能小覷。
知名博主「歸藏」在體驗(yàn)之后表示:
好在,他們在提示詞的交互上做得很好:
來源:歸藏
除了直接生成之外,Imagen3還支持局部重繪功能,用畫筆和提示詞對圖片進(jìn)行編輯。
來源:歸藏
當(dāng)然,幾家頂流文生圖AI的PK,肯定也少不了:Midjourney V6vs Imagen3vs FLU.1[pro]。
異色瞳的亞洲女性。
美洲原住民。
有美人痣的南亞婦女。
瘋狂的藝術(shù)家。
很遺憾,谷歌大概因?yàn)榘踩O(shè)置過于敏感,并不能生成這個(gè)prompt……
留著八字胡的高加索老人。
Runway也來蹭了一波,但…
趁著這股熱度,Runway創(chuàng)意總監(jiān)Nicolas Neubert,還用自家的Gen-3Alpha生成了一段視頻。
果然,AI圖片變成視頻后,效果依然杠杠的!
而這個(gè)帖子,也同樣引起了轟動。
網(wǎng)友贊嘆道:從一年半前慘不忍睹的威爾·史密斯吃意面,到今天這個(gè)程度,進(jìn)步可謂是瘋狂的。
同時(shí),也有火眼金睛的網(wǎng)友發(fā)現(xiàn),這個(gè)視頻依然有一些細(xì)微的bug。
比如人的舌頭不會動,牙齒有些彎曲、扁平,第4秒時(shí)左臂出現(xiàn)了奇怪的斑點(diǎn),還有Google標(biāo)志處的bug,也非常明顯。
如果看得再仔細(xì)點(diǎn),會發(fā)現(xiàn)所有的陰影都很不自然,比如麥克風(fēng)的陰影。還有東西接觸的地方,很多線條是亂的。
嘴唇的動作也不自然。
眼睛看起來仍然沒有靈魂。
總的來說,相比于AI生圖,目前AI視頻的bug顯然要多得多。
背后的原因還是在于,AI根本不理解人類的舌頭、頭發(fā)、眼睛究竟是什么東西。接下來的AI,還是要學(xué)會人體解剖和物理學(xué)才行。
而且,在文生圖這塊,Runway就要差得多了。
SD一作攜原班人馬創(chuàng)業(yè),一出手就是王炸
說回到FLUX.1,其實(shí)在8月初的時(shí)候它就引起過一波熱議。
Stable Diffusion一作、Stabililty AI核心成員Robin Rombach下場創(chuàng)業(yè),官宣成立Black Forest Labs。
祭出的首個(gè)產(chǎn)品FLUX.1系列模型,效果直接秒殺Midjourney、DALL-E和Stable Diffusion!
根據(jù)官博的介紹,F(xiàn)LUX.1在圖像細(xì)節(jié)、提示詞遵循、風(fēng)格多樣性和場景復(fù)雜性方面都取得了SOTA。
尤其是FLUX.1[pro],經(jīng)過測試在一眾文生圖模型中拔得頭籌。
視覺質(zhì)量、提示詞遵循、尺寸/縱橫比變化、排版和輸出多樣性
ELO得分
為了在可訪問性和模型能力之間取得平衡,F(xiàn)LUX.1有三種變體:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]:
- FLUX.1[pro]:FLUX.1的頂級版本,提供最先進(jìn)的圖像生成,具有一流的提示詞跟隨能力、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性。
- FLUX.1[dev]是一個(gè)開放權(quán)重的指令蒸餾模型,用于非商業(yè)應(yīng)用。由于是從FLUX.1[pro]直接蒸餾而來,因此FLUX.1[dev]不僅獲得了強(qiáng)大的質(zhì)量和提示詞跟隨能力,而且比同規(guī)模的標(biāo)準(zhǔn)模型更加高效。
- FLUX.1[schnell]是最快的模型,專為本地開發(fā)和個(gè)人使用而設(shè)計(jì)。(schnell在德語中就是快的意思)
值得一提的是,所有FLUX.1模型都基于多模態(tài)和并行擴(kuò)散Transformer塊的混合架構(gòu),參數(shù)規(guī)模為120億。
其中,團(tuán)隊(duì)通過構(gòu)建流匹配(flow matching)改進(jìn)了之前的擴(kuò)散模型,并且通過結(jié)合旋轉(zhuǎn)位置嵌入(rotary positional embeddings)和并行注意力層提高了模型性能和改進(jìn)硬件效率。
團(tuán)隊(duì)成員扒開Black Forest Labs主頁,可以看到團(tuán)隊(duì)共有15位成員。
創(chuàng)始人正是老熟人Robin Rombach。
Stability AI曾收購了Robin的Latent Diffusion模型,并聘請他成為首席科學(xué)家。
在Google Scholar網(wǎng)站上,Robin Rombach參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經(jīng)收獲了9000多次引用。
期間他領(lǐng)導(dǎo)了全球著名文生圖開源項(xiàng)目Stable Diffusion系列,這也是全球下載最多、使用最廣的開源大模型之一。
論文地址:https://arxiv.org/pdf/2112.10752
Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD論文作者,也是Black Forest Labs創(chuàng)業(yè)團(tuán)隊(duì)的新成員。
除了Bjorn Ommer,可以說Robin將SD核心元老全都帶走了。
《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin離職前發(fā)表的最后一篇論文。
論文地址:https://arxiv.org/abs/2403.12015
值得一提的是,在這篇論文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也參與了其中。
除此以外,新團(tuán)隊(duì)曾經(jīng)的創(chuàng)新成果包括創(chuàng)建VQGAN和潛在擴(kuò)散(Latent Diffusion)、用于圖像和視頻生成的SD模型(SD XL 、SVD)以及用于超快速實(shí)時(shí)圖像合成的對抗擴(kuò)散蒸餾(Adversarial Diffusion Distillation)。
看來,AI生圖和視頻的進(jìn)步速度,還在不斷加快。
再過一年,我們能看到的AI圖片和視頻,將是驚人的。
參考資料:
https://x.com/koltregaskes/status/1821984829065588891
https://x.com/doganuraldesign/status/1821992421770850523
https://www.reddit.com/r/StableDiffusion/comments/1emrprx/feel_the_difference_between_using_flux_with/
https://www.linkedin.com/posts/leokadieff_ai-generativeai-filmmaking-activity-7227322182920536066-K980/#
以上就是關(guān)于【超越恐怖谷!全球500萬網(wǎng)友被騙,爆火TEDx演講者沒一個(gè)是真人?】的相關(guān)內(nèi)容,希望對大家有幫助!