8人半年肝出開源版GPT-4o,0延遲演示全網(wǎng)沸騰!背后技術(shù)揭秘,人人免費(fèi)用
相信很多大家對8人半年肝出開源版GPT-4o,0延遲演示全網(wǎng)沸騰!背后技術(shù)揭秘,人人免費(fèi)用還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】GPT-4o或許還得等到今年秋季才對外開放。不過,由法國8人團(tuán)隊(duì)打造的原生多模態(tài)Moshi,已經(jīng)實(shí)現(xiàn)了接近GPT-4o的水平,現(xiàn)場演示幾乎0延遲,AI大佬紛紛轉(zhuǎn)發(fā)。
沒想到,「開源版」GPT-4o這么快就來了!
昨夜,來自法國AI實(shí)驗(yàn)室kyutai放出首個實(shí)時原生多模態(tài)Moshi,效果演示堪比5月發(fā)布的GPT-4o。
比如下面這個demo中,Moshi作為助手幫助Alexa小哥踏上太空之旅,讓人一秒幻視流浪地球中的Moss。
值得一提的是,這是8人團(tuán)隊(duì)僅用了半年的時間,從頭完成了模型的訓(xùn)練。
Moshi還處在實(shí)驗(yàn)原型階段,設(shè)計(jì)初衷是為了理解和表達(dá)情感,能夠支持聽、說、看,可以用70種不同情緒和風(fēng)格說話,甚至隨時打斷。
它最為突出的一個能力是,能夠同時處理兩個音頻流,即「聽」和「說」是同時進(jìn)行的。
這種實(shí)時互動的實(shí)現(xiàn),是基于文本和音頻混合的聯(lián)合預(yù)訓(xùn)練,用Helium中合成的文本數(shù)據(jù),訓(xùn)出的70億參數(shù)的模型。
Moshi可以實(shí)現(xiàn)最低160ms端到端延遲。
而且,最小版本的Moshi還可以在筆記本電腦,或者消費(fèi)級GPU上可跑。
許多人都說這是最接近GPT-4o的模型,Moshi各種炸裂演得到了LeCun、Karpathy等AI大佬的轉(zhuǎn)發(fā)。
Pytorch之父稱贊道,太令人驚嘆了,Kyutai實(shí)驗(yàn)室在實(shí)時語音助手領(lǐng)域處于領(lǐng)先地位,作為真正的非營利性開放科學(xué)組織,它將在稍后發(fā)布代碼。
而現(xiàn)在,想要體驗(yàn)的小伙伴們,現(xiàn)在可以直接加入候補(bǔ)名單體驗(yàn)了,每次對話限時5分鐘。
傳送門:https://moshi.chat/?queue_id=talktomoshi
滿懷情感AI海盜、巴黎詩人上線
在昨晚的直播演示中,臺下虛無坐席。所有觀眾都在耐心等待,這家成立僅半年時間的實(shí)驗(yàn)室將會帶來怎樣的驚喜。
CEO Patrick Pérez開場介紹,Moshi是他們團(tuán)隊(duì)推出的首個實(shí)時語音AI,而且用了大約1000個GPU完成訓(xùn)練。
Moshi這一名字來源,便是日語中接電話一詞「もしもし」。
接下來,Patrick邀請了四位同事,一同上臺來向大家展示Moshi的強(qiáng)大語音能力。
Moshi和所有人初次見面,當(dāng)然少不了一波自我介紹,并且回答了提問者關(guān)于什么是開源、開源好處的意義。
接下來,另一個同事接場,和Moshi換一個話題——聊一聊爬珠穆朗瑪峰。Moshi在對話過程中,為其建議了登山裝備、提前做哪些準(zhǔn)備、海拔信息等等。
不過,在第二個演示的過程中,Moshi太過急于搶話,說話者還未說完,它就切斷了說話的內(nèi)容。
前面的演示中,我們主要看到的是,與Moshi互動關(guān)于實(shí)時事實(shí)性信息、對話等能力。
第三個demo中,主要去展示Moshi表達(dá)和理解情緒的能力。因此,同事Nell嘗試用不同風(fēng)格的語氣和Moshi去說話。
這時,他要求Moshi用法語口音,去朗誦一首關(guān)于巴黎的詩。
然后,Nell又讓Moshi假裝是一位海盜,去講述自己在「七?!怪忻半U的經(jīng)歷。
突然間,Moshi一下子變換了語氣,特別像我們在《巴勒比海盜》中,聽到Jack Sparrow的聲音。
甚至,Moshi還可以用一種低聲細(xì)語的聲音,去講述《黑客帝國》電影中的情節(jié)。
對此,LeCun表示,「數(shù)字海盜可以聽懂帶法國口音的英語」。
可以看出,Moshi模型可以在你提問尚未結(jié)束時,就能給出回答,或者在你打斷模型講話時,也能做出反應(yīng)。
這是因?yàn)槟P椭羞M(jìn)行了預(yù)測編碼,并即時更新你要說的話。
在最后一個演示中,同事們決定嘗試做一些角色扮演。也就是我們在開篇看到執(zhí)行星艦任務(wù)的demo。
背后技術(shù)揭秘
Moshi在技術(shù)上,有什么創(chuàng)新,才能擁有對標(biāo)GPT-4o的實(shí)力。
接下來,同事介紹了當(dāng)前語音AI的一些限制,比如「聽」會使用自動語音識別技術(shù),「想」使用大模型,「說」會使用文本-語音技術(shù)。
而這分門別類的技術(shù)會致使語音AI出現(xiàn)過多的延遲。
那么,我們該如何將這些步驟,融合到一個單個語音模型中,這就是kyutai所做的。
多模態(tài)Moshi不僅可以聽,還可以說,并在說話的同時能夠思考。
理論上講,Moshi的最低延遲可以實(shí)現(xiàn)160毫秒,創(chuàng)世界新紀(jì)錄。
模型采用了I/O雙通道系統(tǒng),同時生成文本token和音頻編解碼器。具體來說,語言模型Helium-7B從頭先開始訓(xùn)練,然后再與文本、語音編碼器聯(lián)合訓(xùn)練。
該語音編解碼器基于Kyutai的內(nèi)部Mimi模型,壓縮系數(shù)高達(dá)300倍,可捕捉語義和聲學(xué)信息。
在Moshi的微調(diào)過程中,采用了涉及了100k「口語式」合成對話——高度詳細(xì)、帶有情感和風(fēng)格注釋的文本記錄,均由模型Helium轉(zhuǎn)譯而來。
此外,模型的語音還由另一個單獨(dú)的TTS模型生成的合成數(shù)據(jù)完成訓(xùn)練。
此外,模型還使用了專業(yè)配音演員Alice錄制了20個小時的音頻,并基于此進(jìn)行微調(diào)。
正如研究人員所講那樣,Moshi設(shè)計(jì)具有適應(yīng)性,只需不到30分鐘的音頻就可以完成微調(diào)。
在部署方面,Moshi托管在Scaleway和抱抱臉上,可以處理兩個批大小的24GB VRAM。
而且,它還可以支持各種后端,包括CUDA、KV緩存,還可以通過Rust在推理代碼中優(yōu)化。
為了確保音頻的安全性,Kyutai將會為生成音頻附上水印,并在數(shù)據(jù)庫中對生成的音頻進(jìn)行索引。
雖然Moshi的發(fā)布效果看起來不錯,但依舊迎來了推特網(wǎng)友的質(zhì)疑,認(rèn)為他們是跟風(fēng)GPT-4o,而且demo的語音質(zhì)量、回答時機(jī)等方面不如GPT-4o完善。
對此,HuggingFace的聯(lián)合創(chuàng)始人兼首席科學(xué)官Thomas Wolf在線為Moshi站臺,并回懟說這些都是「最不相關(guān)的事實(shí)」。
在他看來,最顯而易見的事實(shí)是——GPT-4o的語音功能不知道要鴿到什么時候,但Moshi在發(fā)布后就已經(jīng)上線。
此外,他提出了幾個值得關(guān)注的技術(shù)要素。
- 像kyutai這樣只有8+成員的小型團(tuán)隊(duì)在6個月內(nèi)構(gòu)建出了Moshi,模型的訓(xùn)練pipeline和架構(gòu)應(yīng)該非常簡單,且具有巨大的可擴(kuò)展性,合成數(shù)據(jù)也起到了巨大的推進(jìn)作用。
- Moshi專注于本地設(shè)備的部署,這會讓它很快就流行起來、無處不在。相比之下,需要考慮盈利的模型(如GPT)沒有動力去推進(jìn)本地運(yùn)行。
- 在保持答案質(zhì)量達(dá)到Llama8B或以上水平時,將延遲降低到300ms以下是交互性的關(guān)鍵推動因素。
6人創(chuàng)始科學(xué)家,創(chuàng)業(yè)半年融3億歐
kyutai是一家來自法國巴黎的非營利AI實(shí)驗(yàn)室,從主頁中可以看出,這是致力于開源開放的團(tuán)隊(duì)。
目前,kyutai重點(diǎn)關(guān)注多模態(tài)技術(shù),并且他們在官方簡介中承諾:所有開發(fā)的模型都是為了能免費(fèi)開放共享。
敢在主頁上使用「Open Science」這種描述,這和kyutai的承諾與愿景是分不開的。
不僅僅是開源模型,他們還希望能夠發(fā)布訓(xùn)練代碼和數(shù)據(jù),以及相應(yīng)的論文,希望以科學(xué)研究為導(dǎo)向來解釋這些結(jié)果。
kyutai的創(chuàng)始成員共有6人,其中我們還能發(fā)現(xiàn)很多有AI特色的職銜,比如「首席擴(kuò)展官」(Chief Scaling Office)和「首席模型官」(Chief Modelling Officer)。
這6位創(chuàng)始人有一個共同特點(diǎn)——都有杰出的學(xué)術(shù)背景,都曾在蘋果、微軟、Meta(Fackbook)、谷歌DeepMind等科技巨頭的實(shí)驗(yàn)室從事研發(fā)工作。
CEO Patrick Pérez本科畢業(yè)于巴黎中央理工學(xué)院應(yīng)用數(shù)學(xué)專業(yè),博士畢業(yè)于法國國家信息與自動化研究所(Inria),曾在布朗大學(xué)、微軟研究院、Technicolor、法雷奧等多個公私機(jī)構(gòu)從事研究。
「首席擴(kuò)展官」Edouard Grave博士畢業(yè)于巴黎第六大學(xué),在UC伯克利和哥倫比亞大學(xué)有過兩段博士后經(jīng)歷,并在蘋果MLR和FAIR供職8年。在FAIR期間,他還共同領(lǐng)導(dǎo)了Llama和fastText庫的開發(fā)。
CSO Hervé Jégou也曾在Inria擔(dān)任研究科學(xué)家。FAIR在2015年成立巴黎實(shí)驗(yàn)室時,他就以經(jīng)理的身份加入,后升任總監(jiān)。流行的矢量搜索庫Faiss就是他在FAIR工作期間創(chuàng)建的。
CTO Laurent Mazaré獲得密碼學(xué)和形式方法交叉領(lǐng)域的博士學(xué)位后曾進(jìn)入金融領(lǐng)域,在高盛擔(dān)任量化策略師。2017年,他加入DeepMind計(jì)算機(jī)視覺研究組擔(dān)任研究工程師。
「首席模型官」Neil Zeghidour博士畢業(yè)于巴黎高等師范學(xué)院,曾在FAIR和DeepMind任職,并創(chuàng)建了DeepMind首個致力于音頻生成的團(tuán)隊(duì)。除了研究工作,他還在巴黎高等師范學(xué)院教授語音處理技術(shù)。
科學(xué)家Alexandre Défossez在Inria和FAIR的合作項(xiàng)目中獲得博士學(xué)位,并在畢業(yè)后加入FAIR從事音頻建模工作,領(lǐng)導(dǎo)開發(fā)了開源的音頻生成框架AudioCraft。
除了kyutai自己的研究團(tuán)隊(duì)之外,他們還組建了一個外部的「明星顧問」團(tuán)隊(duì)。
顧問團(tuán)的成員包括Yann LeCun、馬克斯·普朗克智能系統(tǒng)研究所所長Bernhard Sch?lkopf和華盛頓大學(xué)教授Yejin Choi,負(fù)責(zé)每年對所有人的工作進(jìn)行1~2次檢查并提供反饋。
資金方面,kyutai主要由私人資助和捐助支持,隸屬于云計(jì)算公司Scaleway,這也是法國電信巨頭Iliad集團(tuán)的子公司。
去年11月,Iliad的CEOXavier Niel在公開會議上透露,已經(jīng)為kyutai籌集了3億歐元的資金,包括他自己私人投入的1億和另一位法國富豪、航運(yùn)和物流巨頭達(dá)飛海運(yùn)CEO Rodolphe Saadé的1億歐元。
至于AI初創(chuàng)公司的老大難問題——算力,kyutai使用的是Scaleway建造的Nabu2023。
這臺超算搭載了1016個英偉達(dá)H100GPU以及共112個內(nèi)核的英特爾Xeon Platinum8480C處理器,在FP8精度下最高計(jì)算速度可達(dá)到4021.3PFLOPS。
參考資料:
https://x.com/_philschmid/status/1808491737624592563
https://x.com/honualx/status/1808595796893298951
https://x.com/ylecun/status/1808573335439298629
以上就是關(guān)于【8人半年肝出開源版GPT-4o,0延遲演示全網(wǎng)沸騰!背后技術(shù)揭秘,人人免費(fèi)用】的相關(guān)內(nèi)容,希望對大家有幫助!