日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

8人半年肝出開源版GPT-4o，0延遲演示全網(wǎng)沸騰！背后技術(shù)揭秘，人人免費(fèi)用

發(fā)布時間：2024-07-04 17:00:22 編輯：來源：

導(dǎo)讀相信很多大家對8人半年肝出開源版GPT-4o，0延遲演示全網(wǎng)沸騰！背后技術(shù)揭秘，人人免費(fèi)用還不知道吧，今天菲菲就帶你們一起去了解一下~.~！ ...

相信很多大家對8人半年肝出開源版GPT-4o，0延遲演示全網(wǎng)沸騰！背后技術(shù)揭秘，人人免費(fèi)用還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】GPT-4o或許還得等到今年秋季才對外開放。不過，由法國8人團(tuán)隊(duì)打造的原生多模態(tài)Moshi，已經(jīng)實(shí)現(xiàn)了接近GPT-4o的水平，現(xiàn)場演示幾乎0延遲，AI大佬紛紛轉(zhuǎn)發(fā)。

沒想到，「開源版」GPT-4o這么快就來了!

昨夜，來自法國AI實(shí)驗(yàn)室kyutai放出首個實(shí)時原生多模態(tài)Moshi，效果演示堪比5月發(fā)布的GPT-4o。

比如下面這個demo中，Moshi作為助手幫助Alexa小哥踏上太空之旅，讓人一秒幻視流浪地球中的Moss。

值得一提的是，這是8人團(tuán)隊(duì)僅用了半年的時間，從頭完成了模型的訓(xùn)練。

Moshi還處在實(shí)驗(yàn)原型階段，設(shè)計(jì)初衷是為了理解和表達(dá)情感，能夠支持聽、說、看，可以用70種不同情緒和風(fēng)格說話，甚至隨時打斷。

它最為突出的一個能力是，能夠同時處理兩個音頻流，即「聽」和「說」是同時進(jìn)行的。

這種實(shí)時互動的實(shí)現(xiàn)，是基于文本和音頻混合的聯(lián)合預(yù)訓(xùn)練，用Helium中合成的文本數(shù)據(jù)，訓(xùn)出的70億參數(shù)的模型。

Moshi可以實(shí)現(xiàn)最低160ms端到端延遲。

而且，最小版本的Moshi還可以在筆記本電腦，或者消費(fèi)級GPU上可跑。

許多人都說這是最接近GPT-4o的模型，Moshi各種炸裂演得到了LeCun、Karpathy等AI大佬的轉(zhuǎn)發(fā)。

Pytorch之父稱贊道，太令人驚嘆了，Kyutai實(shí)驗(yàn)室在實(shí)時語音助手領(lǐng)域處于領(lǐng)先地位，作為真正的非營利性開放科學(xué)組織，它將在稍后發(fā)布代碼。

而現(xiàn)在，想要體驗(yàn)的小伙伴們，現(xiàn)在可以直接加入候補(bǔ)名單體驗(yàn)了，每次對話限時5分鐘。

傳送門:https://moshi.chat/?queue_id=talktomoshi

滿懷情感AI海盜、巴黎詩人上線

在昨晚的直播演示中，臺下虛無坐席。所有觀眾都在耐心等待，這家成立僅半年時間的實(shí)驗(yàn)室將會帶來怎樣的驚喜。

CEO Patrick Pérez開場介紹，Moshi是他們團(tuán)隊(duì)推出的首個實(shí)時語音AI，而且用了大約1000個GPU完成訓(xùn)練。

Moshi這一名字來源，便是日語中接電話一詞「もしもし」。

接下來，Patrick邀請了四位同事，一同上臺來向大家展示Moshi的強(qiáng)大語音能力。

Moshi和所有人初次見面，當(dāng)然少不了一波自我介紹，并且回答了提問者關(guān)于什么是開源、開源好處的意義。

接下來，另一個同事接場，和Moshi換一個話題——聊一聊爬珠穆朗瑪峰。Moshi在對話過程中，為其建議了登山裝備、提前做哪些準(zhǔn)備、海拔信息等等。

不過，在第二個演示的過程中，Moshi太過急于搶話，說話者還未說完，它就切斷了說話的內(nèi)容。

前面的演示中，我們主要看到的是，與Moshi互動關(guān)于實(shí)時事實(shí)性信息、對話等能力。

第三個demo中，主要去展示Moshi表達(dá)和理解情緒的能力。因此，同事Nell嘗試用不同風(fēng)格的語氣和Moshi去說話。

這時，他要求Moshi用法語口音，去朗誦一首關(guān)于巴黎的詩。

然后，Nell又讓Moshi假裝是一位海盜，去講述自己在「七?！怪忻半U的經(jīng)歷。

突然間，Moshi一下子變換了語氣，特別像我們在《巴勒比海盜》中，聽到Jack Sparrow的聲音。

甚至，Moshi還可以用一種低聲細(xì)語的聲音，去講述《黑客帝國》電影中的情節(jié)。

對此，LeCun表示，「數(shù)字海盜可以聽懂帶法國口音的英語」。

可以看出，Moshi模型可以在你提問尚未結(jié)束時，就能給出回答，或者在你打斷模型講話時，也能做出反應(yīng)。

這是因?yàn)槟Ｐ椭羞M(jìn)行了預(yù)測編碼，并即時更新你要說的話。

在最后一個演示中，同事們決定嘗試做一些角色扮演。也就是我們在開篇看到執(zhí)行星艦任務(wù)的demo。

背后技術(shù)揭秘

Moshi在技術(shù)上，有什么創(chuàng)新，才能擁有對標(biāo)GPT-4o的實(shí)力。

接下來，同事介紹了當(dāng)前語音AI的一些限制，比如「聽」會使用自動語音識別技術(shù)，「想」使用大模型，「說」會使用文本-語音技術(shù)。

而這分門別類的技術(shù)會致使語音AI出現(xiàn)過多的延遲。

那么，我們該如何將這些步驟，融合到一個單個語音模型中，這就是kyutai所做的。

多模態(tài)Moshi不僅可以聽，還可以說，并在說話的同時能夠思考。

理論上講，Moshi的最低延遲可以實(shí)現(xiàn)160毫秒，創(chuàng)世界新紀(jì)錄。

模型采用了I/O雙通道系統(tǒng)，同時生成文本token和音頻編解碼器。具體來說，語言模型Helium-7B從頭先開始訓(xùn)練，然后再與文本、語音編碼器聯(lián)合訓(xùn)練。

該語音編解碼器基于Kyutai的內(nèi)部Mimi模型，壓縮系數(shù)高達(dá)300倍，可捕捉語義和聲學(xué)信息。

在Moshi的微調(diào)過程中，采用了涉及了100k「口語式」合成對話——高度詳細(xì)、帶有情感和風(fēng)格注釋的文本記錄，均由模型Helium轉(zhuǎn)譯而來。

此外，模型的語音還由另一個單獨(dú)的TTS模型生成的合成數(shù)據(jù)完成訓(xùn)練。

此外，模型還使用了專業(yè)配音演員Alice錄制了20個小時的音頻，并基于此進(jìn)行微調(diào)。

正如研究人員所講那樣，Moshi設(shè)計(jì)具有適應(yīng)性，只需不到30分鐘的音頻就可以完成微調(diào)。

在部署方面，Moshi托管在Scaleway和抱抱臉上，可以處理兩個批大小的24GB VRAM。

而且，它還可以支持各種后端，包括CUDA、KV緩存，還可以通過Rust在推理代碼中優(yōu)化。

為了確保音頻的安全性，Kyutai將會為生成音頻附上水印，并在數(shù)據(jù)庫中對生成的音頻進(jìn)行索引。

雖然Moshi的發(fā)布效果看起來不錯，但依舊迎來了推特網(wǎng)友的質(zhì)疑，認(rèn)為他們是跟風(fēng)GPT-4o，而且demo的語音質(zhì)量、回答時機(jī)等方面不如GPT-4o完善。

對此，HuggingFace的聯(lián)合創(chuàng)始人兼首席科學(xué)官Thomas Wolf在線為Moshi站臺，并回懟說這些都是「最不相關(guān)的事實(shí)」。

在他看來，最顯而易見的事實(shí)是——GPT-4o的語音功能不知道要鴿到什么時候，但Moshi在發(fā)布后就已經(jīng)上線。

此外，他提出了幾個值得關(guān)注的技術(shù)要素。

- 像kyutai這樣只有8+成員的小型團(tuán)隊(duì)在6個月內(nèi)構(gòu)建出了Moshi，模型的訓(xùn)練pipeline和架構(gòu)應(yīng)該非常簡單，且具有巨大的可擴(kuò)展性，合成數(shù)據(jù)也起到了巨大的推進(jìn)作用。

- Moshi專注于本地設(shè)備的部署，這會讓它很快就流行起來、無處不在。相比之下，需要考慮盈利的模型（如GPT）沒有動力去推進(jìn)本地運(yùn)行。

- 在保持答案質(zhì)量達(dá)到Llama8B或以上水平時，將延遲降低到300ms以下是交互性的關(guān)鍵推動因素。

6人創(chuàng)始科學(xué)家，創(chuàng)業(yè)半年融3億歐

kyutai是一家來自法國巴黎的非營利AI實(shí)驗(yàn)室，從主頁中可以看出，這是致力于開源開放的團(tuán)隊(duì)。

目前，kyutai重點(diǎn)關(guān)注多模態(tài)技術(shù)，并且他們在官方簡介中承諾:所有開發(fā)的模型都是為了能免費(fèi)開放共享。

敢在主頁上使用「Open Science」這種描述，這和kyutai的承諾與愿景是分不開的。

不僅僅是開源模型，他們還希望能夠發(fā)布訓(xùn)練代碼和數(shù)據(jù)，以及相應(yīng)的論文，希望以科學(xué)研究為導(dǎo)向來解釋這些結(jié)果。

kyutai的創(chuàng)始成員共有6人，其中我們還能發(fā)現(xiàn)很多有AI特色的職銜，比如「首席擴(kuò)展官」（Chief Scaling Office）和「首席模型官」(Chief Modelling Officer)。

這6位創(chuàng)始人有一個共同特點(diǎn)——都有杰出的學(xué)術(shù)背景，都曾在蘋果、微軟、Meta（Fackbook）、谷歌DeepMind等科技巨頭的實(shí)驗(yàn)室從事研發(fā)工作。

CEO Patrick Pérez本科畢業(yè)于巴黎中央理工學(xué)院應(yīng)用數(shù)學(xué)專業(yè)，博士畢業(yè)于法國國家信息與自動化研究所（Inria），曾在布朗大學(xué)、微軟研究院、Technicolor、法雷奧等多個公私機(jī)構(gòu)從事研究。

「首席擴(kuò)展官」Edouard Grave博士畢業(yè)于巴黎第六大學(xué)，在UC伯克利和哥倫比亞大學(xué)有過兩段博士后經(jīng)歷，并在蘋果MLR和FAIR供職8年。在FAIR期間，他還共同領(lǐng)導(dǎo)了Llama和fastText庫的開發(fā)。

CSO Hervé Jégou也曾在Inria擔(dān)任研究科學(xué)家。FAIR在2015年成立巴黎實(shí)驗(yàn)室時，他就以經(jīng)理的身份加入，后升任總監(jiān)。流行的矢量搜索庫Faiss就是他在FAIR工作期間創(chuàng)建的。

CTO Laurent Mazaré獲得密碼學(xué)和形式方法交叉領(lǐng)域的博士學(xué)位后曾進(jìn)入金融領(lǐng)域，在高盛擔(dān)任量化策略師。2017年，他加入DeepMind計(jì)算機(jī)視覺研究組擔(dān)任研究工程師。

「首席模型官」Neil Zeghidour博士畢業(yè)于巴黎高等師范學(xué)院，曾在FAIR和DeepMind任職，并創(chuàng)建了DeepMind首個致力于音頻生成的團(tuán)隊(duì)。除了研究工作，他還在巴黎高等師范學(xué)院教授語音處理技術(shù)。

科學(xué)家Alexandre Défossez在Inria和FAIR的合作項(xiàng)目中獲得博士學(xué)位，并在畢業(yè)后加入FAIR從事音頻建模工作，領(lǐng)導(dǎo)開發(fā)了開源的音頻生成框架AudioCraft。

除了kyutai自己的研究團(tuán)隊(duì)之外，他們還組建了一個外部的「明星顧問」團(tuán)隊(duì)。

顧問團(tuán)的成員包括Yann LeCun、馬克斯·普朗克智能系統(tǒng)研究所所長Bernhard Sch?lkopf和華盛頓大學(xué)教授Yejin Choi，負(fù)責(zé)每年對所有人的工作進(jìn)行1～2次檢查并提供反饋。

資金方面，kyutai主要由私人資助和捐助支持，隸屬于云計(jì)算公司Scaleway，這也是法國電信巨頭Iliad集團(tuán)的子公司。

去年11月，Iliad的CEOXavier Niel在公開會議上透露，已經(jīng)為kyutai籌集了3億歐元的資金，包括他自己私人投入的1億和另一位法國富豪、航運(yùn)和物流巨頭達(dá)飛海運(yùn)CEO Rodolphe Saadé的1億歐元。

至于AI初創(chuàng)公司的老大難問題——算力，kyutai使用的是Scaleway建造的Nabu2023。

這臺超算搭載了1016個英偉達(dá)H100GPU以及共112個內(nèi)核的英特爾Xeon Platinum8480C處理器，在FP8精度下最高計(jì)算速度可達(dá)到4021.3PFLOPS。

參考資料:

https://x.com/_philschmid/status/1808491737624592563

https://x.com/honualx/status/1808595796893298951

https://x.com/ylecun/status/1808573335439298629

以上就是關(guān)于【8人半年肝出開源版GPT-4o，0延遲演示全網(wǎng)沸騰！背后技術(shù)揭秘，人人免費(fèi)用】的相關(guān)內(nèi)容，希望對大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新文章