日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      力壓70B Llama 3,Gemma 2成最強(qiáng)開(kāi)源模型,大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議

      發(fā)布時(shí)間:2024-07-02 11:00:09 編輯: 來(lái)源:
      導(dǎo)讀 相信很多大家對(duì)力壓70B Llama 3,Gemma 2成最強(qiáng)開(kāi)源模型,大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議還不知道吧,今天菲菲就帶你們一起去了解...

      相信很多大家對(duì)力壓70B Llama 3,Gemma 2成最強(qiáng)開(kāi)源模型,大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      導(dǎo)讀:時(shí)隔4個(gè)月上新的Gemma2模型在LMSYS Chatbot Arena的排行上,以27B的參數(shù)擊敗了許多更大規(guī)模的模型,甚至超過(guò)了70B的Llama-3-Instruct,成為開(kāi)源模型的性能第一!

      谷歌出手,果然非同凡響。

      Gemma2上周剛剛發(fā)布,就在LMSYS競(jìng)技場(chǎng)上取得了亮眼的成績(jī)。

      在整體評(píng)分上Gemma2拿到了開(kāi)源模型最高分,而且用27B的參數(shù)「以小搏大」,超過(guò)了Llama3-70B-Instruct、Claude3Sonnet等更大量級(jí)的知名模型。

      開(kāi)源模型的頭把交椅真的要易主Gemma了?

      對(duì)于這個(gè)成績(jī),谷歌研究院首席科學(xué)家Jeff Dean也發(fā)文慶祝。

      不僅是總體評(píng)分,在LMSYS昨天剛發(fā)布的「多輪對(duì)話」排行榜上,Gemma2的表現(xiàn)依舊強(qiáng)勁。

      LMSYS表示,LLM的多輪對(duì)話在當(dāng)今許多應(yīng)用場(chǎng)景中非常重要。

      在競(jìng)技場(chǎng)的投票中,多輪對(duì)話的占比為14%,占到了不可忽視的比例。

      因此他們推出了新的排行類(lèi)別「多輪對(duì)話」,其中包括兩輪或多輪的測(cè)試,以衡量模型在更長(zhǎng)時(shí)間內(nèi)交互的能力。

      在這個(gè)全新的排行榜中,Claude家族的排名顯著提升。

      總分屈居亞軍的Claude3.5Sonnet,成功地與GPT-4o并列第一;Claude3Opus也從原來(lái)的第8名躍居第三。

      我們本次的主角Gemma2也實(shí)現(xiàn)了2個(gè)名次的進(jìn)步,進(jìn)入前十行列,而且壓了Llama3-70B-Instruct一頭。

      在Gemma2放出9B和27B兩個(gè)版本的同時(shí),DeepMind研究員Clement在推特上透露,接下來(lái)還會(huì)有2B版本和大家見(jiàn)面!

      曾經(jīng)只靠開(kāi)源「一招鮮」的Meta終于迎來(lái)了強(qiáng)勁對(duì)手。Gemma2和Llama3的競(jìng)爭(zhēng)想必會(huì)在未來(lái)一段時(shí)間內(nèi)持續(xù)下去。

      Gemma為什么這么強(qiáng)?

      為什么27B的Gemma2能打敗70B的Llama3?谷歌究竟用了什么技術(shù)實(shí)現(xiàn)如此高的參數(shù)效率?

      或許我們可以從官方發(fā)布的技術(shù)報(bào)告中找到蛛絲馬跡。

      報(bào)告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

      訓(xùn)練數(shù)據(jù)方面,可想而知,并沒(méi)有具體的數(shù)據(jù)來(lái)源和組成,只有數(shù)據(jù)量。

      由于Gemma既沒(méi)有多模態(tài)又不針對(duì)多語(yǔ)言任務(wù),因此訓(xùn)練語(yǔ)料只包含各種類(lèi)型的文本和代碼,且主要語(yǔ)言為英語(yǔ)。

      27B模型的訓(xùn)練數(shù)據(jù)有13萬(wàn)億token,9B模型和2.6B模型則分別為8萬(wàn)億、2萬(wàn)億token。

      架構(gòu)上,Gemma2從Gemini團(tuán)隊(duì)和Gemma1沿用了很多方面,包括旋轉(zhuǎn)位置編碼(RoPE)、SentencePiece分詞器、Logit軟上限、GeGLU激活函數(shù)等等。

      相比Gemma1,Gemma2采用了更深的網(wǎng)絡(luò),且在某些部分做了更新——

      局部滑動(dòng)窗口和全局注意力

      Gemma2交替使用局部滑動(dòng)窗口和全局注意力,滑動(dòng)窗口大小設(shè)置為4096token,而全局注意力層的設(shè)置為8192token。

      這種方法在正確捕捉文本細(xì)節(jié)的同時(shí),又能保持對(duì)上下文和全局的正確理解。

      知識(shí)蒸餾

      能夠訓(xùn)練出有競(jìng)爭(zhēng)力性能的9B和27B模型,成功的知識(shí)蒸餾過(guò)程估計(jì)是最為重要的環(huán)節(jié)。

      傳統(tǒng)訓(xùn)練大語(yǔ)言模型的方法主要是根據(jù)之前的token,預(yù)測(cè)下一個(gè)token,需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。

      但是,人類(lèi)的學(xué)習(xí)過(guò)程并不依賴(lài)走量的知識(shí)輸入。比如,一位學(xué)生由于閱讀原著的需要學(xué)習(xí)一門(mén)外語(yǔ),他并不需要看遍所有的書(shū)籍,只需要以一本書(shū)為綱,通過(guò)理解后融會(huì)貫通。

      而知識(shí)蒸餾法與人的學(xué)習(xí)過(guò)程更加類(lèi)似。一個(gè)小模型向另一個(gè)已經(jīng)進(jìn)行過(guò)預(yù)訓(xùn)練的大模型學(xué)習(xí),通過(guò)這種方式助產(chǎn)小模型對(duì)于token的預(yù)測(cè)。

      站在老師模型的肩膀上,學(xué)生模型能用較少的訓(xùn)練數(shù)據(jù)、更少的參數(shù)量提升性能。

      用LMSYS數(shù)據(jù)微調(diào),引AI2研究員質(zhì)疑

      開(kāi)源模型界終于在Llama之后迎來(lái)了Gemma2這個(gè)最新的扛把子選手,就在大家忙著興奮的同時(shí),Allen AI的研究員Nathan Lambert冷靜地在技術(shù)報(bào)告中發(fā)現(xiàn)了華點(diǎn):

      微調(diào)數(shù)據(jù)的來(lái)源包括LMSYS的聊天數(shù)據(jù)集!

      似乎是預(yù)想到了可能的質(zhì)疑,論文中特意強(qiáng)調(diào)只使用了prompt,把答案剔出去了。

      Lambert依舊不認(rèn)可這種行為。他發(fā)了一篇推特,疑惑的語(yǔ)氣中帶著一絲嘲諷:為了在競(jìng)技場(chǎng)上刷分?jǐn)?shù),你們谷歌團(tuán)隊(duì)挺有想象力的。

      這位Nathan Lambert其實(shí)算是LLM領(lǐng)域比較資深的專(zhuān)業(yè)人士,他博士畢業(yè)于UC伯克利大學(xué),在DeepMind和FAIR都有實(shí)習(xí)經(jīng)歷。

      針對(duì)Lambert的質(zhì)疑,LMSYS隨后回復(fù)了一篇意義不明的超長(zhǎng)推特,似乎透露出了為谷歌辯護(hù)的隱晦立場(chǎng)。

      推特全文如下:

      這有些讓人摸不著頭腦,既說(shuō)「用數(shù)據(jù)改進(jìn)模型是受歡迎的」,又說(shuō)「我們開(kāi)放數(shù)據(jù)和論文是為了回應(yīng)質(zhì)疑」。

      發(fā)帖的Lambert也同樣被搞糊涂了,他進(jìn)一步闡明了自己的立場(chǎng)。

      「感覺(jué)我們討論的不是同一件事,我的觀點(diǎn)依舊成立。很可能有更多的人也在這樣做,但我們并不知道。」

      LMSYS最新回復(fù)的內(nèi)容更加讓人內(nèi)心復(fù)雜——

      「對(duì)不起,雖然我貼上了你的推特,但不是在特意回復(fù)你。」

      對(duì)于微調(diào)應(yīng)不應(yīng)該使用LMSYS數(shù)據(jù)這個(gè)問(wèn)題,評(píng)論區(qū)的網(wǎng)友也吵得熱火朝天。

      有些人覺(jué)得Lambert的質(zhì)疑毫無(wú)道理。畢竟LMSYS公開(kāi)了數(shù)據(jù)集,用來(lái)做微調(diào)有什么不可以的?而且只使用了prompt,答案是教師模型生成的。

      畢竟大家都在看LMSYS的聊天機(jī)器人Arena的分?jǐn)?shù),如果大家都不用這個(gè)數(shù)據(jù)才比較出乎意料。

      這個(gè)立場(chǎng)得到了大部分人的認(rèn)同。雖然谷歌是為數(shù)不多的坦誠(chéng),敢把用了LMSYS數(shù)據(jù)這件事寫(xiě)進(jìn)論文,但他們絕對(duì)不是第一個(gè)使用這些數(shù)據(jù)的人。

      「我打賭GPT-4o和Llama3也這么干了。」

      畢竟在一段時(shí)間內(nèi),LMSYS競(jìng)技場(chǎng)曾經(jīng)是唯一可信的基準(zhǔn)測(cè)試。

      而這也正是Lambert所擔(dān)心的——LMSYS是業(yè)界為數(shù)不多的得到大多數(shù)人認(rèn)可的基準(zhǔn)測(cè)試,如果大家再用它的數(shù)據(jù)微調(diào)甚至訓(xùn)練,豈不很快又會(huì)失去公信力?

      更糟糕的情況是,不是每一個(gè)模型都像Gemma2這樣會(huì)承認(rèn)這件事。

      不少觀點(diǎn)比較中肯的網(wǎng)友也點(diǎn)出了這一點(diǎn)。

      「我相信這會(huì)降低Arena的信噪比?!?/p>

      看來(lái)在基準(zhǔn)測(cè)試領(lǐng)域,重復(fù)的歷史總在不斷上演,而那個(gè)金句也總是適用——

      「當(dāng)一個(gè)衡量標(biāo)準(zhǔn)成為目標(biāo)時(shí),它就不再是一個(gè)好的衡量標(biāo)準(zhǔn)了?!?/p>

      參考資料:

      https://x.com/JeffDean/status/1807407880766726464

      https://x.com/lmsysorg/status/1807503885181006236

      https://x.com/natolambert/status/1806384821826109597

      https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

      以上就是關(guān)于【力壓70B Llama 3,Gemma 2成最強(qiáng)開(kāi)源模型,大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章