日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      現(xiàn)在的大模型榜單,真就沒一個(gè)可信的。

      發(fā)布時(shí)間:2024-09-10 09:00:58 編輯: 來源:
      導(dǎo)讀 相信很多大家對(duì)現(xiàn)在的大模型榜單,真就沒一個(gè)可信的。還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 現(xiàn)在的大模型榜單上,真的都是水分...

      相信很多大家對(duì)現(xiàn)在的大模型榜單,真就沒一個(gè)可信的。還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      現(xiàn)在的大模型榜單上,真的都是水分。

      全是作弊的考生,真的。

      上周,AI圈有個(gè)很炸裂的大模型發(fā)布,在全網(wǎng)引起了山呼海嘯,一眾從業(yè)者和媒體尊稱它為開源新王。

      就是Reflection70B。

      在每項(xiàng)基準(zhǔn)測(cè)試上都超過了 GPT-4o,還只用70B的參數(shù),就擊敗了405B的Llama3.1,模型中還有一個(gè)叫「Reflection-Tuning」的技術(shù),能讓模型能夠在最終回復(fù)之前,先識(shí)別自己有沒有錯(cuò)誤,如果有,糾正以后再回答。

      其實(shí)這個(gè)東西當(dāng)時(shí)我就很存疑,因?yàn)樵谖业睦斫饫铮@玩意,就是個(gè)CoT,就是個(gè)純Prompt,一個(gè)Prompt把70B模型直接帶的螺旋升天?

      你這玩意,真要是能做到,奧特曼就真的直接原地給你磕頭了。。。

      最關(guān)鍵的是,還有一個(gè)很離譜的點(diǎn),這個(gè)模型就兩個(gè)人做,而且,從一拍即合、到找數(shù)據(jù)集、到模型微調(diào)完成并正式發(fā)布,一共就花了3周。

      這效率,這速度,直接卷的螺旋升天,國(guó)內(nèi)大廠速度沒卷到這個(gè)地步...

      于是我就觀望了幾天。

      直到昨天,發(fā)現(xiàn)這模型底都快被人扒掉了。

      模型結(jié)果造假,提供給開發(fā)者的API,還是造假。

      先是跑分評(píng)測(cè)上面,這是他們老板Matt自己發(fā)出來的跑分結(jié)果,勇奪第一。

      看這個(gè)結(jié)果,你就說屌不屌吧,拳打Claude3.5,腳踢GPT-4o,還把Gemini1.5Pro和Llama3.1405B給摁在地上摩擦。

      你很難想象這只是一個(gè)兩個(gè)人花三周訓(xùn)的70B的模型能干出來的事。

      直到7號(hào),Artificial Analysis用他們自己的標(biāo)準(zhǔn)評(píng)測(cè)集跑了一通,發(fā)現(xiàn)這事不對(duì)啊,你這么多項(xiàng)評(píng)測(cè)集都登頂了,你應(yīng)該很牛逼才對(duì)啊,這得分什么情況???

      他們是這么說的:

      “哥們,我們測(cè)完了咋感覺你比Llama3.170B更拉了呢?老實(shí)說,你是不是在騙兄弟們。”

      Matt看到了以后,開始說臥槽不對(duì)勁啊,我們內(nèi)部是好的啊,怎么你們測(cè)試結(jié)果這么爛?

      花了好半天,Matt終于說,哦是Hugging Face 權(quán)重出現(xiàn)了問題,我也不知道咋回事,你們等一等。

      說完還不忘凡爾賽一下,說:

      翻譯一下就是:我們是在太太太太火啦,你們?cè)俚鹊劝?,乖?/p>

      直到今天凌晨,最騷的事情來了,Matt說,我們終于解決了問題,開放了新的API。

      他們提供了一個(gè)私有接口,說這個(gè)才是Reflection70B完全體。

      大家一測(cè),臥槽,果然牛逼,牛逼炸了。

      真的好像比GPT4o還有那些大廠的模型強(qiáng)哎。

      就差點(diǎn)直接給Reflection70B開香檳了。

      2個(gè)人,3周時(shí)間,創(chuàng)了AI行業(yè)的奇跡。

      但是大家香檳剛開一半,就被生生的摁回去了。

      大家發(fā)現(xiàn),這個(gè)所謂的“Reflection70B”的API,怎么跟Claude3.5回復(fù)的東西,一模一樣。。。

      于是有人,又做了一個(gè)驗(yàn)證測(cè)試,他把所有API的參數(shù)全部設(shè)為10個(gè)Token、0溫度、top_k1,然后讓大模型,重復(fù)entsprechend這個(gè)詞20次,因?yàn)榇竽P蛯?duì)token的計(jì)算都不太一樣,所以其實(shí)10個(gè)token限制輸出的內(nèi)容也不太一樣,你既然說你是基于Llama3.1微調(diào)的,那你肯定得跟Llama3.1輸出內(nèi)容一樣對(duì)吧。

      但是,結(jié)果直接讓人大跌眼鏡。

      好兄弟,你怎么,跟Claude的長(zhǎng)度一樣,你到底是Llama3.1生出的Reflection70B,還是披著狗皮的Claude啊???

      更狗的是,他們居然,還把Claude設(shè)成了屏蔽詞,在用戶的對(duì)話中,一旦你發(fā)Claude,就直接剔除。

      騷啊,實(shí)在是太騷了。。。

      這下,所有AI行業(yè)的人,都知道,Reflection70B就是一場(chǎng)徹頭徹尾的鬧劇。

      這個(gè)鬧劇背后,我覺得反應(yīng)出了現(xiàn)在整個(gè)AI領(lǐng)域,一個(gè)非常詭異的現(xiàn)象。

      刷榜。

      回到整個(gè)事情的起點(diǎn),就是模型能力的強(qiáng)度,和榜單。

      正是因?yàn)镽eflection70B在評(píng)測(cè)集上屠榜了,秒殺Claude3.5和GPT4o,才讓大家如此興奮。

      但是結(jié)果大家發(fā)現(xiàn),臥槽你怎么就做那些特定評(píng)測(cè)集的題目那么牛逼?換個(gè)別的題就直接變廢物了?不是細(xì)狗你行不行啊?

      直接對(duì)著答案抄,還不行,那不扯淡嗎。

      大模型目前的評(píng)測(cè)體系,從來就不復(fù)雜,就是考試,純純的考試。

      評(píng)測(cè)數(shù)據(jù)集相當(dāng)于試卷,模型就是正在考試的學(xué)生,最后交卷,看誰的分高。

      聽起來是不是很科學(xué)?理論上是的,但是大模型評(píng)測(cè)領(lǐng)域有一個(gè)非常嚴(yán)重的BUG,就是評(píng)測(cè)集,就是考試試卷,是公開的,所有人在考試之前,都可以看到考卷。

      為什么評(píng)測(cè)機(jī)構(gòu)要公開評(píng)測(cè)集?不公開不就行了?

      答案是不行。

      高考和學(xué)校的考試,是權(quán)威的考試,我不差你一個(gè),你愛考不考,我就是天,我就是規(guī)則,所以,他們當(dāng)然不會(huì)公開試卷,一切以公平說話。

      但是大模型領(lǐng)域,太新了,這些評(píng)測(cè)榜單,比如SuperCLUE、C-Eval、HuggingFace,話語權(quán)沒那么大,供需關(guān)系倒過來了,如果機(jī)構(gòu)在評(píng)測(cè)時(shí)用什么問題以及對(duì)應(yīng)什么答案是什么一直不公開,如果機(jī)構(gòu)的評(píng)測(cè)邏輯與工具、評(píng)分方法與過程是封閉的“黑盒子”,那一定會(huì)被招來無數(shù)質(zhì)疑,先被干躺的是這些評(píng)測(cè)機(jī)構(gòu)你信不信。

      兩害相權(quán)取其輕,所以就變成了現(xiàn)在的情況了。

      人們總是單純的,總是喜歡量化的,也總是喜歡用一些固定的標(biāo)準(zhǔn),來恒定一個(gè)東西的好與差。

      所以在這一年半的白模大戰(zhàn)中,我們經(jīng)常能聽到各種奇奇怪怪的第一,每個(gè)模型,都說自己超越GPT4o了,把它按在腳下摩擦。

      6月27日:“ 訊飛星火V4.0不僅在8個(gè)國(guó)際主流測(cè)試集中排名第一,領(lǐng)先國(guó)內(nèi)大模型,并在文本生成、語言理解、知識(shí)問答、邏輯推理、數(shù)學(xué)能力等方面實(shí)現(xiàn)了對(duì)GPT-4Turbo的整體超越。”

      5月21日:"在 LMSYS最新排名中,零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7,中國(guó)大模型中第一,已經(jīng)超過 Llama-3-70B、Claude3Sonnet;其中文分榜更是與 GPT4o 并列世界第一。"

      3月26日:"沙利文發(fā)布了《2024年中國(guó)大模型能力評(píng)測(cè)》,評(píng)測(cè)顯示,百度文心一言穩(wěn)居國(guó)產(chǎn)大模型首位,拿下數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等五大評(píng)測(cè)維度的四項(xiàng)第一"

      我不想說什么模型好什么模型不好,這種刷榜到底有沒有意義,我只想說,使用者一定會(huì)用腳投票的。

      況且,有的排行榜,那是真的不能看,比如前段時(shí)間看到的一個(gè)權(quán)威機(jī)構(gòu)的文生視頻排行榜,用量化指標(biāo)來恒量視頻生成質(zhì)量。

      別的我不說了,我就說你把智譜清影排在可靈上面,你自己去問問智譜的人,他們敢接這個(gè)第二嗎?智譜是一家很實(shí)誠的公司,所以他們品牌市場(chǎng)也沒拿這玩意去做宣傳,你要是一些別的公司,又得PR起飛了。

      這個(gè)榜單創(chuàng)作者們看到也只會(huì)笑笑,大家不傻,真的。

      在經(jīng)濟(jì)學(xué)中,有一個(gè)著名的理論,叫做古德哈特定律。

      原意是:一項(xiàng)社會(huì)指標(biāo)或經(jīng)濟(jì)指標(biāo),一旦成為一個(gè)用以指引宏觀政策制定的既定目標(biāo),那么該指標(biāo)就會(huì)喪失其原本具有的信息價(jià)值。因?yàn)檎咧贫ㄕ邥?huì)犧牲其他方面來強(qiáng)化這個(gè)指標(biāo),從而使這個(gè)指標(biāo)不再具有指示整體情況的作用。

      用最簡(jiǎn)單的話來說,就是:

      "當(dāng)一個(gè)指標(biāo)成為目標(biāo)時(shí),它就不再是一個(gè)好的指標(biāo)。"

      萬物皆如此。

      所以這里,我想說一個(gè)暴論:現(xiàn)在的大模型榜單,還有各種亂七八糟的AI產(chǎn)品榜單,參考看看可以,但是不要奉為圣經(jīng),更不要當(dāng)真,拿來做你跟別人吵架的憑據(jù)。

      騙騙兄弟可以,別把自己也騙了。

      當(dāng)所有的大模型,都用MMLU、MATH、IFEval、GSM8K之類的基準(zhǔn)測(cè)試來衡量自己模型的能力,那這些基準(zhǔn)測(cè)試,也就不再是一個(gè)好的基準(zhǔn)了。

      去年一篇論文讓我印象非常的深刻,叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》,來自中國(guó)人民大學(xué)。

      里面詳細(xì)的闡述了因?yàn)閿?shù)據(jù)泄露而引起的整個(gè)大模型刷榜情況的虛假繁榮。

      N多模型,直接把評(píng)測(cè)集的數(shù)據(jù)訓(xùn)在了模型里面,從而直接屠榜,來引起聲量和討論。

      這就像學(xué)校里考試,我們每個(gè)人都公平的在考場(chǎng)上,一起考試答題,大家各憑本事一決勝負(fù)。

      但是偏偏有個(gè)學(xué)生,平時(shí)滿分750他只能考個(gè)299,但是這次,他在考試前,已經(jīng)提前知道了所有卷子的題目和答案,都在腦子里背了下來,只有一些語文之類的主觀題沒有滿分,其他全是滿分,考了720分。

      那你會(huì)覺得,他考了720分,是因?yàn)樗娴呐1茊?

      傻子才會(huì)。

      大模型的評(píng)測(cè),跟這種考試,沒有任何區(qū)別。刷題而已,人類刷了幾千年的題,這點(diǎn)手段,還能難倒背后的人?開什么玩笑。

      所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者,提出一種方法,用n-gram哈希算法在考試前對(duì)數(shù)據(jù)污染現(xiàn)象,進(jìn)行嚴(yán)格檢查,只要是作弊的,一律滾出去。

      可惜,因?yàn)槲疑厦嬲f的那些亂七八糟的問題,并沒有辦法用上,現(xiàn)在所有的榜單,都還是充斥著無數(shù)的水分。

      榜單不再可信,但是普通用戶和開發(fā)者,永遠(yuǎn)會(huì)用腳投票。

      請(qǐng)?jiān)谑謾C(jī)微信登錄投票

      你心中No.1的大模型是哪個(gè)?單選

      所以,真的,騙騙哥們可以,別把你自己也騙了。

      AI這行里,真的充斥著各種各樣奇奇怪怪的現(xiàn)象。

      腳踏實(shí)地做點(diǎn)事吧。

      站在普通人的場(chǎng)景想想未來。

      我覺得,比那一瞬的泡沫,更重要。

      以上就是關(guān)于【現(xiàn)在的大模型榜單,真就沒一個(gè)可信的?!康南嚓P(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章