日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

現(xiàn)在的大模型榜單，真就沒一個(gè)可信的。

發(fā)布時(shí)間：2024-09-10 09:00:58 編輯：來源：

導(dǎo)讀相信很多大家對(duì)現(xiàn)在的大模型榜單，真就沒一個(gè)可信的。還不知道吧，今天菲菲就帶你們一起去了解一下~.~！現(xiàn)在的大模型榜單上，真的都是水分...

相信很多大家對(duì)現(xiàn)在的大模型榜單，真就沒一個(gè)可信的。還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

現(xiàn)在的大模型榜單上，真的都是水分。

全是作弊的考生，真的。

上周，AI圈有個(gè)很炸裂的大模型發(fā)布，在全網(wǎng)引起了山呼海嘯，一眾從業(yè)者和媒體尊稱它為開源新王。

就是Reflection70B。

在每項(xiàng)基準(zhǔn)測(cè)試上都超過了 GPT-4o，還只用70B的參數(shù)，就擊敗了405B的Llama3.1，模型中還有一個(gè)叫「Reflection-Tuning」的技術(shù)，能讓模型能夠在最終回復(fù)之前，先識(shí)別自己有沒有錯(cuò)誤，如果有，糾正以后再回答。

其實(shí)這個(gè)東西當(dāng)時(shí)我就很存疑，因?yàn)樵谖业睦斫饫铮@玩意，就是個(gè)CoT，就是個(gè)純Prompt，一個(gè)Prompt把70B模型直接帶的螺旋升天?

你這玩意，真要是能做到，奧特曼就真的直接原地給你磕頭了。。。

最關(guān)鍵的是，還有一個(gè)很離譜的點(diǎn)，這個(gè)模型就兩個(gè)人做，而且，從一拍即合、到找數(shù)據(jù)集、到模型微調(diào)完成并正式發(fā)布，一共就花了3周。

這效率，這速度，直接卷的螺旋升天，國(guó)內(nèi)大廠速度沒卷到這個(gè)地步...

于是我就觀望了幾天。

直到昨天，發(fā)現(xiàn)這模型底都快被人扒掉了。

模型結(jié)果造假，提供給開發(fā)者的API，還是造假。

先是跑分評(píng)測(cè)上面，這是他們老板Matt自己發(fā)出來的跑分結(jié)果，勇奪第一。

看這個(gè)結(jié)果，你就說屌不屌吧，拳打Claude3.5，腳踢GPT-4o，還把Gemini1.5Pro和Llama3.1405B給摁在地上摩擦。

你很難想象這只是一個(gè)兩個(gè)人花三周訓(xùn)的70B的模型能干出來的事。

直到7號(hào)，Artificial Analysis用他們自己的標(biāo)準(zhǔn)評(píng)測(cè)集跑了一通，發(fā)現(xiàn)這事不對(duì)啊，你這么多項(xiàng)評(píng)測(cè)集都登頂了，你應(yīng)該很牛逼才對(duì)啊，這得分什么情況???

他們是這么說的:

“哥們，我們測(cè)完了咋感覺你比Llama3.170B更拉了呢?老實(shí)說，你是不是在騙兄弟們。”

Matt看到了以后，開始說臥槽不對(duì)勁啊，我們內(nèi)部是好的啊，怎么你們測(cè)試結(jié)果這么爛?

花了好半天，Matt終于說，哦是Hugging Face 權(quán)重出現(xiàn)了問題，我也不知道咋回事，你們等一等。

說完還不忘凡爾賽一下，說:

翻譯一下就是:我們是在太太太太火啦，你們?cè)俚鹊劝?，乖?/p>

直到今天凌晨，最騷的事情來了，Matt說，我們終于解決了問題，開放了新的API。

他們提供了一個(gè)私有接口，說這個(gè)才是Reflection70B完全體。

大家一測(cè)，臥槽，果然牛逼，牛逼炸了。

真的好像比GPT4o還有那些大廠的模型強(qiáng)哎。

就差點(diǎn)直接給Reflection70B開香檳了。

2個(gè)人，3周時(shí)間，創(chuàng)了AI行業(yè)的奇跡。

但是大家香檳剛開一半，就被生生的摁回去了。

大家發(fā)現(xiàn)，這個(gè)所謂的“Reflection70B”的API，怎么跟Claude3.5回復(fù)的東西，一模一樣。。。

于是有人，又做了一個(gè)驗(yàn)證測(cè)試，他把所有API的參數(shù)全部設(shè)為10個(gè)Token、0溫度、top_k1，然后讓大模型，重復(fù)entsprechend這個(gè)詞20次，因?yàn)榇竽Ｐ蛯?duì)token的計(jì)算都不太一樣，所以其實(shí)10個(gè)token限制輸出的內(nèi)容也不太一樣，你既然說你是基于Llama3.1微調(diào)的，那你肯定得跟Llama3.1輸出內(nèi)容一樣對(duì)吧。

但是，結(jié)果直接讓人大跌眼鏡。

好兄弟，你怎么，跟Claude的長(zhǎng)度一樣，你到底是Llama3.1生出的Reflection70B，還是披著狗皮的Claude啊???

更狗的是，他們居然，還把Claude設(shè)成了屏蔽詞，在用戶的對(duì)話中，一旦你發(fā)Claude，就直接剔除。

騷啊，實(shí)在是太騷了。。。

這下，所有AI行業(yè)的人，都知道，Reflection70B就是一場(chǎng)徹頭徹尾的鬧劇。

這個(gè)鬧劇背后，我覺得反應(yīng)出了現(xiàn)在整個(gè)AI領(lǐng)域，一個(gè)非常詭異的現(xiàn)象。

刷榜。

回到整個(gè)事情的起點(diǎn)，就是模型能力的強(qiáng)度，和榜單。

正是因?yàn)镽eflection70B在評(píng)測(cè)集上屠榜了，秒殺Claude3.5和GPT4o，才讓大家如此興奮。

但是結(jié)果大家發(fā)現(xiàn)，臥槽你怎么就做那些特定評(píng)測(cè)集的題目那么牛逼?換個(gè)別的題就直接變廢物了?不是細(xì)狗你行不行啊?

直接對(duì)著答案抄，還不行，那不扯淡嗎。

大模型目前的評(píng)測(cè)體系，從來就不復(fù)雜，就是考試，純純的考試。

評(píng)測(cè)數(shù)據(jù)集相當(dāng)于試卷，模型就是正在考試的學(xué)生，最后交卷，看誰的分高。

聽起來是不是很科學(xué)?理論上是的，但是大模型評(píng)測(cè)領(lǐng)域有一個(gè)非常嚴(yán)重的BUG，就是評(píng)測(cè)集，就是考試試卷，是公開的，所有人在考試之前，都可以看到考卷。

為什么評(píng)測(cè)機(jī)構(gòu)要公開評(píng)測(cè)集?不公開不就行了?

答案是不行。

高考和學(xué)校的考試，是權(quán)威的考試，我不差你一個(gè)，你愛考不考，我就是天，我就是規(guī)則，所以，他們當(dāng)然不會(huì)公開試卷，一切以公平說話。

但是大模型領(lǐng)域，太新了，這些評(píng)測(cè)榜單，比如SuperCLUE、C-Eval、HuggingFace，話語權(quán)沒那么大，供需關(guān)系倒過來了，如果機(jī)構(gòu)在評(píng)測(cè)時(shí)用什么問題以及對(duì)應(yīng)什么答案是什么一直不公開，如果機(jī)構(gòu)的評(píng)測(cè)邏輯與工具、評(píng)分方法與過程是封閉的“黑盒子”，那一定會(huì)被招來無數(shù)質(zhì)疑，先被干躺的是這些評(píng)測(cè)機(jī)構(gòu)你信不信。

兩害相權(quán)取其輕，所以就變成了現(xiàn)在的情況了。

人們總是單純的，總是喜歡量化的，也總是喜歡用一些固定的標(biāo)準(zhǔn)，來恒定一個(gè)東西的好與差。

所以在這一年半的白模大戰(zhàn)中，我們經(jīng)常能聽到各種奇奇怪怪的第一，每個(gè)模型，都說自己超越GPT4o了，把它按在腳下摩擦。

6月27日:“ 訊飛星火V4.0不僅在8個(gè)國(guó)際主流測(cè)試集中排名第一，領(lǐng)先國(guó)內(nèi)大模型，并在文本生成、語言理解、知識(shí)問答、邏輯推理、數(shù)學(xué)能力等方面實(shí)現(xiàn)了對(duì)GPT-4Turbo的整體超越。”

5月21日:"在 LMSYS最新排名中，零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7，中國(guó)大模型中第一，已經(jīng)超過 Llama-3-70B、Claude3Sonnet;其中文分榜更是與 GPT4o 并列世界第一。"

3月26日:"沙利文發(fā)布了《2024年中國(guó)大模型能力評(píng)測(cè)》，評(píng)測(cè)顯示，百度文心一言穩(wěn)居國(guó)產(chǎn)大模型首位，拿下數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等五大評(píng)測(cè)維度的四項(xiàng)第一"

我不想說什么模型好什么模型不好，這種刷榜到底有沒有意義，我只想說，使用者一定會(huì)用腳投票的。

況且，有的排行榜，那是真的不能看，比如前段時(shí)間看到的一個(gè)權(quán)威機(jī)構(gòu)的文生視頻排行榜，用量化指標(biāo)來恒量視頻生成質(zhì)量。

別的我不說了，我就說你把智譜清影排在可靈上面，你自己去問問智譜的人，他們敢接這個(gè)第二嗎?智譜是一家很實(shí)誠的公司，所以他們品牌市場(chǎng)也沒拿這玩意去做宣傳，你要是一些別的公司，又得PR起飛了。

這個(gè)榜單創(chuàng)作者們看到也只會(huì)笑笑，大家不傻，真的。

在經(jīng)濟(jì)學(xué)中，有一個(gè)著名的理論，叫做古德哈特定律。

原意是:一項(xiàng)社會(huì)指標(biāo)或經(jīng)濟(jì)指標(biāo)，一旦成為一個(gè)用以指引宏觀政策制定的既定目標(biāo)，那么該指標(biāo)就會(huì)喪失其原本具有的信息價(jià)值。因?yàn)檎咧贫ㄕ邥?huì)犧牲其他方面來強(qiáng)化這個(gè)指標(biāo)，從而使這個(gè)指標(biāo)不再具有指示整體情況的作用。

用最簡(jiǎn)單的話來說，就是:

"當(dāng)一個(gè)指標(biāo)成為目標(biāo)時(shí)，它就不再是一個(gè)好的指標(biāo)。"

萬物皆如此。

所以這里，我想說一個(gè)暴論:現(xiàn)在的大模型榜單，還有各種亂七八糟的AI產(chǎn)品榜單，參考看看可以，但是不要奉為圣經(jīng)，更不要當(dāng)真，拿來做你跟別人吵架的憑據(jù)。

騙騙兄弟可以，別把自己也騙了。

當(dāng)所有的大模型，都用MMLU、MATH、IFEval、GSM8K之類的基準(zhǔn)測(cè)試來衡量自己模型的能力，那這些基準(zhǔn)測(cè)試，也就不再是一個(gè)好的基準(zhǔn)了。

去年一篇論文讓我印象非常的深刻，叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》，來自中國(guó)人民大學(xué)。

里面詳細(xì)的闡述了因?yàn)閿?shù)據(jù)泄露而引起的整個(gè)大模型刷榜情況的虛假繁榮。

N多模型，直接把評(píng)測(cè)集的數(shù)據(jù)訓(xùn)在了模型里面，從而直接屠榜，來引起聲量和討論。

這就像學(xué)校里考試，我們每個(gè)人都公平的在考場(chǎng)上，一起考試答題，大家各憑本事一決勝負(fù)。

但是偏偏有個(gè)學(xué)生，平時(shí)滿分750他只能考個(gè)299，但是這次，他在考試前，已經(jīng)提前知道了所有卷子的題目和答案，都在腦子里背了下來，只有一些語文之類的主觀題沒有滿分，其他全是滿分，考了720分。

那你會(huì)覺得，他考了720分，是因?yàn)樗娴呐１茊?

傻子才會(huì)。

大模型的評(píng)測(cè)，跟這種考試，沒有任何區(qū)別。刷題而已，人類刷了幾千年的題，這點(diǎn)手段，還能難倒背后的人?開什么玩笑。

所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者，提出一種方法，用n-gram哈希算法在考試前對(duì)數(shù)據(jù)污染現(xiàn)象，進(jìn)行嚴(yán)格檢查，只要是作弊的，一律滾出去。

可惜，因?yàn)槲疑厦嬲f的那些亂七八糟的問題，并沒有辦法用上，現(xiàn)在所有的榜單，都還是充斥著無數(shù)的水分。

榜單不再可信，但是普通用戶和開發(fā)者，永遠(yuǎn)會(huì)用腳投票。

請(qǐng)?jiān)谑謾C(jī)微信登錄投票

你心中No.1的大模型是哪個(gè)?單選文心一言騰訊混元字節(jié)豆包阿里通義GPT-4oClaude3.5智譜清言KimiGemini訊飛星火

所以，真的，騙騙哥們可以，別把你自己也騙了。

AI這行里，真的充斥著各種各樣奇奇怪怪的現(xiàn)象。

腳踏實(shí)地做點(diǎn)事吧。

站在普通人的場(chǎng)景想想未來。

我覺得，比那一瞬的泡沫，更重要。

以上就是關(guān)于【現(xiàn)在的大模型榜單，真就沒一個(gè)可信的?！康南嚓P(guān)內(nèi)容，希望對(duì)大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新文章