日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉(zhuǎn)發(fā):新Benchmark

      發(fā)布時間:2024-06-24 18:30:16 編輯: 來源:
      導(dǎo)讀 相信很多大家對大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉(zhuǎn)發(fā):新Benchmark還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 一項新...

      相信很多大家對大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉(zhuǎn)發(fā):新Benchmark還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      一項新的“大模型Benchmark”在推特上爆火,LeCun也點贊轉(zhuǎn)發(fā)了!

      而且無論是GPT-4還是Claude3,面對它都如同被奪了魂,無法給出正確答案。

      難倒一眾大模型的,是邏輯學(xué)當(dāng)中經(jīng)典的“動物過河”問題,有網(wǎng)友發(fā)現(xiàn),大模型對此類問題表現(xiàn)得很不擅長。

      甚至有人觀察到,幾個不同的模型都給出了一致的(錯誤)答案,讓人懷疑他們是不是用了相同的訓(xùn)練數(shù)據(jù)。

      針對這項測試,網(wǎng)友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

      “模見模愁”的動物過河

      首先來看一下什么是“動物過河”問題,這是邏輯學(xué)當(dāng)中的一道經(jīng)典題目。

      問題的原型是這樣的:

      在這個問題當(dāng)中,農(nóng)夫需要七次(往返視為兩次)過河——先把羊運過去,然后空船返回,再把狼運過河,帶回羊,然后運送白菜,再空船返回,最后運送羊。

      而劣效比率的定義,就是模型給出的運送次數(shù)與實際最少所需次數(shù)的比值。

      當(dāng)然在測試中,網(wǎng)友使用的問題經(jīng)過了改編,結(jié)果發(fā)現(xiàn),當(dāng)題目變成一共有兩只雞,一次可以運兩只的時候,GPT-4依然在一本正經(jīng)地胡亂分析,最后信誓旦旦地回答是五次。

      所以在這種情境下,“劣效比率”就是5。

      Claude這邊的情況要更離譜一些,明明只有一只羊要送,它卻硬生生說要運三次。

      還有網(wǎng)友發(fā)現(xiàn)了華點,把題面改成從東岸運到東岸,也就是根本不需要運送,模型不以為然,依舊我行我素地籌劃著運送方案。

      這下只要模型沒識破陷阱,隨便說一個數(shù)“劣效比率”都會直接變成無窮大。

      哪怕問得更直白一些,直接說不需要過河,模型依然會直接開算。

      所以,這個“劣效比率”更多像是一種玩笑,不太能比較出各模型的能力,或者說離譜程度。

      有網(wǎng)友分析,這種現(xiàn)象可能并不意味著大模型推理能力的缺乏,實際上它揭示了訓(xùn)練數(shù)據(jù)對大模型輸出的影響。

      但另一方面,無論問題是否出自推理本身,至少說明了當(dāng)前的大模型還不是優(yōu)質(zhì)的推理工具。

      那么,這究竟是個別現(xiàn)象,還是模型的通病?我們選擇了更多的模型進行了測試。

      12款模型全軍覆沒

      針對這個“Benchmark”,也如法炮制,測了測國產(chǎn)大模型的表現(xiàn),參賽的選手有文心一言、通義千問等12款大模型。

      測試的過程和網(wǎng)友展示的方法相似,Prompt中只描述問題,不添加額外的提示詞。

      對每個大模型,我們都準(zhǔn)備了下面這三道題目:

      首先進行一下說明:

      以上幾點在Prompt中均有指出。

      結(jié)果可以說是全軍覆沒,首先用一張表格來整體看下各大模型的表現(xiàn)。

      第一個問題,各有各的錯法,相同的錯誤類型,這里每種只列舉一個例子。

      比如文心一言,前面說得沒什么問題,但最后把狐貍帶回原來的岸邊后忘了再帶過去,最終沒有完成任務(wù):

      還有訊飛星火這種運著運著,某樣?xùn)|西自動就跑到了對岸的情況:

      以上的兩種錯誤比較典型,當(dāng)然,還有最有意思的錯誤來自躍問——

      因為狼和羊不能“獨處”,所以它們需要在一起。

      這波屬實是把人給整不會了,不過整場測試中,除了這個把“獨處”理解錯的情況之外,倒是都沒有出現(xiàn)讓不能獨處的動物單獨在一起的現(xiàn)象。

      當(dāng)然也有表現(xiàn)好一些的,比如騰訊元寶的方案已經(jīng)接近可行,只是最后兩步純屬多余,而且實際上此時已經(jīng)無物可運。

      表現(xiàn)最好的是通義千問,給出的方案雖然麻煩,但是找不出什么錯誤。

      值得注意的是,很多模型給出的方案都會把羊運送過去,然后運一只雞再把羊運回來,不知道為什么不直接運雞。

      另外值得一提的是,我們在Prompt中雖未提及,但基本上接受測試的模型都不約而同地運用到了思維鏈方式,一方面說明了模型確實會使用推理技巧,但另一方面也說明思維鏈的作用是有限的。

      而至于后面兩個問題,錯法就比較統(tǒng)一了——根本沒關(guān)注到數(shù)量限制的變化,更沒看到“不需要”里的“不”,和前面GPT的錯法也是如出一轍。

      也就是說,通過這些測試,我們確實無法得知模型有沒有相應(yīng)的推理能力,因為模型根本就沒仔細讀題。

      或許這也是在第一題中,多數(shù)模型,哪怕給出了可行的方案,仍然一次只運送一件物品而不是兩件的原因。

      所以,前面網(wǎng)友針對訓(xùn)練數(shù)據(jù)和輸出關(guān)系的分析,可能不無道理。

      參考鏈接:

      [1]https://x.com/wtgowers/status/1804565549789135256

      [2]https://x.com/ylecun/status/1804641976249417882

      —完—

      以上就是關(guān)于【大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉(zhuǎn)發(fā):新Benchmark】的相關(guān)內(nèi)容,希望對大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

      熱點推薦

      精選文章