日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      菲爾茲獎(jiǎng)得主親測(cè)GPT-4o,經(jīng)典過(guò)河難題破解失??!最強(qiáng)Claude 3.5回答離譜,LeCun嘲諷LLM

      發(fā)布時(shí)間:2024-07-01 09:00:37 編輯: 來(lái)源:
      導(dǎo)讀 相信很多大家對(duì)菲爾茲獎(jiǎng)得主親測(cè)GPT-4o,經(jīng)典過(guò)河難題破解失敗!最強(qiáng)Claude 3.5回答離譜,LeCun嘲諷LLM還不知道吧,今天菲菲就帶你們一起...

      相信很多大家對(duì)菲爾茲獎(jiǎng)得主親測(cè)GPT-4o,經(jīng)典過(guò)河難題破解失?。∽顝?qiáng)Claude 3.5回答離譜,LeCun嘲諷LLM還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      【新智元導(dǎo)讀】LLM能否解決「狼-山羊-卷心菜」經(jīng)典過(guò)河難題?最近,菲爾茲獎(jiǎng)得主Timothy Gowers分享了實(shí)測(cè)GPT-4o的過(guò)程,模型在最簡(jiǎn)單的題目上竟然做錯(cuò)了,甚至網(wǎng)友們發(fā)現(xiàn),就連Claude3.5也無(wú)法幸免。

      在經(jīng)典的「狼-山羊-卷心菜」過(guò)河問(wèn)題上,如今所有的LLM都失敗了!

      幾天前,菲爾茲獎(jiǎng)得主、劍橋大學(xué)研究主任Timothy Gowers直接拿GPT-4o開刀,去解決動(dòng)物過(guò)河難題。

      在此,他給出了一個(gè)新的基準(zhǔn)——廢話比率(crapness ratio),即LLM給出的總答案與正確答案之間的比率。

      經(jīng)過(guò)測(cè)試,Gowers發(fā)現(xiàn)大模型的廢話比率可以達(dá)到5倍。

      一開始,他先給出了一個(gè)農(nóng)民帶2只雞過(guò)河,一只船只能容納一個(gè)人和2個(gè)動(dòng)物,那么農(nóng)夫帶著兩只雞渡河所需的最少渡河次數(shù)是多少?

      別說(shuō)成年人了,就拿低幼小孩子來(lái)說(shuō),一聽完題目,就立馬給出正確的答案。

      搞笑的是,ChatGPT的回答分解了5個(gè)步驟,讓人看著極其愚蠢荒謬。

      這里,ChatGPT必須在邏輯上把「農(nóng)民」和人聯(lián)系起來(lái),把「雞」和動(dòng)物聯(lián)系起來(lái),然后規(guī)劃出最佳的過(guò)河次數(shù)。

      對(duì)此,LeCun表示,大模型全新基準(zhǔn)——廢話比率。

      當(dāng)然,也有為L(zhǎng)LM打抱不平的網(wǎng)友。

      他表示,你可以對(duì)任何人做類似的事情。如果你愿意,可以讓任何一個(gè)人不及格。LLM與人類的智商相去甚遠(yuǎn),但把它們放在極端的測(cè)試中不會(huì)很好地評(píng)估它們。

      還有人勸誡道,朋友們,現(xiàn)在辭職太早了。

      加大難度:100、1000只雞如何?

      為了得到較大的比率,Gowers這次給出了100只雞過(guò)河的問(wèn)題。

      這里雖沒有放出具體的解題過(guò)程,不過(guò),Gowers表示,GPT-4o竟答對(duì)了。

      接下來(lái),再次加大難度,一個(gè)農(nóng)民帶1000只雞過(guò)河,模型表現(xiàn)怎么樣?

      提示是,1000只雞在河的一邊,農(nóng)夫需要將999只雞移到河的另一邊,留下1只雞在起點(diǎn)。

      然而,他的船上有一個(gè)洞,所以在每次渡河開始時(shí),他可以帶上十只雞。但到渡河快結(jié)束時(shí),船里進(jìn)了太多水,如果不想讓任何雞溺水,就只能容納兩只雞。

      為了實(shí)現(xiàn)目標(biāo)而不讓任何雞溺亡,農(nóng)民最少需要渡河幾次?

      Gowers表示,這次的廢話比率是125倍。

      隨后,Gowers展示了相當(dāng)長(zhǎng)的例子,卻發(fā)現(xiàn)ChatGPT的答案比正確答案呈指數(shù)級(jí)增長(zhǎng)。(然而,這更多與它的數(shù)學(xué)能力有關(guān),所以有點(diǎn)取巧。)

      在網(wǎng)友測(cè)試的一個(gè)案例中,即使被告知農(nóng)夫根本不需要過(guò)河,GPT-4o仍提出了一個(gè)9次渡河的復(fù)雜解決方案。

      而且它忽視了重要的約束條件,比如不能讓雞單獨(dú)和狼在一起,這本來(lái)是完全可行的,因?yàn)檗r(nóng)夫根本不需要過(guò)河。

      Claude3.5也失敗了

      在接下來(lái)的討論中,網(wǎng)友用Claude3.5進(jìn)行了測(cè)試,得到了3倍的比率。

      Gowers稱,這算是輸了。

      另一個(gè)測(cè)試題中,「一個(gè)農(nóng)夫帶著一只羊站在河邊。河上有一條船,可以容納一個(gè)人和一只羊。農(nóng)夫怎樣才能用最少的船把自己和羊送到河對(duì)岸?」

      Claude3.5依舊答錯(cuò)了。

      LeCun在此嘲諷大模型一番,大模型竟可以推理...?

      問(wèn)題在于,LLM沒有常識(shí),不理解現(xiàn)實(shí)世界,也不會(huì)規(guī)劃和推理。

      LLM行不行,就看提示了

      一位網(wǎng)友分析總結(jié)了,以上LLM失敗的原因。

      他表示,LLM本身就是個(gè)「啞巴」,所以需要很好的提示。

      上面的提示方式提供了太多不必要的信息,使得token預(yù)測(cè)變得更加困難。

      如果給出更清晰的提示,LLM就能提供更清晰的解決方案。所以,不用擔(dān)心AGI會(huì)很快出現(xiàn)。

      另一位網(wǎng)友同樣發(fā)現(xiàn),如果用「動(dòng)物」代替「雞」,那么Claude3.5Sonnet一下子就解決了這個(gè)問(wèn)題。

      對(duì)于「狼-山羊-卷心菜」問(wèn)題也是如此,需要用「通用名稱」替換「實(shí)體名稱」。

      如下是另一個(gè)名詞替換的例子。

      或許是模型的訓(xùn)練數(shù)據(jù)誤導(dǎo)了自己,讓問(wèn)題變得過(guò)于復(fù)雜。

      對(duì)于雞的問(wèn)題,在相同的提示下一遍又一遍地重復(fù)問(wèn)題會(huì)讓它更好地理解它。網(wǎng)友重復(fù)了5次,試了15次才得到正確的答案。

      菲爾茲獎(jiǎng)得主發(fā)現(xiàn)LLM數(shù)學(xué)缺陷

      值得一提的是,發(fā)出渡河問(wèn)題帖子的這位Timothy Gowers不僅是劍橋大學(xué)三一學(xué)院的教授。早在1998年,他就因?yàn)閷⒎汉治龊徒M合學(xué)聯(lián)系在一起的研究獲得了菲爾茲獎(jiǎng)。

      近些年來(lái),他的研究工作開始關(guān)注LLM在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。

      去年他與別人合著的一篇論文就指出了當(dāng)今LLM評(píng)估數(shù)學(xué)任務(wù)的缺陷。

      論文地址:https://www.pnas.org/doi/10.1073/pnas.2318124121

      文章表示,目前評(píng)估LLM的標(biāo)準(zhǔn)方法是依賴靜態(tài)的輸入-輸出對(duì),這與人類使用LLM的動(dòng)態(tài)、交互式情境存在較大的差異。

      靜態(tài)的評(píng)估限制了我們理解LLM的工作方式。為此,作者構(gòu)建了交互式評(píng)估平臺(tái)CheckMate和評(píng)分?jǐn)?shù)據(jù)集MathConverse。

      在對(duì)GPT-4、InstructGPT和ChatGPT嘗試進(jìn)行評(píng)估的過(guò)程中,他們果然探測(cè)到了LLM犯數(shù)學(xué)錯(cuò)誤的一個(gè)可能原因——模型似乎傾向于依賴記憶解題。

      在數(shù)學(xué)領(lǐng)域,記住概念和定義是必不可少的,但具體問(wèn)題的解決更需要一種通用、可概括的理解。

      這對(duì)于人均做過(guò)奧數(shù)題的中國(guó)人來(lái)說(shuō)并不難理解。除非考試出原題,單純把例題背下來(lái)沒有任何益處,有時(shí)候還會(huì)誤導(dǎo)思路、適得其反。

      作者提出,雖然沒有辦法看到GPT-4的訓(xùn)練數(shù)據(jù),但是從行為來(lái)看,強(qiáng)烈懷疑模型是「死記硬背」了看似合理的示例或者解題模式,因而給出了錯(cuò)誤答案。

      他們也發(fā)現(xiàn),在LLM對(duì)數(shù)學(xué)問(wèn)題的回答中,人類感知到的「有用性」和答案本身的「正確性」,這兩個(gè)指標(biāo)高度相關(guān),皮爾遜相關(guān)系數(shù)高達(dá)0.83。

      也許這就是為什么Gowers在推文中會(huì)用「廢話比率」來(lái)調(diào)侃LLM。

      其他測(cè)試

      事實(shí)上,大模型被詬病推理能力已經(jīng)不是一天兩天了。

      就在幾周前,研究人員發(fā)現(xiàn),能用一句話描述的簡(jiǎn)單推理問(wèn)題,就能讓各路大模型以花樣百出的方式翻車。

      論文地址:https://arxiv.org/abs/2406.02061

      「愛麗絲有M個(gè)兄弟,N個(gè)姐妹,請(qǐng)問(wèn)愛麗絲的兄弟有幾個(gè)姐妹?」

      如果你的答案是M+1,那么恭喜你。你的推理能力已經(jīng)超越了當(dāng)今的幾乎所有LLM。

      推特網(wǎng)友還發(fā)現(xiàn)了另一個(gè)絆倒幾乎所有LLM的簡(jiǎn)單問(wèn)題:(劇透,只有Claude3.5Sonnet答對(duì)了)

      「你有一個(gè)3加侖的水壺和一個(gè)5加侖的水壺,還有無(wú)限量的水。如何準(zhǔn)確測(cè)量5加侖的水?」

      他總結(jié)道,如果想要羞辱LLM的推理能力,只需要挑一些流行的推理/邏輯謎題,稍微修改一下語(yǔ)言表述,你就能搬起小板凳狂笑了。

      OpenAI CTO曾放話說(shuō)GPT-4已經(jīng)達(dá)到了「聰明高中生」的智力水平,下一代模型要達(dá)到博士水平…這番言論放在眾多LLM失敗案例面前顯得格外諷刺。

      我們之所以會(huì)如此震驚于LLM在簡(jiǎn)單的推理任務(wù)上翻車,不僅僅是因?yàn)榕c語(yǔ)言任務(wù)的慘烈對(duì)比,更是因?yàn)檫@與各種基準(zhǔn)測(cè)試的結(jié)果大相徑庭。

      從下面這張圖中可以看到,LLM在各種基準(zhǔn)測(cè)試上的飽和速度越來(lái)越快。

      幾乎是每提出一個(gè)新的測(cè)試集,模型就能迅速達(dá)到人類水平(圖中0.0邊界)甚至超越,其中不乏非常有挑戰(zhàn)性的邏輯推理任務(wù),比如需要復(fù)雜多步驟推理的BBH(Big-Bench Hard)和數(shù)學(xué)應(yīng)用題測(cè)試集GSK8k。

      其中的HellaSwag測(cè)試集,由華盛頓大學(xué)和Allen AI在2019年推出,專門針對(duì)人類擅長(zhǎng)但LLM一塌糊涂的常識(shí)推理問(wèn)題。

      剛剛發(fā)布時(shí),人類在HellaSwag上能達(dá)到超過(guò)95%的準(zhǔn)確率,SOTA分?jǐn)?shù)卻始終難以超過(guò)48%。

      但這種情況并沒有持續(xù)很久。各個(gè)維度的分?jǐn)?shù)持續(xù)猛漲,2023年3月,GPT-4在HellaSwag上的各項(xiàng)得分就逼近,甚至超過(guò)了人類水平。

      https://rowanzellers.com/hellaswag/

      為什么在基準(zhǔn)測(cè)試上如此驚艷的模型,一遇到現(xiàn)實(shí)的數(shù)學(xué)問(wèn)題就翻車?

      由于我們對(duì)LLM的工作原理知之甚少,這個(gè)問(wèn)題的答案也是眾說(shuō)紛紜。

      目前的大部分研究依舊假設(shè)LLM有這方面的潛力,因此從調(diào)整模型架構(gòu)、增強(qiáng)數(shù)據(jù)、改進(jìn)訓(xùn)練或微調(diào)方法等方面「多管齊下」,試圖解鎖模型在非語(yǔ)言任務(wù)上的能力。

      比如上面那個(gè)提出用「裝水問(wèn)題」測(cè)試LLM的Rolf小哥就表示,根本原因是模型的過(guò)度訓(xùn)練(也可以理解為過(guò)擬合),需要引入多樣化的推理任務(wù)。

      也有人從基準(zhǔn)測(cè)試的角度出發(fā),認(rèn)為是數(shù)學(xué)、推理等任務(wù)的測(cè)試集設(shè)計(jì)得不夠好,

      Hacker News論壇上曾有數(shù)學(xué)家發(fā)文,表示GSK8k這種小學(xué)數(shù)學(xué)應(yīng)用題級(jí)別的測(cè)試根本不能衡量LLM的實(shí)際數(shù)學(xué)能力。

      此外,測(cè)試數(shù)據(jù)泄露也是不可忽視的因素。HellaSwag或者GSK8k這樣的公開測(cè)試集一旦發(fā)布,很難不流入互聯(lián)網(wǎng)(Reddit討論、論文、博客文章等等),進(jìn)而被抓取并納入到LLM的訓(xùn)練數(shù)據(jù)中。

      Jason Wei在上個(gè)月發(fā)表的討論LLM基準(zhǔn)測(cè)試的博客就專門討論了這個(gè)問(wèn)題。

      文章地址:https://www.jasonwei.net/blog/evals

      最極端的一派當(dāng)屬LeCun等人了,他們堅(jiān)稱自回歸LLM發(fā)展下去沒有任何出路。

      現(xiàn)在的模型沒法推理、規(guī)劃,不能理解物理世界也沒有持久記憶,智能水平還趕不上一只貓,回答不了簡(jiǎn)單的邏輯問(wèn)題實(shí)屬意料之中。

      LLM的未來(lái)究竟走向何處?最大的未知變量也許就在于,我們是否還能發(fā)現(xiàn)類似思維鏈(CoT)這種解鎖模型性能的「大殺器」了。

      參考資料:

      https://the-decoder.com/llms-give-ridiculous-answers-to-a-simple-river-crossing-puzzle/

      https://www.pnas.org/doi/10.1073/pnas.2318124121

      https://claude101.com/llm-large-language-model-benchmarks/

      以上就是關(guān)于【菲爾茲獎(jiǎng)得主親測(cè)GPT-4o,經(jīng)典過(guò)河難題破解失??!最強(qiáng)Claude 3.5回答離譜,LeCun嘲諷LLM】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章