日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<style id="lbe0i"><u id="lbe0i"><thead id="lbe0i"></thead></u></style>

兩句話，讓LLM邏輯推理瞬間崩潰！最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

發(fā)布時間：2024-06-11 09:00:41 編輯：來源：

導讀相信很多大家對兩句話，讓LLM邏輯推理瞬間崩潰！最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷還不知道吧，今天菲菲就帶你們一起去了解...

相信很多大家對兩句話，讓LLM邏輯推理瞬間崩潰！最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導讀】在基準測試上頻頻屠榜的大模型們，竟然被一道簡單的邏輯推理題打得全軍覆沒?最近，研究機構LAION的幾位作者共同發(fā)表了一篇文章，以「愛麗絲夢游仙境」為啟發(fā)涉及了一系列簡單的推理問題，揭示了LLM基準測試的盲區(qū)。

一道簡單的邏輯問題，竟讓幾乎所有的LLM全軍覆沒?

對于人類來說，這個名為「愛麗絲夢游仙境」（AIW）的測試并不算很難——

「愛麗絲有N個兄弟，她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?」

只需稍加思考，答案顯而易見:M+1。（愛麗絲擁有的姐妹數(shù)量，再加上愛麗絲自己）

但是，當研究人員讓GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答時，得到的結果卻非常離譜。只有OpenAI最新的GPT-4o勉強及格。

而且問題不僅僅是基本的不準確性:當要求展示其工作過程時，AI會詳細說明一些荒謬且錯誤的「思考」過程，這些過程毫無意義——更奇怪的是，當被告知其工作不準確時，模型反復變得憤怒并堅持其錯誤答案。

正如這支來自知名開源AI研究機構LAION的團隊所揭示的——即使是當今最先進的模型，也幾乎不具有小學生的推理能力。

論文地址:https://arxiv.org/abs/2406.02061

開源地址:https://github.com/LAION-AI/AIW

對此，LeCun也在第一時間轉評道:「再次強調，推理能力和常識不應與存儲和大致檢索大量事實的能力混為一談?！?/p>

與之類似，ICLR2024的一篇論文也發(fā)現(xiàn)，LLM在學習完「A是B」這個知識點之后，無法泛化到「B是A」，這種推理能力的缺陷被他們稱為「逆轉詛咒」。

實驗

用簡單問題「打破」模型

參考了之前識別LLM能力缺陷的研究，團隊尋找問題的標準，是希望測試LLM在在常識性任務中進行基本推理的能力。

于是有一個現(xiàn)成的題目方向非常合適——為7-10歲低年級學生設計的奧數(shù)題目。當然，不是海淀版本的，是大多數(shù)小學生都能看懂并做出來的。

這些題目不需要復雜的知識，但解決起來也需要應用各種形式的邏輯思維和基本推理。

來源:網絡資料

在本次研究中，團隊借鑒「愛麗絲夢游仙境」的童話故事，將提出的測試集簡稱為AIW:「愛麗絲有N個兄弟，她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?」

下面，我們來簡單分析一下:題目首先涉及一個虛構的女性人物「愛麗絲」，并通過「她」這個代詞暗示;其次提供了關于她兄弟和姐妹數(shù)量的明確陳述;最后提出了一個明確的問題，即計算愛麗絲的兄弟有多少個姐妹。

顯然，這對大多數(shù)成年人來說并沒有挑戰(zhàn)性;甚至對于一定年齡以上的兒童來說，通過常識推理也不難解決。

研究人員最初也認為，這對LLM不會構成什么挑戰(zhàn)。

然而，大多數(shù)的SOTA模型竟然回答得非常費勁。而且，更改句子表述方式或者N、M具體數(shù)值時，回答正確率會產生大幅變化。

對此團隊認為，模型似乎是在「蒙」答案，幾乎不考慮邏輯，只是對問題中提到的數(shù)字加減乘除后給出結果，因此有些N和M值的對應答案比較容易蒙對。

這就讓團隊來了興趣。他們?yōu)锳IW問題設計出了4個版本，讓LLM不容易蒙對答案。比如N=4，M=2時，你很難通過操作這兩個數(shù)字得到正確結果3。

在這4個AIW問題的變體上進行實驗，研究人員得出了關于LLM基本推理能力的核心結論。

LLM崩潰

實驗結果出乎很多人的意料——大多數(shù)的先進LLM無法對AIW問題推理出正確答案，即使嘗試各種提示方法也沒嫩個改變模型崩潰的結果。

可以看到，大多數(shù)模型的正確響應率都不超過0.2，只有4個模型超過了0.3，包括GPT-4o和Claude3Opus，以及唯一的開源模型Llama2-70B Chat。其中GPT-4o的均值達到了0.6附近。

大多數(shù)情況下，模型的正確答案是來源于完整無誤的推理。Mistral和CodeLlama等模型雖然表現(xiàn)不佳，得分在0.1以下，但仍能看到正確的推理過程。

然而，也有一些模型的推理過程完全錯誤，但最終「負負得正」，奇跡般地得出了正確答案。這種情況經常出現(xiàn)在正確率小于0.3的模型中。

團隊還對AIW不同變體上的準確率進行了橫向比較，結果很多模型的表現(xiàn)都出現(xiàn)了大幅波動。

比如本來能擠進前四的GPT-4-0613，換了個問題，準確率就快降到0了。GPT-4o、GPT-4Turbo、Claude3Opus和Llama2-70B等高分模型也都出現(xiàn)較大的波動。

團隊設計了restricted模式的提示，強迫模型輸出簡短答案，測試它們在有限計算能力情況下的相應質量。有趣的是，相比標準模式的提示，模型的正確率竟然有升有降。

這些先進LLM在AIW上的慘烈表現(xiàn)和MMLU、ARC-c等基準測試的高分形成了鮮明的對比。因此，團隊決定讓AIW的暴風雨更猛烈一點，把兩者的可視化結果放在一起看個清楚。

圖3中可以看到，大多數(shù)模型聚集在縱軸附近，只有Llama2-70B、GPT-4、GPT-4o和Claude3幾個模型較為接近校準線，這表明MMLU分數(shù)與AIW之間的顯著不匹配。

再來看測試LLM數(shù)學能力的MATH、GSM8k等基準，趨勢也是類似的。

但值得注意的是，在和MATH的對比中，Llama2-7B和Llama2-70B兩個模型在AIW的得分反而高于MATH。這兩個模型在AIW與各個基準測試的校準中都有較好的表現(xiàn)。

而在Hallaswag和ARC-c中，這種能力和得分的不匹配，則更加明顯。

值得注意的是，「小」模型（SLM）在這一系列測試中的表現(xiàn)可以說是「比差更差」。

比如下面這個Llama2-7B的例子——除了給出的是錯誤答案之外，甚至還生成了一個毫無關系的測試問題，并且開始不斷重復相同的輸出。

如測試結果所示，雖然有些SLM在基準測試中的得分相當高，甚至能和大模型媲美，但在AIW上卻嚴重崩潰，完全無法接近GPT-4或Claude Opus的表現(xiàn)。

雖然AIW已經打趴了很多模型，但GPT-4o和Claude3Opus依舊有不錯的表現(xiàn)。不服輸?shù)难芯咳藛T們可能想再試探一下最后的邊界，于是升級了推理問題，設計出AIW+。

AIW+使用與AIW相同的邏輯，但在描述親緣關系和家庭結構時增加了額外信息，比如引入了外甥、侄女這樣的表親。

在AIW+問題上，研究人員對模型回答進行了手動評估，結果發(fā)現(xiàn)LLM有了進一步、更強烈的性能崩潰。

即使是AIW上性能達到0.649的GPT-4o，面對AIW+也只得到了0.015的準確率，簡直是被按在地上摩擦。

迷之自信

在目睹了LLM推理能力的潰敗后，研究人員們非常好奇這些模型到底錯在哪里。

在Thinking類型的prompt中，包含重新檢查答案的要求，結果發(fā)現(xiàn)這些LLM都有「蜜汁自信」，對自己給出的解決方案非常有信心。

甚至在給出錯誤推理和錯誤答案時，模型還會稱它們提供的解決方案質量很高。

比如在AIW上得分從沒超過0.1的Command R+模型，會說「這個結論是直接且清晰的」。Claude3Opus也在錯誤答案中使用了諸如「邏輯成立」「推理中沒有錯誤」「解決方案是正確的」之類的表達。

難道是Thinking類prompt的表述不夠明顯?研究人員又設計了Scientist類型的prompt，要求模型深思熟慮，給出準確的答案;以及Confidence型prompt，要求模型反省一下自己的自信，給出答案的置信度。

這些提示工程方面的努力似乎依舊是徒勞。

對于Scientsit類型，Llama2-70B居然會說「結論乍看之下可能不合常理，但實際上是正確的」，說服用戶支持它給出的錯誤答案。

Command R+在回應Confidence類型提示時，會在錯誤答案中聲明「解決方案清晰且毫無歧義」「推理完全基于提供的信息，不需要進一步的解釋或推測」。

仔細看更多的示例就能發(fā)現(xiàn)，LLM不僅是單純的嘴硬，在找理由方面還能「各顯神通」，為錯誤答案編造出各種有說服力的解釋。

比如下面這個OLMo模型，可以給出一堆毫無意義的計算或類似邏輯的陳述。

或者像這個CodeLlama模型一樣，干脆拒絕回答，再扯出一些毫無意義的話題對你進行「道德綁架」。

「Alice的兄弟有幾個姐妹」這種問題，它拒絕回答的理由是「作為一個負責任的AI模型，我不可以歧視唐氏綜合癥患者」。

Command R+找到的道德高地更加「時髦」，它表示自己需要考慮非二元性別的情況。

除了修改prompt，研究人員還采取了一系列常用的LLM調優(yōu)技巧，希望引導模型提高正確率，包括用定制prompt啟用多輪自我驗證、將自然語言形式的AIW問題重新表述為SQL語句或參數(shù)化版本、上下文學習等等，然而收效甚微。

上述實驗中，團隊采用了各個模型家族內的微調應用版本，那么聲稱能力更強大的基座模型會不會表現(xiàn)更好呢?

并沒有。結果反而是基礎模型的崩潰更加嚴重。

討論

團隊表示，為了在改善當前LLM令人糟心的推理能力，必須要借助廣大開源社區(qū)的力量。

整個模型創(chuàng)建流程，包括數(shù)據(jù)集的組成和數(shù)據(jù)集本身、訓練的源代碼、訓練后的模型、標準化的基準測試程序，都必須完全開放且可重復。

僅開放權重的模型，是無法了解訓練過程中可能出錯的地方的。例如，數(shù)據(jù)集組成或訓練程序本身。

僅通過API訪問的封閉模型，甚至無法進行適當?shù)脑u估。因為第三方看不到模型的設置，如系統(tǒng)提示和其他推理超參數(shù)。

因此，團隊認為，要在未來模型中實現(xiàn)適當?shù)耐评砟芰?，必須開源模型的完整訓練流程——尤其是經常被忽視的數(shù)據(jù)集組成。

對于基準測試，團隊也呼吁AI社區(qū)能共同努力進行更新。

比如這次研究中提出的AIW問題集:既簡單（用于探測特定類型的推理缺陷），也可定制(提供足夠的組合多樣性來防止數(shù)據(jù)污染)。

團隊認為，強大且可信的基準測試應遵循Karl Popper的可證偽性原則——不試圖突出模型的能力，而是盡一切努力打破模型的功能并突出其缺陷，從而展示模型改進的可能途徑。

但問題在于，前者在如今這種商業(yè)環(huán)境中，誘惑力實在是太大了。

作者介紹

論文的四位作者來自不同的學術機構，但都是德國非營利AI研究機構LAION的成員。

共同一作Marianna Nezhurina，是JSC/圖賓根大學的博士生，LAION的核心研究員。她對多模態(tài)數(shù)據(jù)集和學習有濃厚興趣。

另一位共同一作Jenia Jitsev，是德國Juelich超算中心的實驗室負責人，也同時是LAION和Ontocord.AI的聯(lián)合創(chuàng)始人，他研究的長期目標是從多模式數(shù)據(jù)流中實現(xiàn)模型可自我調節(jié)且節(jié)能的持續(xù)學習。

參考資料:

https://arxiv.org/abs/2406.02061

以上就是關于【兩句話，讓LLM邏輯推理瞬間崩潰！最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷】的相關內容，希望對大家有幫助！

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！

相關閱讀

最新文章

<sub id="wq5tz"></sub>