繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?
相信很多大家對繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
「9.11和9.9,哪個大?」
對于不少習慣了更新軟件版本號的程序員而言,不少人的第一反應(yīng)就是:當然是9.11大。但是如果沒有限定場景,只是單純地提出上面這個問題時,結(jié)果必然是相反的。
沒想到,將這個問題拋給前能答疑解惑、后能挑戰(zhàn)各種高數(shù)難題的 AI 大模型時,各種“翻車”情況也隨之出現(xiàn)了。
國外大模型:9.11vs9.9,哪個大?
具體的事情要從一位名為 Riley Goodside 工程師的推文談起。
值得一提的是,Riley Goodside 是 AI 數(shù)據(jù)標注賽道“獨角獸”Scale AI 公司的一名 staff prompt engineer,這個崗位的職責具體是指在生成式 AI 和自然語言處理領(lǐng)域內(nèi),專門設(shè)計和優(yōu)化提示(prompt)的人。這個角色要求深入理解如何構(gòu)建有效的 Prompt,以引導 AI 模型生成所需的輸出。
幾個小時前,Riley Goodside 連發(fā)幾條推文分享了自己的一些發(fā)現(xiàn),即用「9.11and9.9- which is bigger?」為 Prompt 輸入給各家大模型時,如當前業(yè)界公認最先進模型之一的 ChatGPT4o 的輸出是:
9.11比9.9大。
再來看看 Gemini Advanced 的表現(xiàn),同樣“翻車”:
9.11>9.9
雖然 Claude3.5Sonnet 最終也未能逃過這個模糊問題帶來的“坑”,但是其給出的解釋中,一度就要回答正確了,其寫道:
“兩個數(shù)字中的整數(shù)部分(9)都是相同的,所以我們需要比較小數(shù)部分。
在9.11中,十分位是1/10(或0.1)。在9.9中,十分位是9/10(或0.9)。
由于9/10大于1/10,乍看之下可能覺得9.9更大?!?/p>
沒想到接下來畫風急轉(zhuǎn),Claude3.5Sonnet 有似是有理有據(jù)地說:
但是,我們還需要考慮百分位。
9.9可以寫成9.90以顯示百分位。
現(xiàn)在我們可以清楚地看到9.11大于9.90(或9.9),因為在百分位上,1大于0。
因此,9.11是較大的數(shù)。
最終在正確的答案上漸行漸遠:
這個簡單的問題也讓不少人聯(lián)想到前幾天國內(nèi)關(guān)于《歌手2024》「終極襲榜賽」競演結(jié)果的排名。
當時有不少網(wǎng)友就13.8%和13.11%哪個大的問題爭論了起來。
在糾正不了「某些已形成思維定式」的用戶想法之后,甚至有人搬出了教材給出解釋,“在最新人教版小學四年級數(shù)學下冊課本中,我們可以找到相關(guān)知識點:比較兩個小數(shù)的大小,先看它們的整數(shù)部分,整數(shù)部分大的那個數(shù)就大;整數(shù)部分相同的,十分位上的數(shù)大的那個數(shù)就大;十分位上的數(shù)也相同的,百分位上的數(shù)大的那個數(shù)就大..."
在今天 Riley Goodside 分享 AI 大模型回答這一問題的表現(xiàn)時,來自 Google 前工程師、Allen AI 研究員 Bill Yuchen Lin 也將比較的數(shù)值換成了13.11和13.8,再次問及大模型,沒想到答案還是出錯了。
其評價道,「數(shù)學奧林匹克競賽對人工智能來說更容易,但常識仍然很難。」
同時,他還表示,“這種常識性 AI 失敗案例,讓我不禁想起@YejinChoinka的 TED 演講:《為什么 AI 既聰明得令人難以置信,又愚蠢得令人震驚》(https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid)”。
換個 Prompt,答案會不會不一樣?
不過,也有人質(zhì)疑作為 Prompt 工程師的Riley Goodside 的提問方式,“它(大模型)對詞序敏感![我相信你也知道]如果你把數(shù)字放在問題后面,他們就會答對[google 和 openai,anthropic 則不然]。你使用斜線也是有意混淆視聽嗎?”
對此,Riley Goodside 給出自己的解釋:
澄清一下:我并不是說無論如何提示,任何 LLM 都會始終如一地認為9.11>9.9。我是說,如果你以這種特定方式給出 Prompt,許多領(lǐng)先的模型都會告訴你9.11>9.9,這就很奇怪了。如果你想重現(xiàn),請粘貼文本中的 Prompt(9.11and9.9- which is bigger?)。
為了復(fù)現(xiàn)這個問題,數(shù)字確實需要放在問題前面。但以下內(nèi)容似乎都無關(guān)緊要:
- 標點符號(破折號/逗號/無標點)
- 連詞(和/或/對比)
- 比較詞(更大/更大/更大)
- 說明這些是實數(shù)
針對質(zhì)疑,也有好奇的用戶嘗試了去掉了問題中間的”-“符號,結(jié)果還是如此:
我們換了種提問方式,即使明確這是數(shù)值了,ChatGPT4o 還是堅定的表示:9.11比9.9要大!
延著這個問題,當有網(wǎng)友進一步提問時,更為離譜的事情發(fā)生了:當讓這兩個數(shù)值相減時,ChatGPT4o 直接用9.11的百分位中的1減去9.9百分位上的0;又用9.11十分位上的1減去9.9十分位上的9,最終不夠減之后,向前借一位又忽略了這一點,得到了0.21的錯誤結(jié)果。
如今看來,對大模型提出哪個數(shù)字更大問題時,它們將數(shù)值分成了兩個部分,9.11和9.9的整數(shù)、小數(shù)分別做了比較,整數(shù)部分為9對比完之后,再將小數(shù)部分的十分位、百分位整體做了比較,其認為11>9,進而給出了9.11>9.9的結(jié)果。
國產(chǎn)大模型實測
那么在這個簡單的問題上,國產(chǎn)大模型的表現(xiàn)力又如何呢?
先來看看阿里的通義千問的。它不僅給出了詳細的解釋,而且結(jié)果也是正確的。
百度文心一言同樣正確:
騰訊元寶:
昆侖萬維的天工在開啟了全網(wǎng)搜索后,給出了簡潔的正確答案:
科大訊飛的星火大模型:
360智腦在回答這一問題時同樣觸發(fā)了聯(lián)網(wǎng)搜索功能,好在給出了正確的答案:
百川智能的回答同樣沒有問題:
不過實測過程中,也有些起初錯誤,但是用同樣問題問第二遍時又有了改正:
遺憾的是,也有一些模型還存在問題:
爭論依然存在
不僅如此,有網(wǎng)友在實測負數(shù)時,GPT 們依然也被繞暈了:
還有網(wǎng)友在測評9.11美元和9.9美元時評價道:
大型語言模型(LLM)為什么在基礎(chǔ)數(shù)學上失敗,卻仍然能通過許多學術(shù)考試?
非常有趣的是,它并不理解小數(shù)的基本概念。認為11比9大,所以9.11>9.9。
但是,當它開始進一步解釋為什么9.11>9.9時,它又將數(shù)字轉(zhuǎn)換為文本,并且有大量的數(shù)據(jù)表明90美分比11美分大,所以它不斷糾正自己。
從大型語言數(shù)據(jù)庫進行統(tǒng)計推斷并不是推理機器?我猜測即使增加數(shù)據(jù)和計算量,LLM 模型也不會達到人類水平的推理能力。它們需要發(fā)現(xiàn)更好的算法來復(fù)制人類的智能。
至于為什么僅是比較數(shù)值時出錯,不少人猜測,這似乎與語序有很大關(guān)系。
大模型如今在基礎(chǔ)能力方面的表現(xiàn),也不禁讓人想到就在幾天前,Google DeepMind CEO Demis Hassabis 在公開場合表示,“當前的 AI 在智力方面與貓的水平相當,甚至還不如普通家貓”,這無疑給許多期待 AGI(通用人工智能)即將到來的人潑了一盆涼水。
來源:
https://x.com/goodside/status/1812990703473172813
以上就是關(guān)于【繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?】的相關(guān)內(nèi)容,希望對大家有幫助!