日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

^{<sup id="65nfm"><dl id="65nfm"></dl></sup>}

繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？

發(fā)布時間：2024-07-17 11:30:06 編輯：來源：

導讀相信很多大家對繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？還不知道吧，今天菲菲就帶你們一起去了解一下~.~！「9.11和9.9，哪...

相信很多大家對繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

「9.11和9.9，哪個大?」

對于不少習慣了更新軟件版本號的程序員而言，不少人的第一反應(yīng)就是:當然是9.11大。但是如果沒有限定場景，只是單純地提出上面這個問題時，結(jié)果必然是相反的。

沒想到，將這個問題拋給前能答疑解惑、后能挑戰(zhàn)各種高數(shù)難題的 AI 大模型時，各種“翻車”情況也隨之出現(xiàn)了。

國外大模型:9.11vs9.9，哪個大?

具體的事情要從一位名為 Riley Goodside 工程師的推文談起。

值得一提的是，Riley Goodside 是 AI 數(shù)據(jù)標注賽道“獨角獸”Scale AI 公司的一名 staff prompt engineer，這個崗位的職責具體是指在生成式 AI 和自然語言處理領(lǐng)域內(nèi)，專門設(shè)計和優(yōu)化提示（prompt）的人。這個角色要求深入理解如何構(gòu)建有效的 Prompt，以引導 AI 模型生成所需的輸出。

幾個小時前，Riley Goodside 連發(fā)幾條推文分享了自己的一些發(fā)現(xiàn)，即用「9.11and9.9- which is bigger?」為 Prompt 輸入給各家大模型時，如當前業(yè)界公認最先進模型之一的 ChatGPT4o 的輸出是:

9.11比9.9大。

再來看看 Gemini Advanced 的表現(xiàn)，同樣“翻車”:

9.11>9.9

雖然 Claude3.5Sonnet 最終也未能逃過這個模糊問題帶來的“坑”，但是其給出的解釋中，一度就要回答正確了，其寫道:

“兩個數(shù)字中的整數(shù)部分（9）都是相同的，所以我們需要比較小數(shù)部分。

在9.11中，十分位是1/10（或0.1）。在9.9中，十分位是9/10(或0.9)。

由于9/10大于1/10，乍看之下可能覺得9.9更大?！?/p>

沒想到接下來畫風急轉(zhuǎn)，Claude3.5Sonnet 有似是有理有據(jù)地說:

但是，我們還需要考慮百分位。

9.9可以寫成9.90以顯示百分位。

現(xiàn)在我們可以清楚地看到9.11大于9.90（或9.9），因為在百分位上，1大于0。

因此，9.11是較大的數(shù)。

最終在正確的答案上漸行漸遠:

這個簡單的問題也讓不少人聯(lián)想到前幾天國內(nèi)關(guān)于《歌手2024》「終極襲榜賽」競演結(jié)果的排名。

當時有不少網(wǎng)友就13.8%和13.11%哪個大的問題爭論了起來。

在糾正不了「某些已形成思維定式」的用戶想法之后，甚至有人搬出了教材給出解釋，“在最新人教版小學四年級數(shù)學下冊課本中，我們可以找到相關(guān)知識點:比較兩個小數(shù)的大小，先看它們的整數(shù)部分，整數(shù)部分大的那個數(shù)就大;整數(shù)部分相同的，十分位上的數(shù)大的那個數(shù)就大;十分位上的數(shù)也相同的，百分位上的數(shù)大的那個數(shù)就大..."

在今天 Riley Goodside 分享 AI 大模型回答這一問題的表現(xiàn)時，來自 Google 前工程師、Allen AI 研究員 Bill Yuchen Lin 也將比較的數(shù)值換成了13.11和13.8，再次問及大模型，沒想到答案還是出錯了。

其評價道，「數(shù)學奧林匹克競賽對人工智能來說更容易，但常識仍然很難。」

同時，他還表示，“這種常識性 AI 失敗案例，讓我不禁想起@YejinChoinka的 TED 演講:《為什么 AI 既聰明得令人難以置信，又愚蠢得令人震驚》（https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid）”。

換個 Prompt，答案會不會不一樣?

不過，也有人質(zhì)疑作為 Prompt 工程師的Riley Goodside 的提問方式，“它（大模型）對詞序敏感![我相信你也知道]如果你把數(shù)字放在問題后面，他們就會答對[google 和 openai，anthropic 則不然]。你使用斜線也是有意混淆視聽嗎?”

對此，Riley Goodside 給出自己的解釋:

澄清一下:我并不是說無論如何提示，任何 LLM 都會始終如一地認為9.11>9.9。我是說，如果你以這種特定方式給出 Prompt，許多領(lǐng)先的模型都會告訴你9.11>9.9，這就很奇怪了。如果你想重現(xiàn)，請粘貼文本中的 Prompt（9.11and9.9- which is bigger?）。

為了復(fù)現(xiàn)這個問題，數(shù)字確實需要放在問題前面。但以下內(nèi)容似乎都無關(guān)緊要:

- 標點符號（破折號/逗號/無標點）

- 連詞（和/或/對比）

- 比較詞（更大/更大/更大）

- 說明這些是實數(shù)

針對質(zhì)疑，也有好奇的用戶嘗試了去掉了問題中間的”-“符號，結(jié)果還是如此:

我們換了種提問方式，即使明確這是數(shù)值了，ChatGPT4o 還是堅定的表示:9.11比9.9要大!

延著這個問題，當有網(wǎng)友進一步提問時，更為離譜的事情發(fā)生了:當讓這兩個數(shù)值相減時，ChatGPT4o 直接用9.11的百分位中的1減去9.9百分位上的0;又用9.11十分位上的1減去9.9十分位上的9，最終不夠減之后，向前借一位又忽略了這一點，得到了0.21的錯誤結(jié)果。

如今看來，對大模型提出哪個數(shù)字更大問題時，它們將數(shù)值分成了兩個部分，9.11和9.9的整數(shù)、小數(shù)分別做了比較，整數(shù)部分為9對比完之后，再將小數(shù)部分的十分位、百分位整體做了比較，其認為11>9，進而給出了9.11>9.9的結(jié)果。

國產(chǎn)大模型實測

那么在這個簡單的問題上，國產(chǎn)大模型的表現(xiàn)力又如何呢?

先來看看阿里的通義千問的。它不僅給出了詳細的解釋，而且結(jié)果也是正確的。

百度文心一言同樣正確:

騰訊元寶:

昆侖萬維的天工在開啟了全網(wǎng)搜索后，給出了簡潔的正確答案:

科大訊飛的星火大模型:

360智腦在回答這一問題時同樣觸發(fā)了聯(lián)網(wǎng)搜索功能，好在給出了正確的答案:

百川智能的回答同樣沒有問題:

不過實測過程中，也有些起初錯誤，但是用同樣問題問第二遍時又有了改正:

遺憾的是，也有一些模型還存在問題:

爭論依然存在

不僅如此，有網(wǎng)友在實測負數(shù)時，GPT 們依然也被繞暈了:

還有網(wǎng)友在測評9.11美元和9.9美元時評價道:

大型語言模型（LLM）為什么在基礎(chǔ)數(shù)學上失敗，卻仍然能通過許多學術(shù)考試?

非常有趣的是，它并不理解小數(shù)的基本概念。認為11比9大，所以9.11>9.9。

但是，當它開始進一步解釋為什么9.11>9.9時，它又將數(shù)字轉(zhuǎn)換為文本，并且有大量的數(shù)據(jù)表明90美分比11美分大，所以它不斷糾正自己。

從大型語言數(shù)據(jù)庫進行統(tǒng)計推斷并不是推理機器?我猜測即使增加數(shù)據(jù)和計算量，LLM 模型也不會達到人類水平的推理能力。它們需要發(fā)現(xiàn)更好的算法來復(fù)制人類的智能。

至于為什么僅是比較數(shù)值時出錯，不少人猜測，這似乎與語序有很大關(guān)系。

大模型如今在基礎(chǔ)能力方面的表現(xiàn)，也不禁讓人想到就在幾天前，Google DeepMind CEO Demis Hassabis 在公開場合表示，“當前的 AI 在智力方面與貓的水平相當，甚至還不如普通家貓”，這無疑給許多期待 AGI（通用人工智能）即將到來的人潑了一盆涼水。

來源:

https://x.com/goodside/status/1812990703473172813

以上就是關(guān)于【繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？】的相關(guān)內(nèi)容，希望對大家有幫助！

大還是大，難倒一批 AI 大模型？

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

上一篇

下一篇

相關(guān)閱讀

前百度高管入局AI搜索，挑戰(zhàn)Google和Perplexity，種子輪獲6000萬美元資金

雙高父母16歲兒子身高僅156上熱搜！中國人最新身高標準出爐：你達標沒

799元！小米新款移動固態(tài)硬盤1TB上市：讀寫2000MB/s

淘寶新規(guī)明示私域引流更難了！

郭有才，吃到了董宇輝剩下的紅利

四川小伙因“不限量收李子”成小鎮(zhèn)紅人

雷軍2024年度演講來了！前四次演講回顧：雷軍那些金句還記得嗎？

AI短劇，快手已經(jīng)走在了前面

游戲帶貨，要提提速了

新中式出圈背后：那些披床單扮公主的小女孩長大了

最新文章

繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？

卡利姆多的復(fù)仇受法術(shù)加成么（卡利姆多的復(fù)仇絕版）

中國疾病預(yù)防控制中心研究生院調(diào)劑信息（中國疾病預(yù)防控制中心研究生院）

dnf巨龍副本在哪里進去（巨龍之魂老5怎么單刷）

射手座男生和誰最配（射手座男生和什么座最配）

魅族21系列推送Flyme 11.0.0穩(wěn)定版！帶來實況通知等超多重磅功能

楊婆婆的梗（楊婆婆）

每個月都有618！京東超級18官宣：飛天茅臺、電視等統(tǒng)統(tǒng)只要18元

檢討書3000字關(guān)于犯錯通用（檢討書3000字）

史上最強！小米手環(huán)9重磅升級：續(xù)航21天、換裝線性馬達

熱點推薦

中國疾病預(yù)防控制中心研究生院調(diào)劑信息（中國疾病預(yù)防控制中心研究生院）

射手座男生和誰最配（射手座男生和什么座最配）

檢討書3000字關(guān)于犯錯通用（檢討書3000字）

史上最強！小米手環(huán)9重磅升級：續(xù)航21天、換裝線性馬達

麥當勞決定炒掉AI員工，用AI點餐這件事不靠譜

中國排名前十的鐵道?？茖W院（中國鐵道職業(yè)學院排名）

對仗與對偶的區(qū)別舉例通俗易懂（對仗與對偶的區(qū)別）

王騰：同事稱Redmi K70至尊版為大號小米14！性能、續(xù)航更強

淘寶新規(guī)明示私域引流更難了！

疊墅和別墅的區(qū)別（疊墅）

第七季“多多讀書月”聯(lián)合千余家書商首度補貼萬余種圖書產(chǎn)品

3米巨蟒溜入養(yǎng)殖場被抓時打飽嗝吐出一只大鵝

AI成龍雖被群嘲，但未來AI依然可能取代演員

窮播，才是普通人的出路！

香港大學地址郵編（香港大學地址）

精選文章

卡利姆多的復(fù)仇受法術(shù)加成么（卡利姆多的復(fù)仇絕版）

dnf巨龍副本在哪里進去（巨龍之魂老5怎么單刷）

每個月都有618！京東超級18官宣：飛天茅臺、電視等統(tǒng)統(tǒng)只要18元

奕詝怎么讀拼音（奕劻讀音）

中山大學外國語學院是985嗎（中山大學外國語學院）

面積英文怎么說（面積英文）

知名游戲公會（中國網(wǎng)游公會排行）

正宗吉娃娃犬多少錢一只（吉娃娃犬多少錢一只黑龍江省那有賣）

等成本線向外平行移動表明（等成本線）

郭有才，吃到了董宇輝剩下的紅利

AI短劇，快手已經(jīng)走在了前面

新中式出圈背后：那些披床單扮公主的小女孩長大了

絕非玩笑！日本人快吃不起肉了：網(wǎng)友直呼日元貶值太多所致

暴雨過后狗媽媽叼著幼崽求助網(wǎng)友：母愛無私與偉大

龍息紅椒和什么沖突（龍息紅椒）

? 2008-2024 All Rights Reserved .新訊網(wǎng) 版權(quán)所有

網(wǎng)站地圖 | 百度地圖 | 360地圖 | 今日更新

日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

97超级碰在线观看免费亚洲免费视频在线观看69 中文字幕日本无吗在线观看一区二区三区

<s id="7adn2"></s>
<xmp id="7adn2"><strike id="7adn2"></strike></xmp>