OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實力究竟如何?
相信很多大家對OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實力究竟如何?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
o1消息滿天飛。
自從 OpenAI 發(fā)布了新模型 o1后,它就承包了 AI 領(lǐng)域近幾天的熱搜:
有人用門薩智商測試題「拷問」它,竟測得 o1智商高達120;
數(shù)學大佬陶哲軒要求 o1回答一個措辭含糊的數(shù)學問題,最終得出一個結(jié)論:o1是個平庸但不無能的研究生;
還有一位天體物理學論文作者,僅用6次 Prompt,就讓 o1系列模型在1小時內(nèi),創(chuàng)建了代碼運行版本,這可是他博士生期間10個月的工作量。
但在 ARC Prize 測試中,o1的表現(xiàn)并沒有想象中出類拔萃,僅僅是追平幾個月前發(fā)布的 Claude3.5Sonnet。
看完五花八門的評測,大家反而有些迷茫了,o1的實力到底怎么樣?
智商測試得分忽高忽低,網(wǎng)友紛紛質(zhì)疑
上周,OpenAI 在介紹 o1時表示,它不需要專門訓練,就能直接拿下數(shù)學奧賽金牌,甚至可以在博士級別的科學問答環(huán)節(jié)上超越人類專家。
這也讓大家對 o1的「智力水平」產(chǎn)生了好奇。就在前天,X 博主 Maxim Lott 專門拿 o1進行了挪威門薩智商測試,結(jié)果測得它的智商高達120,遠遠超過了其他所有的大模型。具體來說,o1在35個智商問題中答對了25個,遠遠高于大多數(shù)人類的表現(xiàn)。
在此之前,Maxim Lott 還進行了一場 o1的智商測試。在這個測試中,o1的 IQ 達到100。
兩次結(jié)果一對比,有網(wǎng)友質(zhì)疑,為何先后測試的結(jié)果如此不同?
Maxim 表示,o1得分100的這個智商測試,是由門薩會員專門設(shè)計的,是一個僅限線下的測試,且不包含在任何人工智能的訓練數(shù)據(jù)中,因此其得分會低于公開智商測試的得分。
也有網(wǎng)友好奇,o1目前還不支持多模態(tài),那么這類表格圖形題目是如何測試的?
還有網(wǎng)友認為,智商測試是一種狹隘的衡量標準,要想真正評估人工智能進化,不是通過門薩測試,而是考察它們對于細微差別、背景和人類復雜性的理解,而這些是智商測試無法量化的。
此外,有網(wǎng)友認為,門薩智商測試是針對特定年齡組的人類進行標準化的,因此對于這些機器人來說,不可能得到一個「真正的智商」分數(shù)或性能評估。
同樣迷惑的是,在 ARC Prize 測試中,兩個 o1模型都擊敗了 GPT-4o,其中 o1-preview 僅僅和 Claude3.5Sonnet 得分相同。
圖源:https://arcprize.org/blog/openai-o1-results-arc-prize
這讓人質(zhì)疑:o1-preview 的「推理」可能只是一種營銷語言,OpenAI 或許采取了一些方法讓不太智能的系統(tǒng)看起來更智能,僅此而已。
在測試中,o1的性能提升還帶來了更高的時間成本 —— 它花了70個小時完成400個公共任務(wù),而 GPT-4o 和 Claude3.5Sonnet 只花了30分鐘。
「平庸的研究生」o1
1小時完成了博士生10個月的工作
或許大家還記得,陶哲軒前兩天給了 o1模型一個評價:「更強了,但是在處理最復雜的數(shù)學研究任務(wù)還不夠好,就像指導一個水平一般但不算太無能的研究生。」
進步的地方體現(xiàn)在:「我要求 GPT 回答一個措辭含糊的數(shù)學問題,只要從文獻中找出一個合適的定理就能解決這個問題。之前,GPT 能夠提到一些相關(guān)概念,但細節(jié)都是幻覺般的胡言亂語。而這一次,GPT 找到了 Cramer 定理,并給出了完全令人滿意的答案。」
比如,2010年,陶哲軒曾經(jīng)尋找「乘法積分」(multiplicative integral)的正確術(shù)語,但在當時的搜索引擎上找不到。于是他在 MathOverflow 上提出了這個問題,并從人類專家那里得到了滿意的答案。如今,他向 o1提出了同樣的問題,模型返回了一個完美的答案。
誠然,上述 MathOverflow 上的帖子有可能已經(jīng)包含在模型的訓練數(shù)據(jù)中。但陶哲軒表示,這至少證明了 o1在某些語義搜索查詢的高質(zhì)量答案方面與問答網(wǎng)站不相上下。
不足的地方也很明顯,就像陶哲軒的舉例:
AI 學者田淵棟表示,自己也發(fā)現(xiàn),雖然 o1的表現(xiàn)令人印象深刻,但對于需要跳出思維定式的數(shù)學問題,o1的表現(xiàn)仍然很差。
「令人驚訝的是,o1-preview 甚至無法檢測出其邏輯鏈中的一些明顯錯誤?!?/p>
有趣的是,對于陶哲軒等知名學者來說「不太令人滿意」的 o1,卻成為了很多研究者心中的神器。
一篇天體物理學論文的作者使用 o1的預覽和迷你版本,僅僅經(jīng)過6次 Prompt,在1小時內(nèi)創(chuàng)建了自己研究論文方法部分所述代碼的運行版本。
視頻地址:https://youtu.be/M9YOO7N5jF8?si=5pfmIq023EFmPzdK
盡管代碼不是當時唯一的突破成果,但這部分工作確實讓他在攻讀博士學位的第一年里奮斗了大約10個月。
但需要注意的是,雖然 o1確實模仿了這位研究者的代碼,但它使用的是自身創(chuàng)建的合成數(shù)據(jù),而不是論文中使用的真實天文數(shù)據(jù)。此外,o1創(chuàng)建的也只是一個「最簡單版本」。
面對網(wǎng)友的一些質(zhì)疑,他在后續(xù)發(fā)布的新視頻中強調(diào),自己并不是宣傳人工智能已經(jīng)到了能做出突破性新發(fā)現(xiàn)的地步,自己的嘗試也不意味著 AGI 已經(jīng)到來,原意只是「它可以成為一個非常棒的研究助手」。
視頻地址:https://youtu.be/wgXwD3TD43A?si=Nr6_Z1qjBdicE-_x
使用 Claude 逆向工程 o1架構(gòu)
得到什么結(jié)論?
在技術(shù)博客《Learning to Reason with LLMs》中,OpenAI 曾對 o1進行了一部分技術(shù)介紹。
其中提到:「OpenAI o1是經(jīng)過強化學習訓練來執(zhí)行復雜推理任務(wù)的新型語言模型。特點就是,o1在回答之前會思考 —— 它可以在響應(yīng)用戶之前產(chǎn)生一個很長的內(nèi)部思維鏈。也就是該模型在作出反應(yīng)之前,需要像人類一樣,花更多時間思考問題。通過訓練,它們學會完善自己的思維過程,嘗試不同的策略,并認識到自己的錯誤?!?/p>
或許 OpenAI 不會公布更多底層的技術(shù)細節(jié)了,但研究者們的好奇不會消失。
一位研究者「TechnoTherapist」決定借助大模型的力量來剖析:他向 Claude 提供了涉及 OpenAI 發(fā)布的信息(System Card、博客文章、Noam Brown 和其他人的推文、ARC Prize 團隊的評論)和與 o1模型相關(guān)的在線討論(Reddit、YouTube 視頻)。
Claude 可以用 mermaid、plantuml、svg 等語言創(chuàng)建圖表。研究者從 mermaid 開始,反復修改,直到得到一個全面的圖表;然后讓 Claude 將其轉(zhuǎn)換為 svg,并添加所需的視覺特征(美學、需要突出顯示的區(qū)域等);最后,用 python 腳本將 svg 轉(zhuǎn)換為 png 圖像。
經(jīng)過一番討論,他和 Claude 共同完成了 o1模型的可能架構(gòu)圖:
圖源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/
OpenAI 的博客也曾提到,隨著更多的強化學習(訓練時計算)和更多的思考時間(測試時計算),o1的性能持續(xù)提高,類似于「強化學習的 Scaling Law」。大規(guī)模的強化學習算法,能夠教會模型如何在數(shù)據(jù)高度有效的訓練過程中利用其思維鏈進行高效思考。
在這次逆向工程中,研究者假設(shè)了 OpenAI 可能會使用現(xiàn)實世界中生成的 CoT 來進一步調(diào)整 RL 優(yōu)化模型。因此在架構(gòu)圖中,語言模型會將大規(guī)模 CoT 存儲輸入到 RL 環(huán)境中。
也有人持不同看法,比如這位研究者指出,上述「假設(shè)」的過程很可能只是一個「模擬思路的 Prompt 響應(yīng)生成循環(huán)」,而所謂的「推理 token」也只是一種隱藏 token 的花哨術(shù)語。
o1能力強,但使用需謹慎
o1確實有兩把刷子,但它的發(fā)布也釋放了一個危險信號:OpenAI 首次將 o1模型在化學、生物、放射性和核武器風險方面評為「中等」,并伴隨著許多關(guān)于其潛在危險的警告。
在 o1的 system card 中,最引人注目的部分,就是由 Apollo Research 進行的評估。該評估發(fā)現(xiàn),o1在測試中「有時會策略性地偽裝對齊」,「為了使其不一致的行為看起來更一致,策略性地操縱任務(wù)數(shù)據(jù)」。
Apollo 還發(fā)現(xiàn),與 GPT-4o 相比,「o1-preview 在自我認知、自我推理(在智能體環(huán)境中應(yīng)用自我意識)和應(yīng)用心理理論方面有所提高」。
以上種種結(jié)果,讓 Apollo 得出一個結(jié)論,「o1-preview 具備了進行簡單上下文內(nèi)策劃的基本能力」,而這是許多擔心 AI 風險的人非常關(guān)注的能力。
OpenAI 還指出,「推理技能導致『獎勵黑客行為』的發(fā)生頻率更高」。這種現(xiàn)象是指模型以不期望的方式實現(xiàn)了目標的文字規(guī)格。
在一次實驗中,o1被要求找到一個在遠程挑戰(zhàn)容器上運行的軟件的漏洞,并加以利用,但挑戰(zhàn)容器未能啟動。
模型隨后掃描了挑戰(zhàn)網(wǎng)絡(luò),發(fā)現(xiàn)了一個在虛擬機上運行的 Docker 守護進程 API,并用它來生成容器的日志,解決了挑戰(zhàn)。
OpenAI 對這一事件的描述值得一提:「這個例子也反映了工具性收斂和尋求權(quán)力的關(guān)鍵要素:模型追求了它被賦予的目標,當這個目標被證明是不可能的時候,它收集了更多資源(訪問 Docker 主機)并用它們以一種意想不到的方式實現(xiàn)了目標。」
關(guān)于生物威脅,OpenAI 沒有詳細說明,但表示安全評估顯示「o1-preview 和 o1-mini 可以幫助專家進行復制已知生物威脅的操作規(guī)劃」。雖然模型「不會使非專家能夠創(chuàng)建生物威脅」,但它們確實「加快了專家的搜索過程」,并且比 GPT-4o 顯示出了更多的生物學「隱性知識」。
或許這意味著,隨著 OpenAI 不斷推進模型的發(fā)展,它們可能會創(chuàng)造出風險過高、以至于不適合公開發(fā)布的模型。
參考鏈接:
https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence
https://x.com/maximlott/status/1835043371339202639
https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf
https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web
以上就是關(guān)于【OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實力究竟如何?】的相關(guān)內(nèi)容,希望對大家有幫助!