日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      OpenAI o1驚現(xiàn)自我意識?陶哲軒實測大受震撼,門薩智商100奪模型榜首

      發(fā)布時間:2024-09-15 09:30:05 編輯: 來源:
      導(dǎo)讀 相信很多大家對OpenAI o1驚現(xiàn)自我意識?陶哲軒實測大受震撼,門薩智商100奪模型榜首還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 【...

      相信很多大家對OpenAI o1驚現(xiàn)自我意識?陶哲軒實測大受震撼,門薩智商100奪模型榜首還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      【新智元導(dǎo)讀】OpenAI o1,在門薩智商測試中果然取得了第一名。數(shù)學(xué)大神陶哲軒實測發(fā)現(xiàn),o1竟然能成功識別出克萊姆定理。而OpenAI的研究副總裁也在此時跳出來表明:大型神經(jīng)網(wǎng)絡(luò)可能已經(jīng)有了足夠算力,表現(xiàn)出意識了。

      OpenAI o1,在IQ測試中拿到了第一名!

      大佬Maxim Lott,給o1、Claude-3Opus、Gemini、GPT-4、Grok-2、Llama-3.1等進(jìn)行了智商測試,結(jié)果表明,o1穩(wěn)居第一名。

      緊隨其后的,就是Claude-3Opus和Bing C o p i l o t,分別取得了第二名和第三名。

      注意,這套智商測試題,屬于門薩會員的離線智商測試,不在任何AI訓(xùn)練數(shù)據(jù)中,因此結(jié)果非常具有參考性。

      著名數(shù)學(xué)家陶哲軒也對o1進(jìn)行了實測,發(fā)現(xiàn)自己向模型提出一個措辭模糊的數(shù)學(xué)問題后,它竟然能成功識別出克萊姆定理。

      更巧的是,就在o1發(fā)布之后,OpenAI的研究副總裁Mark Chen發(fā)表觀點稱:如今的大型神經(jīng)網(wǎng)絡(luò),可能已經(jīng)具有足夠的算力,在測試中表現(xiàn)出一些意識了。

      相信AI具有意識的行業(yè)領(lǐng)導(dǎo)者,如今已經(jīng)有了一串長長的名單,包括但不限于——

      Geoffrey Hinton(人工智能教父,被引用次數(shù)最多的AI科學(xué)家)

      Ilya Sutskever(被引次數(shù)第三多的AI科學(xué)家)

      Andrej Karpathy

      如今,業(yè)內(nèi)許多人都相信AI具有意識,而且正在等待「奧弗頓之窗」進(jìn)一步打開,從而使公眾愿意接受這一點。

      甚至有人預(yù)言:在2024/2025年,AI一定會具有意識,因為如今模型的行為已經(jīng)明顯表現(xiàn)出感知能力了。

      有網(wǎng)友發(fā)現(xiàn),o1不僅是對經(jīng)驗性的STEM學(xué)科很強(qiáng),它甚至能夠假設(shè)出一種全新的意識理論。

      有人覺得,o1向無限推理模型邁出的一小步,已經(jīng)具備意識的雛形。

      陶哲軒:o1竟能識別出克萊姆定理

      而在實測中,陶哲軒發(fā)現(xiàn):o1模型在數(shù)學(xué)方面的的性能更強(qiáng)了!

      首先,他提出了一個措辭模糊的數(shù)學(xué)問題,如果能搜索文獻(xiàn)并找到合適的定理,即克萊姆定理(Cramer's theorem),就可以解決這個問題。

      之前的實驗中,GPT能夠提到一些相關(guān)概念,但細(xì)節(jié)都是胡編亂造的無意義內(nèi)容。

      而這一次,o1成功識別出了克萊姆定理,并給出了令人滿意的答案。

      完整回答:https://shorturl.at/wwRu2

      在下面這個例子中,提出的問題是更有挑戰(zhàn)性的復(fù)變函數(shù)分析,結(jié)果同樣好于之前的GPT系列模型。

      在有大量提示詞和引導(dǎo)的情況下,o1能輸出正確且表述良好的解決方案,但不足之處在于無法自行產(chǎn)生關(guān)鍵的概念性想法,而且犯了明顯錯誤。

      陶哲軒形容,這種體驗大致相當(dāng)于指導(dǎo)一個能力一般但也能勝任部分工作的研究生,GPT給人的感覺則是一個完全無法勝任工作的學(xué)生。

      可能只需要經(jīng)過一兩次迭代,再加上其他工具的集成,比如計算機(jī)代數(shù)包和證明輔助工具,就能讓o1模型蛻變?yōu)椤阜Q職的研究生」,屆時這個模型將在研究任務(wù)中發(fā)揮重要作用。

      完整回答:https://shorturl.at/ZrJyK

      第三個實驗中,陶哲軒要求o1模型在證明輔助工具Lean中形式化一個定理,需要先將其分解為子引理并給出形式化表述,但不需要給出證明。

      定理的內(nèi)容,具體來說,是將素數(shù)定理的一種形式建立為另一種形式的推論。

      實驗結(jié)果也很不錯,因為模型理解了這個任務(wù),并對問題進(jìn)行了合理的初步分解。

      然而,可能是因為訓(xùn)練數(shù)據(jù)中缺乏關(guān)于Lean及其數(shù)學(xué)函數(shù)庫的最新數(shù)據(jù),生成的代碼中也有幾處錯誤。

      盡管仍有缺陷,但這次實驗結(jié)果已經(jīng)能讓人預(yù)見到o1在數(shù)學(xué)研究中的實際應(yīng)用。

      類似的模型如果針對Lean和Mathlib進(jìn)行微調(diào),并集成到集成開發(fā)環(huán)境(IDE)中,在形式化項目中將會發(fā)揮極大的作用。

      在之前的多次演講中,陶哲軒曾反復(fù)強(qiáng)調(diào)過AI工具在定理形式化中的應(yīng)用,看來大神的預(yù)言又會成真了。

      完整回答:https://shorturl.at/OGtjt

      計算機(jī)教授用動畫揭秘:o1如何花更多時間思考?

      o1學(xué)會用CoT思考更長時間的過程中,究竟是取得了哪些重要突破,才造成了關(guān)鍵性的提升?目前我們只能從已有信息中做一些猜測。

      比如,基于已有信息和自己的理解,科羅拉多大學(xué)博爾德分校計算機(jī)教授Tom Yeh就專門制作了一個動畫,講解OpenAI是如何訓(xùn)練o1模型花更多時間思考的。

      關(guān)于訓(xùn)練,報告中有非常簡短的一句話:

      「通過強(qiáng)化學(xué)習(xí),o1學(xué)會了磨練其思維鏈并改進(jìn)策略?!?/p>

      這句話中的兩個關(guān)鍵詞是:強(qiáng)化學(xué)習(xí)(RL)和思維鏈(CoT)。

      在RLHF+CoT中,CoT token也會被輸入到獎勵模型中來獲得分?jǐn)?shù),以更新LLM,從而實現(xiàn)更好的對齊;而在傳統(tǒng)的RLHF中,輸入只包含提示詞和模型響應(yīng)。

      在推理階段,模型學(xué)會了先生成CoT token(可能需要長達(dá)30秒的時間),然后才開始生成最終響應(yīng)。這就是模型如何花更多時間去「思考」的方式。

      在報告列出的貢獻(xiàn)者中,有兩個人值得關(guān)注:

      Ilya Sutskever,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的發(fā)明者,出現(xiàn)他的名字意味訓(xùn)練o1模型時仍然用到了RLHF。

      Jason Wei,著名的思維鏈論文的作者。他去年離開Google Brain加入了OpenAI。他的出現(xiàn)意味著CoT現(xiàn)在是RLHF對齊過程的重要組成部分。

      不過,有很多重要的技術(shù)細(xì)節(jié)OpenAI并沒有透露,比如獎勵模型是如何訓(xùn)練的,如何獲取人類對「思考過程」的偏好等等。

      免責(zé)聲明:動畫僅代表教授的合理推測,并不保證準(zhǔn)確性

      團(tuán)隊分享慶功視頻,分享「啊哈」時刻

      關(guān)于研究中取得重要突破的瞬間,在下面這個視頻中,給了我們更多線索。

      在發(fā)布o(jì)1模型后,團(tuán)隊發(fā)布了背后團(tuán)隊一起制作的視頻。

      在視頻中,有人表示,自己覺得研究中最酷的就是那個「啊哈」時刻了。

      在某個特定的時間點,研究發(fā)生了意想不到的突破,一切忽然就變得很明了,仿佛頓悟一般靈光乍現(xiàn)。

      所以,團(tuán)隊成員們分別經(jīng)歷了怎樣的「啊哈」時刻呢?

      有人說,他感覺到在訓(xùn)練模型的過程中,有一個關(guān)鍵的時刻,就是當(dāng)他們投入了比以前更多的算力,首次生成了非常連貫的CoT。

      就在這一刻,所有人都驚喜交加:很明顯,這個模型跟以前的有著明顯的區(qū)別。

      還有人表示,當(dāng)考慮到訓(xùn)練一個具備推理能力的模型時,首先會想到的,是讓人類記錄其思維過程,據(jù)此進(jìn)行訓(xùn)練。

      對他來說,啊哈時刻就是當(dāng)他發(fā)現(xiàn)通過強(qiáng)化學(xué)習(xí)訓(xùn)練模型生成、優(yōu)化CoT,效果甚至比人類寫的CoT還好的那一刻。

      這一時刻表明,我們可以通過這種方式擴(kuò)展和探索模型的推理能力。

      這一位研究者說,自己一直在努力提升模型解決數(shù)學(xué)問題的能力。

      讓他很沮喪的是,每次生成結(jié)果后,模型似乎從不質(zhì)疑自己做錯了什么。

      然而,當(dāng)訓(xùn)練其中一個早期的o1模型時,他們驚奇地發(fā)現(xiàn),模型在數(shù)學(xué)測試中的得分忽然有了顯著提升。

      而且,研究者們可以看到模型的研究過程了——它開始自我反思、質(zhì)疑自己。

      他驚嘆道:我們終于做出了不一樣的東西!

      這種感受極其強(qiáng)烈,那一瞬間,仿佛所有東西都匯聚到了一起。

      Open o1團(tuán)隊開放團(tuán)隊問答,直面質(zhì)疑

      大家對o1模型的細(xì)節(jié)都有諸多疑問,因此,OpenAI o1團(tuán)隊也表示,將在X上組織一個AMA(Ask Me Anything)的活動,通過下方評論和用戶互動。

      網(wǎng)友們非常踴躍,提出了諸多關(guān)鍵細(xì)節(jié)問題。

      比如,有沒有辦法強(qiáng)迫模型,讓它思考的時間長一點?

      團(tuán)隊的回答是:目前還沒有這個選項,但會考慮改進(jìn),讓用戶更好地控制模型思考的時間。

      有人向Jason Wei提問道:在o1范式下見過什么逆縮放示例,看到模型變得更差?此外,他還質(zhì)疑目前的基準(zhǔn)測試排名缺乏足夠的證據(jù)。

      Jason Wei回答說,自己并不知道,相信其他人見過。在某些類型的提示下,OpenAI o1-preview似乎并不比GPT-4o好多少,甚至還稍差一些。

      而對于LLM排行榜如何公平比較的問題,Jason Wei表示自己也不知道。但他可以肯定:無論怎樣努力地提示GPT-4o,都不可能讓它獲得IOI金牌。

      還有人提出了一個很多人都感到困惑的問題:o1究竟是不是一個在幕后運行CoT,然后提供答案或模型的系統(tǒng)呢?它是否使用了特殊token進(jìn)行推理,在輸出時隱藏了這些token?

      Noam Brown回答說,自己不會說o1是一個系統(tǒng),它是一個模型,但與之前的模型不同。這個回答,看起來有點語焉不詳。

      還有人采訪道:o1表現(xiàn)出的最令人深刻的一點是什么?

      Noam Brown回答說,自己給模型下指令讓它自己回答這個問題。

      在CoT中,模型開始自己給自己出難題測試自己,來確定自己的能力水平。一個模型會這么做,就足夠讓人印象深刻的了。

      Hyung Won Chung則表示,模型對哲學(xué)問題的思考過程頗為引人入勝。比如,生命是什么?

      活動結(jié)束后,大V「Tibor Blaho」專門寫了一篇總結(jié),對于團(tuán)隊的回答,做出了簡明扼要的概括——

      模型名稱和推理范式

      OpenAI o1的命名代表了AI能力的新水平;計數(shù)器重置為1

      「Preview」表示這是完整模型的早期版本

      「Mini」意味著這是o1模型的較小版本,針對速度進(jìn)行了優(yōu)化

      「o」代表OpenAI

      o1不是一個「系統(tǒng)」;它是一個經(jīng)過訓(xùn)練的模型,在返回最終答案之前生成長思維鏈

      o1的圖標(biāo)象征性地表示為一個具有非凡能力的外星生命

      o1模型的規(guī)模和性能

      o1-mini比o1-preview小得多且更快,因此未來將提供給免費用戶

      o1-preview是o1模型的早期檢查點,既不大也不小

      o1-mini在STEM任務(wù)中表現(xiàn)更好,但世界知識有限

      相比o1-preview,o1-mini在某些任務(wù)中表現(xiàn)出色,尤其是與代碼相關(guān)的

      o1的輸入token計算方式與GPT-4o相同,使用相同的分詞器(tokenizer)

      o1-mini能夠探索比o1-preview更多的思維鏈

      輸入token上下文和模型能力

      o1模型即將支持更大的輸入上下文

      o1模型可以處理更長、更開放式的任務(wù),與GPT-4o相比,減少了對輸入分塊的需求

      o1可以在提供答案之前生成長思維鏈,這與之前的模型不同

      目前還沒有辦法在思維鏈推理過程中暫停以添加更多上下文,但正在為未來的模型探索這一功能

      工具、功能和即將推出的特性

      o1-preview目前還不能使用工具,但計劃支持函數(shù)調(diào)用、代碼解釋器和瀏覽功能

      工具支持、結(jié)構(gòu)化輸出和系統(tǒng)提示將在未來更新中添加

      用戶可能會在未來版本中獲得對思考時間和token限制的控制權(quán)

      計劃在API中啟用流式處理并考慮推理進(jìn)度

      多模態(tài)能力已內(nèi)置于o1中,可以在MMMU等任務(wù)中實現(xiàn)SOTA的性能

      思維鏈(CoT)推理

      o1會在推理過程中生成隱藏的思維鏈

      沒有計劃向API用戶或ChatGPT透露思維鏈token

      思維鏈token被總結(jié),但不保證忠實于實際推理過程

      提示詞中的指令可以影響模型如何思考問題

      強(qiáng)化學(xué)習(xí)(RL)被用來改善o1中的思維鏈,僅依靠提示的GPT-4o在性能上無法匹敵

      思考階段看起來較慢是因為它總結(jié)了思考過程,而答案的生成通常更快

      API和使用限制

      o1-mini對ChatGPT Plus用戶有每周50次提示的限制

      在ChatGPT中,所有提示詞的計數(shù)是相同的

      隨著時間的推移,將推出更多API訪問層級和更高的使用限制

      API中的提示緩存是一個很受歡迎的需求,但目前還沒有時間表

      定價、微調(diào)和擴(kuò)展

      o1模型的定價預(yù)計將遵循每1-2年降價的趨勢

      一旦使用限制提高,將支持批量API定價

      微調(diào)在路線圖上,但目前還沒有時間表

      o1的擴(kuò)展受到研究和工程人才的限制

      推理計算的新擴(kuò)展范式可能會為未來幾代模型帶來顯著收益

      反向擴(kuò)展目前還不顯著,但個人寫作提示顯示o1-preview的表現(xiàn)僅略優(yōu)于GPT-4o(甚至略差)

      模型開發(fā)和研究洞察

      o1使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練從而實現(xiàn)推理能力

      o1在詩歌等橫向任務(wù)中展現(xiàn)出了創(chuàng)造性思維和強(qiáng)大的性能

      o1的哲學(xué)推理和泛化能力,如破譯密碼,令人印象深刻

      研究人員使用o1創(chuàng)建了一個GitHub機(jī)器人,可以ping正確的CODEOWNERS進(jìn)行審核

      在內(nèi)部測試中,o1通過自問難題來衡量其能力

      正在添加廣泛的世界領(lǐng)域知識,并將在未來版本中改進(jìn)

      計劃在o1-mini的未來迭代中使用更新的數(shù)據(jù)(目前為2023年10月)

      提示技巧和最佳實踐

      o1受益于提供邊緣案例或推理風(fēng)格的提示

      與早期模型相比,o1對提示中的推理線索更敏感

      在檢索增強(qiáng)生成(RAG)中提供相關(guān)上下文可以提高性能;不相關(guān)的塊會對推理產(chǎn)生負(fù)面影響

      一般反饋和未來改進(jìn)

      由于還處在早期測試階段,o1-preview的使用限制較低,但之后會有所增加

      正在積極改進(jìn)延遲和推理時間

      卓越的模型能力

      o1能夠思考「生命是什么?」這類哲學(xué)問題

      研究人員發(fā)現(xiàn)o1在處理復(fù)雜任務(wù)和從有限指令中泛化的能力令人印象深刻

      o1的創(chuàng)造性推理能力,如自問自答以衡量其能力,展示了其高水平的問題解決能力

      參考資料:

      https://mathstodon.xyz/@tao/109945628011027107

      https://twitter-thread.com/t/1834686946846597281

      https://x.com/ProfTomYeh/status/1834617696215806285

      https://x.com/markchen90/status/1834623248610521523

      以上就是關(guān)于【OpenAI o1驚現(xiàn)自我意識?陶哲軒實測大受震撼,門薩智商100奪模型榜首】的相關(guān)內(nèi)容,希望對大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

      熱點推薦

      精選文章