日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      首頁(yè) > 今日更新 >

      Ilya宣判后GPT-5被曝屢訓(xùn)屢敗,一次訓(xùn)數(shù)月,數(shù)據(jù)要人工從頭構(gòu)建

      發(fā)布時(shí)間:2024-12-23 09:30:16來源:

      相信很多大家對(duì)Ilya宣判后GPT-5被曝屢訓(xùn)屢敗,一次訓(xùn)數(shù)月,數(shù)據(jù)要人工從頭構(gòu)建還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      GPT-5被曝效果遠(yuǎn)不達(dá)預(yù)期。

      OpenAI連續(xù)12場(chǎng)發(fā)布會(huì)剛剛結(jié)束,大家最想看的GPT-5/4.5影子都沒有,于是華爾街日?qǐng)?bào)這邊爆料了。

      GPT-5已至少完成2輪訓(xùn)練,每次長(zhǎng)達(dá)數(shù)月,但是每次訓(xùn)練后都遇到新問題。

      OpenAI正在專門雇人寫代碼、做數(shù)學(xué)題為GPT-5從頭創(chuàng)建數(shù)據(jù),o1合成數(shù)據(jù)也用,但效率不夠高,想要滿足GPT-5的預(yù)訓(xùn)練需求有難度。

      按照市場(chǎng)估算,一次長(zhǎng)達(dá)6個(gè)月的訓(xùn)練僅計(jì)算就需要花費(fèi)5億美金。GPT-5兩次訓(xùn)練進(jìn)展都不順,背后的成本想必也是個(gè)天文數(shù)字。

      Ilya前不久在NeurIPS2024上宣判的預(yù)訓(xùn)練即將終結(jié),似乎再次得到論證……

      這也和The Information此前爆料相呼應(yīng),隨著GPT系列進(jìn)化速度放緩,OpenAI正在嘗試調(diào)整戰(zhàn)略,比如o1、o3系列的推出。

      目前,OpenAI對(duì)最新爆料尚無回應(yīng)。

      但GPT-5究竟是OpenAI藏著不發(fā),還是不能發(fā)?答案更確定了一點(diǎn)。

      巨量數(shù)據(jù)算力堆不好GPT-5的預(yù)訓(xùn)練

      在華爾街日?qǐng)?bào)的爆料中,OpenAI對(duì)于GPT-5的預(yù)期很高。

      它能夠進(jìn)行科學(xué)探索發(fā)現(xiàn),并完成例行的人類任務(wù),比如預(yù)約、訂航班。而且希望它能夠犯更少的錯(cuò)誤,或者能夠承認(rèn)錯(cuò)誤存在,也就是減少幻覺。

      這與更早透露出的信息相呼應(yīng)。OpenAI前CTO Mira曾形象地將GPT-5的智能水平比作博士生。

      這意味著GPT-5能夠在某些特定領(lǐng)域取得高水平成績(jī),能像研究生、博士那樣可以深刻理解、推理,并具備專業(yè)知識(shí)。對(duì)比來看,GPT-3是蹣跚學(xué)步的孩子,GPT-4是高中生。

      今年10月,OpenAI最新籌集到的66億美元融資,估值飆升到1570億美元。投資者的再一次加碼,也被認(rèn)為是因?yàn)橄嘈臛PT-5將能完成重大飛躍。

      但是GPT-5的發(fā)布一直懸而未決。

      奧特曼之前表示,GPT-5不會(huì)有明確的發(fā)布時(shí)間,等什么時(shí)候準(zhǔn)備好了,就什么時(shí)候發(fā)。這個(gè)時(shí)間可能是2025,也可能是2026。

      如今回溯來看,GPT-5的推出一直都坎坷不斷。

      在2023年,OpenAI被曝光放棄了一個(gè)代號(hào)為Arrakis的模型。放棄原因是該模型不能實(shí)現(xiàn)在保持性能的同時(shí)減少對(duì)計(jì)算資源的需求,沒有達(dá)到預(yù)期的訓(xùn)練效率。

      這其實(shí)反向證明,如果想要訓(xùn)練規(guī)模更大規(guī)模的模型,還是需要更龐大的計(jì)算資源、更長(zhǎng)的時(shí)間。

      從設(shè)定來看,GPT-5顯然會(huì)是個(gè)“巨無霸”。

      GPT-5的開發(fā)啟動(dòng)于GPT-4發(fā)布時(shí)。至今已經(jīng)超過18個(gè)月了。

      它在內(nèi)部的代號(hào)是獵戶座Orion。按照原本計(jì)劃,微軟是想在2024年年中看到GPT-5的。

      華爾街日?qǐng)?bào)披露,GPT-5的大規(guī)模訓(xùn)練至少進(jìn)行了2輪。每次都需要幾個(gè)月,每次也都遇到了新問題。

      據(jù)估測(cè),一次為期6個(gè)月的訓(xùn)練僅算力成本就要消耗5億美元。對(duì)比來看,GPT-4的訓(xùn)練成本超1億美元。

      另一方面,想要更好的模型,就需要更多的數(shù)據(jù)。

      公共資源的數(shù)據(jù)消耗殆盡,OpenAI決定雇人從頭構(gòu)建數(shù)據(jù)。據(jù)爆料,它專門找了一些軟件工程師、數(shù)學(xué)家來寫代碼、解數(shù)學(xué)題,供GPT-5學(xué)習(xí)。

      一直以來,AI圈內(nèi)都認(rèn)為模型學(xué)習(xí)代碼可以提升它解決其他問題的能力。

      同時(shí)OpenAI也和一些物理學(xué)家合作,讓GPT-5學(xué)習(xí)科學(xué)家如何理解領(lǐng)域內(nèi)的問題。

      但問題就是,這樣太慢了。

      AI合成數(shù)據(jù)的路子OpenAI也走。據(jù)說GPT-5就使用了o1合成的數(shù)據(jù)。

      這種范式可能已經(jīng)可以被論證。

      隔壁Anthropic也被爆料使用AI合成數(shù)據(jù)訓(xùn)練模型。他們的做法是把最好用的模型內(nèi)部自留合成數(shù)據(jù),因?yàn)槟P托阅芘c合成數(shù)據(jù)質(zhì)量直接成正比。

      以上,大概就是GPT-5最新相關(guān)信息。

      不過話說回來,最近誰還在乎GPT-5呢(手動(dòng)狗頭)?

      畢竟OpenAI憑借o1、o3系列開啟了推理Scaling Law。

      剛剛發(fā)布的o3在ARC-AGI上刷新成績(jī)。最新結(jié)果報(bào)告顯示,在400項(xiàng)公共任務(wù)上,o3的最好成績(jī)已經(jīng)達(dá)到91.5%。

      在核心機(jī)制上,o3也給出新啟發(fā)。它通過LLM在token空間內(nèi)搜索和執(zhí)行,實(shí)現(xiàn)了在測(cè)試時(shí)內(nèi)的知識(shí)重組。

      隨著o3系列發(fā)布,AGI的預(yù)言依舊很有吸引力。

      o3屠榜ARC-AGI測(cè)試,離AGI還有多遠(yuǎn)?

      簡(jiǎn)單介紹一下ARC-AGI數(shù)據(jù)集,題目帶有色塊的網(wǎng)格陣列(以文本形式表述,用數(shù)字代表顏色),大模型需要觀察每道題目中3個(gè)輸入-輸出示例,然后根據(jù)規(guī)律填充新的空白網(wǎng)格。

      這幾個(gè)示例比較簡(jiǎn)單,但實(shí)際面臨的問題可能是這樣的:

      ARC-AGI測(cè)試集一共包含400道公開試題和100個(gè)私有問題。

      在公開問題中,o3高效率版的準(zhǔn)確率為82.8%,消耗了1.11億Token,平均每個(gè)任務(wù)成本為17美元。

      低效率版本(計(jì)算量是高效版的172倍),準(zhǔn)確率高達(dá)91.5%,不過消耗的Token數(shù)也達(dá)到了驚人的95億。

      另外OpenAI還做了一個(gè)專門針對(duì)ARC-AGI的版本,使用了75%的公開數(shù)據(jù)集進(jìn)行了訓(xùn)練。

      這個(gè)版本拿到私有測(cè)試集上測(cè)試,結(jié)果地計(jì)算量模式取得了76%的準(zhǔn)確率,高計(jì)算量模式則為88%。

      并且,低計(jì)算量版本的成本在ARC-AGI-Pub的規(guī)則范圍內(nèi)(<$10k),成為了公共排行榜上的第一名。

      88%的高計(jì)算量版本則過于昂貴,但仍然表明新任務(wù)的性能確實(shí)隨著計(jì)算量的增加而提高。

      在此之前,GPT-3的準(zhǔn)確率是零,GPT-4o為5%,o1最好也剛剛超過30%。

      ARC挑戰(zhàn)的發(fā)起者之一、前谷歌資深工程師、Keras之父Fran?ois Chollet認(rèn)為,o3能夠適應(yīng)以前從未遇到過的任務(wù),可以說在ARC-AGI領(lǐng)域接近人類水平。

      當(dāng)然成本也十分昂貴,即使是低計(jì)算量模式,每個(gè)任務(wù)也需要17-20美元,而發(fā)起方雇傭真人解決此類問題的成本,平均到每個(gè)問題只有5美元。

      但拋開成本問題,Chollet指出,o3對(duì)GPT系列的改進(jìn)證明了架構(gòu)的重要性,認(rèn)為無法在GPT-4上通過投入更多計(jì)算來獲得這樣的成績(jī)。

      所以,通過ARC-AGI測(cè)試,意味著o3實(shí)現(xiàn)AGI了嗎?Chollet認(rèn)為并不是。

      通過測(cè)試發(fā)現(xiàn),o3在一些非常簡(jiǎn)單的任務(wù)上仍然失敗,這表明其與人類智能存在根本差異。

      另外,ARC-AGI的下一代ARC-AGI-2也即將推出,早期測(cè)試表明其將對(duì)o3構(gòu)成重大挑戰(zhàn),即使在高計(jì)算量模式下,其得分也可能會(huì)降低到30%以下(而聰明人仍然能夠得分超過95%)。

      但無論是否達(dá)到AGI,o3能夠?qū)崿F(xiàn)的成績(jī)都是前所未有的,甚至有人認(rèn)為,針對(duì)ARC這樣的任務(wù)而言,人類的優(yōu)勢(shì)其實(shí)是在于視覺推理,如果改成像模型看到的那樣用文本形式描述圖形,那人類做的不一定會(huì)比AI好。

      并且,針對(duì)o3“沒能成功”的一個(gè)案例,還有人質(zhì)疑是標(biāo)準(zhǔn)答案錯(cuò)了。

      這道題當(dāng)中,變化規(guī)律是將處于同一行或列的兩個(gè)藍(lán)色格子連成線,并把穿過的紅色區(qū)域整塊涂藍(lán)。

      這道題的“標(biāo)準(zhǔn)答案”和o3的嘗試,區(qū)別就是綠色框中的部分是否被涂成藍(lán)色:

      在三個(gè)示例當(dāng)中,由紅變藍(lán)的部分都是被連線從中間穿過,但在這道題中連線是從這個(gè)3×4的紅色區(qū)域下方經(jīng)過,o3因此認(rèn)為不該把這塊區(qū)域涂藍(lán)。

      那么,o3又是怎么實(shí)現(xiàn)的呢?

      有人認(rèn)為是通過提示詞,但ARC挑戰(zhàn)負(fù)責(zé)人Greg Kamradt和OpenAI的研究人員Brandon McKinzie均否認(rèn)了這一說法,表示給o3的提示詞非常簡(jiǎn)單。

      另外Chollet推測(cè),o3的核心機(jī)制似乎是在Token空間內(nèi)搜索和執(zhí)行自然語言程序——在某種評(píng)估器模型引導(dǎo)下,搜索可能的描述解決任務(wù)所需的步驟的思維鏈空間。

      按照Chollet的觀點(diǎn),o3實(shí)現(xiàn)了在測(cè)試時(shí)的知識(shí)重組,總之,o3構(gòu)建出了一種通向AGI的新的范式。

      英偉達(dá)AI科學(xué)家范麟熙(Jim Fan)認(rèn)為,o3的本質(zhì)是“放松單點(diǎn)RL超級(jí)智能,以覆蓋有用問題空間中的更多點(diǎn)”。

      也就是用深度換取廣度,放松對(duì)于個(gè)別任務(wù)的強(qiáng)化學(xué)習(xí),換得在更多任務(wù)上的通用性。

      范麟熙舉例說,像AlphaGo、波士頓動(dòng)力電子地圖集都是超級(jí)人工智能,在特定的任務(wù)上表現(xiàn)非常出色。

      但o3不再是像這樣只能應(yīng)付單點(diǎn)任務(wù)的專家,而是一個(gè)在更大的有用任務(wù)集都表現(xiàn)優(yōu)異的專家。

      不過范麟熙也表示,o3仍然無法涵蓋人類認(rèn)知的所有分布,我們?nèi)匀惶幱谀S克悖論之中。

      (莫拉維克悖論認(rèn)為,人類所獨(dú)有的高階智慧能力只需要非常少的計(jì)算能力(例如推理),但是無意識(shí)的技能和直覺卻需要極大的運(yùn)算能力。)

      ARC挑戰(zhàn)發(fā)起方的發(fā)現(xiàn)——o3在一些非常簡(jiǎn)單的任務(wù)上失敗,似乎剛好印證了這一觀點(diǎn)。

      最后,關(guān)于AGI,范麟熙表示,我們已經(jīng)實(shí)現(xiàn)了巨大的里程碑,并且有清晰的路線圖,但還有更多事情要做。

      One More Thing

      作為12天發(fā)布的一部分,OpenAI在最后一天發(fā)布o(jì)3的同時(shí),也發(fā)了一篇關(guān)于安全問題的論文。

      論文引入了一種名為慎重對(duì)齊(deliberative alignment)的對(duì)齊方式,直接向推理模型傳授人工編寫、可解釋的安全規(guī)范,并訓(xùn)練他們?cè)诨卮鹬皩?duì)這些規(guī)范進(jìn)行明確的推理。

      結(jié)果,訓(xùn)練出的模型不需要人工標(biāo)記的CoT或答案,就可以高度精確地遵守OpenAI的安全政策。

      OpenAI發(fā)現(xiàn),o1在一系列內(nèi)部和外部安全基準(zhǔn)方面顯著優(yōu)于GPT-4o等其他最先進(jìn)模型 ,并且在許多具有挑戰(zhàn)性的(安全)數(shù)據(jù)集上的性能達(dá)到飽和。

      這一發(fā)現(xiàn),揭示了推理將成為提高模型安全性的一條新途徑。

      參考鏈接:

      [1]https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi

      [2]https://x.com/mckbrando/status/1870285050555810198

      [3]https://x.com/DrJimFan/status/1870542485023584334

      [4]https://arcprize.org/blog/oai-o3-pub-breakthrough

      —完—

      以上就是關(guān)于【Ilya宣判后GPT-5被曝屢訓(xùn)屢敗,一次訓(xùn)數(shù)月,數(shù)據(jù)要人工從頭構(gòu)建】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文為轉(zhuǎn)載,非本網(wǎng)原創(chuàng)內(nèi)容,不代表本網(wǎng)觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。