日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      世界模型又近了?MIT驚人研究:LLM已模擬現(xiàn)實(shí)世界,絕非隨機(jī)鸚鵡!

      發(fā)布時(shí)間:2024-08-18 10:30:31 編輯: 來源:
      導(dǎo)讀 相信很多大家對(duì)世界模型又近了?MIT驚人研究:LLM已模擬現(xiàn)實(shí)世界,絕非隨機(jī)鸚鵡!還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 【新智...

      相信很多大家對(duì)世界模型又近了?MIT驚人研究:LLM已模擬現(xiàn)實(shí)世界,絕非隨機(jī)鸚鵡!還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      【新智元導(dǎo)讀】MIT CSAIL的研究人員發(fā)現(xiàn),LLM的「內(nèi)心深處」已經(jīng)發(fā)展出了對(duì)現(xiàn)實(shí)的模擬,模型對(duì)語言和世界的理解,絕不僅僅是簡單的「鸚鵡學(xué)舌」。也就說,在未來,LLM會(huì)比今天更深層地理解語言。

      LLM離世界模型,究竟有多遠(yuǎn)?

      去年,MIT的一篇文章發(fā)現(xiàn)了驚人的結(jié)論:在LLM內(nèi)部,存在一個(gè)世界模型。

      LLM不僅學(xué)習(xí)了表面的統(tǒng)計(jì)數(shù)據(jù),還學(xué)習(xí)了包括空間和時(shí)間等基本緯度的世界模型。

      Llama-2-70B竟然能夠描繪出研究人員真實(shí)世界的文字地圖

      不僅如此,MIT最近又發(fā)現(xiàn):在LLM的深處,發(fā)展出了一種對(duì)現(xiàn)實(shí)的模擬,它們對(duì)語言的理解,已經(jīng)遠(yuǎn)遠(yuǎn)超出了簡單的模仿!

      論文地址:https://arxiv.org/abs/2305.11169

      具體來說,MIT計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室 (CSAIL)的兩名學(xué)者發(fā)現(xiàn)——

      盡管只用「預(yù)測下一個(gè)token」這種看似只包含純粹統(tǒng)計(jì)概率的目標(biāo),來訓(xùn)練LLM學(xué)習(xí)編程語言,模型依舊可以學(xué)習(xí)到程序中的形式化語義。

      這表明,語言模型可能會(huì)發(fā)展自己對(duì)現(xiàn)實(shí)的理解,以此作為提高其生成能力的一種方式。

      因此,LLM在未來的某一天,可能會(huì)比今天更深層次地理解語言。

      目前這篇文章已被ICML2024接收,實(shí)驗(yàn)所用代碼也已經(jīng)公布在GitHub上。

      倉庫地址:https://github.com/charlesjin/emergent-semantics

      沒有眼睛,LLM就「看」不到嗎?

      如果讓GPT-4去聞一下被雨水浸濕的露營地的味道,它會(huì)禮貌地拒絕你。

      不過,它仍然會(huì)給你一個(gè)詩意的描述:有新鮮的泥土香氣,和清爽的雨味,還有松樹或濕樹葉的痕跡。

      GPT-4沒見過下雨,也沒有鼻子,但它能模仿大量訓(xùn)練數(shù)據(jù)中存在的文本。

      缺少一雙眼睛,是不是就意味著語言模型永遠(yuǎn)無法理解「獅子比家貓更大」?

      LLM能理解現(xiàn)實(shí)世界和各種抽象概念嗎?還是僅僅在「鸚鵡學(xué)舌」,純粹依靠統(tǒng)計(jì)概率預(yù)測下一個(gè)token?

      LLM的工作原理,依舊是未解之謎。AI圈的大佬們,時(shí)不時(shí)就要因?yàn)檫@個(gè)問題展開一場論戰(zhàn)。

      LeCun堅(jiān)定認(rèn)為,LLM的智能絕對(duì)被高估了!他最著名的論斷,就是那句「大語言模型不如家里養(yǎng)的貓」。

      「貓可以記憶,可以理解物理世界,可以計(jì)劃復(fù)雜的行動(dòng),可以進(jìn)行一定程度的推理,這實(shí)際上已經(jīng)比最大的模型要好了,意味著我們在概念層面有重要的缺失,無法讓機(jī)器像動(dòng)物和人類一樣聰明?!?/p>

      沒有感官,不耽誤ChatGPT為你描述各種氣味和圖片;沒有生活經(jīng)驗(yàn),很多用戶依舊「遇事不決,ChatGPT解決」;看起來完全沒有共情能力,Character.ai上的「心理學(xué)家」還是能俘獲美國一千萬青少年的心。

      很多人將此解釋為純粹的統(tǒng)計(jì)現(xiàn)象,LLM只是在「鸚鵡學(xué)舌」,對(duì)大量訓(xùn)練語料中存在的文本進(jìn)行模仿,并不是像人類一樣擁有同等水平的智能或感知。

      但現(xiàn)在,MIT的研究證明,并非如此!

      LLM內(nèi)部,絕對(duì)存在著對(duì)現(xiàn)實(shí)世界的理解。

      LLM破解卡雷爾謎題,意味著什么

      為了探究這個(gè)謎團(tuán),MIT CSAIL的研究者們,開發(fā)了一套小型卡雷爾謎題(Karel Puzzle)。

      簡單介紹下,什么是卡雷爾謎題

      其中包括讓模型用指令在模擬環(huán)境中控制機(jī)器人的行動(dòng)。

      卡雷爾語法規(guī)范

      然后他們在訓(xùn)練LLM學(xué)習(xí)一種特定的解決方案,但沒有演示其中的工作原理。

      最后,作者提出了一種名為「探針」(probing)的機(jī)器學(xué)習(xí)技術(shù),用于在模型生成新解決方案時(shí),深入了解其中的「思維過程」。

      研究者通過對(duì)隨機(jī)參考程序進(jìn)行采樣來構(gòu)建訓(xùn)練示例,然后對(duì)5個(gè)隨機(jī)輸入進(jìn)行采樣并執(zhí)行程序,以獲得相應(yīng)的5個(gè)輸出。LM由交錯(cuò)輸入和輸出組成的示例語料庫上進(jìn)行下一個(gè)token預(yù)測訓(xùn)練,然后是參考程序。在測試時(shí),研究者向LM提供看不見的輸入輸出規(guī)范,并使用貪婪解碼來預(yù)測程序

      在超過100萬個(gè)隨機(jī)謎題上進(jìn)行訓(xùn)練后,研究人員發(fā)現(xiàn),模型自發(fā)地形成了對(duì)底層模擬環(huán)境的概念!盡管訓(xùn)練期間,它們并沒有接觸過這方面的信息。

      這個(gè)結(jié)果,不僅挑戰(zhàn)了我們對(duì)LLM的固有印象,也質(zhì)疑了我們對(duì)思維過程本質(zhì)的認(rèn)知——

      在學(xué)習(xí)語義的過程中,究竟哪些類型的信息才是必需的?

      實(shí)驗(yàn)剛開始時(shí),模型生成的隨機(jī)指令幾乎無法運(yùn)行;但完成訓(xùn)練時(shí),指令的正確率達(dá)到了92.4%。

      論文一作Jin表示,「這是一個(gè)非常激動(dòng)人心的時(shí)刻,因?yàn)槲覀冋J(rèn)為,如果語言模型能以這種準(zhǔn)確度完成任務(wù),我們也會(huì)期望,它能理解語言的含義?!?/p>

      「這給了我們一個(gè)起點(diǎn),來探索LLM是否確實(shí)能理解文本,現(xiàn)在我們看到,模型的能力,遠(yuǎn)不止于盲目地將單詞拼接在一起?!?/p>

      打開LLM的大腦

      在這項(xiàng)實(shí)驗(yàn)中,Jin親眼目睹了這一進(jìn)展。

      LLM為什么會(huì)認(rèn)為,這些指令指的是這個(gè)意思?

      他發(fā)現(xiàn),LLM已經(jīng)開發(fā)了自己的內(nèi)部模擬,來模擬機(jī)器人如何響應(yīng)每條指令而移動(dòng)。

      而隨著模型解決難題的能力越來越高,這些概念也就變得越來越準(zhǔn)確,這就表明:LM開始理解指令了。

      不久之后,LLM就能始終如一地將各部分正確地拼接在一起,形成工作指令。

      通過不同的探針分類器測量的語義內(nèi)容(綠色)

      思維探針

      而為上述發(fā)現(xiàn)做出主要貢獻(xiàn)的,就是一種「思維探針」。

      這是一種介入LLM思維過程的有效工具,論文將它稱為「probing」。

      具體而言,LM的狀態(tài)中包含輸入和生成程序的純語法層面的記錄,但probe似乎可以學(xué)習(xí)理解其中的抽象解釋。

      實(shí)際的實(shí)驗(yàn)中,作者首先構(gòu)建LLM的狀態(tài)跟蹤數(shù)據(jù)集,再用標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)方法訓(xùn)練一個(gè)小型模型作為探針,比如線性分類器或2層MLP。

      訓(xùn)練后半段當(dāng)前和接下來兩個(gè)抽象狀態(tài)的語義內(nèi)容(1層MLP)

      然而,其中一個(gè)重要的問題在于,必須將probe和模型實(shí)際的思考過程或生成的指令進(jìn)行分離。

      雖然探針的唯一目的,只是「進(jìn)入LLM的大腦」,但如果它也為模型做了一些思考,該怎么辦呢?

      研究者需要確保的是,LLM能夠獨(dú)立于探針理解指令,而不是由探針根據(jù)LLM對(duì)語法的掌握來推斷機(jī)器人的動(dòng)作。

      想象一下,有一堆編碼LLM思維過程的數(shù)據(jù),其中probe的角色就像一名取證分析師。

      我們把這堆數(shù)據(jù)交給了分析師,告訴ta:「這是機(jī)器人的動(dòng)作,試著在這堆數(shù)據(jù)中,找出機(jī)器人是怎么動(dòng)的。」分析師表示,自己知道這堆數(shù)據(jù)中的機(jī)器人是怎么回事。

      但是,假如這堆數(shù)據(jù)只是對(duì)原始指令進(jìn)行了編碼,而分析人員已經(jīng)想出了一些巧妙的方法來提取指令,并按照指令進(jìn)行相應(yīng)的操作呢?

      在這種情況下,LLM就根本沒有真正了解到這些指令的含義。

      為此,研究者特意做了一個(gè)巧妙的設(shè)計(jì):它們?yōu)槟P痛蛟炝艘粋€(gè)「奇異世界」。

      在這個(gè)世界中,probe的指令含義被反轉(zhuǎn)了,比如「向上」其實(shí)意味著「向下」。

      例如,原始語義中的exec(turnRight,·)是將使機(jī)器人順時(shí)針旋轉(zhuǎn)90度,而exec adversarial(turnRight,·)是將機(jī)器人推進(jìn)一個(gè)空間

      這就保證了,probe并不是在「投機(jī)取巧」,直接學(xué)習(xí)理解LLM對(duì)指令的編碼方式。

      一作Jin這樣介紹道——

      如果探針是將指令翻譯成機(jī)器人的位置,那么它應(yīng)該同樣能夠根據(jù)離奇的含義翻譯指令。

      但如果探頭實(shí)際上是在語言模型的思維過程中,尋找原始機(jī)器人動(dòng)作的編碼,那么它應(yīng)該很難從原始思維過程中提取出怪誕的機(jī)器人動(dòng)作。

      結(jié)果發(fā)現(xiàn),探針出現(xiàn)了翻譯錯(cuò)誤,無法解釋具有不同指令含義的語言模型。

      這就意味著,原始語義被嵌入了語言模型中,表明LLM能夠獨(dú)立于原始探測分類器,理解所需的指令。

      上半部分描述了在干預(yù)前,兩種情況如何導(dǎo)致測量的高語義內(nèi)容。下半部分顯示了為什么將兩個(gè)假設(shè)分開: 如果LM表示僅包含語法(左下),那么應(yīng)該可以訓(xùn)練探針alt來學(xué)習(xí)根據(jù)替代狀態(tài)prog(粗體紅色結(jié)果)解釋記錄;然而,如果LM表示編碼原始抽象狀態(tài)(右下),則探測alt需要從原始狀態(tài)prog中提取替代狀態(tài)'prog,從而產(chǎn)生較低的語義內(nèi)容(粗體灰色結(jié)果)

      LLM理解語言,就像孩童一樣

      有趣的是,Jin發(fā)現(xiàn),LLM對(duì)語言的理解是分階段發(fā)展的,就像孩子學(xué)習(xí)語言時(shí)分多個(gè)步驟一樣。

      開始,它會(huì)像嬰兒一樣牙牙學(xué)語,說出的話是重復(fù)的,而且大多數(shù)都難以理解。

      然后,LLM會(huì)開始獲取語法或語言規(guī)則,這樣,它就能夠生成看起來像是真正解決方案的指令了,但此時(shí)它們?nèi)匀徊黄鹱饔谩?/p>

      不過,LLM的指令會(huì)逐漸進(jìn)步。

      一旦模型獲得了意義,它就會(huì)像孩子造句一樣,開始產(chǎn)生正確執(zhí)行所要求規(guī)范的指令。

      結(jié)果如圖2所示,可以看出LLM對(duì)語言的理解大致分為3個(gè)階段,就如同孩童學(xué)習(xí)語言一樣。

      牙牙學(xué)語(babbling,灰色部分):占據(jù)整個(gè)訓(xùn)練過程約50%,生成高度重復(fù)的程序,準(zhǔn)確率穩(wěn)定在10%左右

      語法習(xí)得(syntax acquisition,橙色部分):訓(xùn)練過程的50%~75%,生成結(jié)果的多樣性急劇增加,句法屬性發(fā)生顯著變化,模型開始對(duì)程序的token進(jìn)行建模,但生成的準(zhǔn)確率的提升并不明顯

      語義習(xí)得(semantics acquisition,黃色部分):訓(xùn)練過程的75%到結(jié)束,多樣性幾乎不變,但生成準(zhǔn)確率大幅增長,表明出現(xiàn)了語義理解

      實(shí)驗(yàn)使用了三種不同的probe架構(gòu)作為對(duì)比,分別是線性分類器、單層MLP和2層MLP。

      提前2步預(yù)測時(shí),2層MLP預(yù)測準(zhǔn)確率的絕對(duì)值高于用當(dāng)前狀態(tài)預(yù)測的基線模型。或許可以得出這樣一種推測:LLM在生成指令前,其思維過程,以及生成指令的「意圖」已經(jīng)存儲(chǔ)在模型內(nèi)部了。

      LLM = 世界模型?

      這項(xiàng)研究解釋了LLM如何思考訓(xùn)練數(shù)據(jù)中每條指令的含義,如何在內(nèi)部狀態(tài)中模擬機(jī)器人對(duì)指令的響應(yīng)。

      這些都直指當(dāng)前AI研究的一個(gè)核心問題——LLM令人驚訝的能力,僅僅是由于大規(guī)模的統(tǒng)計(jì)相關(guān)性,還是對(duì)它們現(xiàn)實(shí)產(chǎn)生了有意義的理解?

      研究表明,LLM開發(fā)了一個(gè)模擬現(xiàn)實(shí)的內(nèi)部模型,盡管它從未接受過開發(fā)該模型的訓(xùn)練。

      而且,語言模型還可以進(jìn)一步加深對(duì)語言的理解。

      然而,僅靠一篇論文顯然不能完全回答這個(gè)問題。

      作者Jin也承認(rèn),這項(xiàng)研究存在一些局限性:他們僅使用了非常簡單的編程語言Karel,以及非常簡單的probe模型架構(gòu)。

      未來的工作將關(guān)注更通用的實(shí)驗(yàn)設(shè)置,也會(huì)充分利用對(duì)于LLM「思維過程」的見解來改進(jìn)訓(xùn)練方式。

      本文另一位作者Rinard表示,「一個(gè)有趣的懸而未決的問題是,在解決機(jī)器人導(dǎo)航問題時(shí),LLM是在用內(nèi)部現(xiàn)實(shí)模型來推理現(xiàn)實(shí)嗎?」

      雖然論文展現(xiàn)的結(jié)果可以支持這一結(jié)論,但實(shí)驗(yàn)并不是為回答這個(gè)問題而設(shè)計(jì)的。

      布朗大學(xué)計(jì)算機(jī)科學(xué)和語言學(xué)系助理教授Ellie Pavlick高度贊揚(yáng)了這項(xiàng)研究。

      她表示,對(duì)LLM工作原理的理解,可以讓我們對(duì)這項(xiàng)技術(shù)的內(nèi)在可能性和局限性有更合理的期望。這項(xiàng)研究正是在受控環(huán)境中探索這個(gè)問題。

      計(jì)算機(jī)代碼像自然語言一樣,既有語法又有語義;但與自然語言不同的是,代碼的語義更直觀,并可以根據(jù)實(shí)驗(yàn)需要直接控制。

      「實(shí)驗(yàn)設(shè)計(jì)很優(yōu)雅,他們的發(fā)現(xiàn)也很樂觀,這表明也許LLM可以更深入地了解語言的『含義』。」

      以上就是關(guān)于【世界模型又近了?MIT驚人研究:LLM已模擬現(xiàn)實(shí)世界,絕非隨機(jī)鸚鵡!】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章