Hinton揭秘Ilya成長歷程:Scaling Law是他學(xué)生時(shí)代就有的直覺
相信很多大家對Hinton揭秘Ilya成長歷程:Scaling Law是他學(xué)生時(shí)代就有的直覺還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
2003年夏天的一個(gè)周日,AI教父Hinton在多倫多大學(xué)的辦公室里敲代碼,突然響起略顯莽撞的敲門聲。
門外站著一位年輕的學(xué)生,說自己整個(gè)夏天都在打工炸薯?xiàng)l,但更希望能加入Hinton的實(shí)驗(yàn)室工作。
Hinton問,你咋不預(yù)約呢?預(yù)約了我們才能好好談?wù)劇?/p>
學(xué)生反問,要不就現(xiàn)在吧?
這位年輕學(xué)生就是Ilya Sutskever,剛剛完成本科二年級的數(shù)學(xué)課程,從教務(wù)處打聽到“想學(xué)機(jī)器學(xué)習(xí),最好去找Hinton教授”。
他照做了,也因此成就了一段傳奇:
從AlexNet到AlphaGo,他兩次參與改變世界的研究。
OpenAI創(chuàng)立之初挖他去當(dāng)首席科學(xué)家,在他的領(lǐng)導(dǎo)下,推出了GPT系列早期版本、DALL·E系列、代碼大模型Codex,直到ChatGPT,再次改變世界。
多年后,他發(fā)動董事會內(nèi)訌,最終與OpenAI徹底分道揚(yáng)鑣,全世界都在等待著他的下一個(gè)動作。
在OpenAI的時(shí)候,Ilya并不像Altman那樣到處拋頭露面,也不像Brockman天天在網(wǎng)上分享自己的“編程之禪”。
僅有的幾次演講和訪談中也多是聊技術(shù)、宏觀思考,不常談及自己的經(jīng)歷,最近半年更是銷聲匿跡。
這次的故事,正是來自他的博士導(dǎo)師Geoffrey Hinton。
在與Sana Labs創(chuàng)始人的最新對話節(jié)目中,Hinton不僅講了自己的事,還回憶了師徒共事期間的一些往事。
20多年過去了,很多細(xì)節(jié)在Hinton的敘述里還是那么鮮活。
這段訪談錄像理所當(dāng)然的火了,除了軼事之外,還涉及Ilya的一些學(xué)術(shù)思想怎么來的,又是如何發(fā)展:
2010年Ilya就用GPU開發(fā)了一種語言模型
Scaling Law最早是他的一種直覺
兩人都認(rèn)為”語言模型不只是預(yù)測下一個(gè)token“
兩人都認(rèn)同“預(yù)測即壓縮壓縮即智能”
那么,Hinton眼中的Ilya,到底是什么樣子?
驚人的原始直覺
Ilya加入實(shí)驗(yàn)室后,Hinton給他布置的第一個(gè)任務(wù)是讀論文,一篇關(guān)于反向傳播的論文。
下一個(gè)周會,Ilya回來報(bào)告了,說“我不理解”。
Hinton很失望,內(nèi)心OS:“這孩子看著挺機(jī)靈的,咋連鏈?zhǔn)椒▌t求導(dǎo)這么基礎(chǔ)的東西都看不懂?”
Ilya連忙解釋,哦這個(gè)部分我懂了,我不理解的是,為什么不給梯度加一個(gè)sensible functional optimizer?
Hinto團(tuán)隊(duì)后來花了好幾年來解決這個(gè)問題,最初指出問題的卻是剛?cè)腴T一周的Ilya。
像這樣的情況后面還在反復(fù)發(fā)生……Hinton如此評價(jià)Ilya:
但Hinton也說搞不清楚Ilya這種直覺從何而來,或許歸功于他從小就對人工智能問題感興趣,再加上數(shù)學(xué)基礎(chǔ)很棒。
除了研究直覺,學(xué)生時(shí)期的Ilya也展現(xiàn)了超強(qiáng)的代碼和工程能力。
當(dāng)時(shí)還沒有TenserFlow或Torch之類流行框架,機(jī)器學(xué)習(xí)的主要工具和平臺是Matlab。
一項(xiàng)工作需要在Matlab里調(diào)整大量矩陣乘法代碼,Ilya做了一段時(shí)間就很不耐煩,說要為Matlab寫一個(gè)界面:
Hinton聽說后苦口婆心勸他,你可別,這得花上一個(gè)月時(shí)間,我們不要分心,把手頭項(xiàng)目先做完。
Ilya卻輕描淡寫地說,害,沒事,今天早上我已經(jīng)寫完了。
△這項(xiàng)工作出現(xiàn)在Ilya的博士畢業(yè)論文里
打小就堅(jiān)信Scaling Law
正如Hinton所言,Ilya在很多問題上有驚人的直覺。
今天全AI圈不少人信奉的Scaling Law,Ilya學(xué)生時(shí)代就已堅(jiān)信,并抓住各種機(jī)會向身邊的人安利:
后來到OpenAI成立之初,Ilya的表述更加完善了:
早年間Hinton看來,這就像是研究者在沒有創(chuàng)新的想法時(shí),一種“逃避責(zé)任”的表現(xiàn)。
Hinton提到在當(dāng)年那個(gè)時(shí)間節(jié)點(diǎn),沒人敢預(yù)料計(jì)算機(jī)速度今后會快上10億倍,最多想象到快100倍就不得了。
(此處應(yīng)插入比爾蓋茨曾預(yù)言64k內(nèi)存就足夠任何人用了笑話)
Ilya在2003年加入Hinton的實(shí)驗(yàn)室,不知具體何時(shí)開始有了Scaling Law的想法,可能在他腦海里已經(jīng)盤旋了20多年。
后來直到2020年,GPT-3發(fā)布的幾個(gè)月前,OpenAI團(tuán)隊(duì)才正式在論文中向世人完整定義和介紹這一理念。
在語言模型上用GPU,比AlexNet更早
2010年底,Ilya和另一個(gè)學(xué)生James Martens(現(xiàn)DeepMind研究科學(xué)家)合作研究了一種語言模型,后來入選ICML2011。
RNN架構(gòu),使用維基百科數(shù)據(jù),在8張當(dāng)時(shí)最先進(jìn)的GPU上訓(xùn)練,比在AlexNet上使用GPU還早兩年。
與今天的大語言模型預(yù)測下一個(gè)token不一樣,當(dāng)時(shí)他們嘗試的是一次預(yù)測一個(gè)字符。
這款模型能力有限,比如給一段起始文字,模型可以繼續(xù)生成看起來像維基百科文章的語句。
雖然語意上像是胡言亂語,但語法和標(biāo)點(diǎn)符號大部分是準(zhǔn)確的,引號和括號已經(jīng)能成對出現(xiàn),主語和動詞形態(tài)一致,比如論文中的一段:
當(dāng)時(shí)多倫多大學(xué)??牟稍L中,Ilya認(rèn)為這已經(jīng)超出了所有人的預(yù)期:
Hinton理智上也無法去相信這個(gè)系統(tǒng)能“理解”任何事,但它看起來就像是理解了。
比如給它一個(gè)地點(diǎn)組成的列表,它可以繼續(xù)生成地點(diǎn),盡管還分不出國家和州的區(qū)別。
當(dāng)年的Ilya并不愿意討論這項(xiàng)工作的潛在應(yīng)用。
在維基百科上成功后,團(tuán)隊(duì)又嘗試了紐約時(shí)報(bào)文章數(shù)據(jù),目標(biāo)是教會它根據(jù)文字識別不同作者的身份。
但I(xiàn)lya已經(jīng)想到并承認(rèn),如果做的足夠好,這項(xiàng)技術(shù)有一天可能成為洗稿軟件的基礎(chǔ)。
如今,這篇論文的代碼依然存放在多倫多大學(xué)的服務(wù)器上,供感興趣的人研究。
不止是預(yù)測下一個(gè)token
后來的AlexNet、師徒三人“拍賣”自己加入谷歌等大家已熟知的故事,這里先略過。
Ilya加入OpenAI后,雖然不再與Hinton共事,但兩人的學(xué)術(shù)思想始終在一條路上。
ChatGPT問世后,不少人批評大模型本質(zhì)上只是統(tǒng)計(jì)學(xué),預(yù)測下一個(gè)token,就像隨機(jī)模仿人類說話的鸚鵡。
但Hinton和Ilya師徒二人都認(rèn)為,遠(yuǎn)不止如此。
在Hinton眼中,問題之后的下一個(gè)token,便是答案的第一個(gè)token。
因此學(xué)會預(yù)測,就意味著必須學(xué)會理解問題。
這種理解的方式與人類相似,同時(shí)與老式基于三元組數(shù)據(jù)的自動補(bǔ)全有根本不同。
Ilya更是不遺余力傳播這套理論,在去年和英偉達(dá)老黃的爐邊對話中說了這個(gè),在OpenAI內(nèi)訌兩周前最后一個(gè)公開采訪中也講了這個(gè):
這就是Ilya認(rèn)為的,為什么“預(yù)測下一個(gè)token”范式有可能抵達(dá)AGI,甚至有可能超越人類直至ASI。
預(yù)測即壓縮,壓縮即智能
在不同場合提到“預(yù)測下一個(gè)Token”時(shí),Ilya大概率會同時(shí)提到“壓縮”,他認(rèn)為預(yù)測即是壓縮,壓縮就是智能的來源。
但I(xiàn)lya總是從理論的角度去解釋這個(gè)想法,并不容易讓所有人都能理解。
比如在UC Berkley的一場演講中,他這樣解釋:
- “Kolmogorov壓縮器”,是理論上能生成特定數(shù)據(jù)集的、長度最短的一段程序,能最小化遺憾值。
- 隨機(jī)梯度下降,可以看成在軟計(jì)算機(jī)(比如大型Transformer)的權(quán)重里,搜索隱含的“Kolmogorov壓縮器”。
- 神經(jīng)網(wǎng)絡(luò)越大,就越能更好的近似“Kolmogorov壓縮器”,遺憾值越低。
Hinton也認(rèn)同這個(gè)說法,并且在訪談中舉了非常形象的例子。
如果你問GPT-4堆肥和原子彈相似性在哪,大多數(shù)人類都回答不出來,認(rèn)為它們是非常不同的兩種東西。
GPT-4會告訴你,雖然他們的能量規(guī)模不同,時(shí)間尺度不同,但仍有相同之處:
當(dāng)堆肥變熱時(shí),產(chǎn)生熱量的速度就更快。
當(dāng)原子彈產(chǎn)生更多中子時(shí),產(chǎn)生中子的速度也更快。
通過類比,AI就理解了“鏈?zhǔn)椒磻?yīng)”的概念。
Hinton認(rèn)為,AI在利用這種理解去將所有信息壓縮到自己的權(quán)重中。
Hinton眼中什么是好學(xué)生?
說回到兩人相遇時(shí),Hinton談到,與他交談沒多久就能看出他很聰明。
再多交談一會,就能發(fā)現(xiàn)他有很好的直覺,而且擅長數(shù)學(xué)。
所以選Ilya做學(xué)生是非常容易做出的決定。
那么如何挑選其他學(xué)生?Hinton也用了Ilya最擅長的方法:跟著直覺走。
如果試圖吸收被告知的一切,最終會得到一個(gè)非常模糊的框架。相信一切,但是沒有用處。
所以Hinton眼中的好學(xué)生,應(yīng)該擁有一個(gè)堅(jiān)定的世界觀,并試圖擺弄輸入的事實(shí)以適應(yīng)你的觀點(diǎn)。
后來我們也能看到,兩人都是秉持這樣的理念,堅(jiān)持著“大模型不止是預(yù)測下一個(gè)token”,堅(jiān)持著“預(yù)測即壓縮,壓縮即智能”。
他們也都堅(jiān)持認(rèn)為,這個(gè)世界應(yīng)該更加重視AI帶來的風(fēng)險(xiǎn),一個(gè)因此離開了工作10年的谷歌,一個(gè)因此離開了一手拉扯大的OpenAI。
Hinton訪談完整視頻
https://www.youtube.com/watch?v=tP-4njhyGvo
參考鏈接:
[1]https://x.com/joelhellermark/status/1791398092400390195
[2]https://www.cs.utoronto.ca/~ilya/pubs/ilya_sutskever_phd_thesis.pdf
[3]https://magazine.utoronto.ca/people/students/ilya-sutskever-google-phd-fellowship/
[4]https://www.utoronto.ca/news/u-t-alum-leading-ai-research-1-billion-non-profit-backed-elon-musk
[5]https://icml.cc/2011/papers/524_icmlpaper.pdf
[6]https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s52092
[7]https://www.youtube.com/watch?v=Yf1o0TQzry8
以上就是關(guān)于【Hinton揭秘Ilya成長歷程:Scaling Law是他學(xué)生時(shí)代就有的直覺】的相關(guān)內(nèi)容,希望對大家有幫助!