日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      Karpathy 4小時(shí)AI大課上線,小白看了都會(huì)從零構(gòu)建GPT-2

      發(fā)布時(shí)間:2024-06-12 16:30:07 編輯: 來源:
      導(dǎo)讀 相信很多大家對(duì)Karpathy 4小時(shí)AI大課上線,小白看了都會(huì)從零構(gòu)建GPT-2還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 距上次Karpathy ...

      相信很多大家對(duì)Karpathy 4小時(shí)AI大課上線,小白看了都會(huì)從零構(gòu)建GPT-2還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      距上次Karpathy AI大課更新之后,又有了1個(gè)多月的時(shí)間。這次他帶了超詳細(xì)的4小時(shí)課程——從零開始實(shí)現(xiàn)1.24億參數(shù)規(guī)模的GPT-2模型。

      大神Karpathy新一期AI大課又上線了。

      這一次,他講的內(nèi)容是——從頭開始實(shí)現(xiàn)124M大小的GPT-2模型,足足有4個(gè)小時(shí)。

      Karpathy對(duì)這個(gè)視頻2個(gè)字總結(jié):全面。

      也就是說,這就是手把手教程,就連AI小白看后,都會(huì)搭建GPT-2了。

      Karpathy稱這是從0到英雄(Zero To Hero)的系列中最新的視頻。

      翻看以往Zero To Hero系列中的視頻,最長的也不過2小時(shí)25分,這次4小時(shí)完全創(chuàng)下了最新記錄。

      帖子中,他highlight了最新視頻中的一些重點(diǎn)內(nèi)容:

      - 我們首先構(gòu)建GPT-2神經(jīng)網(wǎng)絡(luò)

      - 然后對(duì)其進(jìn)行優(yōu)化,以實(shí)現(xiàn)快速訓(xùn)練

      - 參考GPT-2和GPT-3論文,設(shè)置訓(xùn)練運(yùn)行優(yōu)化和超參數(shù)

      - 啟動(dòng)模型評(píng)估

      - 祈禱一切順利,上床睡覺

      - 等到第二天早上,便可查看模型的結(jié)果,欣賞模型生成的有趣輸出。

      發(fā)布短短的幾個(gè)小時(shí),視頻已經(jīng)有了11萬次播放量。

      Karpathy表示,這次「過夜」的訓(xùn)練結(jié)果,表現(xiàn)甚至接近GPT-3(124M)模型的水平。

      順便提一句,Karpathy自己做的封面配圖,也很有趣,直接把英偉達(dá)GPU點(diǎn)起來了。

      網(wǎng)友在下面評(píng)論道,Karpathy就是我的神!

      華裔天才少年Alexandr Wang稱,「你的視頻就相當(dāng)于流行音樂明星發(fā)布的新單曲」。

      「我的生活很簡單,Karpathy上線GPT-2『大片』,看就完事兒了」。

      視頻下方,許多網(wǎng)友紛紛為這個(gè)免費(fèi)課程「打賞」。

      接下來,讓我們一起來看看這節(jié)課講了什么?

      4小時(shí)大課,干貨滿滿

      最開始部分,Karpathy先介紹了下GPT-2的情況。

      2019年,OpenAI首次發(fā)布了GPT-2模型,并公布了相關(guān)論文和代碼。

      論文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

      而這次的視頻,就是要復(fù)現(xiàn)一個(gè)GPT-2模型,共有1.24億參數(shù)的模型。

      之所以選擇這一參數(shù),要清楚的是,GPT-2在發(fā)布前會(huì)有一個(gè)小系列(miniseries),其中有4種參數(shù),而最大的那個(gè)稱為GPT-2。

      另外,你可以將模型放在X軸上,各種下游指標(biāo)放在Y軸上,便可以畫出Sacling Law定律的曲線?;旧?,隨著模型規(guī)模擴(kuò)大,下游任務(wù)性能越好。

      1.24億參數(shù)Transformer架構(gòu)共有12層,并且有768個(gè)通道(channels)。

      GPT-2發(fā)布已經(jīng)是5年前的事了,而現(xiàn)在復(fù)現(xiàn)容易得很多,對(duì)GPU計(jì)算需求沒那么大,大概需要1個(gè)小時(shí),10美元的成本。

      Karpathy表示,自己訓(xùn)練模型的GPU來自Lambda GPU Cloud,因?yàn)樗J(rèn)為這是在云中按需啟動(dòng)GPU實(shí)例的最佳和最簡單的方法。

      接下來,第一步就是加載GPT-2模型,進(jìn)入GitHub源代碼庫,然后點(diǎn)擊modle.py。

      可以看到,這個(gè)模型使用的Tensorflow編寫的。

      Karpathy尷尬地表示道,「現(xiàn)在我們很少使用了,直接從更友好的Pytorch開始」。

      為了更方便地復(fù)現(xiàn),Karpathy還選擇使用了Hugging Face上的GPT-2代碼,其基于Transformer重新搭建,更容易使用。

      接下來,就是從Hugging Face頁面中,導(dǎo)入GPT-2模型。

      在預(yù)訓(xùn)練GPT-2之前,如果想要復(fù)現(xiàn)一個(gè)1.5B模型,只需在gpt2后面,加上-xl。

      下面,將Pytorch NN模塊初始化為在如下類中定義,然后打印鍵值。

      如下是,GPT-2模型內(nèi)部不同的參數(shù)和形狀,W token嵌入的權(quán)重大小是50257,768。

      這節(jié)課共分為4個(gè)部分,接下來從構(gòu)建到參數(shù)微調(diào),Karpathy都給出了非常詳細(xì)的講解。

      第一節(jié)是實(shí)施GPT-2nn.模塊。

      第二節(jié)是速戰(zhàn)速?zèng)Q,混合精度的GPU,1000ms

      第三節(jié)是Hyperpamats,AdamW,梯度剪裁

      第四節(jié)是等待結(jié)果!GPT-2、GPT-3復(fù)現(xiàn)對(duì)比

      最后,睡覺得到的結(jié)果,第二天再看結(jié)果。

      模型的訓(xùn)練損失也在不斷下降,而且與GPT-3的性能相媲美。

      最后,這個(gè)4小時(shí)的大課,小編放這兒了。參考資料:

      https://x.com/karpathy/status/1799949853289804266

      https://www.youtube.com/watch?v=l8pRSuU81PU

      以上就是關(guān)于【Karpathy 4小時(shí)AI大課上線,小白看了都會(huì)從零構(gòu)建GPT-2】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章