日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

賈揚清：大模型尺寸正在重走CNN的老路；馬斯克：在特斯拉也是這樣

發(fā)布時間：2024-08-02 09:00:10 編輯：來源：

導讀相信很多大家對賈揚清：大模型尺寸正在重走CNN的老路；馬斯克：在特斯拉也是這樣還不知道吧，今天菲菲就帶你們一起去了解一下~.~！ Transfo...

相信很多大家對賈揚清：大模型尺寸正在重走CNN的老路；馬斯克：在特斯拉也是這樣還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

Transformer大模型尺寸變化，正在重走CNN的老路!

看到大家都被LLaMA3.1吸引了注意力，賈揚清發(fā)出如此感慨。

拿大模型尺寸的發(fā)展，和CNN的發(fā)展作對比，就能發(fā)現(xiàn)一個明顯的趨勢和現(xiàn)象:

在ImageNet時代，研究人員和技術從業(yè)者見證了參數(shù)規(guī)模的快速增長，然后又開始轉向更小、更高效的模型。

聽起來，是不是和GPT哐哐往上卷模型參數(shù)，業(yè)界普遍認同Scaling Law，然后出現(xiàn)GPT-4o mini、蘋果DCLM-7B、谷歌Gemma2B如出一轍?

賈揚清笑稱，“這是前大模型時代的事兒，很多人可能都不咋記得了:）”。

而且，賈揚清不是唯一一個感知到這一點的人，AI大神卡帕西也這么覺得:

他甚至拍著胸脯打賭，表示我們一定能看到又好、又能可靠地思考的模型。

而且是參數(shù)規(guī)模很小很小的那種。

連馬斯克都在卡帕西的評論區(qū)連連稱是:

以上，大概可以稱之為“大佬所見略同”。

展開說說

賈揚清的感慨，要從只在最強王座上短暫待了一天的LLaMA3.1說起。

那是首次實現(xiàn)“最強開源模型=最強模型”，不出意外，萬眾矚目。

However，賈揚清在這個時候提出了一個觀點:

“但我認為，行業(yè)會因小型垂直模型而真正蓬勃發(fā)展。”

至于啥是小型垂直模型，賈揚清也說得很清楚，比如以Patrouns AI的Iynx（該公司的幻覺檢測模型，在幻覺任務上超過GPT-4o）為代表的那些很棒的中小模型。

賈揚清表示，就個人喜好而言，他本人是非常喜歡千億參數(shù)模型的。

但現(xiàn)實情況里，他觀察留意到，7B-70B參數(shù)規(guī)模之間的大模型，大家用起來更順手:

它們更容易托管，不需要巨大的流量即可盈利;

只要提出明確的問題，就能得到質量還不錯的輸出——與和之前的一些看法相反。

與此同時，他聽說OpenAI最新的、速度很快的模型也開始變得比“最先進的”大模型尺寸更小。

“如果我的理解是正確的，那么這絕對表明了行業(yè)趨勢?！辟Z揚清直接表明了自己的觀點，“即在現(xiàn)實世界中，使用適用的、具有成本效益、且仍然強大的模型?！?/p>

于是乎，賈揚清簡單梳理了CNN的發(fā)展歷程。

首先，是CNN的崛起時代。

以AlexNet（2012）為起點，開啟了大約三年的模型規(guī)模增長時期。

2014年出現(xiàn)的VGGNet就是一個性能和規(guī)模都非常強大的模型。

其次，是縮小規(guī)模時期。

2015年，GoogleNet把模型大小從“GB”縮小到了“MB”級別，即縮小了100倍;但模型性能并沒有因此驟減，反而保持了不錯的性能。

遵循類似趨勢的還有2015年面世的SqueezeNet模型等。

然后的一段時間，發(fā)展重點在追求平衡。

后續(xù)研究，如ResNet（2015）、ResNeXT(2016)等，都保持了一個適中的模型規(guī)模。

值得注意的是，模型規(guī)模的控制并沒有帶來計算量的減少——其實，大伙兒都愿意投入更多的計算資源，尋求一種“同等參數(shù)但更高效”的狀態(tài)。

緊接著就是CNN在端側起舞的一段時期。

舉個例子，MobileNet是谷歌在2017年推出的一項有趣的工作。

有趣就有趣在它占用的資源超級少，但是性能卻非常優(yōu)異。

就在上周，還有人跟賈揚清提到:“Wow～我們現(xiàn)在還在用MobileNet，因為它可以在設備上運行，而且在出色的特征嵌入泛化（Feature Embedding Generality）。”

最后，賈揚清借用了來源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一張圖:

并再一次發(fā)出自己的疑問:

大模型尺寸，會遵循與CNN時代相同的趨勢來發(fā)展嗎?

網(wǎng)友怎么看?

其實GPT-4o mini這樣走在大模型發(fā)展道路上“不大反小”的例子不在少數(shù)。

當上述幾位表達出這樣的觀點后，立馬有人點頭如搗蒜，還拿出了一些別的類似例子，證明他們看到了相同的趨勢。

有人立馬跟上:

還有網(wǎng)友表示，開發(fā)更大的模型，意味著能給后續(xù)幾代更小、更垂直的模型的訓練“上強度”。

這個迭代過程最終會產(chǎn)生所謂的“完美訓練集”。

這樣一來，較小的大模型在特定領域，能與現(xiàn)在參數(shù)巨大的大模型一樣聰明，甚至更聰明。

一言以蔽之，模型必須先變大，然后才能變小。

大多數(shù)討論此觀點的人，還是對這個趨勢比較認同，有人直言“這是一件好事，比‘我的模型比你的模型大’參數(shù)競賽更實用和有用?！?/p>

但是，當然了!

翻遍網(wǎng)絡評論區(qū)，也有人發(fā)出不同的聲音。

比如下面這位朋友就在賈揚清推文底下留言:

面對這個問題，賈揚清倒也及時回復了。

他是這么說的:“沒錯!我說大模型尺寸可能在走CNN的老路，絕對不意味著號召大家停止訓練更大的模型?！?/p>

他進一步解釋道，這么說的本意是，隨著技術（包括CNN和大模型）落地實踐越來越廣，大家已經(jīng)開始越來越關注性價比更高的模型了?！?/p>

所以，或許更高效的小·大模型，能夠重新定義AI的“智能”，挑戰(zhàn)“越大越好”的假設。

你贊同這個觀點不?

請在手機微信登錄投票

你贊同Transformer大模型尺寸會按CNN時代趨勢發(fā)展，“先大后小”嗎?單選我贊成我反對我就看看

以上就是關于【賈揚清：大模型尺寸正在重走CNN的老路；馬斯克：在特斯拉也是這樣】的相關內容，希望對大家有幫助！

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！

相關閱讀

最新文章

<small id="ngwpj"><kbd id="ngwpj"></kbd></small>

<small id="ngwpj"><abbr id="ngwpj"><strike id="ngwpj"></strike></abbr></small>