日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<p id="agmrw"><kbd id="agmrw"></kbd></p>

馬毅教授CRATE-α模型首次證實(shí)白盒Transformer可擴(kuò)展性

發(fā)布時(shí)間：2024-06-06 17:00:25 編輯：來源：

導(dǎo)讀相信很多大家對(duì)馬毅教授CRATE-α模型首次證實(shí)白盒Transformer可擴(kuò)展性還不知道吧，今天菲菲就帶你們一起去了解一下~.~！站長(zhǎng)之家（ChinaZ....

相信很多大家對(duì)馬毅教授CRATE-α模型首次證實(shí)白盒Transformer可擴(kuò)展性還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

站長(zhǎng)之家（ChinaZ.com）6月6日消息:馬毅教授團(tuán)隊(duì)最近取得了顯著的研究成果，他們開發(fā)的CRATE-α模型首次證實(shí)了白盒Transformer架構(gòu)的可擴(kuò)展性。這一進(jìn)展對(duì)于自然語(yǔ)言處理（NLP）、圖像處理和視覺計(jì)算領(lǐng)域的深度表征學(xué)習(xí)具有重要意義。

盡管Transformer架構(gòu)及其變體在AI領(lǐng)域取得了巨大成功，但它們大多基于經(jīng)驗(yàn)設(shè)計(jì)，缺乏嚴(yán)格的數(shù)學(xué)解釋。CRATE模型通過數(shù)學(xué)推導(dǎo)得到每一層，提供了更好的可解釋性。不過，CRATE的應(yīng)用規(guī)模之前相對(duì)有限，與Vision Transformer的參數(shù)量相比有較大差距。

為了解決這一問題，研究團(tuán)隊(duì)提出了CRATE-α，它對(duì)稀疏編碼塊進(jìn)行了策略性但最小化的修改，并設(shè)計(jì)了輕量級(jí)的訓(xùn)練方法，有效提高了CRATE的可擴(kuò)展性。實(shí)驗(yàn)結(jié)果顯示，CRATE-α的性能隨著模型尺寸和訓(xùn)練數(shù)據(jù)集的增大而持續(xù)提升。在ImageNet分類任務(wù)上，CRATE-α-B和CRATE-α-L的準(zhǔn)確率顯著提高，同時(shí)保持了CRATE模型的可解釋性。

研究人員使用了ImageNet-21K和ImageNet-1K數(shù)據(jù)集進(jìn)行訓(xùn)練和微調(diào)，證明了CRATE-α在不同像素塊大小下的性能。此外，他們還采用了多模態(tài)數(shù)據(jù)集DataComp1B，包含14億圖文對(duì)，通過對(duì)比學(xué)習(xí)的方法訓(xùn)練CRATE-α，并使用優(yōu)化的CLIPA協(xié)議減少計(jì)算資源消耗。

CRATE-α模型的可擴(kuò)展性通過在ImageNet-1K數(shù)據(jù)集上的零樣本學(xué)習(xí)評(píng)估得到了證明，這為衡量模型的泛化能力提供了重要指標(biāo)。研究人員還發(fā)現(xiàn)了節(jié)省計(jì)算資源的擴(kuò)展策略，通過調(diào)整預(yù)訓(xùn)練階段的圖像token序列長(zhǎng)度，在減少計(jì)算資源消耗的同時(shí)，保持了模型性能。

CRATE-α的語(yǔ)義可解釋性也得到了提升，使用MaskCut評(píng)估模型捕獲的豐富語(yǔ)義信息，CRATE-α在目標(biāo)檢測(cè)和分割方面比現(xiàn)有模型有所提高。這些研究成果不僅推動(dòng)了Transformer模型的發(fā)展，也為未來的研究和應(yīng)用開辟了新的道路。

論文:https://arxiv.org/pdf/2405.20299

項(xiàng)目地址:https://rayjryang.github.io/CRATE-alpha/

以上就是關(guān)于【馬毅教授CRATE-α模型首次證實(shí)白盒Transformer可擴(kuò)展性】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新文章