最火AI角色扮演流量已達(dá)谷歌搜索20%!每秒處理2萬推理請求,Transformer作者公開優(yōu)化秘訣
相信很多大家對最火AI角色扮演流量已達(dá)谷歌搜索20%!每秒處理2萬推理請求,Transformer作者公開優(yōu)化秘訣還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
什么AI應(yīng)用每秒處理20000個AI推理請求,達(dá)到2024年谷歌搜索流量的1/5?
答案是獨角獸Character.ai,由Transformer作者Noam Shazeer(后面簡稱沙哥)創(chuàng)辦。
剛剛,沙哥公布了推理優(yōu)化獨門秘訣,迅速引起業(yè)界熱議。
具體來說Character.ai在整個服務(wù)堆棧中實現(xiàn)了如下成績:
內(nèi)存高效架構(gòu)設(shè)計:將KV緩存大小減少20倍以上,而不會降低質(zhì)量
Attention狀態(tài)緩存:95%請求無需重算
直接用in8精度量化訓(xùn)練:推理零損失還省顯存
Character.AI通過以上種種優(yōu)化,已經(jīng)把推理成本降低到最初的1/33,如果用市場上最好的商業(yè)API來支撐這種級別的流量,成本會比現(xiàn)在高出13.5倍!
眾多公布的方法中,原生int8訓(xùn)練是最受關(guān)注的。
雖然大多數(shù)技巧都來自公開研究,但是正如網(wǎng)友所說,知道如何把它們高效整合在一起實現(xiàn)的團(tuán)隊才是真正的護(hù)城河。
秘訣1:高效利用顯存,attention 參數(shù)量降低20倍
大模型的一大痛點是顯存占用高,導(dǎo)致無法支持大批量推理。Attention 層中的 Key-Value(KV)緩存便是罪魁禍?zhǔn)字弧?/p>
為了降低顯存占用,Character.AI在Attention層大動手術(shù):
全面采用MQA(Multi-Query Attention)
與大多數(shù)開源模型中采用的GQA(Grouped-Query Attention)相比,將KV緩存大小減少了8倍。
而MQA正是沙哥本人2019年在谷歌期間提出的,有網(wǎng)友評價“當(dāng)一個人能在生產(chǎn)環(huán)境中引用自己的論文,就達(dá)到了一個新的高度”。
混合注意力視野
將局部注意力與全局注意力層交織在一起,使用滑動窗口訓(xùn)練局部注意力,將復(fù)雜度從 O(length^2) 降低到 O(length)。
團(tuán)隊發(fā)現(xiàn),將大多數(shù)注意力層的注意力范圍減少到1024不會對評估指標(biāo)產(chǎn)生重大影響,包括長上下文大海撈針基準(zhǔn)。在Character.ai生產(chǎn)模型中,每6層中只有1層使用全局注意力。
跨層KV共享
團(tuán)隊將KV緩存綁定在相鄰的注意力層上,這進(jìn)一步將 KV緩存大小減少了2-3倍。
對于全局注意力,跨塊綁定多個全局層的KV緩存,因為全局注意力層在長上下文用例中主導(dǎo)KV緩存大小,團(tuán)隊發(fā)現(xiàn)跨層共享KV不會降低質(zhì)量。
下圖中左半部分是標(biāo)準(zhǔn)Transformer設(shè)計,每個注意力都是全局注意力。右半部分為Character.ai的設(shè)計,藍(lán)色框表示全局注意力,綠色框表示局部注意力,連線表示KV共享。
這一套組合拳下來,KV緩存大小減少20倍以上,顯存再也不是瓶頸了。
秘訣2:巧用狀態(tài)緩存,95%請求無需重算
Character.AI還有一招神來之筆,就是在不同對話之間緩存Attention狀態(tài)。
作為聊天機(jī)器人角色扮演服務(wù),Character.AI上大部分對話都是連續(xù)多輪的,平均每個對話包含180條消息。如果每次都要重新計算前面的狀態(tài),成本可想而知。
于是團(tuán)隊設(shè)計了一個緩存機(jī)制,把每個對話的Prefix和生成的消息都緩存在內(nèi)存中,供后續(xù)調(diào)用。
借鑒RadixAttention的思路,樹狀結(jié)構(gòu)的LRU緩存組織緩存的KV張量。緩存的KV值由前綴token的Rolling Hash速檢索最長匹配的緩存,即使前綴只有部分匹配也能命中。
更妙的是,他們還用會話保持(Sticky Session)把同一對話路由到同一個服務(wù)器,進(jìn)一步提高緩存命中率。最終做到95%的請求都能復(fù)用已有緩存,大幅降低了計算成本。
下圖中,藍(lán)色框表示主機(jī)內(nèi)存上的緩存張量。綠色和黃色框表示CUDA內(nèi)存上的KV緩存。當(dāng)新查詢到達(dá)時,它檢索最長匹配前綴的KV緩存,Rolling Hash系統(tǒng)允許檢索部分匹配消息的緩存。
秘訣3:直接量化訓(xùn)練,推理零損失還省顯存
最后一招,Character.AI沒有采用常見的“訓(xùn)練后量化”,而是直接用Int8精度訓(xùn)練模型。
這種格式雖然表達(dá)精度降低,但通過精心設(shè)計定制的矩陣乘和 Attention 內(nèi)核,不僅把訓(xùn)練效率提高了好幾倍,而且還能無損用于推理。
不過沙哥在這里暫時留了一手,表示“量化訓(xùn)練本身就是一個復(fù)雜的話題,將在以后的文章中繼續(xù)討論?!?/p>
沙哥其人
最后再來介紹一下傳奇人物Noam Shazeer本人。
他1994年拿了信息學(xué)奧賽IOI金牌,后來畢業(yè)于杜克大學(xué)。
2000年加入谷歌,當(dāng)時全公司只有200人左右,他參與了谷歌搜索的拼寫糾正功能,后來也負(fù)責(zé)過早期廣告系統(tǒng)。
據(jù)知情人透露,在當(dāng)初面試谷歌時,沙哥就被問到如何實現(xiàn)拼寫糾正。他描述了一種根據(jù)其他用戶的輸入輸入記錄,進(jìn)行統(tǒng)計驗證的方法。
面試官Gmail之父Paul Buchheit意識到,沙哥的方案比谷歌當(dāng)時使用的要好。沙哥成功入職之后就把他的面試方案寫出來了。
在Transformer開山之作《Attention is All You Need》研究中,沙哥最后一個加入團(tuán)隊,一來就負(fù)責(zé)重新編寫了整個代碼。
在沙哥出手之前,Transformer早期原型性能并沒有超越當(dāng)時流行的LSTM方案,是他把早期設(shè)計中的卷積等模塊都拿掉,給出了一個極簡主義方案。最終破了BLEU測試的記錄,同時計算效率也更高。
隊友用“他是一個巫師”來評價他的工程和代碼能力。
除此之外,沙哥還有驚人的遠(yuǎn)見。在Transformer架構(gòu)問世不久,他就給谷歌高層寫信,提議公司放棄整個搜索索引,并用Transformer架構(gòu)訓(xùn)練一個巨大的神經(jīng)網(wǎng)絡(luò)替代。
2021年,沙哥離開谷歌后創(chuàng)辦了Character.AI,讓玩家簡單自創(chuàng)個性化AI陪聊,目前估值約50億美元。
最近有消息稱,Meta與馬斯克的
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價格,最低售價15.89萬起,趕緊行動
- 安徽淮南威然最新價格2024款,各配置車型售價全知曉
- 滁州途觀X最新價格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價格,最低售價9.69萬起,入手正當(dāng)時
- 安徽淮南探影多少錢 2023款落地價,各配置車型售價一目了然
- 淮南途觀X價格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價,購車前必看的費用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者