比OpenAI的Whisper快50%,最新開源語音模型
相信很多大家對比OpenAI的Whisper快50%,最新開源語音模型還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
生成式AI初創(chuàng)公司aiOla在官網(wǎng)開源了最新語音模型Whisper-Medusa,推理效率比OpenAI開源的Whisper快50%。
aiOla在Whisper的架構(gòu)之上進行了修改采用了“多頭注意力”機制的并行計算方法,允許模型在每個推理步驟中預測多個token,同時不會損失性能和識別準確率。
開源地址:https://github.com/aiola-lab/whisper-medusa
huggingface:https://huggingface.co/aiola/whisper-medusa-v1
傳統(tǒng)的Transformer架構(gòu)在生成序列時,是遵循逐個token的順序預測過程。這意味著在生成新序列時,模型每次只能預測下一個token,然后將這個預測的token加入到序列中,再基于更新后的序列預測下一個token。
這雖然能夠確保生成序列的連貫性和上下文相關(guān)性,但也有一個非常明顯的缺陷——極大限制了模型的推理效率。
此外,由于每次只能處理一個 token ,模型難以捕捉到數(shù)據(jù)中的長程依賴關(guān)系,可能會忽略一些重要的全局信息,從而影響模型的整體性能和準確性。
而Whisper-Medusa使用了10頭的多注意力機制, 能各自獨立地計算注意力分布并行地處理輸入,然后將各自的輸出通過拼接的方式組合起來,形成一個多維度的向量。
隨后向量被送入全連接層進行進一步的處理,以生成最終的token預測。這種并行的數(shù)據(jù)處理方式不僅加快了模型的推理效率,還增加了模型的表達能力,因為每個注意力頭都可以專注于序列的不同子集,捕捉到更豐富的上下文信息。
為了使多頭注意力機制在Whisper-Medusa模型中更高效地運行,aiOla采用了弱監(jiān)督的方法,在訓練過程中凍結(jié)了原Whisper模型的主要組件,使用該模型生成的音頻轉(zhuǎn)錄作為偽標簽來訓練額外的token預測模塊。
使得模型即便沒有大量手動人工標注數(shù)據(jù)的情況下,依然能夠?qū)W習到有效的語音識別模式。
此外在訓練過程中,Whisper-Medusa的損失函數(shù)需要同時考慮預測的準確性和效率。一方面,模型需要確保預測的token序列與實際轉(zhuǎn)錄盡可能一致;
另一方面,通過多頭注意力機制的并行預測,模型被鼓勵在保證精度的前提下,盡可能地加快預測效率。
aiOla使用了學習率調(diào)度、梯度裁剪、正則化等多種方法,確保模型在訓練過程中能夠穩(wěn)定收斂,同時避免過擬合性。
業(yè)務場景方面, Whisper-Medusa能理解100多種語言,用戶可以開發(fā)音頻轉(zhuǎn)錄、識別等多種應用,適用于翻譯、金融、旅游、物流、倉儲等行業(yè)。
aiOla表示,未來會將Whisper-Medusa的多注意力機制擴展至20個頭,其推理效率將再次獲得大幅度提升。
以上就是關(guān)于【比OpenAI的Whisper快50%,最新開源語音模型】的相關(guān)內(nèi)容,希望對大家有幫助!