日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      阿里開(kāi)源新語(yǔ)音模型,比OpenAI的Whisper更好!

      發(fā)布時(shí)間:2024-08-10 11:30:02 編輯: 來(lái)源:
      導(dǎo)讀 相信很多大家對(duì)阿里開(kāi)源新語(yǔ)音模型,比OpenAI的Whisper更好!還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 阿里巴巴在Qwen-Audio基礎(chǔ)...

      相信很多大家對(duì)阿里開(kāi)源新語(yǔ)音模型,比OpenAI的Whisper更好!還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      阿里巴巴在Qwen-Audio基礎(chǔ)之上,開(kāi)源了最新語(yǔ)音模型Qwen2-Audio。

      Qwen2-Audio一共有基礎(chǔ)和指令微調(diào)兩個(gè)版本,支持使用語(yǔ)音向音頻模型進(jìn)行提問(wèn)并識(shí)別內(nèi)容以及語(yǔ)音分析。

      例如,讓一位女生說(shuō)一段話,然后識(shí)別她的年紀(jì)或解讀她的心情;發(fā)布一段吵鬧的聲音,分析有哪些聲音組成等。

      目前,Qwen2-Audio支持中文、粵語(yǔ)、法語(yǔ)、英語(yǔ)、日語(yǔ)等主流語(yǔ)言和方言,這對(duì)于開(kāi)發(fā)翻譯、情感分析等應(yīng)用非常方便。

      開(kāi)源地址:https://github.com/QwenLM/Qwen2-Audio

      Qwen2-Audio能力大幅度提升

      與第一代Qwen-Audio相比,Qwen2-Audio在架構(gòu)、性能等方面進(jìn)行了大幅度優(yōu)化和改進(jìn)。在預(yù)訓(xùn)練階段Qwen2-Audio采用了自然語(yǔ)言提示,替代了Qwen-Audio使用的復(fù)雜分層標(biāo)簽系統(tǒng)。

      這一改變簡(jiǎn)化了模型的訓(xùn)練過(guò)程,使得模型能夠更自然地理解和響應(yīng)各種數(shù)據(jù)和任務(wù),提高了模型的泛化能力能更好地理解和執(zhí)行各種指令。

      Qwen2- Audio在指令跟隨能力方面有了顯著提升,通過(guò)增加指令調(diào)優(yōu)和直接偏好優(yōu)化等方法,可更準(zhǔn)確地理解用戶的指令,并根據(jù)指令提供更恰當(dāng)?shù)捻憫?yīng)。

      例如,當(dāng)用戶發(fā)出語(yǔ)音指令,“分析這段音頻中的情感傾向時(shí)”,Qwen2- Audio能夠更精準(zhǔn)地判斷出音頻中的情感。

      在功能方面Qwen2– Audio也進(jìn)行了擴(kuò)展,支持語(yǔ)音聊天和音頻分析兩種模式:在語(yǔ)音聊天模式中,用戶可以更加自由地與Qwen2- Audio進(jìn)行語(yǔ)音交互,就像與朋友聊天一樣自然。

      在音頻分析模式中,Qwen2- Audio能夠?qū)Ω鞣N類型的音頻進(jìn)行深入分析,提供更詳細(xì)和準(zhǔn)確的分析結(jié)果。

      此外,Qwen2-Audio還引入了監(jiān)督式微調(diào)(SFT)和直接偏好優(yōu)化(DPO)兩種優(yōu)化方法。在SFT階段,模型通過(guò)高質(zhì)量的微調(diào)數(shù)據(jù)進(jìn)一步與人類意圖對(duì)齊,這使得Qwen2-Audio在與人類交互時(shí)更加自然和準(zhǔn)確;

      DPO則通過(guò)人類標(biāo)注的好響應(yīng)和壞響應(yīng)數(shù)據(jù)來(lái)優(yōu)化模型,使其輸出更符合人類的期望和偏好。

      Qwen2-Audio架構(gòu)簡(jiǎn)單介紹

      Qwen2-Audio使用了OpenAI開(kāi)源的語(yǔ)音模型Whisper-large-v3作為音頻編碼器。為了更好地處理音頻數(shù)據(jù),Qwen2-Audio采用了16kHz的采樣頻率,并將原始波形轉(zhuǎn)化為128通道的mel譜圖,通過(guò)25ms窗口大小和10ms跳幀,確保了音頻特征的時(shí)間分辨率與頻譜信息的完整性。

      為了減少音頻表示的長(zhǎng)度,Qwen2-Audio引入一個(gè)池化層其步幅為2,編碼器輸出的每幀大約對(duì)應(yīng)于原始音頻信號(hào)中40ms的片段。這種處理方式使得模型能夠有效地捕捉音頻信號(hào)的特征,為后續(xù)的分析和理解提供了有力的支。

      語(yǔ)音分析,AIGC開(kāi)放社區(qū),1分鐘

      Qwen2-Audio準(zhǔn)確輸出分析結(jié)果

      Qwen2-Audio使用了阿里自研的大模型Qwen-7B作為語(yǔ)言模型,能根據(jù)輸入的音頻和文本數(shù)據(jù)生成相應(yīng)的文本輸出。主要與音頻模塊協(xié)同工作,實(shí)現(xiàn)對(duì)音頻信息的理解和處理。

      當(dāng)音頻編碼器對(duì)輸入的音頻信號(hào)進(jìn)行特征提取后,這些特征會(huì)與之前的文本序列一起輸入到大語(yǔ)言模型中,會(huì)對(duì)這些信息進(jìn)行綜合分析,理解音頻中所包含的語(yǔ)言內(nèi)容和語(yǔ)義信息。

      例如,如果輸入的音頻是一段對(duì)話,大語(yǔ)言模型會(huì)嘗試?yán)斫鈱?duì)話的主題、參與者的意圖以及情感傾向等。

      在生成文本輸出時(shí),大語(yǔ)言模型會(huì)根據(jù)對(duì)輸入信息的理解,通過(guò)其所學(xué)到的語(yǔ)言知識(shí)和模式,生成準(zhǔn)確的文本回復(fù)。

      為了測(cè)試Qwen2-Audio性能,阿里在AIR – Bench、S2TT、ASR、Fleurs zh等主流基準(zhǔn)上進(jìn)行了綜合評(píng)測(cè)。

      結(jié)果顯示,Qwen2-Audio的整體性能非常強(qiáng)勁,在librispeech的test-clean和test-other數(shù)據(jù)集上分別達(dá)到了1.6%和3.6%的WER。

      在Fleurs的中文子集上,Qwen2-Audio的成績(jī)優(yōu)于OpenAI的Whisper-large-v3。

      在CoVoST2數(shù)據(jù)集上的語(yǔ)音翻譯測(cè)試中,Qwen2-Audio在所有七個(gè)翻譯方向上均大幅度領(lǐng)先于基線模型。在SER和VSC測(cè)試中,Qwen2-Audio同樣以顯著成績(jī)勝出。

      本文素材來(lái)源Qwen2-Audio,如有侵權(quán)請(qǐng)聯(lián)系刪除

      以上就是關(guān)于【阿里開(kāi)源新語(yǔ)音模型,比OpenAI的Whisper更好!】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章