日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      換了30多種方言,我們竟然沒能考倒中國電信的語音大模型

      發(fā)布時間:2024-05-27 14:00:06 編輯: 來源:
      導讀 相信很多大家對換了30多種方言,我們竟然沒能考倒中國電信的語音大模型還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 不管你來自哪個城...

      相信很多大家對換了30多種方言,我們竟然沒能考倒中國電信的語音大模型還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      不管你來自哪個城市,相信在你的記憶中,都有自己的「家鄉(xiāng)話」:吳語柔軟細膩、關中方言質(zhì)樸厚重、四川方言幽默詼諧、粵語古雅瀟灑……

      某種意義上說,方言不只是一種語言習慣,也是一種情感連接、一種文化認同。我們「上網(wǎng)沖浪」遇到的新鮮詞匯中,有不少就是來自各地方言。

      當然,有些時候,方言也是一種交流「壁壘」。

      在現(xiàn)實生活中,我們經(jīng)常會看到方言導致的「雞同鴨講」,比如這個:

      如果你關注最近科技圈的動態(tài)就會知道,當前的 AI 語音助手已經(jīng)能達到「實時回復」的水準,甚至比人類反應還快。而且,AI 已經(jīng)能夠充分理解人類的情感,自己也能表現(xiàn)出各種感情。

      在這樣的基礎上,如果語音助手能夠識別并理解每一種方言,就能徹底擊破溝通壁壘,與任何群體無障礙進行語言溝通。

      實際上,這件事已經(jīng)有人做了:近日,中國電信人工智能研究院(TeleAI)發(fā)布了業(yè)內(nèi)首個支持30種方言自由混說的「星辰超多方言語音識別大模型」,可同時識別理解粵語、上海話、四川話、溫州話等各地方言,是國內(nèi)支持最多方言的語音識別大模型。

      比如在以下這個會議場景中,面對多種方言的輸入,星辰超多方言語音識別大模型的識別準確率達到業(yè)界領先。

      首先是來自廣東公司的代表,使用了粵語發(fā)言:

      很突然,下一位發(fā)言人就切換到了上海話:

      而在接下來的四川方言和山西方言的對話中,星辰超多方言語音識別大模型也能準確識別并轉(zhuǎn)換為文字記錄:

      與語音助手對話過的人都知道,針對普通話的語音識別準確率是相當不錯的,但當面對重口音或者方言的時候,識別準確率會大幅下降,甚至「張冠李戴」。

      為了解決這個問題,傳統(tǒng)語音識別模型的處理方式是針對每種方言單獨訓練一個方言模型,這導致了同一個應用背后需要維護多個方言模型,且無法通過一個模型識別多種方言。然而后者恰恰是現(xiàn)實落地場景中最需要的。

      一直以來深耕語音賽道的中國電信,決定挑戰(zhàn)這一命題:打造一個更加「通用」的語音識別大模型。

      30多種方言,大模型如何拿下?

      讓大模型一口氣學會30幾種方言,并沒有想象中的簡單 —— 挑戰(zhàn)同樣存在于數(shù)據(jù)、算法、算力方面。

      一方面,因為方言數(shù)據(jù)量的稀疏,不利用其他方言數(shù)據(jù)中的共有信息而單獨訓練某個方言模型,效果往往不盡人意。

      經(jīng)過在語音領域多年的積累,TeleAI已經(jīng)構建了超30種、超30萬小時的高質(zhì)量方言數(shù)據(jù)庫,方言數(shù)據(jù)庫在豐富性和高質(zhì)量等層面均居于業(yè)內(nèi)前列。高質(zhì)量語音數(shù)據(jù)對研究者而言是一大利好,能夠讓模型更高效、系統(tǒng)地對方言進行整理歸納。更長遠地看,構建高質(zhì)量方言數(shù)據(jù)庫,也是方言保護和研究的基礎。

      另一方面的挑戰(zhàn)來自于語音識別技術。如何讓用戶與大模型對話就像和家人講話一樣自然,無需刻意切換普通話,無需提高音量、放慢語速,是工業(yè)界當前追求的新目標。

      在中國電信 CTO、人工智能研究院院長李學龍帶領下,TeleAI 自主研發(fā)了星辰語音識別大模型。團隊首創(chuàng)「蒸餾 + 膨脹」聯(lián)合訓練算法,解決了超大規(guī)模多場景數(shù)據(jù)集和大規(guī)模參數(shù)條件下預訓練坍縮的問題,實現(xiàn)80層模型穩(wěn)定訓練。同時,通過超大規(guī)模語音預訓練和多方言聯(lián)合建模,實現(xiàn)了單一模型支持30種方言自由混說語音識別。

      星辰語音識別大模型也是業(yè)內(nèi)首個開源的基于離散語音表征的語音識別大模型,通過「從語音到 token 再到文本」的建模新范式,將推理時語音傳輸比特率降低了數(shù)十倍。

      憑借絕對領先的性能,星辰語音識別大模型此前已經(jīng)在國際上斬獲了多個國際權威賽事冠軍。

      比如,在權威國際語音頂會 Interspeech2024離散語音單元建模挑戰(zhàn)賽的 ASR 賽道(Automatic Speech Recognition,自動語音識別)中,星辰語音識別大模型團隊領先于約翰霍普金斯大學、卡內(nèi)基梅隆大學、英偉達等國內(nèi)外知名高校與企業(yè),一舉拿下賽道冠軍。

      團隊在這場比賽中提出的系統(tǒng)方案極具特色:在訓練時采用了「三段式」設計,包括前端預訓練模型表征調(diào)整策略(Frontend Model)、表征提取與離散化過程(Dsicrete Token Process)以及多語種識別模型訓練過程(Discrete ASR Model),而在推理階段僅使用后兩段過程。

      其中的表征離散化方法,可以讓模型在保留語音中任務相關信息的同時,去除其余不相關信息,達到降低語音推理傳輸比特率、減少內(nèi)存使用、提升訓練效率的目的,同時也為語音多任務(如 ASR、TTS、說話人識別等)統(tǒng)一模型構建、多模態(tài)模型建模、說話人隱私保護等方向提供了可能的解決方案。

      在業(yè)內(nèi)知名的多方言語音識別數(shù)據(jù)集 KeSpeech 任務上,星辰語音識別大模型以領先之前最優(yōu)結果20% 的成績打破紀錄,實現(xiàn)了92.97% 的字準確率。在 NIST(美國國家標準與技術研究院)舉辦的低資源粵語電話 Babel 語音識別任務上,星辰語音識別大模型也取得了業(yè)內(nèi)最優(yōu)結果。

      在常見的算力挑戰(zhàn)方面,星辰語音識別大模型的研發(fā)團隊同樣具備優(yōu)勢。中國電信是國內(nèi)最早進入云計算領域的運營商,積累了大量算力建設和算力調(diào)度的核心技術。此外,中國電信陸續(xù)投產(chǎn)了京津冀智算中心、中南智算中心等多個滿足大模型訓練的公共智算中心。

      基于這些優(yōu)勢條件,星辰超多方言語音識別大模型橫空出世,打破了單一模型只能識別特定單一方言的困境。在多項基準測試中,星辰超多方言語音識別大模型表現(xiàn)出了極其優(yōu)秀的能力:

      理解方言,對答如流

      這才是合格的語音助手

      在大模型技術興起之前就廣泛應用的語音助手、智能設備和客服系統(tǒng),其用戶體驗高度依賴語音識別系統(tǒng)的準確率。很多海內(nèi)外廠商都在這一賽道發(fā)力,但大家也會發(fā)現(xiàn),在主流語種之外,使用人口達數(shù)億級的中國方言卻沒有得到應有的關注,其場景價值被嚴重低估了。

      長遠來看,星辰超多方言語音識別大模型的超多方言能力可在非常廣泛的社會生活場景中發(fā)揮價值。以語音交互頻率較高的智能座艙場景為例,擅長各種方言的星辰超多方言語音識別大模型能夠使系統(tǒng)更準確地識別和轉(zhuǎn)錄各種方言的語音輸入,帶來更自然流暢的交互體驗,特別是在方言使用較為普遍的地區(qū),減少「雞同鴨講」的誤會。

      從情感陪伴的角度看,大模型對方言的理解和精通,能夠極大提升對話機器人類產(chǎn)品的陪伴質(zhì)量,有效解決普通話不熟練的老年人等群體無法觸達信息服務的問題。如同科幻電影《Her》中的情節(jié),AI 能夠給予人類超越真實世界中人際關系的高質(zhì)量關懷。

      電信智科,贊44

      目前,星辰超多方言語音識別大模型已經(jīng)在開始融入各行各業(yè),積極探索新興的應用場景。比如,星辰超多方言語音識別大模型已在福建、江西、廣西、北京、內(nèi)蒙等地的中國電信萬號智能客服系統(tǒng)試點應用,接入星辰超多方言語音識別大模型以后,萬號智能客服秒懂30種方言,實現(xiàn)了日均處理約200萬通電話;智能客服翼聲平臺接入星辰超多方言語音識別大模型的語音理解和分析能力,實現(xiàn)31省全覆蓋,每天可處理125萬通客服電話。

      對于中國電信來說,還有一個非常重要的出發(fā)點:2023年之前,當人們談大模型技術時,公益價值很少會被提及。但在2024年,這一價值越來越多地「被看見」。

      大模型技術的應用將很大程度上推動對方言文化的保護。在我國的130多種語言中,有68種使用人口在萬人以下,有48種使用人口在5000人以下,有25種使用人口不足千人,有的語言只剩下十幾個人甚至幾個人會說。語音大模型的參與,能夠幫助記錄和保護瀕危方言,促進方言的傳承和學習。對于包含大量方言內(nèi)容的歷史文獻和檔案,方言大模型還可以輔助進行數(shù)字化和整理工作,防止文化遺產(chǎn)的流失。

      「語音助手」全面開卷

      中國電信如何領跑大模型落地之戰(zhàn)?

      大模型之戰(zhàn)已經(jīng)持續(xù)一年半之久,行業(yè)目前有一個共識:隨著大模型推理成本的大幅度下降,人們將迎來大模型應用的井噴期。

      在海內(nèi)外眾多的大模型玩家中,中國電信是很特別的一位。在這個新階段,相比于我們熟悉的科技企業(yè),像中國電信這樣的運營商在資源優(yōu)勢和業(yè)務方面更具優(yōu)勢。

      一方面,運營商有豐富的網(wǎng)絡和算力資源,相對來說訓練、推理成本更低。尤其在大模型的建設方面,更容易發(fā)揮規(guī)模的優(yōu)勢。另一方面,中國電信有龐大的客戶群體,以及豐富的2C、2H、2B 的信息服務業(yè)務,能夠更快地推動人工智能大模型在各個領域的落地,形成新的經(jīng)濟增長點。這些優(yōu)勢使運營商有動力在人工智能領域加大投入,驅(qū)動技術進步。

      在國內(nèi)運營商中,中國電信是最早布局 AI 領域的一家,且堅持走科技創(chuàng)新、核心能力自主研發(fā)的發(fā)展路線。去年至今,從星辰語義大模型到星辰多模態(tài)大模型和星辰語音識別大模型,中國電信旗下的大模型始終保持著快速迭代,且完成了語義、語音、視覺、多模態(tài)的全模態(tài)大模型布局。

      更讓人打破對央企傳統(tǒng)印象的是,中國電信還是大模型開源領域的重量級玩家。今年,TeleAI 陸續(xù)開源了7B、12B、52B 的星辰語義大模型。今年內(nèi),千億級星辰語義大模型也將正式開源。

      沿著近年來人工智能的技術發(fā)展趨勢,我們可以看到,在實現(xiàn)通用人工智能的過程中,語音是關鍵的一部分,而語音識別是其中非常重要的一環(huán)。

      但我們同樣意識到,語音合成技術的成熟,將成為重塑各個語音助手場景的關鍵。據(jù)了解,TeleAI 還同步研發(fā)了讓擬人更真人的超自然語音生成大模型,實現(xiàn)零樣本聲音復刻和擬人度對齊 GPT-4o,將在語音識別和生成應用水平上進一步突破,加速通用 AI 語音助手的落地應用。

      以上就是關于【換了30多種方言,我們竟然沒能考倒中國電信的語音大模型】的相關內(nèi)容,希望對大家有幫助!

      免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

      熱點推薦

      精選文章