從騰訊大模型的「實用」路線,我們看到了企業(yè)應(yīng)用AI的新方向
相信很多大家對從騰訊大模型的「實用」路線,我們看到了企業(yè)應(yīng)用AI的新方向還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
「現(xiàn)在每家公司都是 AI 公司,但引入 AI 之后,利潤真的能提高嗎?」
在針對 Transformer 作者、Cohere CEO Aidan Gomez 的一次采訪中,播客主持人 Harry Stebbings 問出了這樣一個問題。
Stebbings 提到,現(xiàn)在很多公司都在往產(chǎn)品中引入 AI,比如提供客戶支持的 Zendesk、筆記記錄軟件 Notion、提供設(shè)計服務(wù)的 Canva…… 但是選擇維持產(chǎn)品價格不變的 Canva 等公司卻擔(dān)心,自己的利潤不升反降,因為他們現(xiàn)在要為每個查詢付出更高的成本。Canva 甚至在最近的節(jié)目中直言不諱地表示,他們的利潤正在壓縮。
對于這一問題,Gomez 提到,其實企業(yè)不必過于擔(dān)心,因為 AI 的成本正在迅速下降,在提升客戶體驗的同時維持產(chǎn)品價格不變會是一個不錯的選擇,有利于擴(kuò)大企業(yè)的用戶基數(shù)。
如果觀察一下國內(nèi)外的 AI 市場,我們會發(fā)現(xiàn) Aidan Gomez 的預(yù)測是有依據(jù)的。很多 AI 公司,尤其是技術(shù)實力雄厚的大廠,都在通過技術(shù)升級來降低模型成本、提高模型可用性,從而讓企業(yè)以更低的門檻使用 AI。
在國內(nèi),騰訊混元大模型走的就是這樣一條路線。這個從亮相時就強(qiáng)調(diào)「實用」標(biāo)簽的大模型一直在持續(xù)進(jìn)化。在剛剛過去的騰訊全球數(shù)字生態(tài)大會上,我們不僅看到了訓(xùn)練、推理效率提升1倍多,但推理成本降低50% 的新模型混元 Turbo,還看到了升級版的大模型知識引擎、圖像創(chuàng)作引擎、視頻創(chuàng)作引擎等大模型產(chǎn)品。
對于那些還在懷疑自己是否有能力引入 AI,以及引入 AI 之后能否保住利潤的企業(yè)來說,這些高性價比的模型以及低門檻、易用的大模型產(chǎn)品或許可以提供一個答案。
距 GPT-4o 僅1.29%
混元 Turbo 拿下國內(nèi)第一,價格還降了一半
效率提升,但成本不升反降的混元 Turbo 聽上去似乎很有吸引力,但模型質(zhì)量怎么樣呢?第三方中文大模型基準(zhǔn)測評機(jī)構(gòu) SuperCLUE 發(fā)布的《中文大模型基準(zhǔn)測評2024年8月報告》提供了一個客觀的參考。
這個報告聚焦通用能力測評,測評方案由理科、文科和 Hard 三大維度構(gòu)成。理科能力包括計算、邏輯推理和代碼能力;文科任務(wù)覆蓋知識百科、語言理解、長文本、角色扮演、生成與創(chuàng)作、安全和工具使用;Hard 任務(wù)則側(cè)重于精確指令遵循以及復(fù)雜任務(wù)高階推理。
報告顯示,混元 Turbo 在理科、文科均居于第一名,在 Hard 任務(wù)上表現(xiàn)也相當(dāng)出色,是國內(nèi)唯一超過70分的大模型,僅與 ChatGPT-4o 有微小差距。
騰訊混元在8項核心任務(wù)上排名國內(nèi)第一。
更重要的是,在這個模型發(fā)布后,國內(nèi) TOP1大模型在中文領(lǐng)域的通用能力與國外領(lǐng)先模型的差距縮小到了1.29%(總分相差1分左右)。而去年5月,這一數(shù)字還高達(dá)30.12%。
所以,單從性能上來看,混元 Turbo 是可以滿足很多企業(yè)對模型能力的高要求的。
那訓(xùn)練、推理效率提升超過1倍,推理部署成本下降50% 是怎么做到的呢?簡單總結(jié)就是:技術(shù)創(chuàng)新。
混元技術(shù)團(tuán)隊介紹說,相較于上一代混元 Pro MoE 大模型,Turbo 模型在數(shù)據(jù)優(yōu)化之外自研了全新的萬億級分層異構(gòu) MoE 結(jié)構(gòu),在模型不同層采用不同的專家個數(shù)和不同的激活參數(shù)量,最終用更多的專家數(shù)、更少的激活參數(shù)量實現(xiàn)了更好的效果。
混元 Turbo 推理速度對比前代有明顯提升。
這樣的技術(shù)創(chuàng)新創(chuàng)造了更多的讓利空間,使得混元 Turbo 的定價(輸入和輸出價格)僅為混元 Pro 版的一半。目前,該模型已經(jīng)在騰訊云上線,企業(yè)和開發(fā)者可以通過 API 接入。
此外,騰訊混元的技術(shù)團(tuán)隊還在研究中發(fā)現(xiàn),其實 MoE 架構(gòu)不只適用于語言模型,用來構(gòu)建多模態(tài)大模型也是最佳選擇,因為它能夠更好地兼容更多模態(tài)和任務(wù),確保不同模態(tài)和任務(wù)之間是互相促進(jìn)而非競爭的關(guān)系。
按照這個思路,他們構(gòu)建了國內(nèi)首個基于 MoE 架構(gòu)的多模態(tài)大模型,而且以簡單、合理、可規(guī)?;脑瓌t來設(shè)計這個模型。比如,該模型支持原生任意分辨率,最高可支持的分辨率達(dá)到7K,而不是采用業(yè)界主流的固定分辨率或切子圖方法。此外,它采用的簡單 MLP 適配器也能比主流的 Q-former 適配器損失更少的信息。這些實用的升級無疑是在為進(jìn)入產(chǎn)業(yè)應(yīng)用場景做好充分的準(zhǔn)備。
騰訊混元多模態(tài)大模型是業(yè)內(nèi)首個支持超過7K 分辨率和任意長寬比圖片理解的多模態(tài)模型。
模型之外,產(chǎn)品實用性也升級到 Next Level
「模型本身不是完整的產(chǎn)品,要搭很多能力。用戶要用得爽,不是簡單的『模型吐東西』?!乖谇岸螘r間的一次采訪中,騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生分享了這樣一個觀點。
基于這種認(rèn)知,騰訊云其實不止打造了騰訊混元系列大模型,還圍繞這個大模型打磨了一系列精調(diào)工具鏈(基于 TI 平臺)和開箱即用的產(chǎn)品,包括大模型知識引擎、圖像創(chuàng)作引擎、視頻創(chuàng)作引擎等。
這些工具鏈、產(chǎn)品看似分散,其實組合到一起能解決很多問題。
就拿要求最苛刻的醫(yī)療場景來說。當(dāng)下,很多人吐槽醫(yī)生人心冷漠 —— 病人背著大包小包、坐了十幾個小時火車去看病,結(jié)果只能跟醫(yī)生溝通五分鐘,失落的心情可想而知。
但其實,醫(yī)生也很無奈,尤其是負(fù)責(zé)重癥病人的醫(yī)生。因為他們每天要花大量時間去理清多維度、連續(xù)變化的患者數(shù)據(jù),還要書寫病歷和病程記錄,分不出時間和精力去精細(xì)化地關(guān)懷每個病人。
為了解決這一問題,為重癥醫(yī)療提供器械和解決方案的邁瑞醫(yī)療和騰訊一起打造了首個重癥大模型瑞智 GPT,并基于該模型開發(fā)了「病歷撰寫、患者個體化病情查詢、重癥知識檢索」三個面向重癥科室的大模型智能應(yīng)用。
這些應(yīng)用可以幫助醫(yī)生靈活查詢患者的病情變化、自動撰寫病歷,還能為低年資醫(yī)生提供高年資醫(yī)生的重癥知識和診療建議,極大地降低了醫(yī)生解讀大量連續(xù)變化的臨床數(shù)據(jù)的難度,緩解了撰寫病歷和病程記錄的工作負(fù)擔(dān)。
這個解決方案要打通醫(yī)院的病歷、生理參數(shù)、醫(yī)學(xué)影像、檢驗、護(hù)理、醫(yī)囑等多個數(shù)據(jù)接口,還要把這些數(shù)據(jù)充分利用起來,因此涉及騰訊為行業(yè)打造的多個工具和產(chǎn)品。
比如數(shù)據(jù)準(zhǔn)備環(huán)節(jié)要用到數(shù)據(jù)清洗、標(biāo)注等多項 TI 平臺上的能力,病歷的識別、數(shù)據(jù)的檢索離不開知識引擎中的 OCR 識別、語義切分、RAG、復(fù)雜表格處理等子能力(關(guān)于知識引擎,請參見《大模型進(jìn)入「實用」時代!騰訊助力「銷冠」量產(chǎn),5分鐘創(chuàng)建智能助手》)。
在生態(tài)大會上,這些工具鏈、產(chǎn)品也迎來了新一輪升級,在「實用」維度上又上了一個臺階。
其中,TI 平臺上線了多模態(tài)數(shù)據(jù)標(biāo)注,支持文生文、圖生文、圖文改寫、圖文混合問答等全部細(xì)分任務(wù)類型。高質(zhì)量的訓(xùn)練數(shù)據(jù)是精調(diào)出一個可落地大模型的前提條件。TI 平臺的多模態(tài)數(shù)據(jù)集管理和數(shù)據(jù)標(biāo)注能力,可大幅提升數(shù)據(jù)準(zhǔn)備效率,提升最終效果。此外,針對 OCR 和工業(yè)質(zhì)檢等相對成熟且使用廣泛的垂直場景,TI 平臺也進(jìn)行了升級,比如可智能反饋出模糊、反光等場景下的誤識別,可實現(xiàn)超復(fù)雜場景「0漏檢」等。
TI 平臺的多模態(tài)數(shù)據(jù)標(biāo)注功能。
知識引擎在用戶需求識別與理解、企業(yè)知識處理等能力上都有很大的升級。比如,技術(shù)團(tuán)隊綜合運用向量檢索、摘要檢索、text2sql 多種技術(shù)手段,顯著提升了復(fù)雜大表的檢索及問答準(zhǔn)確率。同時,他們升級了多模態(tài)知識解析、檢索、閱讀理解能力,實現(xiàn)讀懂文中的「數(shù)據(jù)圖」、「自然場景圖」、「圖文關(guān)系」。
知識引擎的復(fù)雜大表檢索及問答準(zhǔn)確率顯著提升。
圖像創(chuàng)作引擎的圖像風(fēng)格化通過算法升級大幅降低了人臉瑕疵;AI 寫真實現(xiàn)了免訓(xùn)練技術(shù)突破,支持輸入一張照片,一鍵生成高清寫真藝術(shù)照,整體出圖耗時縮短75%;商品背景生成的背景畫面真實度、商品分割細(xì)膩度、實物融合自然度大幅提升;模特?fù)Q裝場景采用3D 先驗方案,提升了重建人像效果。
圖像創(chuàng)作引擎生成的風(fēng)格化圖像。
圖像創(chuàng)作引擎生成的高清 AI 寫真照。
圖像創(chuàng)作引擎生成的商品背景圖,實現(xiàn)了商品在不同場景的逼真效果展示。
圖像創(chuàng)作引擎生成的模特?fù)Q裝圖,高度保持了模特臉部和手部的細(xì)節(jié),同時精確地將服裝版型與模特身體特征對齊,確保換裝后的效果逼真自然,能直接用于電商等生產(chǎn)場景。
視頻創(chuàng)作引擎新增了圖片跳舞、圖片唱演和視頻轉(zhuǎn)譯等能力。其中,在圖片跳舞中,單段舞蹈的生成時間從10分鐘下降至1分鐘級別,同時支持轉(zhuǎn)身、側(cè)身等復(fù)雜舞蹈動作。圖片唱演可以支持一張人像圖片生成一段唱演視頻。視頻轉(zhuǎn)譯支持15+ 小語種,覆蓋主流外語翻譯,可應(yīng)用于視頻本地化、跨境電商等場景。
人物跳舞自然度的提升得益于技術(shù)團(tuán)隊基于3D 身體重建技術(shù)進(jìn)一步優(yōu)化了算法,畫面的真實度和自然度也有了明顯提升。
唱演視頻生成的人物的面部表情和情緒演繹都更加自然靈動。
轉(zhuǎn)譯后的視頻能夠保留說話人的音色特征,同時實現(xiàn)說話人口型與目標(biāo)語種一致的視聽效果。
引入最強(qiáng) AI,做最有用的產(chǎn)品
回到文章開頭的問題 —— 企業(yè)引入 AI 真的是一個具有經(jīng)濟(jì)效益的選擇嗎?在生態(tài)大會現(xiàn)場,易車研發(fā)平臺部總經(jīng)理孫佑時分享了他們的經(jīng)驗。
就拿看車這個常見的場景來說。以往,用戶線上看車基本就是打開圖片或錄制好的視頻,被動聽里面的講解,缺乏現(xiàn)場看車的沉浸感。為了解決這個問題,易車和騰訊合作,基于內(nèi)置在 TI 平臺的大模型,使用大模型精調(diào)工具鏈,精調(diào)訓(xùn)練出「易車大模型」。這個大模型能為用戶提供3D 看車、AI 解讀、AI 對比問答和 AI 搜索等服務(wù),增強(qiáng)了用戶獲取信息的效率。據(jù)統(tǒng)計,這些功能上線后,用戶的停留時長有了 大幅提升。
此外,我們看到,已經(jīng)引入 AI 的企業(yè)也已經(jīng)在下一個維度開卷。比如前文提到的 Zendesk 改變了傳統(tǒng)的 SaaS 收費模式,提出只有在聊天機(jī)器人獨立完成任務(wù)、不需要員工介入時,才會向企業(yè)收費。相信這會給還未引入 AI 或者引入的 AI 不夠強(qiáng)的同行造成一些壓力。
正如 Gomez 所說,如果你想擴(kuò)大用戶群體,那就為他們提供目前最有用的產(chǎn)品。一旦用戶體驗提升,利潤自然就會隨之而來。更何況,AI 的成本確實在下降,能做的事情也越來越多。
而且,除了經(jīng)濟(jì)效益,引入 AI 所帶來的社會價值是短期內(nèi)難以衡量的,正如邁瑞醫(yī)療所做的事情一樣。
當(dāng)然,這件事做起來沒有那么容易,騰訊也是處在摸索階段。他們深知,「要搭建一套有用的智能系統(tǒng),大模型可能只是其中一個模塊?!顾运麄兿蛑搁_箱即用」的方向打磨大模型相關(guān)產(chǎn)品,致力于讓企業(yè)以最小的必要輸入來獲得最佳的大模型應(yīng)用實踐。與此同時,他們也在從內(nèi)部產(chǎn)品和外部客戶業(yè)務(wù)中努力找場景,讓技術(shù)和產(chǎn)品解決真問題。
大模型的未來也是一樣,技術(shù)仍然在持續(xù)迭代,而價值的產(chǎn)生一定是在真實的落地場景中。
以上就是關(guān)于【從騰訊大模型的「實用」路線,我們看到了企業(yè)應(yīng)用AI的新方向】的相關(guān)內(nèi)容,希望對大家有幫助!