日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

國(guó)產(chǎn)黑馬與GPT-4o稱霸中文榜首！Yi-Large勇奪國(guó)內(nèi)LLM盲測(cè)桂冠，沖進(jìn)世界第七

發(fā)布時(shí)間：2024-05-21 15:03:36 編輯：來源：

導(dǎo)讀相信很多大家對(duì)國(guó)產(chǎn)黑馬與GPT-4o稱霸中文榜首！Yi-Large勇奪國(guó)內(nèi)LLM盲測(cè)桂冠，沖進(jìn)世界第七還不知道吧，今天菲菲就帶你們一起去了解一下~.~...

相信很多大家對(duì)國(guó)產(chǎn)黑馬與GPT-4o稱霸中文榜首！Yi-Large勇奪國(guó)內(nèi)LLM盲測(cè)桂冠，沖進(jìn)世界第七還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】真正與GPT-4o齊頭并進(jìn)的國(guó)產(chǎn)大模型來了!剛剛，LMSYS揭開最新榜單，黑馬Yi-Large在中文分榜上與GPT-4o并列第一，而在總榜上位列世界第七，緊追國(guó)際第一陣營(yíng)，并登上了國(guó)內(nèi)大模型盲測(cè)榜首。

幾周前，一個(gè)名為「im-also-a-good-gpt2-chatbot」的神秘模型突然現(xiàn)身大模型競(jìng)技場(chǎng)Chatbot Arena，排名直接超過GPT-4-Turbo、Gemini1.5Pro、Claude3Opus、Llama3-70B等各家國(guó)際大廠的當(dāng)家基座模型。

隨后OpenAI揭開了「im-also-a-good-gpt2-chatbot」神秘面紗——正是GPT-4o的測(cè)試版本。

OpenAI CEO Sam Altman也在GPT-4o發(fā)布后親自轉(zhuǎn)帖引用LMSYS Arena盲測(cè)擂臺(tái)的測(cè)試結(jié)果。

由開放研究組織LMSYS Org（Large Model Systems Organization）發(fā)布的Chatbot Arena已經(jīng)成為OpenAI、Anthropic、Google、Meta等國(guó)際大廠「龍爭(zhēng)虎斗」的當(dāng)紅擂臺(tái)，以最開放與科學(xué)的評(píng)測(cè)方法，在大模型進(jìn)入第二年之際開放群眾投票。

時(shí)隔一周，在最新更新的排名中，類「im-also-a-good-gpt2-chatbot」的黑馬故事再次上。

這次排名飛速上漲的模型正是由中國(guó)大模型公司零一萬物提交的「Yi-Large」千億參數(shù)閉源大模型。

在LMSYS競(jìng)技場(chǎng)最新排名中，零一萬物的最新千億參數(shù)模型Yi-Large總榜排名世界模型第7，中國(guó)大模型中第一，已經(jīng)超過Llama3-70B、Claude3Sonnet;其中文分榜更是與GPT-4o并列世界第一。

零一萬物也由此成為了總榜上唯一一個(gè)自家模型進(jìn)入排名前十的中國(guó)大模型企業(yè)。

在總榜上，GPT系列占了前10的4個(gè)，以機(jī)構(gòu)排序，零一萬物01.AI僅次于OpenAI、Google、Anthropic之后，以開放金標(biāo)準(zhǔn)正式進(jìn)擊國(guó)際頂級(jí)大模型企業(yè)陣營(yíng)。

美國(guó)時(shí)間2024年5月20日剛刷新的LMSYS Chatboat Arena盲測(cè)結(jié)果，來自至今積累超過1170萬的全球用戶真實(shí)投票數(shù):

值得一提的是，為了提高Chatbot Arena查詢的整體質(zhì)量，LMSYS還實(shí)施了重復(fù)數(shù)據(jù)刪除機(jī)制，并出具了去除冗余查詢后的榜單。

這個(gè)新機(jī)制旨在消除過度冗余的用戶提示，如過度重復(fù)的「你好」。這類冗余提示可能會(huì)影響排行榜的準(zhǔn)確性。

LMSYS公開表示，去除冗余查詢后的榜單將在后續(xù)成為默認(rèn)榜單。

在去除冗余查詢后的總榜中，Yi-Large的Elo得分更進(jìn)一步，與Claude3Opus、GPT-4-0125-preview并列第四。

LMSYS中文榜:GPT-4o和Yi-Large并列第一

值得國(guó)人關(guān)注的是，國(guó)內(nèi)大模型廠商中，智譜GLM-4、阿里Qwen Max、Qwen1.5、零一萬物Yi-Large、Yi-34B-chat此次都有參與盲測(cè)。

在總榜之外，LMSYS的語言類別上也新增了英語、中文、法文三種語言評(píng)測(cè)，開始注重全球大模型的多樣性。

其中，Yi-Large在中文語言分榜上拔得頭籌，與OpenAI剛剛官宣一周的地表最強(qiáng)GPT-4o并列第一，Qwen-Max和GLM-4在中文榜上也都表現(xiàn)不凡。

「最燒腦」公開評(píng)測(cè):Yi-Large位居全球第二

在分類別的排行榜中，Yi-Large同樣表現(xiàn)亮眼。

編程能力、長(zhǎng)提問及最新推出的「艱難提示詞」的三個(gè)評(píng)測(cè)是LMSYS所給出的針對(duì)性榜單，以專業(yè)性與高難度著稱，可稱作大模型「最燒腦」的公開盲測(cè)。

在編程能力（Coding）排行榜上，Yi-Large 的Elo分?jǐn)?shù)超過Anthropic 當(dāng)家旗艦?zāi)Ｐ?Claude3Opus，僅低于GPT-4o，與GPT-4-Turbo、GPT-4并列第二。

長(zhǎng)提問（Longer Query）榜單上，Yi-Large同樣位列全球第二，與GPT-4-Turbo、GPT-4、Claude3Opus并列。

艱難提示詞（Hard Prompts）則是LMSYS為了響應(yīng)社區(qū)要求，于此次新增的排行榜類別。這一類別包含來自Arena的用戶提交的提示，這些提示則經(jīng)過專門設(shè)計(jì)，更加復(fù)雜、要求更高且更加嚴(yán)格。

LMSYS認(rèn)為，這類提示能夠測(cè)試最新語言模型面臨挑戰(zhàn)性任務(wù)時(shí)的性能。

在這一榜單上，Yi-Large處理艱難提示的能力也得到印證，與GPT-4-Turbo、GPT-4、Claude3Opus并列第二。

LMSYS Chatbot Arena:后benchmark時(shí)代的風(fēng)向標(biāo)

如何為大模型給出客觀公正的評(píng)測(cè)一直是業(yè)內(nèi)廣泛關(guān)注的話題。

為了在固定題庫(kù)中取得一份亮眼的評(píng)測(cè)分?jǐn)?shù)，業(yè)內(nèi)出現(xiàn)了各式各樣的「刷榜」方法:將各種各樣的評(píng)測(cè)基準(zhǔn)訓(xùn)練集直接混入模型訓(xùn)練集中、用未對(duì)齊的模型跟已經(jīng)對(duì)齊的模型做對(duì)比等等，對(duì)嘗試了解大模型真實(shí)能力的人，的確呈現(xiàn)「眾說紛紜」的現(xiàn)場(chǎng)，更讓大模型的投資人摸不著北。

在經(jīng)過2023年一系列錯(cuò)綜復(fù)雜、亂象叢生的大模型評(píng)測(cè)浪潮之后，業(yè)界對(duì)于評(píng)測(cè)集的專業(yè)性和客觀性給予了更高的重視。

而LMSYS Org發(fā)布的Chatbot Arena憑借其新穎的「競(jìng)技場(chǎng)」形式、測(cè)試團(tuán)隊(duì)的嚴(yán)謹(jǐn)性，成為目前全球業(yè)界公認(rèn)的基準(zhǔn)標(biāo)桿，連OpenAI在GPT-4o正式發(fā)布前，都在LMSYS上匿名預(yù)發(fā)布和預(yù)測(cè)試。

在海外大廠高管中，不只Sam Altman，Google DeepMind首席科學(xué)家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數(shù)據(jù)，來佐證Bard產(chǎn)品的性能。

OpenAI創(chuàng)始團(tuán)隊(duì)成員Andrej Karpathy甚至公開表示，Chatbot Arena is「awesome」。

自身的旗艦?zāi)Ｐ桶l(fā)布后第一時(shí)間提交給LMSYS，這一行為本身就展現(xiàn)了海外頭部大廠對(duì)于Chatbot Arena的極大尊重。

這份尊重既來自于LMSYS作為研究組織的權(quán)威背書，也來自于其新穎的排名機(jī)制。

公開資料顯示，LMSYS Org是一個(gè)開放的研究組織，由加州大學(xué)伯克利分校的學(xué)生和教師、加州大學(xué)圣地亞哥分校、卡耐基梅隆大學(xué)合作創(chuàng)立。

雖然主要人員出自高校，但LMSYS的研究項(xiàng)目卻十分貼近產(chǎn)業(yè)，他們不僅自己開發(fā)大語言模型，還向業(yè)內(nèi)輸出多種數(shù)據(jù)集（其推出的MT-Bench已是指令遵循方向的權(quán)威評(píng)測(cè)集）、評(píng)估工具，此外還開發(fā)分布式系統(tǒng)以加速大模型訓(xùn)練和推理，提供線上live大模型打擂臺(tái)測(cè)試所需的算力。

在形式上，Chatbot Arena借鑒了搜索引擎時(shí)代的橫向?qū)Ρ仍u(píng)測(cè)思路。

它首先將所有上傳評(píng)測(cè)的「參賽」模型隨機(jī)兩兩配對(duì)，以匿名模型的形式呈現(xiàn)在用戶面前。

隨后號(hào)召真實(shí)用戶輸入自己的提示詞，在不知道模型型號(hào)名稱的前提下，由真實(shí)用戶對(duì)兩個(gè)模型產(chǎn)品的作答給出評(píng)價(jià)。

在盲測(cè)平臺(tái)上，大模型們兩兩相比，用戶自主輸入對(duì)大模型的提問，模型A、模型B兩側(cè)分別生成兩PK模型的真實(shí)結(jié)果，用戶在結(jié)果下方做出投票四選一:A模型較佳、B模型較佳，兩者平手，或是兩者都不好。

提交后，可進(jìn)行下一輪PK。

通過眾籌真實(shí)用戶來進(jìn)行線上實(shí)時(shí)盲測(cè)和匿名投票，Chatbot Arena一方面減少偏見的影響，另一方面也最大概率避免基于測(cè)試集進(jìn)行刷榜的可能性，以此增加最終成績(jī)的客觀性。在經(jīng)過清洗和匿名化處理后，Chatbot Arena還會(huì)公開所有用戶投票數(shù)據(jù)。

得益于「真實(shí)用戶盲測(cè)投票」這一機(jī)制，Chatbot Arena被稱為大模型業(yè)內(nèi)最有用戶體感的奧林匹克。

在收集真實(shí)用戶投票數(shù)據(jù)之后，LMSYS Chatbot Arena還使用Elo評(píng)分系統(tǒng)來量化模型的表現(xiàn)，進(jìn)一步優(yōu)化評(píng)分機(jī)制，力求公平反應(yīng)參與者的實(shí)力。

Elo評(píng)分系統(tǒng)，是一項(xiàng)基于統(tǒng)計(jì)學(xué)原理的權(quán)威性評(píng)價(jià)體系，由匈牙利裔美國(guó)物理學(xué)家Arpad Elo博士創(chuàng)立，旨在量化和評(píng)估各類對(duì)弈活動(dòng)的競(jìng)技水平。

作為當(dāng)前國(guó)際公認(rèn)的競(jìng)技水平評(píng)估標(biāo)準(zhǔn)，Elo等級(jí)分制度在國(guó)際象棋、圍棋、足球、籃球、電子競(jìng)技等運(yùn)動(dòng)中都發(fā)揮著至關(guān)重要的作用。

更通俗地來講，在Elo評(píng)分系統(tǒng)中，每個(gè)參與者都會(huì)獲得基準(zhǔn)評(píng)分。每場(chǎng)比賽結(jié)束后，參與者的評(píng)分會(huì)基于比賽結(jié)果進(jìn)行調(diào)整。系統(tǒng)會(huì)根據(jù)參與者評(píng)分來計(jì)算其贏得比賽的概率，一旦低分選手擊敗高分選手，那么低分選手就會(huì)獲得較多的分?jǐn)?shù)，反之則較少。

通過引入Elo評(píng)分系統(tǒng)，LMSYS Chatbot Arena在最大程度上保證了排名的客觀公正。

Chatbot Arena的評(píng)測(cè)過程涵蓋了從用戶直接參與投票到盲測(cè)，再到大規(guī)模的投票和動(dòng)態(tài)更新的評(píng)分機(jī)制等多個(gè)方面，這些因素共同作用，確保了評(píng)測(cè)的客觀性、權(quán)威性和專業(yè)性。

毫無疑問，這樣的評(píng)測(cè)方式能夠更準(zhǔn)確地反映出大模型在實(shí)際應(yīng)用中的表現(xiàn)，為行業(yè)提供了一個(gè)可靠的參考標(biāo)準(zhǔn)。

Yi-Large以小搏大緊追國(guó)際第一陣營(yíng)，登頂國(guó)內(nèi)大模型盲測(cè)

此次Chatbot Arena共有44款模型參賽，既包含了頂尖開源模型Llama3-70B，也包含了各家大廠的閉源模型。

以最新公布的Elo評(píng)分來看，GPT-4o以1287分高居榜首，GPT-4Turbo、Gemini1.5Pro、Claude3Opus、Yi-Large等模型則以1240左右的評(píng)分位居第二梯隊(duì);其后的Bard（Gemini Pro）、Llama3-70B Instruct、Claude3Sonnet的成績(jī)則斷崖式下滑至1200分左右。

值得一提的是，排名前6的模型分別歸屬于海外巨頭OpenAI、Google、Anthropic，零一萬物位列全球第四機(jī)構(gòu)，且GPT-4、Gemini1.5Pro等模型均為萬億級(jí)別超大參數(shù)規(guī)模的旗艦?zāi)Ｐ?，其他模型也都在大幾千億參數(shù)級(jí)別。

Yi-Large「以小搏大」以僅僅千億參數(shù)量級(jí)緊追其后，5月13日一經(jīng)發(fā)布便沖上世界排名第七大模型，與海外大廠的旗艦?zāi)Ｐ吞幱谕惶蓐?duì)。

在LMSYS Chatbot Arena截至5月21日的總榜上，阿里巴巴的Qwen-Max大模型Elo分?jǐn)?shù)為1186，排名第12;智譜AI的GLM-4大模型Elo分?jǐn)?shù)為1175，排名第15。

在當(dāng)前大模型步入商業(yè)應(yīng)用的浪潮中，模型的實(shí)際性能亟需通過具體應(yīng)用場(chǎng)景的嚴(yán)格考驗(yàn)，以證明其真正的價(jià)值和潛力。過去那種僅要求表面光鮮的「作秀式」評(píng)測(cè)方式已不再具有實(shí)際意義。

為了促進(jìn)整個(gè)大模型行業(yè)的健康發(fā)展，整個(gè)行業(yè)必須追求一種更為客觀、公正且權(quán)威的評(píng)估體系。

在這樣的背景下，一個(gè)如Chatbot Arena這樣能夠提供真實(shí)用戶反饋、采用盲測(cè)機(jī)制以避免操縱結(jié)果、并且能夠持續(xù)更新評(píng)分體系的評(píng)測(cè)平臺(tái)，顯得尤為重要。它不僅能夠?yàn)槟Ｐ吞峁┕脑u(píng)估，還能夠通過大規(guī)模的用戶參與，確保評(píng)測(cè)結(jié)果的真實(shí)性和權(quán)威性。

無論是出于自身模型能力迭代的考慮，還是立足于長(zhǎng)期口碑的視角，大模型廠商應(yīng)當(dāng)積極參與到像Chatbot Arena這樣的權(quán)威評(píng)測(cè)平臺(tái)中，通過實(shí)際的用戶反饋和專業(yè)的評(píng)測(cè)機(jī)制來證明其產(chǎn)品的競(jìng)爭(zhēng)力。

這不僅有助于提升廠商自身的品牌形象和市場(chǎng)地位，也有助于推動(dòng)整個(gè)行業(yè)的健康發(fā)展，促進(jìn)技術(shù)創(chuàng)新和產(chǎn)品優(yōu)化。相反，那些選擇作秀式的評(píng)測(cè)方式，忽視真實(shí)應(yīng)用效果的廠商，模型能力與市場(chǎng)需求之間的鴻溝會(huì)越發(fā)明顯，最終將難以在激烈的市場(chǎng)競(jìng)爭(zhēng)中立足。

參考資料:

LMSYS Chatbot Arena盲測(cè)競(jìng)技場(chǎng)公開投票地址:

https://arena.lmsys.org/

LMSYS Chatbot Leaderboard評(píng)測(cè)排行（滾動(dòng)更新）:

https://chat.lmsys.org/?leaderboard

以上就是關(guān)于【國(guó)產(chǎn)黑馬與GPT-4o稱霸中文榜首！Yi-Large勇奪國(guó)內(nèi)LLM盲測(cè)桂冠，沖進(jìn)世界第七】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新文章