日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      阿里開源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!

      發(fā)布時(shí)間:2024-08-09 09:00:45 編輯: 來源:
      導(dǎo)讀 相信很多大家對(duì)阿里開源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 阿里巴巴開源了最新數(shù)學(xué)模...

      相信很多大家對(duì)阿里開源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      阿里巴巴開源了最新數(shù)學(xué)模型Qwen2-Math,一共有基礎(chǔ)和指令微調(diào)兩種版本,包括1.5B、7B和72B三種參數(shù)。

      根據(jù)阿里在主流數(shù)學(xué)基準(zhǔn)測(cè)試顯示,Qwen2-Math-72B指令微調(diào)版本的性能超過了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名閉源模型,就連Meta最新開源的超強(qiáng)模型Llama-3.1-405B也照樣拿下。

      也就是說,Qwen2-Math-72B是目前全球最強(qiáng)的數(shù)學(xué)推理大模型。不知能否挑戰(zhàn)一下前不久谷歌剛獲得國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽銀牌,僅差1分獲得金牌的雙混合模型AlphaProof和AlphaGeometry2(這兩個(gè)模型還處于研究階段)。

      開源地址:https://huggingface.co/Qwen

      Github:https://github.com/QwenLM/Qwen2-Math?tab=readme-ov-file

      基礎(chǔ)模型

      Qwen2-Math的基礎(chǔ)模型使用Qwen2-1.5B、7B和72B進(jìn)行初始化,然后在精心設(shè)計(jì)的高質(zhì)量數(shù)學(xué)專用語料庫上進(jìn)行預(yù)訓(xùn)練,該語料庫包含大規(guī)模高質(zhì)量的數(shù)學(xué)網(wǎng)絡(luò)文本、書籍、代碼、考試題目以及由 Qwen-2模型合成的數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)。

      阿里在在三個(gè)英語數(shù)學(xué)基準(zhǔn) GSM8K、Math 和MMLU-STEM 上評(píng)估了Qwen2-Math 基模型。同時(shí)評(píng)估了三個(gè)中國(guó)數(shù)學(xué)基準(zhǔn) CMATH,GaoKao Math Cloze 和 GaoKao Math QA,所有評(píng)估均使用 Few-shot CoT 方式。

      結(jié)果顯示,Qwen2-Math基礎(chǔ)模型的性能大幅度超越了Llama-3.1-8B/7B/405B全系列。

      指令微調(diào)模型

      在開發(fā)指令微調(diào)模型方面, Qwen2-Math-72B 訓(xùn)練的模型采用了密集的獎(jiǎng)勵(lì)信號(hào)與二元信號(hào)的結(jié)合,二元信號(hào)在此起到指示模型是否正確回答問題的作用,類似于分類任務(wù)中的標(biāo)簽,有助于模型在訓(xùn)練過程中進(jìn)行自我校正。

      結(jié)合信號(hào)后,模型通過拒絕采樣方法構(gòu)建了SFT數(shù)據(jù)集。拒絕采樣是一種蒙特卡羅方法,通過在更大范圍內(nèi)按照均勻分布隨機(jī)采樣,然后接受或拒絕采樣點(diǎn)來估計(jì)復(fù)雜問題的概率分布。

      這種方法在處理復(fù)雜概率分布時(shí)特別有用,因?yàn)樗灰蠓植嫉母怕史植己瘮?shù)可逆,從而解決了一些分布難以直接采樣的問題 。

      隨后使用GRPO強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,這是近端策略優(yōu)化的一種變體,通過迭代過程進(jìn)行訓(xùn)練,其中獎(jiǎng)勵(lì)模型會(huì)根據(jù)策略模型的輸出不斷更新,以確保策略的持續(xù)改進(jìn) 。

      阿里使用英語和中文的數(shù)學(xué)基準(zhǔn)評(píng)測(cè)對(duì)Qwen2-Math-72B指令微調(diào)模型進(jìn)行了綜合評(píng)估。還使用了更有難度的OlympiadBench、CollegeMath、高考(GaoKao)、AIME2024、 AMC2023以及中國(guó)2024年高考/中考數(shù)學(xué)題進(jìn)行了測(cè)試。

      結(jié)果顯示,其數(shù)學(xué)推理性能大幅度超越了GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等知名開閉源模型。阿里表示,Qwen2-Math已經(jīng)能解答一些數(shù)學(xué)競(jìng)賽難題,包括多道IMO競(jìng)賽題。

      在預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集上阿里都進(jìn)行了去污染處理,特別是清洗了對(duì)GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math等知名基準(zhǔn)測(cè)試數(shù)據(jù)集有重疊的正例污染樣本,以保證測(cè)試效果的準(zhǔn)確性、公平性。

      目前,Qwen2-Math模型僅支持英文,但阿里表示會(huì)很快推出中英雙語版本,幫助更多的用戶開發(fā)生成式AI應(yīng)用。

      以上就是關(guān)于【阿里開源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章