阿里開源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!
相信很多大家對(duì)阿里開源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
阿里巴巴開源了最新數(shù)學(xué)模型Qwen2-Math,一共有基礎(chǔ)和指令微調(diào)兩種版本,包括1.5B、7B和72B三種參數(shù)。
根據(jù)阿里在主流數(shù)學(xué)基準(zhǔn)測(cè)試顯示,Qwen2-Math-72B指令微調(diào)版本的性能超過了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名閉源模型,就連Meta最新開源的超強(qiáng)模型Llama-3.1-405B也照樣拿下。
也就是說,Qwen2-Math-72B是目前全球最強(qiáng)的數(shù)學(xué)推理大模型。不知能否挑戰(zhàn)一下前不久谷歌剛獲得國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽銀牌,僅差1分獲得金牌的雙混合模型AlphaProof和AlphaGeometry2(這兩個(gè)模型還處于研究階段)。
開源地址:https://huggingface.co/Qwen
Github:https://github.com/QwenLM/Qwen2-Math?tab=readme-ov-file
基礎(chǔ)模型
Qwen2-Math的基礎(chǔ)模型使用Qwen2-1.5B、7B和72B進(jìn)行初始化,然后在精心設(shè)計(jì)的高質(zhì)量數(shù)學(xué)專用語料庫上進(jìn)行預(yù)訓(xùn)練,該語料庫包含大規(guī)模高質(zhì)量的數(shù)學(xué)網(wǎng)絡(luò)文本、書籍、代碼、考試題目以及由 Qwen-2模型合成的數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)。
阿里在在三個(gè)英語數(shù)學(xué)基準(zhǔn) GSM8K、Math 和MMLU-STEM 上評(píng)估了Qwen2-Math 基模型。同時(shí)評(píng)估了三個(gè)中國(guó)數(shù)學(xué)基準(zhǔn) CMATH,GaoKao Math Cloze 和 GaoKao Math QA,所有評(píng)估均使用 Few-shot CoT 方式。
結(jié)果顯示,Qwen2-Math基礎(chǔ)模型的性能大幅度超越了Llama-3.1-8B/7B/405B全系列。
指令微調(diào)模型
在開發(fā)指令微調(diào)模型方面, Qwen2-Math-72B 訓(xùn)練的模型采用了密集的獎(jiǎng)勵(lì)信號(hào)與二元信號(hào)的結(jié)合,二元信號(hào)在此起到指示模型是否正確回答問題的作用,類似于分類任務(wù)中的標(biāo)簽,有助于模型在訓(xùn)練過程中進(jìn)行自我校正。
結(jié)合信號(hào)后,模型通過拒絕采樣方法構(gòu)建了SFT數(shù)據(jù)集。拒絕采樣是一種蒙特卡羅方法,通過在更大范圍內(nèi)按照均勻分布隨機(jī)采樣,然后接受或拒絕采樣點(diǎn)來估計(jì)復(fù)雜問題的概率分布。
這種方法在處理復(fù)雜概率分布時(shí)特別有用,因?yàn)樗灰蠓植嫉母怕史植己瘮?shù)可逆,從而解決了一些分布難以直接采樣的問題 。
隨后使用GRPO強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,這是近端策略優(yōu)化的一種變體,通過迭代過程進(jìn)行訓(xùn)練,其中獎(jiǎng)勵(lì)模型會(huì)根據(jù)策略模型的輸出不斷更新,以確保策略的持續(xù)改進(jìn) 。
阿里使用英語和中文的數(shù)學(xué)基準(zhǔn)評(píng)測(cè)對(duì)Qwen2-Math-72B指令微調(diào)模型進(jìn)行了綜合評(píng)估。還使用了更有難度的OlympiadBench、CollegeMath、高考(GaoKao)、AIME2024、 AMC2023以及中國(guó)2024年高考/中考數(shù)學(xué)題進(jìn)行了測(cè)試。
結(jié)果顯示,其數(shù)學(xué)推理性能大幅度超越了GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等知名開閉源模型。阿里表示,Qwen2-Math已經(jīng)能解答一些數(shù)學(xué)競(jìng)賽難題,包括多道IMO競(jìng)賽題。
在預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集上阿里都進(jìn)行了去污染處理,特別是清洗了對(duì)GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math等知名基準(zhǔn)測(cè)試數(shù)據(jù)集有重疊的正例污染樣本,以保證測(cè)試效果的準(zhǔn)確性、公平性。
目前,Qwen2-Math模型僅支持英文,但阿里表示會(huì)很快推出中英雙語版本,幫助更多的用戶開發(fā)生成式AI應(yīng)用。
以上就是關(guān)于【阿里開源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!