日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

阿里開源新模型：超GPT-4o，數(shù)學(xué)能力全球第一！

發(fā)布時(shí)間：2024-08-09 09:00:45 編輯：來源：

導(dǎo)讀相信很多大家對(duì)阿里開源新模型：超GPT-4o，數(shù)學(xué)能力全球第一！還不知道吧，今天菲菲就帶你們一起去了解一下~.~！阿里巴巴開源了最新數(shù)學(xué)模...

相信很多大家對(duì)阿里開源新模型：超GPT-4o，數(shù)學(xué)能力全球第一！還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

阿里巴巴開源了最新數(shù)學(xué)模型Qwen2-Math，一共有基礎(chǔ)和指令微調(diào)兩種版本，包括1.5B、7B和72B三種參數(shù)。

根據(jù)阿里在主流數(shù)學(xué)基準(zhǔn)測(cè)試顯示，Qwen2-Math-72B指令微調(diào)版本的性能超過了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名閉源模型，就連Meta最新開源的超強(qiáng)模型Llama-3.1-405B也照樣拿下。

也就是說，Qwen2-Math-72B是目前全球最強(qiáng)的數(shù)學(xué)推理大模型。不知能否挑戰(zhàn)一下前不久谷歌剛獲得國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽銀牌，僅差1分獲得金牌的雙混合模型AlphaProof和AlphaGeometry2（這兩個(gè)模型還處于研究階段）。

開源地址:https://huggingface.co/Qwen

Github:https://github.com/QwenLM/Qwen2-Math?tab=readme-ov-file

基礎(chǔ)模型

Qwen2-Math的基礎(chǔ)模型使用Qwen2-1.5B、7B和72B進(jìn)行初始化，然后在精心設(shè)計(jì)的高質(zhì)量數(shù)學(xué)專用語料庫上進(jìn)行預(yù)訓(xùn)練，該語料庫包含大規(guī)模高質(zhì)量的數(shù)學(xué)網(wǎng)絡(luò)文本、書籍、代碼、考試題目以及由 Qwen-2模型合成的數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)。

阿里在在三個(gè)英語數(shù)學(xué)基準(zhǔn) GSM8K、Math 和MMLU-STEM 上評(píng)估了Qwen2-Math 基模型。同時(shí)評(píng)估了三個(gè)中國(guó)數(shù)學(xué)基準(zhǔn) CMATH，GaoKao Math Cloze 和 GaoKao Math QA，所有評(píng)估均使用 Few-shot CoT 方式。

結(jié)果顯示，Qwen2-Math基礎(chǔ)模型的性能大幅度超越了Llama-3.1-8B/7B/405B全系列。

指令微調(diào)模型

在開發(fā)指令微調(diào)模型方面， Qwen2-Math-72B 訓(xùn)練的模型采用了密集的獎(jiǎng)勵(lì)信號(hào)與二元信號(hào)的結(jié)合，二元信號(hào)在此起到指示模型是否正確回答問題的作用，類似于分類任務(wù)中的標(biāo)簽，有助于模型在訓(xùn)練過程中進(jìn)行自我校正。

結(jié)合信號(hào)后，模型通過拒絕采樣方法構(gòu)建了SFT數(shù)據(jù)集。拒絕采樣是一種蒙特卡羅方法，通過在更大范圍內(nèi)按照均勻分布隨機(jī)采樣，然后接受或拒絕采樣點(diǎn)來估計(jì)復(fù)雜問題的概率分布。

這種方法在處理復(fù)雜概率分布時(shí)特別有用，因?yàn)樗灰蠓植嫉母怕史植己瘮?shù)可逆，從而解決了一些分布難以直接采樣的問題。

隨后使用GRPO強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化，這是近端策略優(yōu)化的一種變體，通過迭代過程進(jìn)行訓(xùn)練，其中獎(jiǎng)勵(lì)模型會(huì)根據(jù)策略模型的輸出不斷更新，以確保策略的持續(xù)改進(jìn) 。

阿里使用英語和中文的數(shù)學(xué)基準(zhǔn)評(píng)測(cè)對(duì)Qwen2-Math-72B指令微調(diào)模型進(jìn)行了綜合評(píng)估。還使用了更有難度的OlympiadBench、CollegeMath、高考（GaoKao）、AIME2024、 AMC2023以及中國(guó)2024年高考/中考數(shù)學(xué)題進(jìn)行了測(cè)試。

結(jié)果顯示，其數(shù)學(xué)推理性能大幅度超越了GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等知名開閉源模型。阿里表示，Qwen2-Math已經(jīng)能解答一些數(shù)學(xué)競(jìng)賽難題，包括多道IMO競(jìng)賽題。

在預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集上阿里都進(jìn)行了去污染處理，特別是清洗了對(duì)GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math等知名基準(zhǔn)測(cè)試數(shù)據(jù)集有重疊的正例污染樣本，以保證測(cè)試效果的準(zhǔn)確性、公平性。

目前，Qwen2-Math模型僅支持英文，但阿里表示會(huì)很快推出中英雙語版本，幫助更多的用戶開發(fā)生成式AI應(yīng)用。

以上就是關(guān)于【阿里開源新模型：超GPT-4o，數(shù)學(xué)能力全球第一！】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新文章

<ruby id="ndopq"></ruby>

<small id="ndopq"><kbd id="ndopq"></kbd></small>

<p id="ndopq"><u id="ndopq"><strike id="ndopq"></strike></u></p>