日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<sub id="luuhi"></sub>

首頁 > 今日更新 >

微軟Phi-4封神，14B小模型數(shù)學擊敗GPT-4o，合成數(shù)據(jù)占比40%，36頁技術報告出爐

發(fā)布時間：2024-12-23 09:00:08來源：

相信很多大家對微軟Phi-4封神，14B小模型數(shù)學擊敗GPT-4o，合成數(shù)據(jù)占比40%，36頁技術報告出爐還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

微軟下一代14B小模型Phi-4出世了!僅用了40%合成數(shù)據(jù)，在數(shù)學性能上擊敗了GPT-4o，最新36頁技術報告出爐。

140億參數(shù)，40%合成數(shù)據(jù)，年度SLM之王誕生!

最近，微軟下一代小模型Phi-4正式亮相。在GPQA和MATH基準上，其數(shù)學性能直接碾壓GPT-4o、Gemini Pro1.5。

而且，Phi-4粉碎了其他小模型，與Llama-3.3-70B-Instruct的性能不相上下。

甚至，在2024ACM數(shù)學競賽問題上，Phi-4取得了91.8%準確率。

Phi系列前負責人Sebastien Bubeck看到這個結果后，感到非常驚訝。

下面這個例子，展示了Phi-4在數(shù)學推理方面的能力，不僅神速還準確。

深挖背后，Phi-4繼承了Phi系列前幾代的傳統(tǒng)，同樣是在教科書級別的「合成數(shù)據(jù)」上完成了訓練。

合成數(shù)據(jù)比例高達40%

除了合成數(shù)據(jù)，它共實現(xiàn)了三大核心技術突破，包括精選的原生數(shù)據(jù)，以及領先的后訓練技術，如DPO中的關鍵token搜索（Pivotal Tokens Search）。

Phi-4的成功，從側面推翻了Ilya、Alexander Wang多位大佬宣稱的「數(shù)據(jù)墻」的觀點。

目前，新模型在微軟Azure AI Foundry上提供，下周將在HuggingFace上線。

數(shù)學擊敗GPT-4o，36頁技術報告出爐

Phi-4與大多數(shù)語言模型不同，那些模型的預訓練主要基于諸如網(wǎng)絡內容或代碼這類自然產(chǎn)生的數(shù)據(jù)來源，而Phi-4則有策略地在整個訓練過程中融入了合成數(shù)據(jù)。

雖然Phi系列先前的模型表現(xiàn)主要來源于蒸餾了教師模型（特別是GPT-4）的能力，但Phi-4在STEM領域的問答能力上顯著超越了其教師模型，證明了數(shù)據(jù)生成和后訓練技術比模型蒸餾更能帶來能力上的提升。

論文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分核心技術構成:

- 預訓練和中訓練的合成數(shù)據(jù)

- 高質量有機數(shù)據(jù)的篩選和過濾

- 后訓練

得益于這些創(chuàng)新，Phi-4在推理相關任務上的性能與更大的模型相當，甚至超越它們。

例如，在許多廣泛使用的推理相關基準測試中，其性能達到或超過了Llama-3.1-405B。

通過表1可以發(fā)現(xiàn)，Phi-4在GPQA（研究生水平的STEM問答）和MATH(數(shù)學競賽)基準測試中均顯著超過了其教師模型GPT-4o。

表1Phi-4在經(jīng)典基準測試上的表現(xiàn)

為了驗證Phi-4是否存在過擬合和數(shù)據(jù)污染問題，研究者在2024年11月的AMC-10和AMC-12數(shù)學競賽上測試了該模型。

這兩場競賽中的數(shù)據(jù)均未曾在訓練時被收集過，所以其競賽表現(xiàn)可以有效地作為檢驗模型泛化性能的指標。

從下圖中可以看出，Phi-4雖然僅僅只有14B，但是其平均得分甚至大幅超過了其教師模型GPT-4o。

Phi-4在數(shù)學競賽問題上優(yōu)于許多更大的模型，包括Gemini Pro1.5

合成數(shù)據(jù)的優(yōu)勢

合成數(shù)據(jù)構成了Phi-4訓練數(shù)據(jù)的大部分，其通過多種技術生成，包括多智能體提示（multi-agent prompting）、自修訂工作流(self-revision workflows)和指令反轉(instruction reversal)。

這些技術方法能夠構建促使模型具備更強推理和問題解決能力的數(shù)據(jù)集，解決了傳統(tǒng)無監(jiān)督數(shù)據(jù)集中的一些弱點。

合成數(shù)據(jù)不是有機數(shù)據(jù)的廉價替代品，而是相對于有機數(shù)據(jù)具有幾個直接優(yōu)勢。

數(shù)據(jù)結構化和支持漸進式學習

在有機數(shù)據(jù)集中，token之間的關系往往復雜且間接。可能需要許多推理步驟才能將當前token與下一個token聯(lián)系起來，這使得模型難以從預測下一個token的目標任務中有效學習。

相比之下，由于從語言模型生成的每個token都是根據(jù)前面的token預測而來的，而這樣結構化的token也可以讓模型的訓練變得更加高效。

將訓練與推理上下文對齊

合成數(shù)據(jù)可以規(guī)避掉模型從有機數(shù)據(jù)集中學習到一些并不適合后續(xù)訓練的數(shù)據(jù)特性。

比如說，網(wǎng)絡論壇往往有著自身特定的交流風格、用語習慣等，而人們與大模型對話時，其語言風格、交互邏輯又是另外一種情況。

此時如果直接采用網(wǎng)絡論壇的數(shù)據(jù)進行訓練，假設有一些內容的風格比較獨特，模型就會認為在對話中該內容出現(xiàn)的幾率會很低。因此在后續(xù)對話中模型進行推理時，便不能將對話內容精準匹配到對應的論壇內容上去。

而合成數(shù)據(jù)會將網(wǎng)絡論壇中的內容改寫成與LLM交互時的語言風格，使得其在LLM聊天推理的上下文中更容易匹配。

合成數(shù)據(jù)在Phi-4的后訓練中也發(fā)揮著關鍵作用，其中采用了諸如拒絕采樣和直接偏好優(yōu)化（DPO）的新方法來優(yōu)化模型的輸出。

合成數(shù)據(jù)的來源

預訓練和訓練中數(shù)據(jù)

為此，研究團隊創(chuàng)建了50種廣泛的合成數(shù)據(jù)集類型，每個數(shù)據(jù)集都依賴于不同的種子和不同的多階段提示程序，涵蓋了各種主題、技能和交互性質，累計約4000億個無權重的token。

通過以下方法，他們確保了合成數(shù)據(jù)并不被一些低質量的網(wǎng)絡數(shù)據(jù)所污染，從而成為高質量訓練數(shù)據(jù)集。

種子數(shù)據(jù)集的構建

1. 網(wǎng)頁和代碼種子:從網(wǎng)頁、書籍和代碼庫中提取摘錄和代碼片段，重點關注具有高復雜性、推理深度和教育價值的內容。為確保質量，團隊采用兩階段篩選流程:首先，識別需要關注的重點高價值頁面，其次，將選定的頁面分割成段落，并對每個段落的客觀和推理內容進行評分。

2. 問題數(shù)據(jù)集:從網(wǎng)站、論壇和問答平臺上收集了大量問題。然后使用投票技術對這些問題進行篩選以平衡難度。具體來說，團隊為每個問題生成多個獨立的答案，并應用多數(shù)投票來評估答案的一致性。然后丟棄所有答案都一致（表明問題太簡單）或答案完全不一致(表明問題太難或模糊)的問題。

3. 從多種來源創(chuàng)建問答對:利用語言模型從書籍、科學論文和代碼等有機來源中提取問答對。這種方法不僅僅依賴于在文本中識別顯式的問答對。相反，它涉及一個旨在檢測文本中的推理鏈或邏輯進程的pipeline。語言模型識別推理或問題解決過程中的關鍵步驟，并將它們重新表述為問題和相應的答案。實驗表明，如果操作得當，在生成內容上進行訓練（在學術和內部基準上的改進方面）可以比在原始內容上進行訓練更加有效。

重寫和增強:種子通過多步驟提示工作流程轉化為合成數(shù)據(jù)。這包括將給定段落中的大部分有用內容重寫為練習、討論或結構化推理任務。

自我修訂:初始響應會通過一個反饋回路進行迭代式優(yōu)化，在該回路中，模型會依據(jù)側重于推理和事實準確性的評判標準進行自我評判，并隨后改進自身的輸出內容。

指令反轉用于代碼和其他任務:為了提高模型從指令生成輸出的能力，團隊采用了指令反轉技術。例如，他們從代碼數(shù)據(jù)語料庫中選取現(xiàn)有的代碼片段，并利用它們生成包含問題描述或任務提示的相應指令。只有原始代碼和根據(jù)生成指令而重新生成的代碼之間相似度高的指令才會被保留，以確保指令與輸出內容相匹配。

后訓練數(shù)據(jù)

在后訓練階段中，數(shù)據(jù)集主要由兩部分組成:

- 監(jiān)督微調（SFT）數(shù)據(jù)集:使用從公開數(shù)據(jù)集和合成數(shù)據(jù)中精心篩選的用戶提示，再生成多個模型響應，并使用基于LLM的評估過程選擇最佳響應。

- 直接偏好優(yōu)化（DPO）:基于拒絕采樣和LLM評估生成DPO對，其中部分基于創(chuàng)建關鍵詞token對的方法。

研究者利用生成的SFT數(shù)據(jù)和DPO數(shù)據(jù)對，來緩解模型的幻覺問題。

如下圖6結果顯示，這種方法大大減少了SimpleQA中的幻覺現(xiàn)象。

預訓練

Phi-4同樣基于Transformer架構構建，具有14B參數(shù)和默認的上下文長度4096。在訓練中期，擴展到16K上下文。

由于預訓練模型不擅長遵循指令，因此使用需要答案采用特定格式（例如簡單評估）的零樣本評估不是很有參考價值。

因此，團隊采用了內部實現(xiàn)的基準測試進行預訓練評估，該基準測試對各種任務使用混合的對數(shù)似然與少量樣本提示。

具體來說，他們對 MMLU（5-shot）、MMLU-pro和ARCC(1-shot)使用對數(shù)似然評估，而對TriviaQA(TQA)、MBPP、MATH和GSM8k分別使用1、3、4和8個少樣本的示例，以幫助模型遵循答案格式。

表2phi-4較phi-3-medium在預訓練后基準測試評估的提升值

在長上下文基準HELMET測試中，Phi-4在召回率、最大上下文等指標上，幾乎取得了領先的優(yōu)勢。

后訓練

如前所述，在后訓練階段過程中，最重要的一個技術是關鍵token搜索（PTS），那么這究竟是什么呢?

關鍵token搜索（Pivotal Token Search）

當模型對一個提示逐token生成回應時，每個token都對應著模型回答的一個前綴。

對于每個這樣的前綴，可以考慮兩個關鍵token:一是在改前綴下，模型回答正確的條件概率;另一個是該token帶來的概率增量，即生成這個token前后正確率的差值。

其實，在AI模型生成答案時，往往只有少數(shù)幾個關鍵token決定了整個答案的正確與否。

在研究中，團隊觀察到一個有趣的現(xiàn)象是:當模型在解答數(shù)學問題時，僅僅生成了negative關鍵token，就讓原本可能失敗的解答轉向了成功。

而隨后，它生成了（a token又可能讓正確率急劇下降。

現(xiàn)在，將這個方法與DPO訓練方法結合思考后，發(fā)現(xiàn)了幾個值得注意的問題。

如上圖3所示，實驗中有許多token概率遠低于關鍵token「negative」的0.31，這些token會在訓練中產(chǎn)生噪聲，稀釋來自關鍵token的有效信號。

更糟糕的是，像（a這樣導致解題不穩(wěn)定的token，反而會因其低概率(0.12）收到強烈的正向學習信號。

此外，直覺表明，當兩個文本內容出現(xiàn)實質性偏差時，比較它們各自下一個token概率（DPO的做法）可能失去意義。

總之，更有意義的信號，應該來自于文本開始偏離時的首批token。

為了緩解之前的問題，微軟團隊提出了一種創(chuàng)新的方法——關鍵token搜索（PTS）。

這個方法專門針對單個關鍵token生成偏好數(shù)據(jù)，在使用DPO優(yōu)化效果精準作用于特定token。

PTS的核心任務是，在完整的token序列（T_full = t1， t2， ...）中找出那些關鍵token。

具體來說，它需要找出那些能顯著影響成功率的token的位置，即p（success | t1， ...， ti）。

PTS會將發(fā)現(xiàn)的關鍵token轉化為訓練數(shù)據(jù)，先將Q + t1， ...， ti-1作為查詢基準，再選擇能提高/降低成功率的單個token分別作為「接受」和「拒絕」的樣本。

雖然PTS使用的二分查找算法不能保證找出所有的關鍵token，但它具有兩個重要特性。

- 找到的一定是關鍵token

- 如果成功概率再解題過程中接近單調變化，則能找出所有關鍵token

下圖5所示，是使用PTS生成的偏好數(shù)據(jù)的示例。

在數(shù)學問答示例中，研究發(fā)現(xiàn)了一個有趣的現(xiàn)象，關鍵token往往不是明顯的錯誤，而是引導模型走向不同解題路徑的選擇點。

比如，方法A——分別乘以分母;方法B——直接交叉相乘。

雖然這兩種方法在數(shù)學上都是正確的，但對于模型來說，往往后者更加穩(wěn)健。

通過PTS生成的訓練數(shù)據(jù)，可以幫助Phi-4在這些關鍵決策點上做出更優(yōu)的選擇。

以小博大，Phi-4贏麻了

基于以上技術的創(chuàng)新，Phi-4才能在各項基準測試中展現(xiàn)出驚艷的一面。

上表1中，相較于同級別的Qwen-2.5-14B-Instruct模型，在12個基準測試中，Phi-4在九項測試中贏得優(yōu)勢。

而且，研究人員認為Phi-4在SimpleQA上的表現(xiàn)實際上比Qwen更好。

事實上，他們的基礎模型在SimpleQA上獲得了比Qwen-2.5-14B-Instruct更高的基準分數(shù)，只不過團隊在后訓練中有意修改了模型的行為，以優(yōu)化用戶體驗而不是追求更高的基準分數(shù)。

此外，Phi-4在STEM問答任務上展現(xiàn)出卓越的實力。

比如，在GPQA（研究生水平的STEM問題）和MATH(數(shù)學競賽)上，它甚至超過了其教師模型GPT-4。

在HumanEval和HumanEval+衡量的編碼能力方面，它也比任何其他開源模型（包括更大的Llama模型）得分更高。

而Phi-4表現(xiàn)欠佳的領域，分別在SimpleQA、DROP和IFEval上。

至于前兩個，研究人員認為simple-evals報告的數(shù)字過于簡化，并不能準確反映模型在基準問題上的表現(xiàn)。

然而，IFEval揭示了Phi-4的一個真實的弱點——在嚴格遵循指令方面存在困難。

在未來下一步研究中，研究人員相信通過有針對性的合成數(shù)據(jù)，讓Phi系列模型的指令跟隨性能得到顯著改善。

接下來，還真有點期待，下一個Phi系列小模型的發(fā)布了。

參考資料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

以上就是關于【微軟Phi-4封神，14B小模型數(shù)學擊敗GPT-4o，合成數(shù)據(jù)占比40%，36頁技術報告出爐】的相關內容，希望對大家有幫助！

標簽：微軟Phi-4封神，14B小模型數(shù)學擊敗GPT-4o，合成數(shù)據(jù)占比40%，36頁技術報告出爐

免責聲明：本文為轉載，非本網(wǎng)原創(chuàng)內容，不代表本網(wǎng)觀點。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

相關閱讀

資訊

生活

腸道微生物組成與妊娠期抑郁癥狀相關

腸道微生物組成與妊娠期抑郁癥狀

人工智能在識別嬰兒癲癇痙攣方面絕經(jīng)后女性罹患類風濕性關節(jié)炎的神經(jīng)認知測試在 3 歲兒童白血病童話故事可以幫助孩子了解健康的

財經(jīng)

Jollyes 推出強化的人才支持和招聘措施

Jollyes 推出強化的人才支持和招

S?strene Grene 投資歐洲物流中心 Miniso 開設第一家英國機場店翠鳥航空出售羅馬尼亞業(yè)務 Karen Millen 與 Simon Harri

旅游

游客應提前預訂巴厘島頂級景點的門票

游客應提前預訂巴厘島頂級景點的

保加利亞冬季旅游業(yè)預計增長 5% 沙特阿拉伯第三季度推動商務旅游日本 11 月游客人數(shù)創(chuàng)月度新高泰國旅游呈現(xiàn)新趨勢

最新資訊

關于我們| 聯(lián)系方式| 版權聲明| 免責聲明|

新訊網(wǎng)版權所有，未經(jīng)書面授權禁止使用

新訊網(wǎng)主辦版權所有：新訊網(wǎng)站 Copyright ? 2007-2024 by http://www.jybrdyy.cn All Rights Reserved

網(wǎng)站地圖 | 百度地圖 | 360地圖 | 今日更新

<sub id="ouhfe"><ol id="ouhfe"><em id="ouhfe"></em></ol></sub>