日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<td id="pggif"><strong id="pggif"></strong></td>

<td id="pggif"></td>

英偉達開源3400億巨獸，98%合成數(shù)據(jù)訓(xùn)出最強開源通用模型！性能對標GPT-4o

發(fā)布時間：2024-06-16 10:30:30 編輯：來源：

導(dǎo)讀相信很多大家對英偉達開源3400億巨獸，98%合成數(shù)據(jù)訓(xùn)出最強開源通用模型！性能對標GPT-4o還不知道吧，今天菲菲就帶你們一起去了解一下~.~！...

相信很多大家對英偉達開源3400億巨獸，98%合成數(shù)據(jù)訓(xùn)出最強開源通用模型！性能對標GPT-4o還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】剛剛，英偉達全新發(fā)布的開源模型Nemotron-4 340B，有可能徹底改變訓(xùn)練LLM的方式！從此，或許各行各業(yè)都不再需要昂貴的真實世界數(shù)據(jù)集了。而且，Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT- 4 掰手腕！

就在剛剛，英偉達再一次證明了自己的AI創(chuàng)新領(lǐng)域的領(lǐng)導(dǎo)地位。

它全新發(fā)布的Nemotron-4 340B，是一系列具有開創(chuàng)意義的開源模型，有可能徹底改變訓(xùn)練LLM的合成數(shù)據(jù)生成方式！

論文地址：https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf

這一突破性進展，標志著AI行業(yè)的一個重要里程碑——

從此，各行各業(yè)都無需依賴大量昂貴的真實世界數(shù)據(jù)集了，用合成數(shù)據(jù)，就可以創(chuàng)建性能強大的特定領(lǐng)域大語言模型！

現(xiàn)在，Nemotron-4 340B已經(jīng)取得了輝煌戰(zhàn)績，直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT- 4 一較高下！

其實，以前這個模型就曾登上大模型競技場LMSys Chatbot Arena，當時它的別名是「june-chatbot」

具體來說，Nemotron-4 340B包括基礎(chǔ)模型Base、指令模型Instruct和獎勵模型Reward，并構(gòu)建了一個高質(zhì)量合成數(shù)據(jù)生成的完整流程。

模型支持4K上下文窗口、 50 多種自然語言和 40 多種編程語言，訓(xùn)練數(shù)據(jù)截止到 2023 年 6 月。

訓(xùn)練數(shù)據(jù)方面，英偉達采用了高達 9 萬億個token。其中， 8 萬億用于預(yù)訓(xùn)練， 1 萬億用于繼續(xù)訓(xùn)練以提高質(zhì)量。

值得一提的是，指令模型的訓(xùn)練是在98%的合成數(shù)據(jù)上完成的。

結(jié)果顯示，Nemotron-4-340B-Base在常識推理任務(wù)，如ARC-Challenge、MMLU和BigBench Hard基準測試中，可以和Llama-3 70B、Mixtral 8x22B和Qwen-2 72B模型媲美。

而Nemotron-4-340B-Instruct，在指令跟隨和聊天能力方面也超越了相應(yīng)的指令模型。

Nemotron-4-340B-Reward在發(fā)表時，在RewardBench上實現(xiàn)了最高準確性，甚至超過了GPT-4o- 0513 和Gemini 1.5 Pro- 0514 這樣的專有模型。

在BF16 精度下，模型的推理需要 8 塊H200，或 16 塊H100/A100 80GB。如果是在FP8 精度下，則只需 8 塊H100。

除此之外，Nemotron-4 340B還有一個非常顯著的特點——對商用十分友好的許可。

高級深度學(xué)習(xí)研究工程師Somshubra Majumdar對此表示大贊：「是的，你可以用它生成你想要的所有數(shù)據(jù)」

無與倫比的合成數(shù)據(jù)生成

LLM無法獲得大規(guī)模、多樣化標注數(shù)據(jù)集，怎么破？

Nemotron-4 340B指令模型，可以幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)。

這些多樣化的合成數(shù)據(jù)，模仿了真實世界的數(shù)據(jù)特征，因而數(shù)據(jù)質(zhì)量明顯提升，從而提升了各領(lǐng)域定制LLM的性能和穩(wěn)定性。

而且，為了進一步提高AI生成數(shù)據(jù)的質(zhì)量，開發(fā)者還可以用Nemotron-4 340B 獎勵模型，來篩選高質(zhì)量的響應(yīng)。

它會根據(jù)有用性、正確性、一致性、復(fù)雜性和冗長性這 5 個屬性，對響應(yīng)評分。

另外，研究者可以使用自己的專用數(shù)據(jù)，再結(jié)合HelpSteer2 數(shù)據(jù)集，定制Nemotron-4 340B 基礎(chǔ)模型，以創(chuàng)建自己的指令或獎勵模型。

用NeMo微調(diào)，用TensorRT-LLM優(yōu)化推理

利用開源的NVIDIA NeMo和NVIDIA TensorRT-LLM，開發(fā)者可以優(yōu)化指令模型和獎勵模型的效率，從而生成合成數(shù)據(jù)，并對響應(yīng)進行評分。

所有Nemotron-4 340B模型都利用張量并行性經(jīng)過TensorRT-LLM優(yōu)化，這種模型并行性可以將單個權(quán)重矩陣分割到多個GPU和服務(wù)器上，從而實現(xiàn)大規(guī)模高效推理。

其中，基礎(chǔ)模型可以使用NeMo框架進行定制，以適應(yīng)特定的用例或領(lǐng)域。廣泛的預(yù)訓(xùn)練數(shù)據(jù)使得我們可以對它進行微調(diào)，并且為特定的下游任務(wù)提供更準確的輸出。

通過NeMo框架，英偉達提供了多種定制方法，包括監(jiān)督微調(diào)和參數(shù)高效微調(diào)方法，如低秩適應(yīng)（LoRA）。

為了提高模型質(zhì)量，開發(fā)者可以使用NeMo Aligner和由Nemotron-4 340B獎勵模型標注的數(shù)據(jù)集來對齊模型。

在各行業(yè)的潛在影響：從醫(yī)療到金融及其他領(lǐng)域

顯然，Nemotron-4 340B對各行業(yè)的潛在影響是巨大的。

在醫(yī)療領(lǐng)域，如果能生成高質(zhì)量合成數(shù)據(jù)，可能會帶來藥物發(fā)現(xiàn)、個性化醫(yī)療和醫(yī)學(xué)影像方面的突破。

在金融領(lǐng)域，基于合成數(shù)據(jù)訓(xùn)練的定制大語言模型，則可能會徹底改變欺詐檢測、風(fēng)險評估和客戶服務(wù)。

在制造業(yè)和零售業(yè)方面，特定領(lǐng)域的LLM可以實現(xiàn)預(yù)測性維護、供應(yīng)鏈優(yōu)化和個性化客戶體驗。

不過，Nemotron-4 340B的發(fā)布，也提出了一些隱憂，比如數(shù)據(jù)隱私和安全怎樣保證？

隨著以后合成數(shù)據(jù)的普及，企業(yè)是否有防護措施來保護敏感信息，并防止濫用？

如果用合成數(shù)據(jù)訓(xùn)練AI模型，是否會引發(fā)倫理問題，比如數(shù)據(jù)中的偏見和不準確可能引發(fā)意料外的后果？

但至少在目前，越來越多跡象表明，只有合成數(shù)據(jù)才是未來。

預(yù)訓(xùn)練

下面，我們就來看看，英偉達都提出了哪些創(chuàng)新的方法：

數(shù)據(jù)

預(yù)訓(xùn)練數(shù)據(jù)是基于三種不同類型的混合，共有9T token。其中，前8T用于正式預(yù)訓(xùn)練階段，最后1T用于繼續(xù)預(yù)訓(xùn)練階段。

英語自然語言（70%）：由不同來源和領(lǐng)域的精選文檔組成，包括網(wǎng)頁文檔、新聞文章、科學(xué)論文、書籍等。

多語種自然語言（15%）：包含 53 種自然語言，由單語語料庫和平行語料庫中的文檔構(gòu)成。

代碼（15%）：包含 43 種編程語言。

架構(gòu)

與Nemotron-4-15B-Base類似，Nemotron-4-340B-Base基于的也是僅解碼器Transformer架構(gòu)。

具體來說，模型使用因果注意力掩碼來確保序列的一致性，并采用旋轉(zhuǎn)位置嵌入（RoPE）、SentencePiece分詞器、分組查詢注意力（GQA），以及在MLP層中使用平方ReLU激活。

此外，模型沒有偏置項，丟棄率為零，輸入輸出嵌入不綁定。

模型超參數(shù)如表 1 所示，有 94 億個嵌入?yún)?shù)和 3316 億個非嵌入?yún)?shù)。

訓(xùn)練

Nemotron-4-340B-Base使用 768 個DGX H100 節(jié)點進行訓(xùn)練，每個節(jié)點包含 8 個基于NVIDIA Hopper架構(gòu)的H100 80GB SXM5 GPU。

每個H100 GPU在進行 16 位浮點（BF16）運算時，峰值吞吐量為989 teraFLOP/s（不含稀疏運算）。

英偉達采用了 8 路張量并行、 12 路交錯流水線并行和數(shù)據(jù)并行相結(jié)合的方法，并使用了分布式優(yōu)化器，將優(yōu)化器狀態(tài)分片到數(shù)據(jù)并行副本上，以減少訓(xùn)練的內(nèi)存占用。

表 2 總結(jié)了批大小增加的 3 個階段，包括每次迭代時間，以及GPU利用率（MFU）等，其中100%是理論峰值。

評估

在這一部分，我們報告了 Nemotron-4-340B-Base 的評估結(jié)果。我們將該模型

表 3 是Nemotron-4-340B-Base與Llama-3 70B、Mistral 8x22 和Qwen-2 72B三款開源模型的比較結(jié)果。

可以看到，Nemotron-4-340B-Base在常識推理任務(wù)以及像BBH這樣的流行基準測試中拿下了SOTA，并在MMLU和HumanEval等代碼基準測試中位列第二。

對齊

獎勵模型構(gòu)建

獎勵模型在模型對齊中起著至關(guān)重要的作用，是訓(xùn)練強指令跟隨模型時用于偏好排序和質(zhì)量過濾的重要評判者。

為了開發(fā)一個強大的獎勵模型，英偉達收集了一個包含10k人類偏好數(shù)據(jù)的數(shù)據(jù)集——HelpSteer2。

與成對排名模型不同，多屬性回歸獎勵模型在區(qū)分真實有用性和無關(guān)偽影（如僅因長度而偏好較長但無用的回復(fù)）方面更有效。此外，回歸模型在預(yù)測細粒度獎勵、捕捉相似回復(fù)之間的有用性細微差別方面表現(xiàn)更好。

回歸獎勵模型建立在Nemotron-4-340B-Base模型之上，通過用一個新的獎勵「頭」替換模型的最終softmax層。

這個「頭」是一個線性投影，將最后一層的隱藏狀態(tài)映射到一個包含HelpSteer屬性（有用性、正確性、一致性、復(fù)雜性、冗長性）的五維向量。

在推理過程中，這些屬性值可以通過加權(quán)求和聚合為一個總體獎勵。

數(shù)據(jù)對齊

值得注意的是，在整個對齊過程中，英偉達僅使用了大約20K的人工標注數(shù)據(jù)，而數(shù)據(jù)生成管線則生成了用于監(jiān)督微調(diào)和偏好微調(diào)的98%以上的數(shù)據(jù)。

提示生成準備

生成合成提示，是合成數(shù)據(jù)生成（SDG）的第一步。

這些提示在不同維度上的多樣性至關(guān)重要，包括任務(wù)多樣性（如寫作、開放問答、封閉問答）、主題多樣性（如STEM、人文、日常生活）和指令多樣性（如JSON輸出、段落數(shù)量、是或否回答）。

對此，英偉達使用Mixtral-8x7B-Instruct-v0. 1 作為生成器，分別對這些任務(wù)的合成提示進行了生成。

單輪合成提示

為了收集多樣化的主題，英偉達先引導(dǎo)生成器輸出一組多樣化的宏觀主題，然后再為每個合成的宏觀主題生成相關(guān)的子主題。

加上人工收集的，最終得到的主題達到了3K個。

用于合成提示生成的提示如下：

合成指令跟隨提示

為了提升對于對齊模型至關(guān)重要的指令跟隨能力，就需要生成合成的指令跟隨提示（例如，「寫一篇關(guān)于機器學(xué)習(xí)的文章，你的回答應(yīng)包含三個段落」）。

具體來說，先隨機選擇一些合成提示。對于每個合成提示，從「可驗證」指令模板中隨機生成一個合成指令（例如，「你的回答應(yīng)包含三個段落」）。然后，使用手動定義的模板將提示和指令連接在一起。

除了單輪指令跟隨提示外，英偉達還構(gòu)建了多輪指令跟隨提示，這些指令適用于所有未來的對話（例如「根據(jù)以下指令回答問題和所有后續(xù)問題：[指令開始]用三個段落回答。[指令結(jié)束]」）。

此外，英偉達還構(gòu)建了第二輪指令跟隨提示，可以根據(jù)給定的指令修改之前的回答。

合成兩輪提示

為了在偏好微調(diào)中提高模型的多輪對話能力，英偉達構(gòu)建了兩輪提示來建立偏好數(shù)據(jù)集。

具體來說，提示包含一個用戶問題，一個助手回答，和另一個用戶問題，形式為「用戶：XXX；助手：XXX；用戶：XXX；」。

英偉達從ShareGPT中獲取第一個用戶提示，并使用中間指令模型生成助手回答和下一輪問題。

真實世界的LMSYS提示

為了更好地模擬真實世界的用戶請求，英偉達將LMSYS-Chat-1M中的提示按平衡比例進行組合，并將其分為兩個不同的集合，一個用于監(jiān)督學(xué)習(xí)，另一個用于偏好學(xué)習(xí)。

在監(jiān)督學(xué)習(xí)部分，英偉達移除了LMSYS中被標記為潛在不安全的提示，以避免引發(fā)不良對話。但在偏好學(xué)習(xí)部分則進行了保留，以便模型能夠?qū)W習(xí)如何區(qū)分安全和不安全的響應(yīng)。

從圖 3 中可以看到，合成提示的平均有用性高于LMSYS提示。由于簡單提示更容易「有用」，這意味著LMSYS提示比合成單輪提示平均來說更難且更復(fù)雜。

合成對話生成

通過監(jiān)督微調(diào)，模型就可以學(xué)習(xí)到，如何以對話形式與用戶互動。

英偉達通過提示指令模型生成基于輸入提示的響應(yīng)，來啟動合成對話。

為了培養(yǎng)多輪對話能力，他們把每個對話設(shè)計成包含三輪，好讓對話流程更加動態(tài)、更有互動性。

通過迭代角色扮演，模型會交替模擬助手和用戶的角色。

英偉達發(fā)現(xiàn)，為了在用戶回合中引導(dǎo)所需的行為，就需要提供明確的提示來定義不同的用戶個性。

并且，附上對話歷史是至關(guān)重要的。

他們對用戶回合進行了后處理，排除了禮貌陳述（如「謝謝你...」，「當然，我很高興...」）來模擬真實世界的用戶問題。

生成演示數(shù)據(jù)，是采用的貪婪采樣方法。

此外，英偉達會使用Nemotron4-340B-Reward評估對話質(zhì)量，為每個樣本分配一個分數(shù)，并過濾掉那些低于預(yù)定閾值的樣本。

這就提供了額外的質(zhì)量控制層，保證保留下來的都是高質(zhì)量數(shù)據(jù)。

合成偏好數(shù)據(jù)生成

英偉達使用了10K人工標注的HelpSteer2 偏好數(shù)據(jù)，來訓(xùn)練Nemotron-4-340B-Reward。

不過，他們還需要具有更廣泛提示領(lǐng)域、更高質(zhì)量響應(yīng)的偏好數(shù)據(jù)，這些響應(yīng)來自頂級的中間模型，并在可能的情況下包含額外的真實信號。

因此，英偉達生成了三元組形式的合成偏好數(shù)據(jù)（提示，選擇的響應(yīng)，被拒絕的響應(yīng)）。

生成響應(yīng)

偏好數(shù)據(jù)包含合成的單輪提示、指令跟隨提示、雙輪提示，以及來自真實世界的提示，包括ShareGPT提示、LMSYS提示、GSM8K和MATH訓(xùn)練數(shù)據(jù)集中的提示。

對于每個提示，英偉達都使用了隨機的中間模型生成響應(yīng)。

通過多個模型生成響應(yīng)，就能確保偏好數(shù)據(jù)集具有多樣化的響應(yīng)，以供模型學(xué)習(xí)。

此外，他們還生成了更具挑戰(zhàn)性的合成偏好示例，這些示例是根據(jù)MT-Bench從表現(xiàn)最好的模型中多次隨機生成的響應(yīng)，這樣就可以進一步提升模型的性能。

以基準真相作為判斷標準

對于每個提示給出的多個響應(yīng)，英偉達都需要對其偏好排序進行判斷，并選擇出被選中的響應(yīng)和被拒絕的響應(yīng)。

一些任務(wù)可以使用基準真相（例如GSM8K和MATH訓(xùn)練數(shù)據(jù)集中的答案）或驗證器（例如指令跟隨響應(yīng)可以用 Python程序驗證）來評估。

以LLM/獎勵模型為裁判

大多數(shù)提示，是沒有客觀答案的。因此，英偉達嘗試了以大語言模型為裁判和以獎勵模型為裁判。

在第一種情況中，英偉達向裁判的大語言模型提供提示和兩個響應(yīng)，并要求其比較這兩個響應(yīng)。

為了避免位置偏差，他們會交換響應(yīng)順序后，再次詢問大語言模型。當大語言模型兩次判斷一致時，就會選出有效的三元組（提示、被選中的、被拒絕的）。

另外，為了進一步探索了以獎勵模型為裁判的情況，英偉達要求Nemotron-4-340B-Reward 預(yù)測每個（提示、響應(yīng)）對的獎勵，并根據(jù)獎勵決定偏好排序。

獎勵基準得分顯示以，獎勵模型為裁判的準確性，要高于以大語言模型為裁判。

特別是在Chat-Hard類別中，選擇的響應(yīng)和被拒絕的響應(yīng)難以區(qū)分，以獎勵模型為裁判的表現(xiàn)，要遠優(yōu)于以大語言模型為裁判，平均準確率為0. 87 對0.54。

在這個過程中，英偉達注意到：Chat-Hard類別的評分對于合成數(shù)據(jù)生成中的偏好排序特別重要。

因此，在后來的數(shù)據(jù)集迭代中，他們轉(zhuǎn)而使用以獎勵模型為裁判。

從弱到強的迭代對齊

如前所述，高質(zhì)量的數(shù)據(jù)對于模型的對齊至關(guān)重要。

在數(shù)據(jù)合成過程中，需要一個對齊的大語言模型來準確遵循指令。

這就引發(fā)了一系列重要的問題：哪個模型最適合作為生成器？生成器的強度與數(shù)據(jù)質(zhì)量之間有何關(guān)系？如何改進數(shù)據(jù)生成器？

受到弱到強泛化的啟發(fā)，英偉達開發(fā)了一種新穎的迭代方法，逐步優(yōu)化數(shù)據(jù)。這種方法結(jié)合了對齊訓(xùn)練與數(shù)據(jù)合成的優(yōu)勢，使它們能夠相互增強，并且持續(xù)改進。

圖 4 展示了從弱到強的迭代對齊的工作流程。

首先，使用一個初始對齊模型來生成對話和偏好數(shù)據(jù)。然后，通過監(jiān)督微調(diào)和偏好調(diào)優(yōu)，利用它們對更好的基礎(chǔ)模型進行對齊。

有趣的是，英偉達發(fā)現(xiàn)，教師模型并不會限制學(xué)生模型的上限——

隨著基礎(chǔ)模型和對齊數(shù)據(jù)的改進，新對齊的模型能夠顯著超過初始對齊模型。注意，對齊過程與基礎(chǔ)模型的預(yù)訓(xùn)練是并行進行的。

在第一次迭代中，英偉達選擇了Mixtral-8x7B-Instruct-v0. 1 作為初始對齊模型，因為它是一個具有許可的強大模型。

生成的數(shù)據(jù)用于訓(xùn)練Nemotron-4-340B-Base的一個中間檢查點，稱為340B-Interm-1-Base。

值得注意的是，340B-Interm-1-Base的表現(xiàn)優(yōu)于Mixtral 8x7B基礎(chǔ)模型，這反過來使得最終的340B-Interm-1-Instruct模型，能夠超過Mixtral-8x7B-Instruct-v0. 1 模型。

這就證明，可以通過弱監(jiān)督引出模型強大的能力。

在第二次迭代中，英偉達使用生成的340B-Interm-1-Instruct模型，作為新的數(shù)據(jù)生成器。

由于它比Mixtral-8x7B-Instruct-v0. 1 更強，第二次迭代生成的合成數(shù)據(jù)質(zhì)量就更高。

生成的數(shù)據(jù)用于訓(xùn)練340B-Interm-2-Base模型，使其升級為340B-Interm-2-Chat模型。

這個迭代過程形成了一個自我強化的飛輪效應(yīng)，改進主要來自兩個方面——

(1）當使用相同的數(shù)據(jù)集時，基礎(chǔ)模型的強度直接影響指令模型的強度，基礎(chǔ)模型越強，指令模型也越強；

(2）當使用相同的基礎(chǔ)模型時，數(shù)據(jù)集的質(zhì)量決定了指令模型的效果，數(shù)據(jù)質(zhì)量越高，指令模型也越強。

在整個對齊過程中，英偉達進行了多輪數(shù)據(jù)生成和改進，不斷提升模型的質(zhì)量。

附加數(shù)據(jù)源

此外，英偉達還結(jié)合了多個補充數(shù)據(jù)集，以賦予模型特定的能力。

主題跟隨

主題連貫性和細粒度指令跟隨是，指令模型的重要能力。

因此，英偉達結(jié)合了CantTalkAboutThis訓(xùn)練集，其中包括了覆蓋廣泛主題的合成對話，并故意插入干擾回合以分散聊天機器人對主要主題的注意力。

這就能幫助模型，在任務(wù)導(dǎo)向的交互中更好地專注于預(yù)定的主題。

無法完成的任務(wù)

某些任務(wù)可能由于需要特定的能力（如互聯(lián)網(wǎng)訪問或?qū)崟r知識）而無法由模型獨立完成。

為減少這種情況下的幻覺，英偉達采用少樣本方法，使用人類編寫的示例來提示大語言模型生成各種問題。

然后，他們會明確要求大語言模型以拒絕的方式回應(yīng)，收集這些回應(yīng)，并將其與相應(yīng)的問題配對。

這些配對數(shù)據(jù)就可以用于訓(xùn)練模型，讓它們能夠更好地處理無法完成的任務(wù)。

STEM數(shù)據(jù)集

Open-Platypus已被證明可以提高STEM和邏輯知識。因此，英偉達將具有許可的子集（如PRM800K、SciBench、ARB 、openbookQA）納入訓(xùn)練數(shù)據(jù)中。

基于文檔的推理和問答

基于文檔的問答是大語言模型的重要用例。

英偉達利用FinQA數(shù)據(jù)集提高了數(shù)值的推理能力，使用人工標注數(shù)據(jù)提高了上下文問答的準確性，并使用 wikitablequestions數(shù)據(jù)集，增強了模型對半結(jié)構(gòu)化數(shù)據(jù)的理解。

函數(shù)調(diào)用

此外，英偉達還使用了一部分來自Glaive AI的樣本，以增強模型在函數(shù)調(diào)用方面的能力。

對齊算法

分階段的監(jiān)督微調(diào)

監(jiān)督微調(diào)（Supervised Fine-tuning，SFT）是模型對齊的第一步。

為了改善傳統(tǒng)SFT方法存在的缺陷，英偉達設(shè)計了一種兩階段的SFT策略，使模型能夠依次、有計劃地學(xué)習(xí)不同的行為。

結(jié)果顯示，這種方法在所有下游任務(wù)中都產(chǎn)生了更好的效果。

代碼SFT

為了在不影響其他任務(wù)的情況下提高編碼和推理能力，英偉達選擇先在編碼數(shù)據(jù)上進行SFT。

為了獲得大量的數(shù)據(jù)，英偉達開發(fā)了一種名為Genetic Instruct的全新方法——通過對進化過程的模擬，利用自我指令和向?qū)Ь幋a器突變，從少量高質(zhì)量種子生成大量合成樣本。

過程中，英偉達還引入了一種適應(yīng)度函數(shù)，利用LLM評估生成指令及其解決方案的正確性和質(zhì)量。

然后，通過這些評估和檢查的樣本會被添加到種群池中，進化過程會持續(xù)進行，直到達到目標種群規(guī)模。

最終，經(jīng)過廣泛的去重和過濾后，英偉達保留了大約 80 萬條樣本用于代碼SFT訓(xùn)練。

通用SFT

第二階段，就是通用SFT了。

這里，英偉達采用的是一個包含 20 萬樣本的混合數(shù)據(jù)集。

為了減輕遺忘的風(fēng)險，數(shù)據(jù)混合中還包括了前一個代碼SFT階段的2%的代碼生成樣本。

偏好微調(diào)

在完成監(jiān)督微調(diào)后，英偉達繼續(xù)通過偏好微調(diào)來改進模型。

在這個階段，模型將學(xué)習(xí)偏好示例，其形式是：提示，選擇的響應(yīng)，被拒絕的響應(yīng)。

直接偏好優(yōu)化（DPO）

DPO算法通過優(yōu)化策略網(wǎng)絡(luò)，來最大化選擇和被拒絕響應(yīng)之間的隱含獎勵差距。

在策略學(xué)習(xí)區(qū)分選擇和被拒絕的響應(yīng)時，可以觀察到，隨著差距的增加，選擇和被拒絕響應(yīng)的概率都在一致地下降，即使選擇的響應(yīng)是高質(zhì)量的。

根據(jù)經(jīng)驗，當訓(xùn)練時間足夠長時，策略網(wǎng)絡(luò)容易過擬合，一個指標（例如，MT-Bench）的改進通常伴隨著其他指標（例如，零樣本MMLU）的退化。

為了解決這些問題，英偉達在選擇的響應(yīng)上添加了加權(quán)的SFT損失，以補充原始的DPO損失。

額外的SFT損失有助于防止策略網(wǎng)絡(luò)大幅偏離偏好數(shù)據(jù)，特別是因為偏好數(shù)據(jù)不是從參考策略生成的。

為了避免模型學(xué)習(xí)低質(zhì)量的選擇響應(yīng)，當沒有可用的真實值時，英偉達使用了Nemotron-4-340B-Reward來挑選高質(zhì)量的選擇響應(yīng)示例。最終，這產(chǎn)生了一個包含 16 萬示例的偏好數(shù)據(jù)集。

獎勵感知偏好優(yōu)化（RPO）

為了解決DPO存在的過擬合問題，英偉達提出了一種新算法——獎勵感知偏好優(yōu)化（RPO）。它嘗試使用由策略網(wǎng)絡(luò)定義的隱含獎勵近似獎勵差距。

基于此，便得到了一個新的損失函數(shù)：

結(jié)果顯示，隨著RPO迭代次數(shù)的增加，模型還可以持續(xù)地在所有任務(wù)上獲得提升。

經(jīng)過三次RPO訓(xùn)練迭代后的檢查點，就是最終的Nemotron-4-340B-Instruct。

指令模型評估

自動基準測試

英偉達對Nemotron-4-340B-Instruct進行了全面的自動基準測試評估：

單輪對話：AlpacaEval 2.0 LC和Arena Hard

多輪對話：MT-Bench（GPT-4-Turbo）。需要注意的是，這是原始MT-Bench的修正版本，得分平均要低0. 8 分。

綜合基準測試：MMLU（零樣本）

數(shù)學(xué)：GSM8K（零樣本）

代碼：HumanEval（零樣本）和 MBPP（零樣本）上的Pass@ 1 得分

指令跟隨：IFEval

主題跟隨：TFEval

正如表 5 所示，Nemotron-4-340B-Instruct在當前可用的開源模型中表現(xiàn)出色，具備很強的競爭力。

對齊訓(xùn)練包括：代碼SFT、通用SFT、DPO和三輪RPO。

表 6 展示了模型最終的成績，并量化了每個對齊階段的中間模型的性能：

CodeSFT階段顯著提高了HumanEval得分，從基礎(chǔ)模型的57. 3 提升到70.7；

接下來的通用SFT階段大幅提升了其他類別的準確性，如MT-Bench和MMLU，盡管HumanEval得分略有下降；

DPO階段進一步提升了大多數(shù)指標，但MT-Bench的得分略有下降；

最后的RPO階段均勻地提升了所有指標。特別是，MT-Bench得分從7. 90 增加到8.22，IFEval Prompt-Strict-Acc的得分從61. 7 增加到79.9。

人類評估

除了自動評估外，英偉達模型進行了人類評估。其中，標注員被提供了 136 個提示，分為 10 個不同的任務(wù)類別。

基于「有用性」和「真實性」這兩個維度，英偉達詳細定義了 5 個質(zhì)量等級的具體內(nèi)容，從而在減少了主觀性的同時，提升了可靠性。

在標注設(shè)計中，每個提示都與固定模型集合中的三個不同響應(yīng)配對。每個提示的響應(yīng)順序是隨機的，所有提示和響應(yīng)都由同一組標注員進行評估。

標注完成后，將評分轉(zhuǎn)換為相對于GPT-4-1106-preview的相對勝/平/負率。

從圖 5 中可以看到，除了提取和重寫任務(wù)外，Nemotron-4-340B-Instruct的勝率與GPT-4-1106-preview相當或更好，特別是在多輪對話中表現(xiàn)出色。

整體來說，Nemotron-4-340B-Instruct的勝：平：負比率為28.19%：46.57%：25.24%。

從表 7 中則可以看到，與GPT-4-1106-preview相比，標注員認為Nemotron-4-340B-Instruct的響應(yīng)長度更為合適（79.41%對74.02%）。

值得注意的是，這一優(yōu)勢主要來自較低的長/冗長響應(yīng)率（20.10%對25.74%）。

作者

參考資料：

https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/

https://venturebeat.com/ai/nvidias-nemotron-4-340b-model-redefines-synthetic-data-generation-rivals-gpt-4/

以上就是關(guān)于【英偉達開源3400億巨獸，98%合成數(shù)據(jù)訓(xùn)出最強開源通用模型！性能對標GPT-4o】的相關(guān)內(nèi)容，希望對大家有幫助！

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新文章