日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<legend id="iydl1"></legend>

<td id="iydl1"></td>

<td id="iydl1"></td>

<pre id="iydl1"></pre>

<small id="iydl1"><menu id="iydl1"><font id="iydl1"></font></menu></small>

清華唐杰團(tuán)隊(duì)新作：一口氣生成2萬(wàn)字，大模型開卷長(zhǎng)輸出

發(fā)布時(shí)間：2024-08-15 14:00:07 編輯：來(lái)源：

導(dǎo)讀相信很多大家對(duì)清華唐杰團(tuán)隊(duì)新作：一口氣生成2萬(wàn)字，大模型開卷長(zhǎng)輸出還不知道吧，今天菲菲就帶你們一起去了解一下~.~！一口氣生成2萬(wàn)字，...

相信很多大家對(duì)清華唐杰團(tuán)隊(duì)新作：一口氣生成2萬(wàn)字，大模型開卷長(zhǎng)輸出還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

一口氣生成2萬(wàn)字，大模型輸出也卷起來(lái)了!

清華&智譜AI最新研究，成功讓GLM-4、Llama-3.1輸出長(zhǎng)度都暴增。

相同問(wèn)題下，輸出結(jié)果直接從1800字增加到7800字，翻4倍。

要知道，目前大模型的生成長(zhǎng)度普遍在2k以下。這對(duì)于內(nèi)容創(chuàng)作、問(wèn)題回答等都存在影響，可能導(dǎo)致模型回答問(wèn)題不全面、創(chuàng)造性降低等。

該研究由智譜AI創(chuàng)始人、清華大學(xué)教授李涓子和唐杰共同領(lǐng)銜。

論文及代碼都已放在GitHub上開源。

有網(wǎng)友已經(jīng)搶先體驗(yàn)。LongWriter-llama3.1-8b可生成萬(wàn)字長(zhǎng)文《羅馬帝國(guó)衰落史》，在MacBook Pro2018（32GB）上就能運(yùn)行。

9B模型搞定萬(wàn)字輸出

本項(xiàng)研究主要包括3方面工作。

分析文本生成長(zhǎng)度限制因素

提出AgentWrite

擴(kuò)展LLM輸出窗口大小

首先，研究人員構(gòu)建了一個(gè)測(cè)試工具LongWrite-Ruler。通過(guò)測(cè)試多個(gè)大模型，他們發(fā)現(xiàn)所有模型在生成超過(guò)2000字的文本時(shí)都遇到了困難。

進(jìn)一步分析用戶和大模型的交互日志，研究人員發(fā)現(xiàn)只有超過(guò)1%的用戶請(qǐng)求明確提到要生成超過(guò)2000字的文本。

為此，他們改變了模型在監(jiān)督式微調(diào)（SFT）階段使用的數(shù)據(jù)集的最大輸出長(zhǎng)度。

結(jié)果發(fā)現(xiàn)，模型的最大輸出長(zhǎng)度與SFT數(shù)據(jù)集中的最大輸出長(zhǎng)度呈顯著正相關(guān)。

所以得出結(jié)論，現(xiàn)有模型在輸出長(zhǎng)度上受限主要是因?yàn)镾FT數(shù)據(jù)集中缺少長(zhǎng)輸出樣本。

即使模型在預(yù)訓(xùn)練階段見(jiàn)過(guò)更長(zhǎng)的序列，但是SFT階段缺乏長(zhǎng)文本樣本，還是會(huì)影響輸出長(zhǎng)度。

為了克服這個(gè)限制，研究人員提出了AgentWrite。

這是一個(gè)基于Agent的pipline。

它允許將超長(zhǎng)文本生成任務(wù)分解為多個(gè)子任務(wù)，每個(gè)子任務(wù)處理其中的一段。

具體流程是AgentWrite先根據(jù)用戶指令制定出一個(gè)詳細(xì)的寫作計(jì)劃，計(jì)劃包括每個(gè)段落的主要內(nèi)容點(diǎn)和目標(biāo)詞數(shù)。根據(jù)計(jì)劃，AgentWrite依次提示模型生成每個(gè)段落的內(nèi)容。

在AgentWrite基礎(chǔ)上，團(tuán)隊(duì)利用GPT-4o生成了6000個(gè)長(zhǎng)輸出SFT數(shù)據(jù)，輸出長(zhǎng)度在2k到32k詞之間，構(gòu)成了數(shù)據(jù)集LongWriter-6k。并將這些數(shù)據(jù)添加到訓(xùn)練過(guò)程中。

為了驗(yàn)證方法的有效性，團(tuán)隊(duì)還提出了一個(gè)LongBench-Write。其中包含了多樣化的用戶寫作指令，輸出長(zhǎng)度規(guī)格分別為0-500詞、500-2000詞、2000-4000詞以及4000詞以上。

評(píng)估結(jié)果顯示，使用AgentWrite后模型輸出長(zhǎng)度明顯增加。

通過(guò)直接偏好優(yōu)化（DPO），GLM-4-9B在一眾模型中實(shí)現(xiàn)了最佳性能。

手速快的網(wǎng)友已經(jīng)搶先實(shí)測(cè)。

Reddit上一位網(wǎng)友讓LongWriter-llama3.1-8b生成羅馬帝國(guó)衰敗史，整體需要22分鐘（與硬件有關(guān)），平均每秒生成3.34個(gè)token。

生成內(nèi)容比較公式化，回答不同問(wèn)題的結(jié)構(gòu)、節(jié)奏相似。

研究團(tuán)隊(duì)也表示未來(lái)將進(jìn)一步擴(kuò)展模型的輸出長(zhǎng)度和輸出質(zhì)量，同時(shí)也會(huì)開始研究如何在不犧牲生成質(zhì)量的情況下提高效率。

參考鏈接:

https://github.com/THUDM/LongWriter

—完—

以上就是關(guān)于【清華唐杰團(tuán)隊(duì)新作：一口氣生成2萬(wàn)字，大模型開卷長(zhǎng)輸出】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新文章