日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      Meta祭出三篇最詳盡Llama微調(diào)指南!千字長(zhǎng)文,0基礎(chǔ)小白必備

      發(fā)布時(shí)間:2024-08-26 14:00:04 編輯: 來(lái)源:
      導(dǎo)讀 相信很多大家對(duì)Meta祭出三篇最詳盡Llama微調(diào)指南!千字長(zhǎng)文,0基礎(chǔ)小白必備還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 【新智元導(dǎo)讀...

      相信很多大家對(duì)Meta祭出三篇最詳盡Llama微調(diào)指南!千字長(zhǎng)文,0基礎(chǔ)小白必備還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      【新智元導(dǎo)讀】微調(diào)的所有門(mén)道,都在這里了。

      開(kāi)源,就要開(kāi)的徹徹底底。

      這不,Meta一連放出三篇技術(shù)文章,從大模型適配方法出發(fā),介紹了:

      接下來(lái),直接進(jìn)入正題。

      適配大模型

      預(yù)訓(xùn)練

      預(yù)訓(xùn)練是指,使用數(shù)萬(wàn)億個(gè)token數(shù)據(jù),從頭開(kāi)始訓(xùn)練LLM的過(guò)程,通常使用自監(jiān)督算法進(jìn)行訓(xùn)練。

      最常見(jiàn)的情況是,訓(xùn)練通過(guò)自回歸預(yù)測(cè)下一個(gè)token(也稱(chēng)為因果語(yǔ)言建模)。

      預(yù)訓(xùn)練通常需要數(shù)千個(gè)GPU小時(shí)(105-107個(gè)),并分布在多個(gè)GPU上進(jìn)行。

      預(yù)訓(xùn)練的輸出模型稱(chēng)為「基礎(chǔ)模型」。

      繼續(xù)預(yù)訓(xùn)練

      繼續(xù)預(yù)訓(xùn)練(也稱(chēng)為第二階段預(yù)訓(xùn)練)將使用全新的、未見(jiàn)過(guò)的領(lǐng)域數(shù)據(jù)進(jìn)一步訓(xùn)練基礎(chǔ)模型。

      這里,同樣使用與初始預(yù)訓(xùn)練相同的自監(jiān)督算法。

      通常會(huì)涉及所有模型權(quán)重,并將一部分原始數(shù)據(jù)與新數(shù)據(jù)混合。

      微調(diào)

      微調(diào)是以監(jiān)督方式使用帶注釋的數(shù)據(jù),或使用基于強(qiáng)化學(xué)習(xí)的技術(shù),來(lái)適配預(yù)訓(xùn)練語(yǔ)言模型的過(guò)程。

      與預(yù)訓(xùn)練相比,微調(diào)有兩個(gè)主要區(qū)別:

      - 在包含正確標(biāo)簽/答案/偏好的注釋數(shù)據(jù)集上進(jìn)行監(jiān)督訓(xùn)練,而不是自監(jiān)督訓(xùn)練

      - 需要較少的token(數(shù)千或數(shù)百萬(wàn),而不是預(yù)訓(xùn)練中需要的數(shù)十億或數(shù)萬(wàn)億),其主要目的是提高能力,如指令遵循、人類(lèi)對(duì)齊、任務(wù)執(zhí)行等。

      而要了解微調(diào)的現(xiàn)狀,可以從兩個(gè)方面入手:參數(shù)變化的百分比和微調(diào)后新增的能力。

      更改的參數(shù)百分比

      根據(jù)更改的參數(shù)量,有兩類(lèi)算法:

      - 全面微調(diào):顧名思義,這包括更改模型的所有參數(shù),包括在XLMR和BERT(100-300M參數(shù))等小模型上所做的傳統(tǒng)微調(diào),以及對(duì)Llama2、GPT3(1B+參數(shù))等大模型上的微調(diào)。

      - 參數(shù)高效微調(diào)(PEFT):PEFT算法只微調(diào)少量額外參數(shù),或更新預(yù)訓(xùn)練參數(shù)的子集,通常是總參數(shù)的1%-6%,而不是對(duì)所有LLM權(quán)重進(jìn)行離線(xiàn)微調(diào)。

      基礎(chǔ)模型新增的能力

      微調(diào)的目的是為了向預(yù)訓(xùn)練的模型添加功能,比如指令遵循、人類(lèi)對(duì)齊等。

      聊天微調(diào)Llama2,就是一個(gè)具有附加指令遵循和對(duì)齊能力的微調(diào)模型的例子。

      檢索增強(qiáng)生成(RAG)

      企業(yè)還可以通過(guò)添加特定領(lǐng)域的知識(shí)庫(kù)來(lái)適配LLM,RAG是典型的「搜索驅(qū)動(dòng)的LLM文本生成」。

      RAG于2020年推出,它使用動(dòng)態(tài)提示上下文,通過(guò)用戶(hù)問(wèn)題檢索并注入LLM提示,以引導(dǎo)其使用檢索到的內(nèi)容,而不是預(yù)訓(xùn)練的知識(shí)。

      Chat LangChain是由RAG支持的、在Lang Chain文檔上流行的Q/A聊天機(jī)器人。

      上下文學(xué)習(xí)(ICL)

      對(duì)于ICL,通過(guò)在提示符中放置原型示例來(lái)適配LLM。多項(xiàng)研究表明,「舉一反三」是有效的。這些示例可以包含不同類(lèi)型的信息:

      - 僅輸入和輸出文本,也就是少樣本學(xué)習(xí)

      - 推理追蹤:添加中間推理步驟,可參閱思維鏈(COT)提示

      - 計(jì)劃和反思追蹤:添加信息,教LLM計(jì)劃和反思其解決問(wèn)題的策略,可參閱ReACT

      選擇正確的適配方法

      要決定上述哪種方法適合特定應(yīng)用,你應(yīng)該考慮各種因素:所追求任務(wù)所需的模型能力、訓(xùn)練成本、推理成本、數(shù)據(jù)集類(lèi)型等。

      下面的流程圖總結(jié)了一些建議,可以幫助你選擇合適的LLM適配方法。

      ? 預(yù)訓(xùn)練

      預(yù)訓(xùn)練是LLM訓(xùn)練的重要組成部分,它使用token預(yù)測(cè)變量作為損失函數(shù)。自監(jiān)督算法,使得大量數(shù)據(jù)訓(xùn)練成為可能。

      例如,Llama2接受了2萬(wàn)億token的訓(xùn)練。這需要大量的計(jì)算基礎(chǔ)設(shè)施:Llama270B需要1,720,320個(gè)GPU小時(shí)。

      因此,對(duì)于資源有限的團(tuán)隊(duì),Meta不建議將預(yù)訓(xùn)練作為L(zhǎng)LM適配的可行方法。

      在預(yù)訓(xùn)練計(jì)算成本很高的情況下,更新預(yù)預(yù)訓(xùn)練好的模型權(quán)重,可能是一種有效的方法,來(lái)適配特定任務(wù)。

      不過(guò),任何更新預(yù)訓(xùn)練模型權(quán)重的方法,都容易出現(xiàn)一種「災(zāi)難性遺忘」的現(xiàn)象。

      比如,此前一項(xiàng)研究顯示,在醫(yī)療領(lǐng)域微調(diào)訓(xùn)練后的模型,在遵循指令和常見(jiàn)問(wèn)答任務(wù)上的性能出現(xiàn)下降。

      論文地址:https://arxiv.org/pdf/2009.03300

      還有很多研究可以佐證,通過(guò)預(yù)訓(xùn)練獲得的通用知識(shí),在后續(xù)訓(xùn)練過(guò)程中可能會(huì)被遺忘。

      ? 繼續(xù)預(yù)訓(xùn)練

      鑒于災(zāi)難性的遺忘,最近的研究表明,繼續(xù)預(yù)訓(xùn)練(CPT)可以導(dǎo)致模型性能的進(jìn)一步提高,而計(jì)算成本只是預(yù)訓(xùn)練的一小部分。

      對(duì)于需要LLM獲得新的轉(zhuǎn)換技能的任務(wù),CPT可能是有益的。

      有研究報(bào)告顯示,繼續(xù)預(yù)訓(xùn)練成功地增加了多種語(yǔ)言能力。

      但CPT成本極高,需要大量的數(shù)據(jù)和計(jì)算資源。

      比如,PYTHIA套件經(jīng)歷了第二階段的預(yù)訓(xùn)練,最終得到了FinPYTHIA-6.9B。該模型專(zhuān)為金融數(shù)據(jù)設(shè)計(jì)的,使用240億token的數(shù)據(jù)集,進(jìn)行了18天的繼續(xù)預(yù)訓(xùn)練。

      此外,CPT也容易導(dǎo)致災(zāi)難性的遺忘。

      因此,對(duì)于資源有限的團(tuán)隊(duì),Meta同樣不建議將繼續(xù)預(yù)訓(xùn)練訓(xùn)作為L(zhǎng)LM適配的可行方法。

      總而言之,在預(yù)訓(xùn)練和持續(xù)預(yù)訓(xùn)練中,使用自監(jiān)督算法和未加注釋的數(shù)據(jù)集,微調(diào)LLM是資源和成本密集型的,不建議將其作為一種可行的辦法。

      ? 全參微調(diào)和參數(shù)高效微調(diào)(PEFT)

      與使用未注釋的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)相比,使用較小的帶注釋的數(shù)據(jù)集進(jìn)行微調(diào),是一種更具成本效益的方法。

      而且,微調(diào)后模型被證明在法律、醫(yī)療或金融等專(zhuān)業(yè)領(lǐng)域的廣泛的應(yīng)用中,實(shí)現(xiàn)了SOTA。

      微調(diào),特別是參數(shù)高效微調(diào),只需要預(yù)訓(xùn)練/繼續(xù)預(yù)訓(xùn)練所需計(jì)算資源的一小部分。

      因此,對(duì)于資源有限的團(tuán)隊(duì)來(lái)說(shuō),這是一個(gè)可行的方法來(lái)適配LLM。

      ? 檢索增強(qiáng)生成(RAG)

      RAG是另一種流行的LLM適配方法。

      如果你的應(yīng)用程序需要從動(dòng)態(tài)知識(shí)庫(kù)(例如QA機(jī)器人)中提取,RAG可能是一個(gè)很好的解決方案。

      RAG的系統(tǒng)的復(fù)雜性,主要在于檢索引擎的實(shí)現(xiàn)。

      這種系統(tǒng)的推理成本可能會(huì)更高,因?yàn)檩斎胩崾景藱z索到的文檔,而大多數(shù)服務(wù)提供商采用按token計(jì)費(fèi)的模式。

      ? 上下文學(xué)習(xí)(ICL)

      這是適配LLM最具成本效益的方式。

      ICL不需要任何額外的訓(xùn)練數(shù)據(jù)或計(jì)算資源,使其成為一種具有成本效益的方法。然而,與RAG類(lèi)似,隨著推理時(shí)處理更多的token,推理的成本和延遲可能會(huì)增加。

      總之,創(chuàng)建一個(gè)基于LLM的系統(tǒng)是迭代的,上面的流程圖概述了這一迭代過(guò)程,并為L(zhǎng)LM適配戰(zhàn)略奠定了堅(jiān)實(shí)的基礎(chǔ)。

      微調(diào)還是不微調(diào)?

      在第二部分中,Meta又談了談什么情況下,需要微調(diào)。

      在大模型興起之前,微調(diào)通常用于參數(shù)比較少的模型(100M –300M)。

      而且,最先進(jìn)領(lǐng)域應(yīng)用程序,也是使用監(jiān)督微調(diào)(SFT)構(gòu)建的,即使用自己專(zhuān)業(yè)領(lǐng)域和下有任務(wù)的注釋數(shù)據(jù),進(jìn)一步訓(xùn)練預(yù)訓(xùn)練的模型。

      然而,隨著更大參數(shù)模型的出現(xiàn)(>1B),微調(diào)的問(wèn)題變得微妙了起來(lái)。

      最重要的是,大模型需要更大的資源和商業(yè)硬件來(lái)進(jìn)行微調(diào)。

      下表1列出了三種情況下,微調(diào)Llama27B和Llama213B模型的峰值GPU內(nèi)存使用量。

      你可能會(huì)注意到,QLoRA等算法使得利用有限資源,對(duì)大模型進(jìn)行微調(diào)變得更加容易。

      例如,表1顯示了Llama27B上三種微調(diào)模式(全面微調(diào)、LORA和QLoRA)的峰值GPU內(nèi)存。

      在Llama1中,由于參數(shù)高效微調(diào)(PEFT)或量化,內(nèi)存也有類(lèi)似的減少。

      除計(jì)算資源外,災(zāi)難性遺忘(詳見(jiàn)本系列第一部分)也是全參數(shù)微調(diào)的常見(jiàn)隱患。

      PEFT技術(shù)旨在通過(guò)對(duì)少量參數(shù)進(jìn)行訓(xùn)練來(lái)解決這些缺陷。

      微調(diào)可能有益的原型

      研究人員將以下場(chǎng)景確定為可從微調(diào)中受益的常見(jiàn)用例:

      - 語(yǔ)氣、風(fēng)格、形式定制:使用案例可能會(huì)尋求反映特定角色或服務(wù)特定受眾的LLM。

      通過(guò)使用定制數(shù)據(jù)集對(duì)LLM進(jìn)行微調(diào),可以塑造聊天機(jī)器人的響應(yīng),使其更符合受眾的特定需求或預(yù)期的體驗(yàn)。

      另外,研究者可能還希望它能以特定的方式組織輸出,例如,JSON、YAML或Markdown格式的輸出。

      - 提高精度并處理邊緣情況:微調(diào)可以用于糾正幻覺(jué)或錯(cuò)誤,這些錯(cuò)誤很難通過(guò)prompt和上下文學(xué)習(xí)來(lái)糾正。

      它還可以增強(qiáng)模型執(zhí)行新技能或任務(wù)的能力,這些技能或任務(wù)很難在提示中表達(dá)。

      這個(gè)過(guò)程可以幫助糾正模型沒(méi)有遵循復(fù)雜提示的錯(cuò)誤,并提高其產(chǎn)生所需輸出的可靠性。

      以下是兩個(gè)案例:

      - Phi-2對(duì)金融數(shù)據(jù)情緒分析準(zhǔn)確率,從34%提高到85%。

      - 僅用100個(gè)示例,ChatGPT對(duì)Reddit評(píng)論情緒分析的準(zhǔn)確率從48%提高到73%。

      通常來(lái)說(shuō),對(duì)于較小的初始精度(<50%),微調(diào)是一個(gè)巨大的障礙,需要用幾百個(gè)示例。

      - 處理代表性不足的領(lǐng)域:盡管LLM接受了大量通用數(shù)據(jù)的訓(xùn)練,但它們可能并不總是精通每一個(gè)特定領(lǐng)域的細(xì)微差別的行話(huà)、術(shù)語(yǔ)或具體情況。

      對(duì)于不同的領(lǐng)域,如法律、醫(yī)療或金融,微調(diào)已被證明有助于提高下游任務(wù)的準(zhǔn)確性。

      以下是兩個(gè)案例:

      - 正如本文中指出的,患者的病歷包含高度敏感的數(shù)據(jù),這些數(shù)據(jù)通常不會(huì)在公共領(lǐng)域中找到。因此,基于LLM的病歷摘要系統(tǒng)需要進(jìn)行微調(diào)。

      - 對(duì)于印地語(yǔ)等代表性較少的語(yǔ)言,使用PEFT進(jìn)行微調(diào)有助于完成這些語(yǔ)言的所有任務(wù)。

      - 降低成本:微調(diào)可以將較大參數(shù)模型(如Llama270B/GPT-4)中的技能,提煉成小模型(如Llama27B)中的技能,從而在不影響質(zhì)量的情況下降低成本和延遲。

      此外,微調(diào)減少了對(duì)冗長(zhǎng)或特定提示的需要,從而節(jié)省了象征性成本并進(jìn)一步降低了成本。

      - 新的任務(wù)/能力:通常,新的能力可以通過(guò)微調(diào)來(lái)實(shí)現(xiàn)。以下是三個(gè)案例:

      1微調(diào)LLM,以便更好地利用特定檢索器的上下文,或完全忽略它

      2微調(diào)LLM「法官」,以評(píng)估其他LLM的指標(biāo),如接地性、合規(guī)性或有用性

      3微調(diào)LLM以增加上下文窗口

      與其他領(lǐng)域適配技術(shù)的比較

      微調(diào)與上文學(xué)習(xí)(少樣本)

      上下文學(xué)習(xí)(ICL)是提高基于LLM的系統(tǒng)性能的有效方法。

      使用ICL時(shí)的常見(jiàn)注意事項(xiàng)包括:

      - 隨著需要展示的示例數(shù)量的增加,推理的成本和延遲也會(huì)增加。

      - 隨著例子越來(lái)越多,LLM忽略一些例子是很常見(jiàn)的。這意味著你可能需要一個(gè)基于RAG的系統(tǒng),根據(jù)輸入找到最相關(guān)的示例。

      - LLM可以吐出提供給他們的知識(shí)作為例子。這一擔(dān)憂(yōu)在微調(diào)時(shí)也存在。

      微調(diào)和RAG

      普遍的共識(shí)是,當(dāng)LLM基本性能不盡如人意時(shí),可以先從RAG開(kāi)始,衡量其性能,如果發(fā)現(xiàn)不足,再轉(zhuǎn)向微調(diào)。

      或者說(shuō),與微調(diào)相比,RAG可能更有優(yōu)勢(shì)。

      然而,Meta認(rèn)為這種范式過(guò)于簡(jiǎn)單化,因?yàn)樵诙喾N情況下,RAG不僅不是微調(diào)的替代方案,而且更像是微調(diào)的補(bǔ)充方案。

      根據(jù)問(wèn)題的特點(diǎn),應(yīng)該嘗試一種方法,或者兩種方法。

      根據(jù)本文的框架,你可以提出以下問(wèn)題,以確定微調(diào)或 RAG(或兩者)是否適用:

      - 你的應(yīng)用程序需要外部知識(shí)嗎?微調(diào)通常對(duì)注入新知識(shí)沒(méi)什么幫助

      - 你的應(yīng)用程序是否需要自定義語(yǔ)氣/行為/詞匯或風(fēng)格?對(duì)于這些類(lèi)型的需求,微調(diào)通常是正確的方法。

      - 你的應(yīng)用程序?qū)糜X(jué)的容忍度如何?在抑制虛假和想象力編造至關(guān)重要的應(yīng)用中,RAG系統(tǒng)提供內(nèi)置機(jī)制,最大限度地減少幻覺(jué)。

      - 有多少已標(biāo)記的訓(xùn)練數(shù)據(jù)可用?

      - 數(shù)據(jù)的靜態(tài)/動(dòng)態(tài)程度如何?如果問(wèn)題需要訪問(wèn)動(dòng)態(tài)數(shù)據(jù)語(yǔ)料庫(kù),微調(diào)可能不是正確的方法,因?yàn)閷?duì)LLM的知識(shí)可能很快就會(huì)過(guò)時(shí)。

      - LLM應(yīng)用程序需要有多透明/可解釋?RAG本身可以提供引用,這些引用對(duì)于解釋LLM輸出非常有用。

      - 成本和復(fù)雜性:團(tuán)隊(duì)是否擁有構(gòu)建搜索系統(tǒng)的專(zhuān)業(yè)知識(shí)或之前的微調(diào)經(jīng)驗(yàn)?

      - 您的應(yīng)用程序中的任務(wù)種類(lèi)有多少?

      在大多數(shù)情況下,微調(diào)和RAG的混合解決方案,將產(chǎn)生最好的結(jié)果,問(wèn)題就在于兩者的成本、時(shí)間和額外的獨(dú)立效益。

      最后,微調(diào)中的探索,確實(shí)需要一個(gè)強(qiáng)大的數(shù)據(jù)收集和數(shù)據(jù)改進(jìn)策略,Meta建議將其作為開(kāi)始微調(diào)的前奏。

      如何微調(diào)?

      到了第三部分就步入真正關(guān)鍵的內(nèi)容——如何去微調(diào),先要關(guān)注數(shù)據(jù)集。

      微調(diào)LLM可以說(shuō),是藝術(shù)和科學(xué)的結(jié)合,最佳做法仍在不斷涌現(xiàn)。

      在這部分,Meta將重點(diǎn)介紹微調(diào)的設(shè)計(jì)變量,并就資源受限的情況下,微調(diào)模型的最佳實(shí)踐提供方向性指導(dǎo)。

      全面微調(diào)與參數(shù)高效微調(diào)

      在學(xué)術(shù)和實(shí)際應(yīng)用中,當(dāng)應(yīng)用于新領(lǐng)域時(shí),全面微調(diào)和PEFT都顯示出下游性能的提升。

      選擇其中一種方法,可歸結(jié)為可用計(jì)算量(GPU小時(shí)數(shù)和GPU內(nèi)存)、目標(biāo)下游任務(wù)以外的任務(wù)性能(學(xué)習(xí)和遺忘權(quán)衡)以及人工注釋成本。

      全面微調(diào)更容易出現(xiàn)兩個(gè)問(wèn)題:模型崩潰和災(zāi)難性遺忘。

      一些早期的實(shí)證研究表明,與PEFT技術(shù)相比,全面微調(diào)更容易出現(xiàn)上述問(wèn)題,但還需要做更多的研究。

      PEFT技術(shù)本質(zhì)上,是作為微調(diào)的自然正則化器。

      PEFT通常需要相對(duì)較少的計(jì)算資源來(lái)訓(xùn)練下游模型,并且在數(shù)據(jù)集規(guī)模有限的資源受限場(chǎng)景下,更易于使用。

      在某些情況下,全面微調(diào)在特定任務(wù)上表現(xiàn)更好,但代價(jià)往往是遺忘原始模型的一些能力。

      在資源受限的情況下,PEFT可能會(huì)比全面微調(diào)提供更好的性能提升/成本比。

      如果在資源受限的情況下,下游性能至關(guān)重要,那么全面微調(diào)將是最有效的。

      無(wú)論在哪種情況下,關(guān)鍵是要牢記以下幾個(gè)關(guān)鍵原則來(lái)創(chuàng)建高質(zhì)量的數(shù)據(jù)集。

      數(shù)據(jù)集管理

      在各種文獻(xiàn)的微調(diào)實(shí)驗(yàn)中,數(shù)據(jù)集對(duì)于獲得微調(diào)的好處至關(guān)重要。

      除了「更好的質(zhì)量和更多的示例」之外,還有更多的細(xì)微差別,你可以明智地投資數(shù)據(jù)集收集,以在資源受限的微調(diào)實(shí)驗(yàn)中提高性能。

      數(shù)據(jù)質(zhì)量/數(shù)量

      - 質(zhì)量是最重要的:一個(gè)大趨勢(shì)是質(zhì)量比數(shù)量更重要。也就是說(shuō),擁有一小部分高質(zhì)量的數(shù)據(jù),比擁有一大批低質(zhì)量的數(shù)據(jù)更好。

      質(zhì)量的關(guān)鍵原則是一致的注釋?zhuān)瑳](méi)有錯(cuò)誤、沒(méi)有錯(cuò)誤標(biāo)簽的數(shù)據(jù)、有噪音的輸入/輸出,以及與總體相比具有代表性的分布。

      在微調(diào)時(shí),幾千個(gè)精選的LIMA數(shù)據(jù)集示例,比50K機(jī)器生成的Llama數(shù)據(jù)集具有更好的性能。

      OpenAI微調(diào)文檔表明,即使是50-100個(gè)示例的數(shù)據(jù)集也可能產(chǎn)生影響。

      - 更困難的語(yǔ)言任務(wù)需要更多數(shù)據(jù):相對(duì)困難的任務(wù),如文本生成和摘要,更難微調(diào),比起更容易的任務(wù),如分類(lèi)和實(shí)體提取,需要更多數(shù)據(jù)。

      「更難」可以指多個(gè):輸出中有更多的token,需要更高級(jí)別的人類(lèi)能力,多個(gè)正確答案。

      - 有效的高質(zhì)量數(shù)據(jù)收集:由于數(shù)據(jù)收集成本較高,建議使用以下策略來(lái)獲得更高的樣本效率和成本

      1觀察失效模式:觀察先前機(jī)器學(xué)習(xí)能力失敗的例子,并添加針對(duì)這些失效模式的樣例。

      2人機(jī)協(xié)作:這是一種更經(jīng)濟(jì)的數(shù)據(jù)標(biāo)注擴(kuò)展方式。可以使用LLM自動(dòng)生成基礎(chǔ)回答,人類(lèi)標(biāo)注者可以基于此更快地進(jìn)行標(biāo)注。

      數(shù)據(jù)多樣性

      簡(jiǎn)單來(lái)說(shuō),如果你用特定類(lèi)型的回應(yīng)過(guò)度訓(xùn)練模型,它會(huì)傾向于給出那種回應(yīng),即使不是最合適的答案。

      這里的經(jīng)驗(yàn)法則是,盡可能確保訓(xùn)練數(shù)據(jù)反映模型在現(xiàn)實(shí)世界中應(yīng)該如何表現(xiàn)。

      - 重復(fù):無(wú)論是在微調(diào)還是預(yù)訓(xùn)練中,這都被發(fā)現(xiàn)是導(dǎo)致模型性能下降的原因。通過(guò)去重實(shí)現(xiàn)多樣性,往往會(huì)提高性能指標(biāo)。

      - 輸入多樣性:通過(guò)改述來(lái)增加輸入的多樣性。

      - 數(shù)據(jù)集多樣性:當(dāng)為更通用的下游任務(wù)微調(diào)時(shí)(例如,多語(yǔ)言適配),使用多樣化的數(shù)據(jù)集已被證明,可以改善模型在遺忘原始能力和學(xué)習(xí)新能力之間的權(quán)衡。

      - 標(biāo)準(zhǔn)化輸出:移除輸出中的空白和其他格式技巧被證明是有幫助的。如果你想要回答中有特定的語(yǔ)氣,比如「服務(wù)臺(tái)聊天機(jī)器人是...」,那么就為每個(gè)例子在數(shù)據(jù)集中添加這些內(nèi)容。

      基于LLM的數(shù)據(jù)管道

      為了整理高質(zhì)量、多樣化的數(shù)據(jù)集,數(shù)據(jù)管道經(jīng)常使用大語(yǔ)言模型來(lái)降低標(biāo)注成本。

      以下是實(shí)踐中觀察到的技術(shù):

      - 評(píng)估:用高質(zhì)量數(shù)據(jù)集訓(xùn)練一個(gè)模型,然后用它來(lái)標(biāo)注較大數(shù)據(jù)集,以篩選出高質(zhì)量的樣例。

      - 生成:用高質(zhì)量示例來(lái)引導(dǎo)大模型,并通過(guò)提示生成類(lèi)似的高質(zhì)量樣例。合成數(shù)據(jù)集的最佳實(shí)踐正在逐漸形成。

      - 人機(jī)協(xié)作:使用大模型生成初始輸出集,然后由人類(lèi)通過(guò)編輯或選擇偏好來(lái)提高質(zhì)量。

      調(diào)試數(shù)據(jù)集

      - 評(píng)估數(shù)據(jù)集中的不良輸出:如果模型在某些方面仍然表現(xiàn)不佳,添加直接向模型展示如何正確處理這些方面的訓(xùn)練示例。

      如果你的模型存在語(yǔ)法、邏輯或風(fēng)格問(wèn)題,檢查數(shù)據(jù)是否存在相同的問(wèn)題。

      例如,如果模型現(xiàn)在說(shuō)「我會(huì)為你安排這個(gè)會(huì)議」(實(shí)際上它不應(yīng)該這樣做),看看現(xiàn)有的例子是否教導(dǎo)模型說(shuō)它可以做一些它實(shí)際上不能做的新事情。

      - 仔細(xì)檢查正面/負(fù)面類(lèi)別的平衡:如果數(shù)據(jù)中60%的助手回應(yīng)說(shuō)「我無(wú)法回答這個(gè)問(wèn)題」,但在推理時(shí)只有5%的回應(yīng)應(yīng)該這樣說(shuō),你可能會(huì)得到過(guò)多的拒絕回應(yīng)。

      - 全面性和一致性:確保你的訓(xùn)練示例包含回應(yīng)所需的所有信息。

      如果希望模型基于用戶(hù)的個(gè)人特征來(lái)贊美用戶(hù),而訓(xùn)練示例中包含了助手對(duì)前面對(duì)話(huà)中沒(méi)有出現(xiàn)的特征的贊美,模型可能會(huì)學(xué)會(huì)虛構(gòu)信息。

      確保所有的訓(xùn)練示例,都采用與推理時(shí)預(yù)期相同的格式,查看訓(xùn)練示例中的一致性和協(xié)調(diào)性。

      總而言之,微調(diào)是大模型開(kāi)發(fā)中的一個(gè)關(guān)鍵方面,需要在藝術(shù)和科學(xué)之間取得微妙的平衡。

      數(shù)據(jù)集的質(zhì)量和篩選,對(duì)微調(diào)的成功起著重要作用。

      經(jīng)過(guò)微調(diào)的小型LLM在特定任務(wù)上,往往表現(xiàn)優(yōu)于更大的模型。

      一旦決定進(jìn)行微調(diào),Llama微調(diào)指南提供了一個(gè)良好的起點(diǎn)。

      參考資料:

      https://ai.meta.com/blog/when-to-fine-tune-llms-vs-other-techniques/

      https://ai.meta.com/blog/how-to-fine-tune-llms-peft-dataset-curation/

      https://ai.meta.com/blog/adapting-large-language-models-llms/

      以上就是關(guān)于【Meta祭出三篇最詳盡Llama微調(diào)指南!千字長(zhǎng)文,0基礎(chǔ)小白必備】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章