ChatGPT等模型瘋狂訓練,最快2026年消耗盡公開文本數(shù)據(jù)
相信很多大家對ChatGPT等模型瘋狂訓練,最快2026年消耗盡公開文本數(shù)據(jù)還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
AI發(fā)展科研機構Epochai在官網(wǎng)發(fā)布了一項,關于大模型消耗訓練數(shù)據(jù)的研究報告。
目前,人類公開的高質量文本訓練數(shù)據(jù)集大約有300萬億tokens。但隨著ChatGPT等模大型的參數(shù)、功能越來越強以及過度訓練,對訓練數(shù)據(jù)的需求呈指數(shù)級增長,預計將在2026年——2032年消耗完這些數(shù)據(jù)。
研究人員特別提到了“過度訓練”(Overtraining)是加速消耗訓練數(shù)據(jù)進程的主要原因之一。例如,Meta最新開源的Llama3的8B版本過度訓練達到了驚人的100倍,如果其他模型都按照這個方法來訓練,數(shù)據(jù)可能在2025年就消耗盡了;70B版本還好,過度訓練只有10倍。
所以,無論是閉源還是開源大模型,已經(jīng)進入比拼訓練數(shù)據(jù)的階段,誰的模型學習的數(shù)據(jù)更多、維度更廣,即便是小參數(shù)同樣可以戰(zhàn)勝大參數(shù)模型,尤其是在RAG、MoE、MTL等加持下效果更明顯。
什么是過度訓練
過度訓練是在深度學習領域,特別是在大模型的訓練過程中,開發(fā)者有意讓模型使用的訓練數(shù)據(jù)量超過計算最優(yōu)模型所需的量。這種做法與傳統(tǒng)的機器學習中避免過擬合的目標不同。
過擬合發(fā)生在模型過于復雜或者訓練時間過長,以至于模型開始記憶訓練數(shù)據(jù)中的噪聲而非泛化到未見數(shù)據(jù)。但在大模型的過度訓練是一種優(yōu)化策略,可以節(jié)省推理成本和效率,同時模型開始學習訓練數(shù)據(jù)中的噪音和細節(jié),而不是潛在的數(shù)據(jù)分布。
這就像學生學習歷史一樣,如果只記住大量的日期和事件,而沒有理解它們之間的聯(lián)系和意義,在面對新的問題或需要綜合分析時,可能無法給出準確的邏輯答案。
此外,大模型過度訓練意味著參數(shù)量與訓練數(shù)據(jù)量的比例超過了Chinchilla縮放定律建議的最佳比例大約D/N比為20。
在Chinchilla縮放定律下,保持這個比例可以使得模型在固定的訓練計算預算下達到最低的可減少損失。不過開發(fā)者可能會選擇讓這個比例高于最優(yōu)值,會讓模型使用更多的數(shù)據(jù)來訓練。
這樣做雖然會增加訓練階段的數(shù)據(jù)需求,但能夠減少模型在推理階段的算力成本。因為相對于昂貴GPU,訓練數(shù)據(jù)就便宜的多,尤其是在超大規(guī)模參數(shù)模型中的收益更明顯。
Meta最新開源的Llama3系列模型是過度訓練的典型,GPT-3、Flan137B、Falcon-180B等模型也都存在這一現(xiàn)象。
如果保持在5——10倍的過度訓練量,訓練數(shù)據(jù)的消耗度還在可控范圍之內,如果在100倍以上,將呈指數(shù)級增長,而Llama3的8B版本過度訓練就已經(jīng)達到100倍。
公開訓練數(shù)據(jù)沒了,4種其他獲取方法
在大模型領域,訓練數(shù)據(jù)已經(jīng)和AI算力一樣變得非常重要,是決定模型性能的關鍵元素之一。雖然可以再生,但消耗速度過快可能會蓋過生成速度出現(xiàn)無數(shù)據(jù)可用的局面。Epoch ai給出了以下4種獲取訓練數(shù)據(jù)的新方法。
1)合成數(shù)據(jù):合成數(shù)據(jù)主要利用深度學習來模擬真實數(shù)據(jù),來生成全新的數(shù)據(jù)。這種方法在數(shù)據(jù)短缺的情況下顯得尤為重要,因為提供了一種潛在的無限擴展數(shù)據(jù)集的方式。目前,很多科技巨頭已經(jīng)在使用這個方法,不過也有很大的弊端。
合成數(shù)據(jù)的質量可能會比較差并出現(xiàn)過擬合行,這是因為在合成的過程中無法完全捕捉到真實數(shù)據(jù)的復雜性和多樣性。
例如,合成數(shù)據(jù)可能缺乏真實文本中的某些細微的語言特征,或者可能過于依賴模型訓練時使用的特定數(shù)據(jù)集,導致生成的文本缺乏多樣性。此外,合成數(shù)據(jù)可能會引入一些新的偏差,這些偏差可能會影響模型的性能。
2)多模態(tài)和跨領域數(shù)據(jù)學習:多模態(tài)學習是一種涉及多種數(shù)據(jù)類型的學習方法,它不僅限于文本,還包括圖像、視頻、音頻等多種形式的數(shù)據(jù)。通過結合不同模態(tài)的信息,可以更全面地理解和處理復雜的任務。
例如,GPT-4o、GPT-4V、Gemini等可以同時處理文本描述和相應的圖片,以更好地理解場景和語境。這也是目前多模態(tài)大模型的主要訓練數(shù)據(jù)方法之一。
此外,開發(fā)者也可以將目光投向其他領域,例如,金融市場數(shù)據(jù)、科學數(shù)據(jù)庫、基因數(shù)據(jù)庫等。根據(jù)預測,基因領域的數(shù)據(jù)增長每年保持在幾百萬億甚至上千萬億,可以產(chǎn)生源源不斷的真實數(shù)據(jù)。
3)私有數(shù)據(jù):根據(jù)Epoch ai調查數(shù)據(jù)顯示,目前全球文本數(shù)據(jù)包含私有總量大概在3100萬億tokens。而公開數(shù)據(jù)只有300萬億,也就是說還有90%的私有數(shù)據(jù)可以使用。
目前,已經(jīng)有科技公司開始從這方面下手,例如,OpenAI成立了一個“數(shù)據(jù)聯(lián)盟”專門搜集高質量、沒公開過的私有數(shù)據(jù),在訓練GPT系列和最新的前沿模型。
但使用私有數(shù)據(jù)很有難度,首先,隱私和安全性是最大的顧慮,非公共數(shù)據(jù)往往包含敏感信息,如果用于模型訓練,可能會引發(fā)隱私泄露的風險。例如,社交媒體上的私人對話、個人郵箱中的通信記錄,這些都是用戶不希望被公開的數(shù)據(jù)。
其次,獲取和整合非公共數(shù)據(jù)的過程可能非常復雜。與公共數(shù)據(jù)相比,非公共數(shù)據(jù)分散在不同的平臺和系統(tǒng)中,缺乏統(tǒng)一的標準和格式。這就需要開發(fā)新的技術和方法來收集、清洗和標準化這些數(shù)據(jù),以便它們能夠被有效地用于大模型訓練
4)與真實世界實時交互學習:可以讓模型通過與真實世界的直接互動來學習和進步。與傳統(tǒng)的基于靜態(tài)數(shù)據(jù)集的訓練方法不同,這種學習方法強調的是大模型的自主性和適應性。在這種模式下,模型不僅僅是被動地接收數(shù)據(jù),而是主動地探索環(huán)境,通過與人類交互來獲得知識和技能。
但這種方法對模型的架構、性能、算力要求較高,需要具備一定的自主性和決策能力。大模型需能夠準確理解用戶輸入的指令或問題,并根據(jù)這些指令在現(xiàn)實世界中采取行動。
例如,大模型可能需要根據(jù)用戶的請求來推薦餐廳,這不僅需要它理解用戶的偏好,還需要它能夠訪問和分析實時的餐廳信息。
此外,與真實世界互動的學習還需要模型具備處理不確定性的能力?,F(xiàn)實世界是復雜多變的,充滿了不確定性和偶然性。
模型需要能夠適應這些不確定性,從不斷變化的環(huán)境中學習并做出合理的決策。這就涉及到概率推理、風險評估和決策制定等高級認知功能。
企業(yè)、開發(fā)者們珍惜訓練數(shù)據(jù)吧,就像我們珍惜水資源一樣。不要等著枯竭的那一天,望著荒漠干流淚。
本文素材來源Epoch ai官網(wǎng),如有侵權請聯(lián)系刪除
以上就是關于【ChatGPT等模型瘋狂訓練,最快2026年消耗盡公開文本數(shù)據(jù)】的相關內容,希望對大家有幫助!