日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      蘋果開源7B大模型,訓練過程數(shù)據(jù)集一口氣全給了,網(wǎng)友:開放得不像蘋果

      發(fā)布時間:2024-07-23 09:00:35 編輯: 來源:
      導讀 相信很多大家對蘋果開源7B大模型,訓練過程數(shù)據(jù)集一口氣全給了,網(wǎng)友:開放得不像蘋果還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 蘋...

      相信很多大家對蘋果開源7B大模型,訓練過程數(shù)據(jù)集一口氣全給了,網(wǎng)友:開放得不像蘋果還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      蘋果最新殺入開源大模型戰(zhàn)場,而且比其他公司更開放。

      推出7B模型,不僅效果與Llama38B相當,而且一次性開源了全部訓練過程和資源。

      要知道,不久前Nature雜志編輯Elizabeth Gibney還撰文批評:

      而蘋果這次竟然來真的!!

      就連NLP科學家、AutoAWQ創(chuàng)建者也發(fā)出驚嘆:

      也引來網(wǎng)友在線調(diào)侃:

      至于這次開源的意義,有熱心網(wǎng)友也幫忙總結(jié)了:

      當然,除了OpenAI和蘋果,上周Mistral AI聯(lián)合英偉達也發(fā)布了一個12B參數(shù)小模型。

      HuggingFace創(chuàng)始人表示,「小模型周」來了!

      卷!繼續(xù)卷!所以蘋果這次發(fā)布的小模型究竟有多能打?

      效果直逼Llama38B

      有多能打先不說,先來看Hugging Face技術(shù)主管剛“拆箱”的模型基礎(chǔ)配置。

      總結(jié)下來就是:

      7B基礎(chǔ)模型,在開放數(shù)據(jù)集上使用2.5T tokens進行訓練

      主要是英文數(shù)據(jù),擁有2048tokens上下文窗口

      數(shù)據(jù)集包括DCLM-BASELINE、StarCoder和ProofPile2

      MMLU得分接近Llama38B

      使用PyTorch和OpenLM框架進行訓練

      具體而言,研究團隊先是提出了一個語言模型數(shù)據(jù)比較新基準——DCLM。

      之所以提出這一基準,是因為團隊發(fā)現(xiàn):

      因此,團隊使用DCLM來設(shè)計高質(zhì)量數(shù)據(jù)集從而提高模型性能,尤其是在多模態(tài)領(lǐng)域。

      其思路很簡單:使用一個標準化的框架來進行實驗,包括固定的模型架構(gòu)、訓練代碼、超參數(shù)和評估,最終找出哪種數(shù)據(jù)整理策略最適合訓練出高性能的模型。

      基于上述思路,團隊構(gòu)建了一個高質(zhì)量數(shù)據(jù)集DCLM-BASELINE,并用它從頭訓練了一個7B參數(shù)模型——DCLM-7B。

      DCLM-7B具體表現(xiàn)如何呢?

      結(jié)果顯示,它在MMLU基準上5-shot準確率達64%,可與Mistral-7B-v0.3(63%)和Llama38B(66%)相媲美;并且在53個自然語言理解任務上的平均表現(xiàn)也可與Llama38B相媲美,而所需計算量僅為后者的1/6。

      與其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama38B。

      最后,為了測試新數(shù)據(jù)集效果,有業(yè)內(nèi)人士用卡帕西的llm.c訓練了GPT-21.5B,來比較DCLM-Baseline與FineWeb-Edu這兩個數(shù)據(jù)集。

      結(jié)果顯示DCLM-Baseline取得了更高的平均分,且在ARC(小學生科學問題推理)、HellaSwag(常識推理)、MMLU等任務上表現(xiàn)更好。

      “小”模型成新趨勢

      回到開頭,“小”模型最近已成新趨勢。

      先是HuggingFace推出了小模型家族“SmolLM”,其中包含135M、360M和1.7B型號模型。

      它們在廣泛的推理和常識基準上優(yōu)于類似大小的模型。

      然后OpenAI突然發(fā)布了GPT-4o mini,不僅能力接近GPT-4,而且價格大幅下降。

      就在GPT-4o mini發(fā)布同日,Mistral AI聯(lián)合英偉達發(fā)布了12B參數(shù)小模型——Mistral NeMo。

      從整體性能上看,Mistral NeMo在多項基準測試中,擊敗了Gemma29B和Llama38B。

      所以,為啥大家都開始卷小模型了?

      原因嘛可能正如smol AI創(chuàng)始人提醒的,雖然模型變小了,但在能力相近的情況下,小模型大大降低了成本。

      就像他提供的這張圖,以GPT-4o mini為代表的小模型整體比右側(cè)價格更低。

      對此,我等吃瓜群眾be like:

      所以,你更看好哪家呢?(歡迎評論區(qū)討論留言)

      模型地址:

      https://huggingface.co/apple/DCLM-7B

      GitHub:

      https://github.com/mlfoundations/dclm

      數(shù)據(jù)集地址:

      https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0

      參考鏈接:

      [1]https://x.com/Yuchenj_UW/status/1813260100192334108

      [2]https://x.com/casper_hansen_/status/1814269340100751382

      [3]https://x.com/_philschmid/status/1814274909775995087

      [4]https://x.com/LoubnaBenAllal1/status/1813252390692303069

      以上就是關(guān)于【蘋果開源7B大模型,訓練過程數(shù)據(jù)集一口氣全給了,網(wǎng)友:開放得不像蘋果】的相關(guān)內(nèi)容,希望對大家有幫助!

      免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

      熱點推薦

      精選文章