日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE

      發(fā)布時間:2024-06-03 18:00:03 編輯: 來源:
      導讀 相信很多大家對昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE還不知道吧,今天菲菲就帶你們一起去了解一下~.~! 6月3日 消息:2024...

      相信很多大家對昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      6月3日 消息:2024年6月3日,昆侖萬維宣布開源了一個性能強勁的2千億稀疏大模型,名為 Skywork-MoE。這個模型是在之前開源的 Skywork-13B 模型的基礎上擴展而來的,是首個完整應用并落地 MoE Upcycling 技術的開源千億級 MoE 大模型。同時,這也是全球首個支持在單臺4090服務器上進行推理的開源千億級 MoE 大模型。

      Skywork-MoE 的模型權重、技術報告完全開源,可以免費商用,無需申請。模型的總參數(shù)量為146B,激活參數(shù)量為22B,共有16個 Expert,每次激活其中的2個 Expert。與其他主流模型相比,在相同的激活參數(shù)量下,Skywork-MoE 的性能接近70B 的 Dense 模型,推理成本下降了近3倍。

      為了解決 MoE 模型訓練困難、泛化性能差等問題,Skywork-MoE 采用了兩種訓練優(yōu)化算法:Gating Logits 歸一化操作和自適應的 Aux Loss。此外,為了高效進行大規(guī)模分布式訓練,Skywork-MoE 提出了兩個并行優(yōu)化設計:Expert Data Parallel 和非均勻切分流水并行。

      在推理方面,Skywork-MoE 是目前能夠在8臺4090服務器上進行推理的最大開源 MoE 模型。通過首創(chuàng)的非均勻 Tensor Parallel 并行推理方式,在 FP8量化下,Skywork-MoE 可以實現(xiàn)2200tokens/s 的吞吐。

      ?模型權重下載:

      ?https://huggingface.co/Skywork/Skywork-MoE-base

      ?https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

      ?模型開源倉庫:https://github.com/SkyworkAI/Skywork-MoE

      ?模型技術報告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

      ?模型推理代碼:(支持8x4090服務器上8bit 量化加載推理) https://github.com/SkyworkAI/vllm

      以上就是關于【昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE】的相關內(nèi)容,希望對大家有幫助!

      免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

      熱點推薦

      精選文章