昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE
相信很多大家對昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
6月3日 消息:2024年6月3日,昆侖萬維宣布開源了一個性能強勁的2千億稀疏大模型,名為 Skywork-MoE。這個模型是在之前開源的 Skywork-13B 模型的基礎上擴展而來的,是首個完整應用并落地 MoE Upcycling 技術的開源千億級 MoE 大模型。同時,這也是全球首個支持在單臺4090服務器上進行推理的開源千億級 MoE 大模型。
Skywork-MoE 的模型權重、技術報告完全開源,可以免費商用,無需申請。模型的總參數(shù)量為146B,激活參數(shù)量為22B,共有16個 Expert,每次激活其中的2個 Expert。與其他主流模型相比,在相同的激活參數(shù)量下,Skywork-MoE 的性能接近70B 的 Dense 模型,推理成本下降了近3倍。
為了解決 MoE 模型訓練困難、泛化性能差等問題,Skywork-MoE 采用了兩種訓練優(yōu)化算法:Gating Logits 歸一化操作和自適應的 Aux Loss。此外,為了高效進行大規(guī)模分布式訓練,Skywork-MoE 提出了兩個并行優(yōu)化設計:Expert Data Parallel 和非均勻切分流水并行。
在推理方面,Skywork-MoE 是目前能夠在8臺4090服務器上進行推理的最大開源 MoE 模型。通過首創(chuàng)的非均勻 Tensor Parallel 并行推理方式,在 FP8量化下,Skywork-MoE 可以實現(xiàn)2200tokens/s 的吞吐。
?模型權重下載:
?https://huggingface.co/Skywork/Skywork-MoE-base
?https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
?模型開源倉庫:https://github.com/SkyworkAI/Skywork-MoE
?模型技術報告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
?模型推理代碼:(支持8x4090服務器上8bit 量化加載推理) https://github.com/SkyworkAI/vllm
以上就是關于【昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE】的相關內(nèi)容,希望對大家有幫助!