阿里魔搭社區(qū)開(kāi)源推理引擎 DashInfer
相信很多大家對(duì)阿里魔搭社區(qū)開(kāi)源推理引擎 DashInfer還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
站長(zhǎng)之家(ChinaZ.com)5月24日 消息:ModelScope 推出了預(yù)訓(xùn)練大語(yǔ)言模型(LLM)推理引擎 DashInfer,支持 C++ 和 Python 語(yǔ)言接口,可在多種 CPU 架構(gòu)上高效推理大模型。
DashInfer 采用 C++ Runtime 編寫,支持連續(xù)批處理和多 NUMA 推理,能充分利用服務(wù)器級(jí) CPU 的算力,為推理14B 及以下的 LLM 模型提供更多硬件選擇。該引擎已開(kāi)源,提供輕量級(jí)架構(gòu),高精度實(shí)現(xiàn),優(yōu)化的計(jì)算 Kernel,以及行業(yè)標(biāo)準(zhǔn) LLM 推理技術(shù)。DashInfer 支持主流 LLM 開(kāi)源模型和 PTQ 量化技術(shù)。
此外,引擎還提供多語(yǔ)言 API 接口,支持多種硬件和數(shù)據(jù)類型,包括 x86CPU 和 ARMv9CPU,以及 FP32、BF16、InstantQuant 等數(shù)據(jù)類型。關(guān)于模型支持,DashInfer 可以加載和序列化模型,執(zhí)行推理過(guò)程,并采用 DLPack 格式的 tensor 與外部框架交互。在單 NUMA 架構(gòu)下,推理引擎使用多線程和線程池進(jìn)行調(diào)度;而在多 NUMA 架構(gòu)下,引擎采用多進(jìn)程 client-server 架構(gòu),實(shí)現(xiàn) tensor parallel 的模型推理。
性能測(cè)試結(jié)果表明,DashInfer 在 ARM 和 x86CPU 上具有良好的推理性能,能夠有效提升大模型推理效率。
代碼開(kāi)源地址:
https://github.com/modelscope/dash-infer
推理體驗(yàn)地址:
https://www.modelscope.cn/studios/modelscope/DashInfer-Demo
以上就是關(guān)于【阿里魔搭社區(qū)開(kāi)源推理引擎 DashInfer】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!