微軟發(fā)布Phi-3 Vision等最新大模型系列
相信很多大家對(duì)微軟發(fā)布Phi-3 Vision等最新大模型系列還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
站長(zhǎng)之家(ChinaZ.com)5月22日 消息:微軟發(fā)布了其最新的大型語言模型系列,Phi-3,包括Phi-3Vision、Phi-3Small7B和Phi-3Medium14B型號(hào)。這些模型在性能上與當(dāng)前領(lǐng)先的大型模型相媲美,同時(shí)在特定領(lǐng)域提供了一些獨(dú)特的優(yōu)勢(shì)。
Phi-3Medium14B 型號(hào)的性能與Mixtral8x22B和Llama370B相當(dāng),甚至超過了Command R+104B和GPT3.5。這表明微軟的這個(gè)模型在大型模型領(lǐng)域具有較強(qiáng)的競(jìng)爭(zhēng)力。
Phi-3Small7B 型號(hào)雖然規(guī)模較小,但其性能依然超過了Mistral7B和Llama38B,這使得它在需要處理大量數(shù)據(jù)但計(jì)算資源有限的場(chǎng)景下具有潛在的應(yīng)用價(jià)值。
Phi-3系列模型支持的上下文長(zhǎng)度為4K和128K,這為處理長(zhǎng)文本數(shù)據(jù)提供了靈活性。模型規(guī)模方面,Medium版本為14B參數(shù),Small版本為7.5B參數(shù),而Vision版本則為4.2B參數(shù)。
在訓(xùn)練數(shù)據(jù)方面,微軟使用了4.8T(萬億)令牌對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練過程持續(xù)了42天,使用了512個(gè)H100GPU。訓(xùn)練數(shù)據(jù)集包含了10%的多語言數(shù)據(jù),并且采用了經(jīng)過嚴(yán)格過濾的數(shù)據(jù)和合成數(shù)據(jù),特別是科學(xué)和編程教材,這可能有助于模型在這些領(lǐng)域的特定任務(wù)上表現(xiàn)更好。
微軟還為Phi-3系列引入了一個(gè)新的分詞器,擁有10萬詞匯量,這有助于模型更好地理解和生成語言。此外,Phi-3模型的權(quán)重兼容AWQ、INT4、ONNX和transformers,這為開發(fā)者提供了在不同平臺(tái)上部署和運(yùn)行模型的靈活性。
總體而言,微軟的Phi-3系列模型在大型語言模型領(lǐng)域展現(xiàn)了強(qiáng)大的性能和靈活性,為研究人員和開發(fā)者提供了新的工具和可能性。隨著這些模型的發(fā)布,我們可以期待在自然語言處理和相關(guān)領(lǐng)域出現(xiàn)新的創(chuàng)新和應(yīng)用。
模型地址:https://top.aibase.com/tool/phi-3-vision-128k-instruct
以上就是關(guān)于【微軟發(fā)布Phi-3 Vision等最新大模型系列】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!