日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      開(kāi)源=最強(qiáng)大模型!Llama3.1發(fā)布,405B超越閉源GPT-4o,扎克伯格:分水嶺時(shí)刻

      發(fā)布時(shí)間:2024-07-24 09:00:40 編輯: 來(lái)源:
      導(dǎo)讀 相信很多大家對(duì)開(kāi)源=最強(qiáng)大模型!Llama3.1發(fā)布,405B超越閉源GPT-4o,扎克伯格:分水嶺時(shí)刻還不知道吧,今天菲菲就帶你們一起去了解一下~.~...

      相信很多大家對(duì)開(kāi)源=最強(qiáng)大模型!Llama3.1發(fā)布,405B超越閉源GPT-4o,扎克伯格:分水嶺時(shí)刻還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      剛剛,LIama3.1正式發(fā)布,登上大模型王座!

      在150多個(gè)基準(zhǔn)測(cè)試集中,405B版本的表現(xiàn)追平甚至超越了現(xiàn)有SOTA模型GPT-4o和Claude3.5Sonnet。

      也就是說(shuō),這次,最強(qiáng)開(kāi)源模型即最強(qiáng)模型。

      在此之前,Llama3.1已經(jīng)被多番曝光泄露,如今可以說(shuō)千呼萬(wàn)喚始出來(lái)。

      從今天開(kāi)始,模型即可在官網(wǎng)上下載使用,Meta AI應(yīng)用可在線試玩。

      更令研究社區(qū)贊賞的是發(fā)布近100頁(yè)詳細(xì)論文,涵蓋了創(chuàng)造Llama3.1過(guò)程中的一切:預(yù)訓(xùn)練數(shù)據(jù)、過(guò)濾、退火、合成數(shù)據(jù)、縮放定律、基礎(chǔ)設(shè)施、并行性、訓(xùn)練配方、訓(xùn)練后適應(yīng)、工具使用、基準(zhǔn)測(cè)試、推理策略、量化、視覺(jué)、語(yǔ)音、視頻……

      HuggingFace首席科學(xué)家贊嘆:如果你是從零開(kāi)始研究大模型,就從這篇論文讀起。

      小扎扎克伯格還在最新接受彭博社采訪時(shí)專門嘲諷了一把OpenAI。

      小扎還專門為此撰寫(xiě)了一篇長(zhǎng)文:開(kāi)源AI是前進(jìn)的道路。

      以往,開(kāi)源模型在性能、功能等方面大多落后于閉源模型,但現(xiàn)在:

      迄今為止,所有Llama 版本的總下載量已超過(guò)3億次,Meta也是放下豪言:

      各大云廠商也在第一時(shí)間上線了的Llama3.1的支持,價(jià)格是醬嬸的:

      LIama3.1官方正式發(fā)布

      首先來(lái)看模型能力。

      Llama3.1將上下文長(zhǎng)度擴(kuò)展到128K、增加了對(duì)八種語(yǔ)言的支持。

      其中超大杯405B版本,在常識(shí)、可操縱性、數(shù)學(xué)、工具使用和多語(yǔ)言翻譯等能力方面都追平、超越了現(xiàn)有頂尖模型。

      除此之外,也推出了8B和70B模型的升級(jí)版本,能力與同等參數(shù)下的頂尖模型基本持平。

      再來(lái)看模型架構(gòu)。

      官方介紹,要在超15萬(wàn)億個(gè)token上訓(xùn)練 Llama3.1405B模型挑戰(zhàn)不小。

      為此他們大幅優(yōu)化了整個(gè)訓(xùn)練棧,并把模型算力規(guī)模首次擴(kuò)展到了超過(guò)16000個(gè)H100GPU。

      具體來(lái)說(shuō),還是采用標(biāo)準(zhǔn)的僅解碼器的Transformer架構(gòu),并做一些細(xì)微改動(dòng);并采用迭代的post-traing流程,每輪都有SFT(監(jiān)督微調(diào))和DPO(直接偏好優(yōu)化),以提高每個(gè)能力的性能。

      與Llama以前的版本相比,他們提高了用于預(yù)訓(xùn)練和post-training數(shù)據(jù)的數(shù)量和質(zhì)量。

      而為了支持405B這樣尺寸模型的大規(guī)模生產(chǎn)推理,Meta將模型從16位(BF16)量化到8位(FP8)數(shù)值,有效地降低了所需的計(jì)算需求,并允許模型在單個(gè)服務(wù)器節(jié)點(diǎn)內(nèi)運(yùn)行。

      在指令微調(diào)方面,Meta還提高了模型對(duì)用戶指令的響應(yīng)能力、增強(qiáng)了它遵循詳細(xì)指令的能力,同時(shí)保證安全性。

      在post-training階段,Meta在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行多輪對(duì)齊。

      每一輪都包括監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)、拒絕采樣(Rejection Sampling, RS)和直接偏好優(yōu)化(Direct Preference Optimization, DPO)。

      他們使用合成數(shù)據(jù)生成來(lái)絕大部分SFT示例,并數(shù)次迭代。

      此外,還采用了多種數(shù)據(jù)處理技術(shù)來(lái)將這些合成數(shù)據(jù)過(guò)濾到最高質(zhì)量。

      總計(jì)15T tokens使用Llama2模型做清理和過(guò)濾,而代碼和數(shù)學(xué)相關(guān)的數(shù)據(jù)處理流水線則主要借鑒了Deepseek的方法。

      除了最基本的根據(jù)提示詞響應(yīng),Meta官方表示,任何普通開(kāi)發(fā)者可以用它做些高級(jí)的事情,比如:

      實(shí)時(shí)和批量推理

      監(jiān)督微調(diào)

      針對(duì)特定應(yīng)用評(píng)估模型

      持續(xù)預(yù)訓(xùn)練

      檢索增強(qiáng)生成 (RAG)

      函數(shù)調(diào)用

      合成數(shù)據(jù)生成

      而這背后也是由它的強(qiáng)大生態(tài)伙伴支持。

      小扎撰寫(xiě)長(zhǎng)文:開(kāi)源AI是前進(jìn)的道路

      (以下由大模型翻譯,摘取主體內(nèi)容,如有遺漏錯(cuò)誤歡迎更正!)

      在高性能計(jì)算的早期,當(dāng)時(shí)的大型科技公司都投入巨資開(kāi)發(fā)各自閉源的Unix版本。那時(shí),很難想象除了閉源之外,還有其他途徑能夠孕育出如此先進(jìn)的軟件。然而,開(kāi)源的Linux操作系統(tǒng)最終贏得了廣泛的歡迎——最初是因?yàn)樗试S開(kāi)發(fā)者自由地修改代碼,成本也更加低廉;隨著時(shí)間的流逝,Linux不僅變得更加先進(jìn)和安全,而且構(gòu)建了一個(gè)比任何閉源Unix系統(tǒng)都要廣泛的生態(tài)系統(tǒng),支持更多的功能。如今,Linux已成為云計(jì)算和大多數(shù)移動(dòng)設(shè)備操作系統(tǒng)的行業(yè)標(biāo)準(zhǔn)基礎(chǔ),我們所有人都因此享受到了更優(yōu)質(zhì)的產(chǎn)品。

      我相信人工智能將以類似的方式發(fā)展。今天,幾家科技公司正在開(kāi)發(fā)領(lǐng)先的閉源模型。但開(kāi)源正在迅速縮小差距。去年,Llama2只能與落后一代的模型相媲美。今年,Llama3與最先進(jìn)的模型競(jìng)爭(zhēng),并在某些領(lǐng)域領(lǐng)先。從明年開(kāi)始,我們預(yù)計(jì)未來(lái)的Llama模型將成為行業(yè)中最先進(jìn)的。但即使在那之前,Llama已經(jīng)在開(kāi)放性、可修改性和成本效率方面領(lǐng)先。

      今天,我們正在朝著“開(kāi)源人工智能成為行業(yè)標(biāo)準(zhǔn)”的方向邁進(jìn)。我們發(fā)布了Llama3.1405B,這是第一個(gè)前沿級(jí)別的開(kāi)源人工智能模型,以及改進(jìn)版Llama3.170B和8B模型。除了與閉源模型相比具有顯著更好的成本/性能比之外,405B模型的開(kāi)放性將使其成為微調(diào)和蒸餾更小模型的最佳選擇。

      除了發(fā)布這些模型外,我們正與一系列公司合作,以發(fā)展更廣泛的生態(tài)系統(tǒng)。亞馬遜、Databricks和英偉達(dá)正在推出一整套服務(wù),支持開(kāi)發(fā)者微調(diào)和蒸餾自己的模型。像Groq這樣的創(chuàng)新者已經(jīng)為所有新模型構(gòu)建了低延遲、低成本的推理服務(wù)。這些模型將在所有主要云平臺(tái)上提供,包括AWS、Azure、Google、Oracle等。像Scale.AI、Dell、德勤等公司已準(zhǔn)備好幫助企業(yè)采用Llama,并用他們自己的數(shù)據(jù)訓(xùn)練定制模型。隨著社區(qū)的增長(zhǎng)和更多公司開(kāi)發(fā)新服務(wù),我們可以共同使Llama成為行業(yè)標(biāo)準(zhǔn),將AI的好處帶給每個(gè)人。

      Meta致力于開(kāi)源人工智能。我將概述為什么我認(rèn)為開(kāi)源是最好的開(kāi)發(fā)堆棧,為什么開(kāi)源Llama對(duì)Meta有好處,以及為什么開(kāi)源人工智能對(duì)世界有好處,因此是一個(gè)長(zhǎng)期可持續(xù)的平臺(tái)。

      為什么開(kāi)源人工智能對(duì)開(kāi)發(fā)者有好處

      當(dāng)我與世界各地的開(kāi)發(fā)者、首席執(zhí)行官和官員交談時(shí),我通常會(huì)聽(tīng)到幾個(gè)主題:

      我們需要訓(xùn)練、微調(diào)和蒸餾我們自己的模型。。每個(gè)組織都有其獨(dú)特的需求,最適合的是使用不同規(guī)模的模型,這些模型可以根據(jù)他們特定的數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)。對(duì)于設(shè)備上的任務(wù)和分類任務(wù),小模型足矣;而對(duì)于更復(fù)雜的任務(wù),則需要大模型。現(xiàn)在,你可以利用最先進(jìn)的Llama模型,用你自己的數(shù)據(jù)繼續(xù)訓(xùn)練它們,然后將它們蒸餾成一個(gè)最適合你需要的模型尺寸——而無(wú)需讓我們或任何其他人看到你的數(shù)據(jù)。

      我們需要控制自己的命運(yùn),不要被限制在閉源供應(yīng)商那里。許多組織不希望依賴他們無(wú)法自行運(yùn)行和控制的模型。他們不希望閉源模型提供者能夠更改模型、修改使用條款,甚至完全停止服務(wù)。他們也不想被限制在只有一個(gè)云平臺(tái)擁有模型獨(dú)家使用權(quán)。開(kāi)源允許廣泛的公司生態(tài)系統(tǒng)擁有兼容的工具鏈,使你可以輕松地在它們之間遷移。

      我們需要保護(hù)我們的數(shù)據(jù)安全。許多組織處理敏感數(shù)據(jù),需要加以保護(hù),不能通過(guò)閉源模型的云API發(fā)送。還有一些組織根本不信任閉源模型提供者處理他們的數(shù)據(jù)。開(kāi)源通過(guò)允許你在任何地方運(yùn)行模型來(lái)解決這些問(wèn)題。普遍認(rèn)為,開(kāi)源軟件通常更安全,因?yàn)樗拈_(kāi)發(fā)過(guò)程更加透明。

      我們需要一個(gè)運(yùn)行效率高且負(fù)擔(dān)得起的模型。開(kāi)發(fā)者可以在自己的基礎(chǔ)設(shè)施上,以大約使用閉源模型如GPT-4o一半的成本,運(yùn)行Llama3.1405B的推理,無(wú)論是面向用戶的還是離線推理任務(wù)。

      我們希望投資于將成為長(zhǎng)期標(biāo)準(zhǔn)的生態(tài)系統(tǒng)。許多人看到開(kāi)源的發(fā)展速度比閉源模型快,他們希望建立他們的系統(tǒng)在將給他們帶來(lái)最大長(zhǎng)期優(yōu)勢(shì)的架構(gòu)上。

      為什么開(kāi)源人工智能對(duì)Meta有好處

      Meta的商業(yè)模式是為人們創(chuàng)造最佳的體驗(yàn)和服務(wù)。為此,我們必須確保始終能夠獲取最佳技術(shù),并且不會(huì)被鎖定在競(jìng)爭(zhēng)對(duì)手的閉源生態(tài)系統(tǒng)中,從而限制了我們的創(chuàng)新能力。

      我的一個(gè)重要經(jīng)歷是,由于蘋(píng)果對(duì)我們?cè)谄淦脚_(tái)上能夠構(gòu)建的內(nèi)容有所限制,我們的服務(wù)受到了制約。從他們對(duì)開(kāi)發(fā)者征稅的方式,到他們隨意應(yīng)用的規(guī)則,再到他們阻止發(fā)布的所有產(chǎn)品創(chuàng)新,很明顯,如果我們能夠構(gòu)建產(chǎn)品的最佳版本,而競(jìng)爭(zhēng)對(duì)手無(wú)法限制我們的創(chuàng)新,Meta和其他許多公司將能夠?yàn)槿藗兲峁└玫姆?wù)。從哲學(xué)上講,這是我堅(jiān)信在人工智能和AR/VR中為下一代計(jì)算構(gòu)建開(kāi)放生態(tài)系統(tǒng)的主要原因。

      人們經(jīng)常問(wèn)我是否擔(dān)心通過(guò)開(kāi)源Llama放棄技術(shù)優(yōu)勢(shì),但我認(rèn)為這忽略了大局,原因有幾個(gè):

      首先,為了確保我們能夠獲取最佳技術(shù),并且長(zhǎng)期不會(huì)被鎖定在閉源生態(tài)系統(tǒng)中,Llama需要發(fā)展成為一個(gè)完整的工具生態(tài)系統(tǒng),包括效率提升、硅片優(yōu)化和其他集成。如果我們是唯一使用Llama的公司,這個(gè)生態(tài)系統(tǒng)就不會(huì)發(fā)展起來(lái),我們的表現(xiàn)也不會(huì)比Unix的閉源版本更好。

      其次,我預(yù)計(jì)人工智能的發(fā)展將繼續(xù)非常具有競(jìng)爭(zhēng)力,這意味著開(kāi)源任何特定模型并不會(huì)在當(dāng)時(shí)給予比下一個(gè)最佳模型更大的優(yōu)勢(shì)。Llama成為行業(yè)標(biāo)準(zhǔn)的道路是通過(guò)持續(xù)保持競(jìng)爭(zhēng)力、效率和開(kāi)放性,一代又一代地發(fā)展。

      第三,Meta與閉源模型提供者的一個(gè)關(guān)鍵區(qū)別在于,出售對(duì)人工智能模型的訪問(wèn)并不是我們的商業(yè)模式。這意味著公開(kāi)發(fā)布Llama并不會(huì)削弱我們的收入、可持續(xù)性或研究投資能力,而這對(duì)于閉源提供者來(lái)說(shuō)則不然。

      最后,Meta有著長(zhǎng)期的開(kāi)源項(xiàng)目和成功的歷史。我們通過(guò)發(fā)布服務(wù)器、網(wǎng)絡(luò)和數(shù)據(jù)中心設(shè)計(jì),并讓供應(yīng)鏈標(biāo)準(zhǔn)化我們的設(shè)計(jì),通過(guò)Open Compute項(xiàng)目節(jié)省了數(shù)十億美元。我們通過(guò)開(kāi)源諸如PyTorch、React等領(lǐng)先工具,從生態(tài)系統(tǒng)的創(chuàng)新中受益。長(zhǎng)期堅(jiān)持這種方法對(duì)我們始終有效。

      為什么開(kāi)源人工智能對(duì)世界有好處

      我相信開(kāi)源對(duì)于實(shí)現(xiàn)積極的人工智能未來(lái)至關(guān)重要。人工智能比任何其他現(xiàn)代技術(shù)都有更大的潛力來(lái)提升人類的生產(chǎn)力、創(chuàng)造力和生活質(zhì)量——并加速經(jīng)濟(jì)增長(zhǎng),同時(shí)推動(dòng)醫(yī)學(xué)和科學(xué)研究的進(jìn)步。開(kāi)源將確保全球更多的人能夠獲得人工智能的好處和機(jī)會(huì),權(quán)力不會(huì)集中在少數(shù)公司手中,技術(shù)可以更均勻、更安全地在社會(huì)中部署。

      關(guān)于開(kāi)源人工智能模型的安全性正在進(jìn)行辯論,我的看法是開(kāi)源人工智能將比替代方案更安全。

      我理解安全框架是我們需要防范兩類傷害:無(wú)意的和故意的。無(wú)意的傷害是當(dāng)一個(gè)人工智能系統(tǒng)可能會(huì)造成傷害,即使運(yùn)行它的人沒(méi)有意圖這樣做。例如,現(xiàn)代人工智能模型可能會(huì)無(wú)意中給出不良的健康建議?;蛘撸诟呶磥?lái)感的情景中,一些人擔(dān)心模型可能會(huì)無(wú)意中自我復(fù)制或過(guò)度優(yōu)化目標(biāo),從而損害人類。故意傷害是當(dāng)一個(gè)不良行為者使用人工智能模型以達(dá)到造成傷害的目的。

      值得注意的是,無(wú)意的傷害涵蓋了人們對(duì)人工智能的大多數(shù)擔(dān)憂——從人工智能系統(tǒng)將對(duì)數(shù)十億使用者產(chǎn)生什么影響,到對(duì)人類來(lái)說(shuō)真正災(zāi)難性的科幻情景的大部分。在這方面,開(kāi)源應(yīng)該更安全,因?yàn)橄到y(tǒng)更透明,可以廣泛審查。從歷史上看,開(kāi)源軟件因此更安全。同樣,使用Llama及其安全系統(tǒng)如Llama Guard可能會(huì)比閉源模型更安全、更可靠。因此,關(guān)于開(kāi)源人工智能安全性的大多數(shù)對(duì)話都集中在故意傷害上。

      我們的安全流程包括嚴(yán)格的測(cè)試和紅隊(duì),以評(píng)估我們的模型是否有能力造成重大傷害,目標(biāo)是在發(fā)布前降低風(fēng)險(xiǎn)。由于模型是開(kāi)放的,任何人都可以自己測(cè)試。我們必須記住,這些模型是由已經(jīng)在網(wǎng)絡(luò)上的信息訓(xùn)練的,所以當(dāng)考慮傷害時(shí),起點(diǎn)應(yīng)該是模型是否能促進(jìn)比從Google或其他搜索結(jié)果中快速檢索到的信息更多的傷害。

      當(dāng)你考慮未來(lái)的機(jī)遇時(shí),請(qǐng)記住,當(dāng)今大多數(shù)領(lǐng)先的科技公司和科學(xué)研究都是建立在開(kāi)源軟件之上的。如果我們共同投資,下一代公司和研究將使用開(kāi)源人工智能。

      最重要的是,開(kāi)源人工智能代表了世界上利用這項(xiàng)技術(shù)為每個(gè)人創(chuàng)造最大經(jīng)濟(jì)機(jī)會(huì)和安全的最佳機(jī)會(huì)。

      讓我們一起建設(shè)

      對(duì)于過(guò)去的 Llama 模型,Meta 是自己開(kāi)發(fā)然后發(fā)布的,但并沒(méi)有過(guò)多關(guān)注構(gòu)建更廣泛的生態(tài)系統(tǒng)。這次發(fā)布我們采取了不同的方法。我們正在內(nèi)部組建團(tuán)隊(duì),讓盡可能多的開(kāi)發(fā)人員和合作伙伴能夠使用 Llama,我們也在積極建立合作伙伴關(guān)系,以便生態(tài)系統(tǒng)中的更多公司也能為其客戶提供獨(dú)特的功能。

      我相信Llama3.1的發(fā)布將成為行業(yè)的一個(gè)轉(zhuǎn)折點(diǎn),大多數(shù)開(kāi)發(fā)人員將開(kāi)始主要使用開(kāi)源,并且我預(yù)計(jì)這種方法只會(huì)從現(xiàn)在開(kāi)始發(fā)展。我希望你能加入我們的旅程,將人工智能的好處帶給世界上的每個(gè)人。

      最新采訪鏈接:

      https://x.com/rowancheung/status/1815763595197616155

      參考鏈接:

      [1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

      [2]https://ai.meta.com/blog/meta-llama-3-1/

      —完—

      以上就是關(guān)于【開(kāi)源=最強(qiáng)大模型!Llama3.1發(fā)布,405B超越閉源GPT-4o,扎克伯格:分水嶺時(shí)刻】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

      免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

      熱點(diǎn)推薦

      精選文章