這就翻車了?Reflection 70B遭質(zhì)疑基模為Llama 3,作者:重新訓練
相信很多大家對這就翻車了?Reflection 70B遭質(zhì)疑基模為Llama 3,作者:重新訓練還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
最近,開源大模型社區(qū)再次「熱鬧」了起來,主角是 AI 寫作初創(chuàng)公司 HyperWrite 開發(fā)的新模型Reflection70B。
它的底層模型建立在 Meta Llama3.170B Instruct 上,并使用原始的 Llama chat 格式,確保了與現(xiàn)有工具和 pipeline 的兼容性。
這個模型橫掃了 MMLU、MATH、IFEval、GSM8K,在每項基準測試上都超過了 GPT-4o,還擊敗了405B 的 Llama3.1。
憑借如此驚艷的效果,Reflection70B被冠以開源大模型新王。該模型更是由兩位開發(fā)者(HyperWrite CEO Matt Shumer 和 Glaive AI 創(chuàng)始人 Sahil Chaudhary)花了3周完成,效率可謂驚人。
Reflection70B 能不能經(jīng)受住社區(qū)的考驗?zāi)?今天 AI 模型獨立分析機構(gòu) Artificial Analysis 進行了獨立評估測試,結(jié)果有點出乎意料。
該機構(gòu)表示,Reflection Llama3.170B 的 MMLU 得分僅與 Llama370B 相同,并且明顯低于 Llama3.170B。
圖源:https://x.com/ArtificialAnlys/status/1832505338991395131
還有科學推理與知識(GPQA)和定量推理(MATH)基準測試的結(jié)果,同樣不如 Llama3.170B。
圖源:https://x.com/ArtificialAnlys/status/1832457791010959539
此外,Reddit 上 LocalLLaMA 社區(qū)的一個帖子比較了 Reflection70B 與Llama3.1、Llama3權(quán)重的差異,結(jié)果顯示,Reflection 模型似乎是使用了經(jīng)過 LoRA 調(diào)整的 Llama3而不是 Llama3.1。
貼主還提供了以上模型權(quán)重比較結(jié)果的代碼來源。
fromtransformersimportAutoModelForCausalLM,AutoTokenizerimporttorchimportmatplotlib.pyplotaspltimportseabornassnsbase_model_name="meta-llama/Meta-Llama-3-70B-Instruct"chat_model_name="mattshumer/Reflection-Llama-3.1-70B"base_model=AutoModelForCausalLM.from_pretrained(base_model_name,torch_dtype=torch.bfloat16)chat_model=AutoModelForCausalLM.from_pretrained(chat_model_name,torch_dtype=torch.bfloat16)defcalculate_weight_diff(base_weight,chat_weight):returntorch.abs(base_weight-chat_weight).mean().item()defcalculate_layer_diffs(base_model,chat_model):layer_diffs=[]forbase_layer,chat_layerinzip(base_model.model.layers,chat_model.model.layers):layer_diff={'input_layernorm':calculate_weight_diff(base_layer.input_layernorm.weight,chat_layer.input_layernorm.weight),#'mlp_down_proj':calculate_weight_diff(base_layer.mlp.down_proj.weight,chat_layer.mlp.down_proj.weight),#'mlp_gate_proj':calculate_weight_diff(base_layer.mlp.gate_proj.weight,chat_layer.mlp.gate_proj.weight),#'mlp_up_proj':calculate_weight_diff(base_layer.mlp.up_proj.weight,chat_layer.mlp.up_proj.weight),'post_attention_layernorm':calculate_weight_diff(base_layer.post_attention_layernorm.weight,chat_layer.post_attention_layernorm.weight),'self_attn_q_proj':calculate_weight_diff(base_layer.self_attn.q_proj.weight,chat_layer.self_attn.q_proj.weight),'self_attn_k_proj':calculate_weight_diff(base_layer.self_attn.k_proj.weight,chat_layer.self_attn.k_proj.weight),'self_attn_v_proj':calculate_weight_diff(base_layer.self_attn.v_proj.weight,chat_layer.self_attn.v_proj.weight),'self_attn_o_proj':calculate_weight_diff(base_layer.self_attn.o_proj.weight,chat_layer.self_attn.o_proj.weight)}layer_diffs.append(layer_diff)returnlayer_diffsdefvisualize_layer_diffs(layer_diffs):num_layers=len(layer_diffs)num_components=len(layer_diffs[0])fig,axs=plt.subplots(1,num_components,figsize=(24,8))fig.suptitle(f"{base_model_name}<>{chat_model_name}",fontsize=16)fori,componentinenumerate(layer_diffs[0].keys()):component_diffs=[[layer_diff[component]]forlayer_diffinlayer_diffs]sns.heatmap(component_diffs,annot=True,fmt=".6f",cmap="YlGnBu",ax=axs[i],cbar_kws={"shrink":0.8})axs[i].set_title(component)axs[i].set_xlabel("Layer")axs[i].set_ylabel("Difference")axs[i].set_xticks([])axs[i].set_yticks(range(num_layers))axs[i].set_yticklabels(range(num_layers))axs[i].invert_yaxis()plt.tight_layout()plt.show()layer_diffs=calculate_layer_diffs(base_model,chat_model)visualize_layer_diffs(layer_diffs)
還有人貼出了 Matt Shumer 在 Hugging Face 對 Reflection70B 配置文件名稱的更改,可以看到從 Llama370B Instruct 到 Llama3.170B Instruct 的變化。
這樣的事實擺在眼前,似乎讓人不得不信。各路網(wǎng)友也開始發(fā)聲附和,有人表示自己從一開始就懷疑它是 Llama3,當用德語問模型一些事情時,它卻用英語回答。這種行為對于 Llama3非常常見。
還有人奇怪為什么 Reflection70B 模型一開始就得到了如此多的炒作和關(guān)注,畢竟第一個談?wù)撍恰疙敿夐_源模型」的人是開發(fā)者本人(Matt)。而且更確切地說,模型是微調(diào)的。
更有人開始質(zhì)疑開發(fā)者(Matt),認為他只是這家公司(GlaiveAI)的利益相關(guān)者,試圖通過炒作來增加價值,實際上卻對這項技術(shù)一無所知。
在被質(zhì)疑 Reflection70B 的基礎(chǔ)模型可能是 Llama3而非 Llama3.170B 時,Matt Shumer 坐不住了,現(xiàn)身進行了澄清,并表示是Hugging Face 權(quán)重出現(xiàn)了問題。
就在幾個小時前,Matt Shumer 稱已經(jīng)重新上傳了權(quán)重,但仍然存在問題。同時他們開始重新訓練模型并上傳,從而消除任何可能出現(xiàn)的問題,應(yīng)該很快就會完成。
當被問到為何需要重新訓練時,Matt Shumer 表示本不需要這樣做,但已經(jīng)嘗試了所有方法。無論做什么,Hugging Face 上 Reflection70B 模型都會出現(xiàn)問題,導致離預(yù)期中的性能差得遠。
當然 Matt Shumer 還面臨更多質(zhì)疑,比如對 GlaiveAI 的投資情況、為什么 Hugging Face 上的基礎(chǔ)模型為 Llama3而不是 Llama3.1以及基準中有關(guān) LORAing 的問題。
Matt Shumer 一一進行了解釋。(以下標引用)
至于重新訓練后的 Reflection70B 表現(xiàn)如何?我們拭目以待。
以上就是關(guān)于【這就翻車了?Reflection 70B遭質(zhì)疑基模為Llama 3,作者:重新訓練】的相關(guān)內(nèi)容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現(xiàn)最好的小學
- 約克區(qū)九所小學將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學家確定腦細胞類型是排尿的主要控制者