日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      首頁 >> 今日更新 >

      這就翻車了?Reflection 70B遭質(zhì)疑基模為Llama 3,作者:重新訓練

      2024-09-09 09:00:13 來源: 用戶: 

      相信很多大家對這就翻車了?Reflection 70B遭質(zhì)疑基模為Llama 3,作者:重新訓練還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      最近,開源大模型社區(qū)再次「熱鬧」了起來,主角是 AI 寫作初創(chuàng)公司 HyperWrite 開發(fā)的新模型Reflection70B。

      它的底層模型建立在 Meta Llama3.170B Instruct 上,并使用原始的 Llama chat 格式,確保了與現(xiàn)有工具和 pipeline 的兼容性。

      這個模型橫掃了 MMLU、MATH、IFEval、GSM8K,在每項基準測試上都超過了 GPT-4o,還擊敗了405B 的 Llama3.1。

      憑借如此驚艷的效果,Reflection70B被冠以開源大模型新王。該模型更是由兩位開發(fā)者(HyperWrite CEO Matt Shumer 和 Glaive AI 創(chuàng)始人 Sahil Chaudhary)花了3周完成,效率可謂驚人。

      Reflection70B 能不能經(jīng)受住社區(qū)的考驗?zāi)?今天 AI 模型獨立分析機構(gòu) Artificial Analysis 進行了獨立評估測試,結(jié)果有點出乎意料。

      該機構(gòu)表示,Reflection Llama3.170B 的 MMLU 得分僅與 Llama370B 相同,并且明顯低于 Llama3.170B。

      圖源:https://x.com/ArtificialAnlys/status/1832505338991395131

      還有科學推理與知識(GPQA)和定量推理(MATH)基準測試的結(jié)果,同樣不如 Llama3.170B。

      圖源:https://x.com/ArtificialAnlys/status/1832457791010959539

      此外,Reddit 上 LocalLLaMA 社區(qū)的一個帖子比較了 Reflection70B 與Llama3.1、Llama3權(quán)重的差異,結(jié)果顯示,Reflection 模型似乎是使用了經(jīng)過 LoRA 調(diào)整的 Llama3而不是 Llama3.1。

      貼主還提供了以上模型權(quán)重比較結(jié)果的代碼來源。

      fromtransformersimportAutoModelForCausalLM,AutoTokenizerimporttorchimportmatplotlib.pyplotaspltimportseabornassnsbase_model_name="meta-llama/Meta-Llama-3-70B-Instruct"chat_model_name="mattshumer/Reflection-Llama-3.1-70B"base_model=AutoModelForCausalLM.from_pretrained(base_model_name,torch_dtype=torch.bfloat16)chat_model=AutoModelForCausalLM.from_pretrained(chat_model_name,torch_dtype=torch.bfloat16)defcalculate_weight_diff(base_weight,chat_weight):returntorch.abs(base_weight-chat_weight).mean().item()defcalculate_layer_diffs(base_model,chat_model):layer_diffs=[]forbase_layer,chat_layerinzip(base_model.model.layers,chat_model.model.layers):layer_diff={'input_layernorm':calculate_weight_diff(base_layer.input_layernorm.weight,chat_layer.input_layernorm.weight),#'mlp_down_proj':calculate_weight_diff(base_layer.mlp.down_proj.weight,chat_layer.mlp.down_proj.weight),#'mlp_gate_proj':calculate_weight_diff(base_layer.mlp.gate_proj.weight,chat_layer.mlp.gate_proj.weight),#'mlp_up_proj':calculate_weight_diff(base_layer.mlp.up_proj.weight,chat_layer.mlp.up_proj.weight),'post_attention_layernorm':calculate_weight_diff(base_layer.post_attention_layernorm.weight,chat_layer.post_attention_layernorm.weight),'self_attn_q_proj':calculate_weight_diff(base_layer.self_attn.q_proj.weight,chat_layer.self_attn.q_proj.weight),'self_attn_k_proj':calculate_weight_diff(base_layer.self_attn.k_proj.weight,chat_layer.self_attn.k_proj.weight),'self_attn_v_proj':calculate_weight_diff(base_layer.self_attn.v_proj.weight,chat_layer.self_attn.v_proj.weight),'self_attn_o_proj':calculate_weight_diff(base_layer.self_attn.o_proj.weight,chat_layer.self_attn.o_proj.weight)}layer_diffs.append(layer_diff)returnlayer_diffsdefvisualize_layer_diffs(layer_diffs):num_layers=len(layer_diffs)num_components=len(layer_diffs[0])fig,axs=plt.subplots(1,num_components,figsize=(24,8))fig.suptitle(f"{base_model_name}<>{chat_model_name}",fontsize=16)fori,componentinenumerate(layer_diffs[0].keys()):component_diffs=[[layer_diff[component]]forlayer_diffinlayer_diffs]sns.heatmap(component_diffs,annot=True,fmt=".6f",cmap="YlGnBu",ax=axs[i],cbar_kws={"shrink":0.8})axs[i].set_title(component)axs[i].set_xlabel("Layer")axs[i].set_ylabel("Difference")axs[i].set_xticks([])axs[i].set_yticks(range(num_layers))axs[i].set_yticklabels(range(num_layers))axs[i].invert_yaxis()plt.tight_layout()plt.show()layer_diffs=calculate_layer_diffs(base_model,chat_model)visualize_layer_diffs(layer_diffs)

      還有人貼出了 Matt Shumer 在 Hugging Face 對 Reflection70B 配置文件名稱的更改,可以看到從 Llama370B Instruct 到 Llama3.170B Instruct 的變化。

      這樣的事實擺在眼前,似乎讓人不得不信。各路網(wǎng)友也開始發(fā)聲附和,有人表示自己從一開始就懷疑它是 Llama3,當用德語問模型一些事情時,它卻用英語回答。這種行為對于 Llama3非常常見。

      還有人奇怪為什么 Reflection70B 模型一開始就得到了如此多的炒作和關(guān)注,畢竟第一個談?wù)撍恰疙敿夐_源模型」的人是開發(fā)者本人(Matt)。而且更確切地說,模型是微調(diào)的。

      更有人開始質(zhì)疑開發(fā)者(Matt),認為他只是這家公司(GlaiveAI)的利益相關(guān)者,試圖通過炒作來增加價值,實際上卻對這項技術(shù)一無所知。

      在被質(zhì)疑 Reflection70B 的基礎(chǔ)模型可能是 Llama3而非 Llama3.170B 時,Matt Shumer 坐不住了,現(xiàn)身進行了澄清,并表示是Hugging Face 權(quán)重出現(xiàn)了問題。

      就在幾個小時前,Matt Shumer 稱已經(jīng)重新上傳了權(quán)重,但仍然存在問題。同時他們開始重新訓練模型并上傳,從而消除任何可能出現(xiàn)的問題,應(yīng)該很快就會完成。

      當被問到為何需要重新訓練時,Matt Shumer 表示本不需要這樣做,但已經(jīng)嘗試了所有方法。無論做什么,Hugging Face 上 Reflection70B 模型都會出現(xiàn)問題,導致離預(yù)期中的性能差得遠。

      當然 Matt Shumer 還面臨更多質(zhì)疑,比如對 GlaiveAI 的投資情況、為什么 Hugging Face 上的基礎(chǔ)模型為 Llama3而不是 Llama3.1以及基準中有關(guān) LORAing 的問題。

      Matt Shumer 一一進行了解釋。(以下標引用)

      至于重新訓練后的 Reflection70B 表現(xiàn)如何?我們拭目以待。

      以上就是關(guān)于【這就翻車了?Reflection 70B遭質(zhì)疑基模為Llama 3,作者:重新訓練】的相關(guān)內(nèi)容,希望對大家有幫助!

        免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!

       
      分享:
      最新文章