日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<wbr id="evmac"></wbr>

超越Devin！姚班帶隊，他們創(chuàng)大模型編程新世界紀錄

發(fā)布時間：2024-06-03 12:00:28 編輯：來源：

導讀相信很多大家對超越Devin！姚班帶隊，他們創(chuàng)大模型編程新世界紀錄還不知道吧，今天菲菲就帶你們一起去了解一下~.~！超越Devin!SWEBench排...

相信很多大家對超越Devin！姚班帶隊，他們創(chuàng)大模型編程新世界紀錄還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

超越Devin!SWEBench排行榜上迎來了新玩家——

StarShip CodeGen Agent，姚班帶隊初創(chuàng)公司OpenCSG出品，以23.67%的成績獲得全球第二名的成績。

同時創(chuàng)造了非GPT-4o基模的最高紀錄（SOTA）。

我們都知道，SWEBench評測高度貼近真實編程場景，難度極高，不僅要求模型能理解需求、協(xié)調多個函數(shù)/類甚至文件的變更，還要求模型與執(zhí)行環(huán)境交互，處理超長上下文并執(zhí)行遠超傳統(tǒng)代碼生成任務的復雜邏輯推理。

在這種高難度的真實測試中，行業(yè)中最先進的GPT4和Devin，也僅能解決1.74%和13.86%的問題。

OpenCSG的這一成績，標志著國內公司在推動語言模型向更實用、智能和自主化方向發(fā)展邁出了領先的一步。

大模型編程，到底有多難?

2024年3月，首個AI軟件工程師Devin的橫空出世，引爆了整個技術界。雖然伴隨著一系列爭議，但Devin本身強大的創(chuàng)新能力和巨大的潛力，帶給眾多AI愛好者和從業(yè)者新的期待。

Devin不僅能夠輕松解決編碼任務，更可以自主完成軟件開發(fā)的整個周期——從項目規(guī)劃到部署，涵蓋但不限于構建網站、自主尋找并修復 BUG、訓練以及微調AI模型等等。

為什么Devin敢于挑戰(zhàn)GPT4等基礎模型的編程能力呢?

核心在于軟件工程師并不只是編寫代碼，更涉及到需求理解、代碼解讀、編程計劃、代碼生成、調試與異常修復等等環(huán)節(jié)，這里面的每個環(huán)節(jié)都會影響大模型編程的可用性和效果。

針對于這類真實場景，普林斯頓大學提出了SWEBench，這是一種量化評估端到端代碼生成能力的工具。

GPT-4在SWEBench上的評分僅有1.74%，即使加上RAG技術，評分也不到3%，這表明單純依靠基礎模型來直接解決現(xiàn)實世界中的編程問題是不可能做到的。

而Devin的技術創(chuàng)新是基于Agent構建工作流程，將SWEBench的解決率提升到了一個新高度。

3月份，Devin以獨立解決13.86%的問題解決率高居榜首，這直接將“大模型編程”從幾乎不可用的狀態(tài)提升到了“看到了曙光”。硅谷大廠和大模型創(chuàng)業(yè)公司紛紛闖入LLM for SE這個領域，這項記錄被連續(xù)改寫。

截止2024年4月底，最好的記錄由Amazon AI團隊推出的 Amazon Q Developer Agent 創(chuàng)造的20.33%。

較為遺憾的是，相比于基礎模型榜單上中國公司的“百花齊放”，這項高難度的挑戰(zhàn)中國公司鮮少參與，直到這一次OpenCSG改寫了這一紀錄。

來自中國創(chuàng)業(yè)公司

SWEBench最新評測結果更新，OpenCSG躍居榜單第二名，該公司推出的OpenCSG StarShip CodeGen Agent在Lite評測中取得了23.67%的通過率，這一成績不僅超過了Devin和Amazon的成績。

OpenCSG（開放傳神）成立僅一年，是一家致力于大模型生態(tài)社區(qū)建設，匯集人工智能行業(yè)上下游企業(yè)鏈共同為大模型在垂直行業(yè)的應用提供解決方案和工具平臺的公司。

團隊在開源及大模型復合經驗十分深厚——

CEO陳冉是開源軟件領域的知名企業(yè)家，曾成功打造過多家開源領域的商業(yè)公司。

CTO王偉來自清華05級姚班，在人工智能領域有多年研發(fā)經驗。

公司核心研發(fā)團隊中還匯聚了來自清華、北大、沃頓、港科大等學府的精英學子。

那么這樣一支團隊是如何打造出新的記錄的呢?

當前許多企業(yè)正在積極探索和實踐基礎模型、垂直領域模型及RAG等技術，而OpenCSG則選擇了專注的方向:致力于編程Agent的創(chuàng)新開發(fā)和大型模型算法的深度優(yōu)化。

Agent層面:不同于LLM+RAG或者通用Agent框架，OpenCSG StarShip CodeGen Agent針對軟件研發(fā)領域高度定制優(yōu)化Agent而設計:將研發(fā)各個階段（需求理解、代碼檢索、編程計劃、編寫代碼、循環(huán)驗證等）通過LLM Agent實現(xiàn)，并結合軟件工程方法，例如AST語法分析、依賴檢索等進行深度優(yōu)化的方式，在各個環(huán)節(jié)精益求精，最終整合實現(xiàn)了更高精度的代碼生成。

算法層面:針對代碼版本變更引起的API沖突等典型問題，OpenCSG提出了自適應教師模式，通過教師模型分析代碼版本變更記錄，生成高質量編程數(shù)據(jù)并用于改善基礎模型的生成效果。根據(jù)評測這些創(chuàng)新帶來的改進，顯著優(yōu)于當前的RAG模式，尤其是在API結構高頻更新的熱門項目場景中。這部分的相關成果已經形成論文投遞到國際會議中。

正是這種算法+工程雙管齊下、精益求精的模式，讓OpenCSG CodeGen Agent能在一眾模型中脫穎而出。

“StarShip就是各種家電電器”

如果說CodeGen Agent的真實評測是牛刀小試，那么StarShip則是承載著OpenCSG的宏偉藍圖。

對于StarShip的產品定位，OpenCSG CEO陳冉表示:

CTO王偉則表示這條路徑充滿挑戰(zhàn)但非常有趣，“從第一性原理來看，大模型對于生產力的提升已經不是’是’或者’否’的問題，而是何時、何地、何種形態(tài)的問題，StarShip正是我們嘗試給出的一個回答?！?/p>

除StarShip之外，OpenCSG團隊還相當高產:CSGHub開源模型平臺、wukong預訓練模型、CSGCoder微調代碼模型等，這些產品定位精準，在業(yè)內頗受好評。

這些產品的快速推出與迭代，既滿足了市場需求，同時也為了一個共同的目標:讓大模型賦能每一個企業(yè)每一個人。

OpenCSG的理念是開源開放，作為一家堅持以開源為核心的公司，不僅實現(xiàn)了模型開源、代碼開源，甚至將平臺開源。

CTO王偉這樣總結，我們是一家年輕的公司，受益于開源，才能在較短的時間做出一些成果，同時也會全面回饋開源社區(qū)，這是開源社區(qū)的基本原則。除此之外，我非常認同Sam Altman的說法，開源只是一種模式，比模式更重要的是產品價值。

“Benchmark本身只是一個數(shù)字，隨著GPT4-o的推出，SWEBench的測試成績預計將會很快超過30%，樂觀估計明年可以突破50%。而我們更關注這些數(shù)字背后的產品價值:隨著模型能力和工程技術的提升，數(shù)字員工將會從量變引發(fā)質變，從能用到好用，在各行業(yè)迎來全面的爆發(fā)”王偉解釋道“這可能會是大模型時代背景下的一個重大變化，從公司到個人，我們都要為此做好準備。”

以上就是關于【超越Devin！姚班帶隊，他們創(chuàng)大模型編程新世界紀錄】的相關內容，希望對大家有幫助！

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！

相關閱讀

最新文章

<p id="yn5hz"><kbd id="yn5hz"></kbd></p>

<p id="yn5hz"><kbd id="yn5hz"></kbd></p>