日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<pre id="tyf8l"></pre>

<rt id="tyf8l"></rt>

ChatGPT無(wú)法取代人類程序員！ IEEE 35頁(yè)論文測(cè)出困難編碼正確率僅為0.66%

發(fā)布時(shí)間：2024-07-08 15:00:21 編輯：來(lái)源：

導(dǎo)讀相信很多大家對(duì)ChatGPT無(wú)法取代人類程序員！ IEEE 35頁(yè)論文測(cè)出困難編碼正確率僅為0.66%還不知道吧，今天菲菲就帶你們一起去了解一下~.~...

相信很多大家對(duì)ChatGPT無(wú)法取代人類程序員！ IEEE 35頁(yè)論文測(cè)出困難編碼正確率僅為0.66%還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】6月，IEEE刊登了一篇對(duì)ChatGPT代碼生成任務(wù)進(jìn)行系統(tǒng)評(píng)估的論文，數(shù)據(jù)集就是程序員們最愛(ài)的LeetCode題庫(kù)。研究揭示了LLM在代碼任務(wù)中出現(xiàn)的潛在問(wèn)題和能力局限，讓我們能夠?qū)δＰ妥龀鲞M(jìn)一步改進(jìn)，并逐漸了解使用ChatGPT寫(xiě)代碼的最佳姿勢(shì)。

有了ChatGPT，還需要人類程序猿編碼嗎?

上個(gè)月，一項(xiàng)發(fā)表在IEEE TSE期刊（Transactions on Software Engineering）上的研究評(píng)估了ChatGPT所生成的代碼在功能性、復(fù)雜性和安全性方面的表現(xiàn)。

結(jié)果顯示，ChatGPT生成可用代碼的能力差異很大。

其成功率從0.66%到89%不等，這主要取決于任務(wù)的難度、編程語(yǔ)言等多種因素。

論文地址:https://ieeexplore.ieee.org/document/10507163

具體來(lái)說(shuō)，研究人員測(cè)試了GPT-3.5在5種編程語(yǔ)言（C、C++、Java、JavaScript和Python）中，解決LeetCode測(cè)試平臺(tái)上的728個(gè)編碼問(wèn)題，以及應(yīng)對(duì)18個(gè)CWE(常見(jiàn)缺陷枚舉)場(chǎng)景的能力。

雖然在某些情況下，AI能夠生成比人類更優(yōu)質(zhì)的代碼，但分析也揭示了，一些AI生成代碼的安全性問(wèn)題。

論文作者、格拉斯哥大學(xué)助理教授Yutian Tang指出，「AI代碼生成一定程度上，可以提升開(kāi)發(fā)效率，自動(dòng)化軟件工程。然而，我們必須認(rèn)識(shí)這類模型優(yōu)勢(shì)和不足，以便合理應(yīng)用」。

「通過(guò)全面的分析，可以發(fā)現(xiàn)ChatGPT生成代碼過(guò)程中，出現(xiàn)的潛在問(wèn)題和局限性，進(jìn)而改進(jìn)生成技術(shù)」。

有網(wǎng)友慶幸地發(fā)出疑問(wèn)，所以我還沒(méi)有被解雇?另一人對(duì)此表示，至少不是今天。

還有人指出，這項(xiàng)研究是關(guān)于GPT-3.5的評(píng)估。要是GPT-4早就在編碼能力上大幅提升，Claude3.5更是如此。

確實(shí)，現(xiàn)在我們有了更好的模型，對(duì)于GPT-3.5模型的評(píng)估，并沒(méi)有太大的意義。

0.66%-89%，驚人反差率

總體而言，ChatGPT在不同編程語(yǔ)言的問(wèn)題上表現(xiàn)相當(dāng)不錯(cuò)——特別是在嘗試解決2021年之前LeetCode上的編碼問(wèn)題時(shí)。

例如，它能夠?yàn)楹?jiǎn)單、中等和困難的問(wèn)題生成可運(yùn)行代碼，成功率分別約為89%、71%和40%。

然而，當(dāng)涉及到2021年之后的算法問(wèn)題時(shí)，ChatGPT生成正確運(yùn)行代碼的能力受到影響。即使是簡(jiǎn)單級(jí)別的問(wèn)題，它有時(shí)也無(wú)法理解問(wèn)題的含義。

比如，ChatGPT在生成「簡(jiǎn)單」編碼問(wèn)題的可運(yùn)行代碼方面的能力，在2021年后從89%下降到52%。

而它在生成「困難」問(wèn)題的可運(yùn)行代碼方面的能力也在此時(shí)間后從40%下降到0.66%。

Tang對(duì)比表示，「一個(gè)合理的假設(shè)是，ChatGPT在2021年之前的算法問(wèn)題上表現(xiàn)更好的原因是這些問(wèn)題在訓(xùn)練數(shù)據(jù)集中經(jīng)常出現(xiàn)」。

接下里，具體看看研究者們對(duì)ChatGPT進(jìn)行了哪些方面的評(píng)估。

實(shí)驗(yàn)評(píng)估

評(píng)估的整體流程如圖2所示。

首先為給定的LeetCode問(wèn)題或CWE場(chǎng)景構(gòu)造合適的提示并發(fā)送給ChatGPT，讓它根據(jù)提示和上一輪對(duì)話的上下文信息給出響應(yīng)。

之后，研究人員將模型響應(yīng)中的代碼片段提交給LeetCode平臺(tái)，利用其在線判斷功能來(lái)檢驗(yàn)代碼的正確性，CWE漏洞則使用CodeQL進(jìn)行手動(dòng)分析。

如果測(cè)試結(jié)果通過(guò)，則生成結(jié)束，否則就需要利用LeetCode和CodeQL的反饋繼續(xù)建立新的提示、輸入給ChatGPT，再次進(jìn)行代碼生成。

如果ChatGPT在對(duì)話輪數(shù)限制（5輪）之內(nèi)始終沒(méi)有生成出通過(guò)測(cè)試的代碼，則認(rèn)為生成任務(wù)失敗。

功能性正確代碼生成

ChatGPT生成的代碼在功能上是否正確?

研究動(dòng)機(jī):

給定提示，ChatGPT生成相應(yīng)的文本，這種能力可能會(huì)提高開(kāi)發(fā)者的生產(chǎn)力。首先去評(píng)估ChatGPT在單輪對(duì)話中，自動(dòng)生成功能正確代碼的能力。

研究方法:

- 讓ChatGPT閱讀問(wèn)題描述，在單輪對(duì)話中生成相應(yīng)代碼。（最大對(duì)話輪數(shù)設(shè)為1）

- 使用LeetCode平臺(tái)上的編程問(wèn)題作為數(shù)據(jù)集，截止研究時(shí)，有2500個(gè)難度不等的問(wèn)題。

- 將LeetCode所有問(wèn)題分為2021年之前（Bef.problems）和2021年之后(Aft.problems)兩類，因?yàn)镃hatGPT的訓(xùn)練數(shù)據(jù)截止于2021年。

- 考慮到2021年之前的問(wèn)題可能已存在于ChatGPT的訓(xùn)練集中，這可能使代碼生成任務(wù)退化為簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢（即代碼復(fù)用）。為了進(jìn)行全面評(píng)估，研究中同時(shí)考慮了這兩類問(wèn)題。

具體而言，研究人員重點(diǎn)關(guān)注LeetCode上的算法問(wèn)題，因?yàn)樗惴▎?wèn)題是該平臺(tái)上最重要、最多和最多樣化的問(wèn)題。

Bef.problems和Aft.problems的總數(shù)分別為1624個(gè)和354個(gè)。此外，兩者的難度分布為難、中、易，比例為1:2:1。

在所有Bef.problems中，作者隨機(jī)抽取了374個(gè)問(wèn)題，其數(shù)量與Aft.problems相似，難度分布也與Aft.problems相同。

同樣，在354個(gè)Aft.problems和Bef.problems中，難、中、易問(wèn)題的數(shù)量比例也是1:2:1，與LeetCode平臺(tái)上所有問(wèn)題的難度分布一致。

此外，研究人員還檢查了Bef.problems和Aft.problems之間是否存在顯著差異。

如果Aft.problems只是Bef.problems的重構(gòu)，那么ChatGPT很可能可以輕松解決這些問(wèn)題，這可能會(huì)影響實(shí)驗(yàn)結(jié)果在區(qū)分時(shí)間段方面的可靠性。

論文中，作者總共找到了142對(duì)問(wèn)題。然后，再讓2名研究生獨(dú)立檢查這些問(wèn)題對(duì)。

通過(guò)仔細(xì)核對(duì)和討論，結(jié)果發(fā)現(xiàn)這些相似的問(wèn)題要么情景相似，但求解目標(biāo)完全不同;要么情景和條件不同，但可以使用類似的算法（如動(dòng)態(tài)編程）求解。

經(jīng)過(guò)仔細(xì)的人工分析，作者沒(méi)有發(fā)現(xiàn)在任何情況下，Bef.problems可以很容易地重新表述為Aft.problems。

因此，作者認(rèn)為Aft.problems和Bef.problems之外，對(duì)于每個(gè)問(wèn)題，都要求ChatGPT用5種不同的語(yǔ)言生成代碼:C、C++、Java、Python3和JavaScript。

此外，他們還使用相同的提示模板為每個(gè) < 問(wèn)題、語(yǔ)言> 對(duì)創(chuàng)建了相應(yīng)的提示。

Bef.problems和Aft.problems分別共有1，870和1，770個(gè)提示。由于ChatGPT的查詢速度有限，研究者將每條提示輸入一次，要求生成代碼。

然后，研究者將解析后的解決方案，提交給LeetCode進(jìn)行功能正確性判斷，并得到提交狀態(tài)，包括接受、回答錯(cuò)誤、編譯錯(cuò)誤、超過(guò)時(shí)間限制和運(yùn)行錯(cuò)誤。

它們分別對(duì)應(yīng)于A.、W.A.、C.E.、T.L.E.和R.E.。一個(gè)問(wèn)題對(duì)應(yīng)一個(gè)唯一的對(duì)話，以避免從其他問(wèn)題觸發(fā)ChatGPT的推理。

實(shí)驗(yàn)中，作者以狀態(tài)率（SR）來(lái)評(píng)估 ChatGPT 的代碼生成能力。其中和

分別是根據(jù)狀態(tài)生成的代碼片段數(shù)和輸入的提示數(shù)。

提示:

所設(shè)計(jì)的提示模板由4個(gè)部分組成:它們分別是<Content>、<Examples>、<Template>和<Command>。

<Content> 用自然語(yǔ)言描述問(wèn)題，<Examples> 顯示功能正確的代碼 <input， output> 對(duì)，<Template> 指定生成代碼的方法簽名（method signature），<Command> 要求用特定語(yǔ)言生成代碼。

結(jié)果:

表1和表2顯示，LeetCode對(duì)五種編程語(yǔ)言在兩個(gè)時(shí)間段、兩種形式下的代碼生成結(jié)果、SR以及相應(yīng)的相對(duì)頻率柱形圖。

由于Python3和JavaScript都是動(dòng)態(tài)編程語(yǔ)言，因此這兩列不包含C.E.。

從總體結(jié)果來(lái)看，ChatGPT為Bef.problems生成的功能正確代碼的A.率明顯高于Aft.problems。

具體來(lái)說(shuō)，Bef.problems的五種語(yǔ)言平均正確率（68.41%）比Aft.problems的(20.27%)高出48.14%。

五種語(yǔ)言在不同階段的代碼生成性能差異顯著，P值為0.008，效應(yīng)大小值為1。

對(duì)于Aft.problems，總體正確率低于25%，其中難、中、易問(wèn)題的正確率分別為0.66%、13.90%和52.47%。

用Holm-Bonferroni校正程序調(diào)整的P值和五種語(yǔ)言不同難度之間的效應(yīng)大小值分別小于0.05和等于1。

結(jié)果表明，面對(duì)Aft.problems，隨著問(wèn)題難度的增加，ChatGPT在功能上正確生成代碼的能力明顯下降。

此外，即使是簡(jiǎn)單的問(wèn)題，它也只能正確回答一半。

在這五項(xiàng)/四項(xiàng)指標(biāo)中，W.A.率是所有語(yǔ)言中最高的一項(xiàng)，達(dá)到58%。

此外，每個(gè)W.A.代碼片段平均有109個(gè)測(cè)試用例，而ChatGPT生成的代碼只能通過(guò)其中的25%。

難題、中難題和簡(jiǎn)單難題的測(cè)試用例通過(guò)率分別為20.90%、21.03%和38.41%。因此，無(wú)論難度如何，生成代碼的語(yǔ)義都與相應(yīng)問(wèn)題描述的邏輯有很大差異。

此外，C.E.率和R.E.率也都達(dá)到了16%，而且難題和中難題的C.E.率明顯高于簡(jiǎn)單難題。

ChatGPT生成的中難題代碼，更容易出現(xiàn)編譯和運(yùn)行時(shí)錯(cuò)誤。比如，圖4中顯示生成的函數(shù)cmpfunc，在調(diào)用前沒(méi)有聲明。語(yǔ)法錯(cuò)誤只占這些錯(cuò)誤的一小部分（3.7%）。

至于T.L.E.率，雖然數(shù)值不高（6%），但測(cè)試用例的平均通過(guò)率為51%，高于W.A.代碼片段。

T.L.E.問(wèn)題的難、中、易三個(gè)難度級(jí)別的測(cè)試用例，平均通過(guò)率分別為68%、50%和1%（易問(wèn)題由于其T.L.E.率接近0%，可以忽略不計(jì)）。

由于T.L.E.代碼片段的測(cè)試用例通過(guò)率是部分的，不過(guò)生成的代碼中最多還有6%在功能上是正確的，盡管它們的時(shí)間復(fù)雜度可能并不理想。

細(xì)分到每種語(yǔ)言，C、C++、Java、Python3和JavaScript的A.率分別為15.38%、19.37%、20.17%、23.93%和22.51%。

此外，圖5顯示了將五種不同語(yǔ)言與每個(gè)問(wèn)題（僅考慮至少有一個(gè)正確解決方案的問(wèn)題）相結(jié)合的A.率分布(接受率分布)。

從圖中可以看出，Medium語(yǔ)言的平均線和中位線都≤0.5，而Easy語(yǔ)言的平均線和中位線都≥0.6。

對(duì)于簡(jiǎn)單問(wèn)題ChatGPT更容易將生成的代碼泛化到不同的語(yǔ)言中。簡(jiǎn)單問(wèn)題和中等問(wèn)題的中位數(shù)和均值分別為0.4和0.5。

對(duì)于Bef. Problems問(wèn)題方面，難、中、易問(wèn)題的正確率分別為40.13%、70.95%和89.80%，遠(yuǎn)高于Aft. problems，但不同難度之間仍存在顯著差異。

用Holm-Bonferroni校正程序調(diào)整后的P值和難與中、難與易之間的效應(yīng)大小值分別小于0.05和大于0.9。

五種語(yǔ)言中，中等難度和簡(jiǎn)單難度之間的調(diào)整后P值和效應(yīng)大小值分別為0.056和0.76。

ChatGPT在解決2021年之前訓(xùn)練集中可能出現(xiàn)的問(wèn)題時(shí)，表現(xiàn)更好，尤其是中等難度和簡(jiǎn)單難度的問(wèn)題。

解決難題的正確率提高了40%，但仍低于50%，這表明ChatGPT生成邏輯復(fù)雜問(wèn)題代碼的能力仍有很大的提升空間。

總體正確率下降到17.03%，難、中、易問(wèn)題的正確率分別為32.89%、15.05%和6%。

生成的代碼仍能通過(guò)平均112個(gè)測(cè)試用例中的25%。難、中、易問(wèn)題的測(cè)試用例通過(guò)率分別為19.19%、31.12%和47.32%。

后兩者都提高了10%，這表明ChatGPT對(duì)Bef. Problems有更好的理解力。

不過(guò)，C.E.率和R.E.率仍達(dá)到13%，接近Aft. problems的16%，兩個(gè)階段之間的P值和效應(yīng)大小值分別為0.328和0.3125，且困難問(wèn)題通過(guò)率最高，中難度問(wèn)題通過(guò)率次之。

編譯錯(cuò)誤和運(yùn)行時(shí)錯(cuò)誤與Aft. problems類似，例如，圖6所示代碼用于重塑給定的二維矩陣，但在第15行引發(fā)了運(yùn)行時(shí)錯(cuò)誤，該行為*returnColumnSizes分配了錯(cuò)誤大小的內(nèi)存。

至此，T.L.E.率降至1.87%，測(cè)試用例平均通過(guò)率為74%。

接下來(lái)，再細(xì)分到每種語(yǔ)言，C、C++、Java、Python3和JavaScript的A.率分別為47.24%、68.63%、76.37%、75.35%和74.44%。

后四種語(yǔ)言的A.率值彼此接近，且大大高于C（最低級(jí)別語(yǔ)言）的A.率值，至少高出20%。

圖7顯示的是與圖5相同的Bef. Problems。從圖中可以看出，中等題和簡(jiǎn)單題的平均線和中位線都≥0.75，而且它們的中位數(shù)和平均值之間的差異比之前的Aft. problems要小一半。

此外，有難度的平均線和中位線都≥0.55。對(duì)于Bef. Problems，ChatGPT更容易將代碼擴(kuò)展到不同的語(yǔ)言中。

ChatGPT接受的問(wèn)題的人類平均接受率為55%，而ChatGPT未接受的問(wèn)題的人類平均接受率為47%。

總而言之，通過(guò)實(shí)驗(yàn)，ChatGPT在功能性正確代碼生成任務(wù)上，比起Aft. problems，更加擅長(zhǎng)解決不同編程語(yǔ)言中的Bef. Problems。

尤其是，前者的平均正確率比后者高出48.14%。此外，不同的難度也會(huì)影響基于ChatGPT的代碼生成。

對(duì)于兩個(gè)階段的問(wèn)題，ChatGPT都能生成運(yùn)行時(shí)間和內(nèi)存開(kāi)銷小于至少50%的人類解決方案的代碼。

無(wú)論哪個(gè)階段的問(wèn)題，ChatGPT生成的代碼出現(xiàn)編譯或運(yùn)行時(shí)錯(cuò)誤的概率都差不多，平均為14.23%。

在所有問(wèn)題中，C++、Java、Python3和JavaScript的A.率值分別為44.75%、48.74%、50.00%和48.80%，彼此接近，且大大超越C的31.28%。

多輪修復(fù)功能管用嗎

在這個(gè)方面，作者想探究ChatGPT支持的多輪對(duì)話能力在改進(jìn)代碼正確性上究竟表現(xiàn)如何?人類能夠「知錯(cuò)就改」，LLM可以嗎?

首先，研究人員對(duì)ChatGPT生成的157段代碼的錯(cuò)誤類型進(jìn)行了分析，可以大致分為以下幾類:

- 細(xì)節(jié)錯(cuò)誤（WD）:代碼細(xì)節(jié)上的錯(cuò)誤一般源于誤解題意，或者代碼與問(wèn)題理解不一致，但大體邏輯基本正確，因此這類錯(cuò)誤很容易被修復(fù)。

- 誤解某些內(nèi)容（MCC）:生成代碼沒(méi)有滿足給定問(wèn)題的主要條件，使用的算法合適，但需要修改其核心。

- 誤解問(wèn)題（MP）:指ChatGPT完全錯(cuò)解了題意，這是最難修復(fù)的一種情況，代碼需要完全重寫(xiě)，

將錯(cuò)誤信息反饋給ChatGPT的方式依舊延續(xù)了圖3所示的格式，包括原始問(wèn)題、生成代碼片段、LeetCode的報(bào)錯(cuò)信息以及相應(yīng)指令。

進(jìn)行不超過(guò)5輪的對(duì)話修復(fù)后，得到了表5所示的結(jié)果。

可以看到，157個(gè)問(wèn)題中能通過(guò)自動(dòng)化修復(fù)的只有25個(gè)，其中16個(gè)屬于簡(jiǎn)單模式，困難問(wèn)題的錯(cuò)誤答案幾乎不可能被修復(fù)。

如果把對(duì)話輪數(shù)的上限增加到10輪呢?結(jié)果依舊不樂(lè)觀。

從157個(gè)問(wèn)題中隨機(jī)選出10個(gè)，結(jié)果只有其中2個(gè)能在10輪內(nèi)成功修復(fù)，剩下的8個(gè)依舊無(wú)法通過(guò)。這能讓研究人員進(jìn)一步分析ChatGPT很難自動(dòng)修復(fù)的原因。

作者認(rèn)為，一方面，ChatGPT缺乏掌握邏輯細(xì)節(jié)的能力;另一方面，在需要復(fù)雜邏輯推理的問(wèn)題中，生成代碼往往偏離問(wèn)題的實(shí)際含義，這即使對(duì)于人類程序員也很難修復(fù)。

代碼復(fù)雜度

代碼的復(fù)雜性對(duì)于可讀性、可維護(hù)性以及整體質(zhì)量來(lái)說(shuō)，都是一個(gè)重要的影響因素。想象一下，如果ChatGPT對(duì)簡(jiǎn)單的排序問(wèn)題都生成出了你很難看懂的代碼，那會(huì)大大拉低使用體驗(yàn)。

作者利用了SonarQube和cccc兩個(gè)指標(biāo)來(lái)評(píng)估LeetCode數(shù)據(jù)集中Bef.問(wèn)題的復(fù)雜程度，并評(píng)估響應(yīng)生成代碼的循環(huán)復(fù)雜度（cyclomatic complexity）和認(rèn)知復(fù)雜度(cognitive complexity)。

循環(huán)復(fù)雜度會(huì)計(jì)算執(zhí)行時(shí)線性獨(dú)立路徑的數(shù)量，從而體現(xiàn)源代碼的測(cè)試難度。認(rèn)知復(fù)雜度則從人類角度衡量理解、推理一段代碼的難度。

由于以上量化標(biāo)準(zhǔn)不夠直觀，研究人員還同時(shí)評(píng)估了人類編寫(xiě)的C++和Python3的LeetCode問(wèn)題解答來(lái)與ChatGPT進(jìn)行比較。

圖20的對(duì)比中可以看出，C代碼的復(fù)雜度最高，C++、Java和JavaScript次之并基本處于同一水平，Python3是最不復(fù)雜的，這與我們的固有認(rèn)知基本吻合。

此外，與人類相比，ChatGPT生成的代碼雖然復(fù)雜度稍高，但差距并不明顯。

隨著LeetCode問(wèn)題難度逐漸升高（表16），無(wú)論是人類還是ChatGPT，低復(fù)雜度代碼的占比都會(huì)逐漸降低，復(fù)雜度被分類為「高」和「非常高」的占比也隨之逐漸提高，這種趨勢(shì)也是類似的。

然而，不好的消息是，ChatGPT的多輪修復(fù)功能似乎沒(méi)法讓代碼更簡(jiǎn)潔，多數(shù)情況下會(huì)維持甚至提高代碼的復(fù)雜

性，這或許也是多輪修復(fù)功能效果不理想的原因之一。

代碼安全性

由于ChatGPT訓(xùn)練時(shí)可能學(xué)習(xí)到了各種各樣的內(nèi)容，包括質(zhì)量較低、易受攻擊的代碼，因此評(píng)估生成代碼的安全性也非常重要。

由于LeetCode的算法代碼通常專注于解決特定的邏輯或計(jì)算問(wèn)題，并不涉及管理系統(tǒng)資源、網(wǎng)絡(luò)通信等通常有敏感安全問(wèn)題的操作，因此在這部分的評(píng)估中，論文同時(shí)采取了兩種路徑。

1）利用CodeQL對(duì)LeetCode答案的所有C、C++和Java代碼進(jìn)行漏洞檢測(cè)，針對(duì)MITRE Top25中的5個(gè)CWE問(wèn)題，包括指針和內(nèi)存相關(guān)的共30個(gè)查詢。

2）針對(duì)MITRE Top25中的18個(gè)CWE問(wèn)題，每個(gè)問(wèn)題提供3種上下文場(chǎng)景，給ChatGPT「挖坑」，要求它補(bǔ)全代碼，再用CodeQL自動(dòng)檢測(cè)看是否確實(shí)出現(xiàn)了相應(yīng)問(wèn)題。

在第一個(gè)測(cè)試中（表18），ChatGPT表現(xiàn)良好，91.8%的錯(cuò)誤集中在MissingNullTest這一類，其余的漏洞的出現(xiàn)頻次則一般不超過(guò)5次。

但仍要注意的是，ChatGPT在CWE787，即「越界寫(xiě)入」問(wèn)題上表現(xiàn)不佳，這可能會(huì)導(dǎo)致潛在的代碼漏洞。

而且，由于這些漏洞的修復(fù)比較簡(jiǎn)單，因此在給定錯(cuò)誤信息并要求生成修復(fù)代碼后， ChatGPT也能較好完成任務(wù)。

要求ChatGPT修復(fù)CWE-787問(wèn)題的提示模板

在第二個(gè)測(cè)試——安全代碼生成方面，ChatGPT共生成了2983（99.07%）個(gè)有效代碼片段，其中994個(gè)存在安全漏洞，占比達(dá)到33.32%。

而且，C語(yǔ)言中的易受攻擊片段的百分比（51.64%）遠(yuǎn)遠(yuǎn)高于Python3(17.08%)，這有可能是由于C代碼本身就對(duì)程序的內(nèi)存安全提出了更高的要求，也可能源于訓(xùn)練數(shù)據(jù)中C和Python3代碼的質(zhì)量差距。

多輪修復(fù)功能依舊表現(xiàn)出色，89.4%的漏洞都能在給出CWE信息后成功解決，比如溢出、數(shù)據(jù)泄露、不安全內(nèi)存操作、未經(jīng)身份驗(yàn)證訪問(wèn)等相關(guān)問(wèn)題。

ChatGPT非確定性

ChatGPT的非確定性輸出如何影響代碼生成?

如下表所示，表22和表23分別列出了所選算法問(wèn)題和溫度為0.7時(shí)的實(shí)驗(yàn)結(jié)果。

在溫度為0的條件下，10次試驗(yàn)中，算法問(wèn)題和CWE代碼場(chǎng)景的非確定性代碼生成統(tǒng)計(jì)結(jié)果如表24、表25和表26所示。

其中表26列出了所選的20個(gè)CWE代碼場(chǎng)景。

此外，作者還研究了非確定性對(duì)多輪修復(fù)過(guò)程的影響，修復(fù)結(jié)果如表27-32所示。

溫度設(shè)為0.7，5次試驗(yàn)中算法問(wèn)題的多輪修復(fù)過(guò)程。

溫度設(shè)為0，5次試驗(yàn)中算法問(wèn)題的多輪修復(fù)過(guò)程。

溫度設(shè)為0.7，5次試驗(yàn)中算法問(wèn)題的CWE多輪修復(fù)過(guò)程。

溫度設(shè)為0，5次試驗(yàn)中算法問(wèn)題的CWE多輪修復(fù)過(guò)程。

溫度設(shè)為0.7，5次試驗(yàn)中安全代碼生成的多輪修復(fù)過(guò)程。

溫度設(shè)為0，5次試驗(yàn)中安全代碼生成的多輪修復(fù)過(guò)程。

總之，實(shí)驗(yàn)中，當(dāng)溫度設(shè)置為0.7時(shí)，單輪流程中的代碼生成可能會(huì)受到ChatGPT非確定性因子的影響，從而導(dǎo)致代碼片段在功能正確性、復(fù)雜性和安全性方面出現(xiàn)差異。

要減輕ChatGPT在單輪過(guò)程中的非確定性，一種可能的策略是將溫度設(shè)置為0。

然而，在多輪修復(fù)過(guò)程中，無(wú)論溫度設(shè)置為0.7還是0，ChatGPT固定的代碼片段在功能正確性、復(fù)雜性和安全性方面都可能存在差異。

參考資料:

https://ieeexplore.ieee.org/document/10507163

https://spectrum.ieee.org/chatgpt-for-coding

https://arxiv.org/abs/2308.04838

以上就是關(guān)于【ChatGPT無(wú)法取代人類程序員！ IEEE 35頁(yè)論文測(cè)出困難編碼正確率僅為0.66%】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新文章

<td id="anpgp"><input id="anpgp"></input></td>

<legend id="anpgp"><s id="anpgp"><ul id="anpgp"></ul></s></legend>

<rt id="anpgp"></rt>