首页 > IT > 正文

ChatGPT 修 bug 横扫全场，准确率达 78%

来源：IT之家 2023-02-06 07:59:38

ChatGPT到底有多会修 bug？

(资料图)

这事终于有人正儿八经地搞研究了 ——

来自德国、英国的研究人员，专门搭了个“擂台”来检验 ChatGPT 的这项本领。

除了 ChatGPT 之外，研究人员还找来了其它三位修 bug 的“AI 猛将”，分别让它们修复40 个错误代码。

结果真是不比不知道，一比吓一跳。

ChatGPT 准确修复了其中31 个bug，遥遥领先第二名（21 个），直接拿下“AI 修 bug 界”的SOTA成绩！

于是乎，这项研究引来了众多网友的围观和讨论，Reddit 上发布此帖的标题更是用上了“小心”、“注意”这样的字眼：

但事实上，这真的会让程序员“危”吗？

我们不妨先来看下这项研究。

很会修 bug 的 ChatGPT

虽然 ChatGPT 并非是为了专门修改 bug 而生，但自打它问世以来，不少网友们都发现它是具备这项能力的。

因此研究人员为了摸清 ChatGPT 到底能修改 bug 到什么程度，便引入了标准的错误修复基准集QuixBugs来进行评估。

以及与它同台竞技的 AI 选手，分别是CodeX、CoCoNut和Standard APR。

研究人员从 QuixBugs 中挑了 40 个问题，分别让它们来修复 bug。

让 ChatGPT 来修 bug 的方法，就是在对话框里向它提问：

这个代码有什么错误吗？

在第一轮较量过后，结果如下：

从第一轮 battle 结果来看，ChatGPT 修复了 19 个，CodeX 修复了 21 个，CoCoNut 修复了 19 个，Standard APR 则是 7 个。

而且研究人员还发现，ChatGPT 的答案与 CodeX 最为相似；这是因为它俩是来自同一个语言模型家族。

这时候就会有小伙伴要问了，“ChatGPT 不是还没有 CodeX 厉害吗”。

别急，不要忘了，ChatGPT 的一个特点就是越问越“上道”。

例如在这个基准集中，有一个叫 bitcount 的问题，ChatGPT 在刚才第一轮修复过程中是给了错误的答案：

原本 ChatGPT 应该将第 7 行的 n ^ = n - 1 改为 n & = n - 1。

但在第一轮中它的回答是：

如果没有更多关于预期行为和导致问题的输入信息，我无法判断程序是否存在错误。

于是在给予它更多信息之后，ChatGPT 便答对了这个问题。

以此类推，在对第一轮没答对的问题进行更多信息提示之后，ChatGPT 的修 bug 能力有了大幅提高：

最终，ChatGPT 在 QuixBugs 的 40 个问题里答对了 31 个。

网友忧喜参半

对于这样的实验结果，网友们对 ChatGPT 修 bug 拿下 SOTA 这事产生的态度却不太一样。

有网友认为这事不应该让程序员感到危机，而是会让他们觉得开心才对。

言外之意，便是程序员们有了这么好用的工具，干活儿就会变得事半功倍。

不过也有人对此给出了不一样的看法：

工作变得简单，不也就意味着需要的人力更少了吗？

但还网友觉得，活儿是干不完的：

即使 AI 能把开发时间缩短一个数量级，也只是意味着程序员将更快处理下一个工作。

整体来看，ChatGPT 很会修 bug，并不会给程序员带来什么致命伤害。

但若是把目光放到 OpenAI 其他的行动中呢？

全球招外包训练 ChatGPT 写代码

在此之前，OpenAI 就表示过 ChatGPT 的重要用途之一是帮助程序员检查代码。

换言之，它被定位可用的辅助工具。

相比“ChatGPT 带来威胁”的看法，等 ChatGPT 能力彻底进化，程序员都不用再怕写 bug 了。

OpenAI 布局的棋盘上，可不只有改 bug 偷塔程序员岗位这一件事。

为了让它更大更强，OpenAI 被曝在拉美和东欧等地区，提供了1000 个外包岗位。

外包员工的主要工作是标注数据，以及训练 ChatGPT写代码

这 1000 人中，40% 是程序员，他们为 OpenAI 的模型创建数据，用来学习软件工程任务。

一直以来，OpenAI 的训练数据是从 GitHub 上抓取的。

现在外包程序员们新手搓的数据集，不仅包括代码行，还包括代码行背后的人类思考逻辑步骤。

有位南美的软件开发人员爆料，他为 OpenAI 完成了五小时的无偿编码测试。

整个过程中，他的任务分为两部分。

用书面英语解释如何处理一个编码问题；

提供解决方案。

如果发现 bug，OpenAI 会向他详细询问 bug 的具体情况，并请教如何修正。

程序员需要展示思考问题的每个步骤，他据此猜测 OpenAI 很可能想为 ChatGPT 提供非常具体的训练数据。

特斯拉前 AI 主管 Andrej Karpathy 在推特上调侃：

最新的热门编程语言是英语。

不过话说回来，ChatGPT 修 bug 能力强是好事，要真能搞进化到可以完成代码里死记硬背的部分，也是好事。

毕竟 OpenAI 成立时对外宣称的宗旨，就是希望“确保通用人工智能可以造福全人类”。

虽然乍一看它这些年做的事，有点像在致力于用一部分人的努力，让更多人失业。

从 Dota2 赛场上碾压人类，到 GPT-3、DALL-E2、ChatGPT 的闪耀表现，它带来的新产品总是伴随着“快要让 xxx 失业了”的议论声。

但无论如何，商业却一直对它青睐有加。

就目前而言，OpenAI 的主要商业模式是 API 费用、token 费用和软件许可。

OpenAI 近期还发布了 ChatGPT 的付费版ChatGPT Pro，每月费用 42 美元（约合 285 元人民币）。

虽然机器人对话初创公司如雨后春笋般冒出，但诸多迹象表明市场对 OpenAI 的持续看好。

微软刚刚宣布将向 OpenAI 加码投资数十亿美元，并将 OpenAI 的模型融入微软必应等消费级和企业级产品中。

根据知情人士透露，此次追加投资数额约为 100 亿美元。

与此同时，WSJ 披露的消息显示，1 月初，亿万富翁 Peter Thiel 创立的风投基金 Founders Fund 正在就投资 OpenAI 进行谈判。

据悉，融资金额将至少达 3 亿美元。

One More Thing

在第一轮实验中，ChatGPT 并没有解决 QuixBugs 数据集的 bitcount 问题。

但若是你现在再重头问一次这个问题，就会发现 ChatGPT 可以“一遍过”：

那么这是否意味着 ChatGPT 已经从这次研究过程中学会求解了呢？

免责声明：本文由作者原创。文章内容系作者个人观点，转载目的在于传递更多信息，并不代表EETOP赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请及时联系我们，我们将在第一时间删除！

标签：研究人员这个问题第一时间

编辑：

ChatGPT 修 bug 横扫全场，准确率达 78%

2023-02-06 07:59:38

ChatGPT到底有多会修bug？这事终于有人正儿八经地搞研究了——来自德国、英国的研究人员，专门搭了个“擂台”来检验ChatGPT的这项本领。除了C

e络盟开售安森美能源基础设施解决方案

2023-02-06 08:11:39

安富利旗下全球电子元器件产品与解决方案分销商e络盟宣布供应安森美（onsemi）EliteSiC系列高度优化的最新碳化硅（SiC）产品，适用于能源基础

环球短讯！WiSA Technologies开始向先期测试客户交付WiSA E多声道音频功能开发工具套件

2023-02-06 08:09:48

高性能的WiSAE被打造成一种即插即用的模块或IP授权，即刻可将高质量多声道音频嵌入到兼容的电视机SoC平台中美国俄勒冈州比弗顿—2023年2月2日—为智

伪造金融票证罪怎么办案？_今日最新

2023-02-06 07:40:07

中国刑法伪造金融票证罪的立案标准：1、行为人伪造总面额达到一万元以上或数量达到十张以上的汇票、本票、支票，或委托收款凭证、汇款凭证、银

当前速递！特点鲜明四款自主紧凑型SUV购车推荐

2023-02-06 07:24:47

近年来，随着自主品牌向上脚步不断加快，旗下车型的产品实力也得到了明显提升，尤其是12万级左右的自主紧凑型SUV，已经成为了各品牌大显身手的

刀锋战士新一代传祺GS3·影速新车图解

2023-02-06 07:22:55

2022年广州车展上，广汽传祺在主场发布了全新一代GS3车型，并命名为广汽传祺GS3·影速，正式成为“影”系家族的一员。新车采用“星钻菱影”设

质选车：蔚来EC7能否获得年轻消费者青睐-天天速读

2023-02-06 07:29:47

在2022NIODay上，蔚来首次一口气发布了两款新车，其中一款为换代的蔚来ES8，另一款则是今天的主角蔚来EC7。新车是蔚来旗下的全新车型，定位智

千禧开机号和试机号对应金码_千禧开机号

2023-02-06 04:47:19

1、支离破碎zhī　lí　pò　suì[释义]支离：分散。2、形容散乱不整；残缺不全。3、[语出]元·许谦《白云

筑牢交通安全线守护春运平安路世界观点

2023-02-06 01:47:01

2月3日，白水县公安局交通管理大队组织民警来到北塬镇北塬村，利用当地举办民俗活动之际，开展交通安全知识有奖问答活动，用寓教于乐的方式将

攻略男主爸爸叔叔的快穿小说_攻略男主爸爸叔叔的快穿-天天播报

2023-02-05 23:10:10

1、第一个世界女主虐男友攻略男的爸爸求得这个是穿越剧吧。2、穿越剧的邻家哥哥第三个世界的内容。本文到此分享完毕，希望对大

意大利能源专家：欧洲能源危机远未结束|世界热点

2023-02-05 20:45:33

针对欧盟就俄罗斯石油产品价格上限达成一致，意大利欧洲问题研究中心专家表示，尽管近期受暖冬以及各项节能措施的影响，欧洲出现了对能源问题

天天日报丨元宵节最带感的烟花，还得看人民海军

2023-02-05 18:52:17

今天是正月十五元宵节许多地方都燃放起了烟花爆竹漫天绚烂的烟火为节日更增添了一份喜庆然而有一种烟火它并不五彩绚烂平时也不为大家所

世界快讯:东莞市广泰电子有限公司

2023-02-05 17:00:39

1、东莞市广泰电子有限公司于2001年06月28日成立。2、法定代表人徐怀国，公司经营范围包括：产销：五金制品、电子

眼球追踪眼镜用来记录顾客的眼球运动

2023-02-05 14:00:21

在过去的十年里，广告业一直处于淘金热状态。她说，她找到了一种新的方式来更好地了解客户，更有效地影响他们的购买决策。这个神

男孩鼹鼠狐狸和马AppleTV+|当前讯息

2023-02-05 11:51:42

Apple发布了即将上映的动画短片《男孩、鼹鼠、狐狸和马》的新预告片。这部新动画电影改编自著名作家查理·麦凯西(Char

热图推荐

质选车：蔚来EC7能否获得年轻消费者青睐-天天速读

千禧开机号和试机号对应金码_千禧开机号

筑牢交通安全线守护春运平安路世界观点

攻略男主爸爸叔叔的快穿小说_攻略男主爸爸叔叔的快穿-天天播报

创世纪

KK录像机高清视频上传教程是什么？ kk录像机没有声音怎么办？

360云盘加群教程是什么？手机百度网盘app在哪里加群？

360云盘下载教程是什么？百度网盘下载的文件在哪？

将微信收藏的小视频保存到电脑上的方法是什么？微信收藏的录音怎么导出？

奇兔刷机双清教程是什么？手机进入奇兔刷机模式怎么退出？

QQ浏览器设置无痕模式的方法是什么？怎样无痕迹访问别人的qq空间？

通信

热点

每年过年，必不可少的项目之一，就是发红包。一封封烫金封口、漂亮厚实的红包，带着一句句恭喜发财的欢乐祝福，浓浓的年味瞬间扑面而来。在

详细>>

作为存储品牌巨头西部数据旗下的西数，一直在引领行内固态硬盘的技术走向，其旗下也都推出了全系列满足不同场景需求的移动固态硬盘产品，让

详细>>

12月29日,2022首都海智创新链接年度活动暨北京市科协首都海智基地工作交流会顺利召开。活动由北京科技国际交流中心主办,以建家交友系统布

详细>>

短视频由于短平快特性，很好地适应了当前的新媒体传播环境，成为网络传播主流。近年来，随着短视频兴起，越来越多优秀的视频创作者在各类平

详细>>

近日，百度智能云发布5款云服务器BCC（Baidu Cloud Compute）实例，搭载第三代AMD EPYC 处理器（Milan），旨在面对更多元化的计算应用

详细>>

12月2-4日，由福建省工业和信息化厅、福建省教育厅、福建省人力资源和社会保障厅、福建省商务厅、福建省科学技术厅、福建省总工会、共青团

详细>>

ChatGPT 修 bug 横扫全场，准确率达 78%

热图推荐

创世纪

通信

最近更新

热点