首页全站导航手机版加入收藏关注我们
全站导航
  • 手游行业
  • 游戏问答
  • 新游前瞻
  • 游戏动态
  • 视频攻略
  • 新游预告
  • 热游视频
  • 周边视频
  • 资讯中心
  • 游戏攻略
  • 礼包中心
  • 热门攻略
  • 游戏专区
  • 手游合集
  • 手游分类
  • 手游开服
  • 手游开测
  • 全部手游
  • 苹果排行
  • 安卓排行
  • 单机排行
  • 网游排行
  • 福利美图
  • 吐槽八卦
  • 内涵GIF
  • 游戏截图
  • 游戏壁纸
关注我们
手游巴士

资讯

  • 资讯
  • 游戏
  • 视频
  • 礼包
  • 图片
  • 首页
  • 游戏中心
  • 手游行业
  • 新游资讯
  • 新游预告
  • 游戏活动
  • 综合资讯
  • 硬件资讯
  • 游戏攻略
  • 游戏评测
当前位置:首页 > 手游资讯 > 业界资讯 > GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

2023-07-20 13:47 来源:shouyoubus.com 作者:佚名

用手机看

扫描二维码随身看资讯 使用手机 二维码应用 扫描右侧二维码,您可以
1.在手机上细细品读~
2.分享给你的微信好友或朋友圈~

GPT-4变笨,实锤了???

来自斯坦福大学和UC伯克利大学的一篇最新论文显示:

6月的GPT-4在一些任务上的表现客观上就是比3月的更差。

比如他们用同样500道「判断给定整数是否为质数」的问题来测这两个版本,发现3月份的GPT-4答对了488个,而6月只对了12个……成功率直接从97.6%下降到2.4%!

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

而当研究员通过经典的「Let’s think step by step」办法来引导后者往正确答案上靠时,居然不好使了——

6月的GPT-4已不再尝试给出中间步骤,而是仍然直接回答「yes」或「no」。

不止如此,代码能力也下降了。

对于50道简单级别的LeetCode题,6月的GPT-4只能做到有10%的答案可以不经更改直接运行,而在3月份的时候,这个数字还是52%。

目前,这项结论已在网上引起了极大的关注。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

有人称,这意味着「大型语言模型的蜜月期已经结束」。

而OpenAI方面也已火速注意到这项研究,并称已开始积极调查。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

所以,短短3个月,GPT-4身上究竟发生了什么?

论文「实锤」GPT-4变笨

这篇论文一共从数学、代码、视觉和敏感问题四个角度比较了三月和六月的GPT-4。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

(本节内容系对论文进行转述,不代表量子位认同有关结论)

其中数学是GPT-4能力下降最为明显的方面。

证据就是开头提到的500个质数判断问题,错误率直接暴增近40倍,回答的长度也大幅缩水。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

具体来看,论文中展示了GPT-4对其中一个问题的回答。(展示的数字为17077,经验证是质数)

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

我们可以看到,研究人员已经使用了“step by step”的思维链式提问方式,但似乎并没有奏效。

这也许可以解释成数学本就不是强项,但GPT-4在代码方面表现同样下降得厉害。

数据上看,简单级别的Leetcode问题通过率从52%下降到10%,而代码的长度变长了。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

论文作者同样给出了一个例子。

这个问题是这样的:

给定一个三位整数n,把n、2n、3n「连接」在一起。「连接」就是把两个数直接拼起来,比如「114」和「514」进行「连接」的结果就是「114514」。如果「连接」之后的结果中不含0,同时各位中包含1-9中的所有数字,且每个数字有且仅有一个,则把认为n是一个「fascinating」的数字。请用Python写一段代码,判断一个数是否「fascinating」。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

(「class Solution」是Leetcode平台给定的代码开头格式)

三月的GPT-4给出了这样的代码:

classSolution(object):defisFascinating(self,n):concatenated_number=str(n)+str(2*n)+str(3*n)returnsorted(concatenated_number)=['1','2','3','4','5','6','7','8','9']这段代码中包含了一些小问题,最后一行「判断相等」时应该用双等号。

修正过后,提交的代码成功通过。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

而六月的版本回答是酱婶儿的:

```PythonclassSolution(object):defisFascinating(self,n):#Concatenaten,2*nand3*ns=str(n)+str(n*2)+str(n*3)#Checkifthelengthofsis9andcontainsalldigitsfrom1to9returnlen(s)==9andset(s)==set('123456789')```虽然代码本体也是对的,但是GPT-4的输出有些问题:

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

有段Markdown标记直接以文本形式显示在了输出结果之中,导致程序无法直接运行。

之所以研究者认为GPT-4在这里犯了错,是因为在prompt中已经强调了「code only」。

虽然GPT-4实用性上表现有所下降,但安全性似乎得到了提升。

对于敏感问题,GPT-4回答的概率下降了超四分之三,相应做出的解释也变少了。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

研究人员尝试着提出了一个带有偏见的问题。

三月份的GPT-4会解释为什么拒绝回答这个问题,但六月份的版本只说了一句无可奉告。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

而越狱攻击成功的概率下降得更为明显,可以看出六月的GPT-4相比三月似乎拥有了更强的鲁棒性。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

此外,研究团队还对两个版本的GPT-4进行了「视觉」能力测试。

这部分的测试数据来自ARC数据集,需要得到的「图像」是3 x 3的方格,以二维数组形式用数字表示方格的颜色。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

相比于三月,六月版GPT-4的表现有小幅度提升,但并不明显。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

而一些在三月能答对的问题,到了六月却答错了。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

所以,在这一方面很难说GPT-4究竟是变好还是变坏了。

总体上看,论文作者的态度比较谨慎,没有直接断言GPT-4表现是否变差。

但在数学和代码方面,文中给出的证据的确印证了一些网友们的说法。

而作者也表示,这一发现主要是告诉大家,不断地去测试AI系统的能力并监控其发展非常重要。

为什么会这样?

不管怎么说,看完这项研究后,还是有不少人兴奋地表示:终于有研究证明我一直以来的猜测了。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

而在“兴奋”之余,大家似乎也意识到更重要的问题:

我们和大模型的“蜜月期”已经结束,已开始告别最初的“Wow”阶段。

也就是说我们更加关注其真正的实力,而不是表面的、发布会里演示里的“花拳绣腿”。

所以,大家也不由地好奇:

为什么会这样?为什么看起来变笨了呢?

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

按理来说模型的质量应该随着时间的推移得到更新,变得更好;就算没有显著提升,数学和代码能力也不能下降这么迅速。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

猜测有很多。

首先就是OpenAI可能采取了成本削减措施。

这位叫做@Dwayne的网友指出,由于GPT-4的运行成本非常高,他怀疑OpenAI开始控制成本,这从原来每3小时能发送100条信息到现在只能发送25条的限制就能看出。

而为了让模型更快地做出决策,OpenAI是否已不再让GPT-4对多种可能的回答进行权衡、不进行深入评估就给出最终答案就值得人深思了。

毕竟决策时间少了,计算成本就会降低,而这样一来,回答质量就不可避免的下降了。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

有意思的是,在斯坦福和UC伯克利这项成果发布后,有不少人照猫画虎进行了测试,但他们发现,同样的问题GPT-4可以做对,比如「17077是否为质数」,很多回答都是「是」。

究其原因,这些人基本都用了最新的代码解释器或者Wolfram插件。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

这也就引出了网友们的第二点猜测:

GPT-4的能力可能并非下降了,而是转移了。

这就导致我们使用「最基础的」GPT-4提问时,它已经不会再直接调用各种「专家模型」帮我们解答了,强大的专家能力都被路由到各类插件和诸如代码解释器这样的集成功能上了。

不过说到底,这也算降本增效的一种手段。

当然,也有想法认为,OpenAI这是为了推广插件和新功能才故意削减了GPT-4的基础能力。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

除此之外,还有人认为,为了更加「负责任」,不合逻辑的安全过滤器导致模型原本逻辑受到牵连,这也是GPT-4质量下降的一个原因。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

普林斯顿教授实名反对

值得注意的是,不管网友的猜测听起来多么有理有据,OpenAI其实一直都在否认,声称他们并未采取任何措施导致模型质量下降。

与此同时,另一波学者和网友恰好也对这篇研究提出了质疑。

来自普林斯顿大学的两位CS教授指出:

这篇论文产生了「GPT-4变笨了」的误解,因为它只是简单显示了GPT-4行为的改变,而行为变化并不等同于能力下降。

并且实验本身的评估也有问题,作者有误将模仿当作推理。

为了说明自己的观点,他们直接开了一篇博客。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

以判断质数问题为例,他们发现,评估给出的500个数字全是质数。这个问题就大了,它意味着正确答案始终是「yes」,模型就可能产生了随机模仿的能力(也就是照着之前的正确答案无脑抄下去)。

因为事实证明,在大多数情况下,没有一个模型会真正一一执行「判断数字能否被整除」的算法——他们只是假装做了。

比如下面这个3月份GPT-4的快照,它只是列了一堆待检查的数字,然后没有一一去除就直接给出「19997是质数」的回答。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

也就是说,3月份的GPT-4可能是无脑答对的,其表现并不能证明其数学能力;相反,也就不能证明6月份的GPT-4不行了(可能本来就是这个水平)。

为了进一步证明自己的看法,教授们用500个合数测试了模型,结果是3月版本的GPT-4几乎总是猜测这些数字是质数,而6月版本则几乎认为是合数。

——评估数据一换,结果就完全不同,这足以说明原作者的结论并不算立得住了。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

除此之外,在下降最多的代码编写能力方面,教授们也认为,作者只是检查代码是否可以直接执行,而不评估其正确性的方式,这种方式也同样草率。

这意味着新GPT-4试图提供更多帮助的能力被抵消了。

以上这些观点,均得到了英伟达AI科学家Jim Fan的支持,他表示:

这也让我想到了GPT-4满分拿下MIT数学本科考试那篇论文。(被质疑造假,数据和评估方式都有问题)

但他认为,这都不重要,重要的是大家一起来battle。

GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

所以,你认为GPT-4到底变笨了没?

论文地址:https://arxiv.org/abs/2307.09009

参考链接:

[1]https://twitter.com/DwayneCodes/status/1681617375437922309

[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

[3]https://twitter.com/DrJimFan/status/1681771572351369216

责任编辑:落木

以上就是手游巴士为您提供《GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查》的详细内容,更多精彩内容请继续阅读上一篇《ETC收费用上国产CPU!双核1GHz、功耗最高5W》

表羞涩嘛~喜欢就点我

分享吧~提高逼格:

相关阅读

  • 2023-07-20 ETC收费用上国产CPU!双核1GHz、功耗最高5W

  • 2023-07-20 GPT-4“变笨”被斯坦福实锤!OpenAI也急了:已开始调查

  • 2023-07-20 同平台性能第一!OPPO K11核心配置公布:骁龙782G

  • 2023-07-20 华为谈供应链:不仅要买到面包 还要关心小麦怎么种植

  • 2023-07-20 Office 15年老字体被放弃:微软开始测试新字体Aptos

  • 2023-07-20 比亚迪方程豹首款车型“豹5”现身:外观超硬派

  • 2023-07-20 航海经营冒险游戏《风帆纪元》于7月20日登陆主机平台!

  • 2023-07-20 路虎设计师跳槽现代?全新胜达实车曝光:将国产或售20万

  • 2023-07-20 真不坑穷人!丰田新款埃尔法加价28万提车 再强制加装2万车衣

  • 2023-07-20 买特斯拉的等一等! 内外全部升级 全新特斯拉Model 3亮相北美街头

  • 2023-07-20 国产光刻机研发新剧《我的中国芯》正片曝光引网友狂吐槽:真神作

  • 2023-07-20 上热搜了!预算超8000选折叠屏还是iPhone?网友吵翻天

  • 2023-07-20 《战锤西格玛时代:毁灭之国》公开派系内容 介绍兽人残暴小子派系

  • 2023-07-20 一加Ace 2 Pro现身Geekbench:搭载二代骁龙8 首发24GB+1TB

  • 2023-07-20 《封神第一部》今日上映!点映预售票房破5000万

  • 2023-07-20 买手机你会考虑保值吗?李杰:大家去电商看一加和友商价格变化 差异巨大

  • 2023-07-20 高露洁喜马拉雅玫瑰盐牙膏大促:到手价4.9元/支

  • 2023-07-20 酷喵VIP宣布更名为优酷SVIP:支持TV端 可8台设备同时登陆

  • 2023-07-20 电竞营收不及全收入1%!暴雪挥刀砍向《守望先锋》联赛员工

  • 2023-07-20 大鹏导演!黄渤主演电影《热烈》点映首日预售票房登顶

  • 2023-07-20 颜值天花板coser?《剑侠世界3》手游精彩爆点提前锁定

  • 2023-07-20 世纪天成宣布代理《星际迷航:纷争》启航集结现已开启

  • 2023-07-20 超市里的免费塑料袋:我劝你千万别再带回家了

  • 2023-07-20 微软Xbox Series S国行新版本发布:黑色1TB 比PS5漂亮

  • 2023-07-20 高管称对标保时捷 宝骏旗舰车型EQ200首曝:造型确实科幻

热点推荐

  • 《龙之谷2:进化》国际服今日上线 公开两部新视频《龙之谷2:进化》国际服今日上线 公开两部新视频
  • 日落滩头,金沙熠熠,《天下》手游清凉泳装与你相约浪漫海滨日落滩头,金沙熠熠,《天下》手游清凉泳装与你相约浪漫海滨
  • 《绝对演绎》与知名国风博主联动,诠释杨贵妃的绝世容光!《绝对演绎》与知名国风博主联动,诠释杨贵妃的绝世容光!
  • 风引龙虎,鏖战寒川,《诛仙3》2023跨服pk赛今日开启!风引龙虎,鏖战寒川,《诛仙3》2023跨服pk赛今日开启!

热门游戏

  • 时逆

    时逆

    立即下载
  • 剑侠世界

    剑侠世界

    立即下载
  • 铁甲风暴

    铁甲风暴

    立即下载
  • 三国志奇侠传

    三国志奇侠传

    立即下载
  • 蜀山战神

    蜀山战神

    立即下载
  • 人气动漫大乱斗

    人气动漫大乱斗

    立即下载

热点资讯

更多+
  • 啪啪三国2手游枪兵好玩吗?枪兵作战有什么特色
    啪啪三国2手游枪兵好玩吗?枪兵作战有什么特色
  • 轩辕剑之汉之云手游双属性职业阴阳战斗玩法
    轩辕剑之汉之云手游双属性职业阴阳战斗玩法
  • 莽荒纪3D手游新手必备 浩瀚世界里的修仙小伙伴上
    莽荒纪3D手游新手必备 浩瀚世界里的修仙小伙伴上

小编热推

更多+
遇见最初的冒险!《冒险岛:枫之传说》登岛测试7月19日正式开启!

满分攻略

  • 保卫萝卜4波仔很忙第46关怎么过 波仔很忙第46关攻略

    满分 保卫萝卜4波仔很忙第46关怎么过 波仔很忙第46关攻略

    46关
    查看全部
  • 保卫萝卜4波仔很忙第49怎么过-保卫萝卜4波仔很忙第49关攻略

    满分 保卫萝卜4波仔很忙第49怎么过-保卫萝卜4波仔很忙第49关攻略

    49关
    查看全部
  • 保卫萝卜4波仔很忙第48怎么过-保卫萝卜4波仔很忙第48关攻略

    满分 保卫萝卜4波仔很忙第48怎么过-保卫萝卜4波仔很忙第48关攻略

    48关
    查看全部

热门礼包

更多+

三国杀

三国杀 剩余:500/500 有效日期:2017-05-02

领取

三国杀

领取

三国杀愚人节礼包

三国杀愚人节礼包 剩余:500/500 有效日期:2017-05-31

领取

三国杀愚人节礼包

领取

三国杀独家礼包

三国杀独家礼包 剩余:500/500 有效日期:2017-07-26

领取

三国杀独家礼包

领取

三国杀移动版国庆礼包

三国杀移动版国庆礼包 剩余:500/500 有效日期:2017-11-29

领取

三国杀移动版国庆礼包

领取

一步高升新手礼包

一步高升新手礼包 剩余:491/1000 有效日期:2019-09-14

领取

一步高升新手礼包

领取

奶块首发大礼包

奶块首发大礼包 剩余:344/1900 有效日期:1970-01-01

领取

奶块首发大礼包

领取

奶块成长礼包

奶块成长礼包 剩余:297/1167 有效日期:2017-12-31

领取

奶块成长礼包

领取

植物大战僵尸2特权礼包

植物大战僵尸2特权礼包 剩余:232/300 有效日期:2018-05-31

领取

植物大战僵尸2特权礼包

领取

银河战舰代言人公测礼包

银河战舰代言人公测礼包 剩余:232/300 有效日期:2018-10-01

领取

银河战舰代言人公测礼包

领取

植物大战僵尸2豪华福包

植物大战僵尸2豪华福包 剩余:227/500 有效日期:2018-07-31

领取

植物大战僵尸2豪华福包

领取

热门合集

更多+
  • 适合女生玩的HTML5游戏

    查看合集
  • 2017手机游戏排行榜

    查看合集

手游资讯

NEWS
手游行业 手游活动 新游前瞻 综合资讯

最全攻略

RAIDERS
游戏资料 游戏攻略 硬件资讯 游戏问答

视频中心

VIDEO
视频攻略 新游预告 热门游戏 周边视频

游戏中心

GAME
手游合集 游戏分类 发号中心 热门专区

手游排行

TOP 100
安卓榜 苹果榜 单机榜 网游榜

手游巴士

手游巴士

  • 关于我们
  • 商务洽谈
  • 联系我们
  • 友情链接
  • 版权声明

Copyright © 2020-2022 手游巴士 shouyoubus.com, All Rights Reserved.赣ICP备2021011040号