资讯
2023-08-18 08:47 来源:快科技 作者:快科技
用手机看
GPT-4数学能力还能更强!
新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。
为此,研究人员提出新方法对症下药,直接将其数学能力拔至新SOTA:
在MATH数据集上,做题准确率从53.9%增加到了84.3%。
你没听错,就是前段时间被称为ChatGPT推出后最强模式的那个代码解析器(Code Interpreter)。
研究人员窥探了其代码生成和执行机制,使用自我验证、验证引导加权多数投票的方法,直接打开其做数学题的任督二脉。
好奇网友随即而来:
还想看他们做高数。
还有网友认为:
这也就是大脑的工作方式,人类在解决数学问题时也会自我验证。
一起来康康这项研究的细节~
两步提升数学能力
GPT-4代码解析器的代码生成和执行机制究竟是怎样的?
来自港中文MMLab、南京大学、中科大、清华、城大、长沙理工等多个机构的学者为解开这一问题,使用特定代码约束提示进行了一项试验。
他们设计了3种不同的提示方法,限制GPT-4代码解析器使用代码的频率:
Prompt 1:完全不允许使用代码,输出完全依赖自然语言推理,禁止将代码合并到解决方案中。Prompt 2:只允许使用1次代码,也就是在生成解决方案时,只能在单个代码块内使用代码。Basic Prompt:没有限制,GPT-4代码解析器可以进行一系列推理步骤,每个步骤都可由文字+Python代码组成。
△(a)不同提示回答准确率比较(b)代码使用频率与五个难度级别准确率都成比例,数学问题相对复杂时更明显
结果发现,允许GPT-4代码解析器多次生成和执行代码,其解题正确度明显高于仅用自然语言推理或只用1次代码的情况。
经分析,研究人员认为代码的多次生成和执行可以让GPT-4代码解析器逐步完善解决方案,当代码执行产生错误时,GPT-4代码解析器可以自我调试修改方案。
继而引入“代码使用频率”概念,量化不同提示方法下代码的使用次数。
基于前面的分析结果,研究人员希望能加强GPT-4代码解析器生成准确代码、评估代码执行结果以及自动调整解决方案的能力。
所以提出了CSV(自我验证)提示的方法,也就是为解决方案C引入了一个额外的验证阶段,称为V。
加入自我验证提示效果对应上图绿色Verification Prompt。
如此一来,GPT-4代码解析器需额外生成代码来验证答案,如果结果是False则重新推理得到正确答案。
CSV提示不仅对验证到逻辑推理每一步都进行了扩展,而且可以自动更正错误,无需外部模型或人工参与。
△MATH数据集中第712个中级代数问题。
CSV prompt:To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.
通过上图这个例子可看出,在没有自我验证的情况下,模型生成了一个错误的答案。通过自我验证,模型纠正了错误并生成了正确的答案。
此外,鉴于CSV可以有效地验证问题的答案,研究人员又提出了验证引导加权多数投票(VW-voting)的方法,将自我验证结果集成到多数表决中,给予不同验证状态不同权重,使表决更可靠。
在实际操作中,一旦一个答案被确认为错误,那就不会进行额外的验证,从而得到一个错误的验证状态。研究人员分配相应的权重给这些状态:真实(wT)、不确定(wU)和错误(wF)。
最后从候选答案中择取得分最高的那一个:
比此前最高水平提高30%用上了上述方法,GPT-4代码解析器做数学题的能力up up。
在MATH数据集上,原始GPT-4代码解析器的准确率为69.69%,使用CSV提示后提高到73.54%,再结合加权多数表决后进一步提高到84.32%,相比之前SOTA提高了30%以上。
△在MATH数据集上的准确率(%)
在MATH数据集的各个子任务中,提出方法均取得显著提高,尤其是在高难度级别的题目中效果更明显。例如在中级代数(Intermediate Algebra)题目中,原来的GPT-4代码解析器准确率为50.1%,使用新方法后提高到74.4%。
除此之外,研究人员还在GSM8K、MMLU-Math、MMLU-STEM等数据集上进行了验证。
△在GSM8K数据集上的表现
上表可以看出,使用验证引导加权多数投票的方法还可以显著减少需要采样的解路径数量(Sampled paths),在GSM8K数据集上只需要5个路径就达到97%的准确率。
△在MMLU数据集上的表现
针对不同难度的题目(下图a)以及不同类型题目(下图b)的测试中,使用新方法后准确率都有了提升。
△每条曲线上的四个点分别对应于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的结果。
研究人员还发现GPT-4代码解析器的代码使用频率提高与准确率提高正相关。随着题目难度的增加,代码使用频率稳步上升。这说明在较难的数学问题上,更频繁地使用代码很重要。
此外,值得注意的是,尽管添加基于代码的自我验证可以提高每个单独题目类型的性能,但改进的程度也因题目类型而异,从7.6%到仅0.6%不等。
研究人员指出:
特别是几何问题的准确性仅提高了0.6%,原本GPT-4代码解析器的准确性也只有54.0%,在各个题目类型中属于较低的。这种差异可能是因为解决几何问题通常需要多模态,超出了本文研究范围。
论文传送门:https://arxiv.org/abs/2308.07921
2023-08-19 售价超2.5万!老外上手苹果Vision Pro:续航1个多小时 颈部有点累
2023-08-19 MacBook Air首发!苹果M3即将登场:拥抱3nm 领先Intel和AMD
2023-08-19 雀巢脆脆鲨巧克力夹心威化饼0.87元大促:细腻丝滑 一口酥脆
2023-08-19 无甲醛!男子家全屋使用不锈钢家具惊呆女友:网友看崩溃称钢铁直男
2023-08-19 中国国家公园标识正式发布:连绵山川构成“众”字
2023-08-19 七城同开,一加 Ace 2 Pro Pop-up快闪活动人气火爆
2023-08-19 不满把LS6和小鹏G6当对手:智己CEO刘涛怒怼自家产品经理
2023-08-19 猛士科技智慧工厂启用!猛士917批量生产:70万起售硬汉程度远超仰望U8
2023-08-19 小米手机站稳高端!米粉:小米14一定会大放异彩
2023-08-19 小米平板6 Max被娱乐圈千万粉丝博主种草:原来他用的是苹果iPad Pro
2023-08-19 霸气十足!大妈坐高铁拒不安检 我飞进来的:网友直呼素质呢
2023-08-19 电视价格越来越便宜 尺寸真就越大越好?
2023-08-19 全球第二!中国算力总规模达到每秒197EFlops
2023-08-19 浙江一学校的军训是集体摸鱼:特色活动、抓到就送食堂
2023-08-19 实现高画质的方法:竟然是把像素叠在一起?
2023-08-19 左转车道停车还右转 奥迪神操作引发网友热议:把车道当停车场
2023-08-19 反季提前买!雪中飞羽绒服外套限时大促:券后仅需89元
2023-08-19 七夕三只松鼠巨型大礼包:30包到手98元
2023-08-19 超豪华版大众途锐 宾利添越长轴距Mulliner版首发:大V8上身
2023-08-19 超30万买吗?雷军现身新疆 晒照吸睛:为小米汽车而战 还有网友拍到伪装车
2023-08-19 真的有用!闪魔汽车遮阳伞18元起大促:夏日户外停车必备
2023-08-19 显示器出口量大跌24.2% 降至近两年冰点
2023-08-19 广州动物园老虎饿得吃草?园方回应:可促进肠道蠕动、已多次科普
2023-08-19 独自一人坐电动轮椅过海关 屁股底下有玄机:藏了152部iPhone
2023-08-19 4.4亿像素、1英寸大底都有 三星明年推3款传感器:中国厂商先用
满分 羊了个羊今日攻略8.19 羊了个羊8月19日羊羊大世界和第二关怎么过
满分 8月19日羊了个羊通关攻略 羊了个羊通关攻略第二关8.19
手游巴士
手游巴士