资讯
2024-12-21 16:55 来源:shouyoubus.com 作者:佚名
用手机看
OpenAI将其最为重要的尖端产品,放在了为期12天的技术分享直播活动的最后一天!
周五,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本。更准确地说,o3是一个模型系列——就像o1一样,同时有o3和o3-mini两个版本,后者是一款更小的精简版模型,针对特定任务进行了微调。
OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。
AGI是“通用人工智能”(artificial general intelligence)的缩写,泛指能完成人类所能完成的任何任务的人工智能。OpenAI对此有着自己的定义:“在最具经济价值的工作上胜过人类的高度自主系统”。
实现AGI将是一个大胆的宣言。对于OpenAI来说,其背后也将具有现实意义。根据OpenAI与其亲密合作伙伴和投资方微软的协议条款,一旦OpenAI达到AGI,就没有义务再让微软使用其最先进的技术(即那些符合OpenAI AGI定义的技术)。
OpenAI首席执行官山姆·奥尔特曼(Sam Altman)介绍称,OpenAI计划在1月底前正式推出o3 mini,之后推出完整版的o3。该公司期待更强大的大型语言模型可以超越现有模型,吸引新的投资和用户。
OpenAI在一篇博客文章中表示,o1模型已经能够推理复杂的任务,与以前的科学、编码和数学模型相比,它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试,它们将比之前推出的o1模型更加强大。
OpenAI两年前发布了ChatGPT,拉开了AI军备竞赛的序幕。ChatGPT是一款聊天机器人,最初由版本为GPT-3.5的大型语言模型驱动。OpenAI 随后在2023年推出了GPT-4,并称其更准确、更具创造性。最近,OpenAI又推出了其首个推理模型o1。
该公司发言人表示,OpenAI决定不将下一代新模型命名为o2,“是出于对同名英国电信运营商o2的尊重”。奥尔特曼当天在直播中也调侃称,“按照OpenAI非常非常不擅长命名的伟大传统,它将被命名为o3。”
o3有多强大?
那么,o3具体的表现究竟能有多强大呢?
根据OpenAI的介绍,o3模型在ARC-AGI基准上获得了破纪录的分数。ARC-AGI由Keras之父Fran ? ois Chollet开发,主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示,在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%。
这标志着,o3的最佳成绩超过了标志着达到人类水平的门槛85%。作为对比,目前开放的o1模型的得分仅在25%到32%之间。o3的表现几乎是o1的逾三倍。
在其他基准测试中,o3也明显脱颖而出。
在衡量编程能力的Codeforces Elo评分中,o3取得了2727的Elo评分,而o1评分仅为1891。事实上,o3 mini在中等推理时间模式的表现也已足以超越o1。
在OpenAI于8月推出的SWE-bench Verified代码生成评估基准中,o3的准确率为71.7%,比o1高出了22.8个百分点。
o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分,只缺了一道题,并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)中取得了87.7%准确率的高分。
尤为值得一提的是,o3在EpochAI的“FrontierMath”基准测试中创造了新纪录,解决了25.2%的问题——在该项测试中没有其他模型能超过2%。
Epoch AI此前联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出了全新的数学基准FrontierMath。这些数学问题从奥赛难度到当今的数学前沿,包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。
行业竞争与风险
毫无疑问,o3模型在上述测试中的表现,足以令人感到惊艳。无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。
OpenAI总裁Greg Brockman表示,“我们最新的推理模型o3是一个突破,在我们最困难的基准上有了阶跃函数的改进。我们现在开始安全测试和红队演练。”
而迈向类人智能的大跨步突破,显然也会引发一些人士对AI安全性的担心。
风险可能确实存在。人工智能安全测试人员发现,与传统的“非推理”模型相比,o1的推理能力便已使其试图欺骗人类用户的比例更高,而在这方面,Meta、Anthropic和谷歌的领先人工智能模型也是如此。
o3试图欺骗用户的比例可能比它的前身更高;一旦未来OpenAI的红队测试结果出炉,人们或许便能知道具体情况。奥尔特曼对此也表示,在OpenAI发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。
在公开发布o3模型之前,OpenAI也将开放外部研究人员测试o3模型的申请流程,申请将于1月10日截止。
近期,在OpenAI首批推理模型o1发布之后,一些该公司的主要竞争对手也已纷纷推出了推理模型。在本月早些时候,谷歌就发布了其旗舰模型Gemini的新版本,据称其速度是上一代模型的两倍,可以“思考、记忆、计划,甚至代表你采取行动”。Meta首席执行官马克·扎克伯格最近也透露,计划于明年推出Llama 4。
这些动向表明人工智能领域的竞争目前正日益激烈,各方都在努力创造能够解决复杂问题的更为智能的模型。
而OpenAI周五o3模型的最新亮相,也为其为期12天的直播产品发布会画上了圆满句号。在早前的直播中,这家初创公司推出了更昂贵的新ChatGPT Pro订阅选项(每月200美元),并正式对外推出了AI视频生成模型Sora Turbo以及其他新产品。ChatGPT搜索功能也全面升级,新增地图集成、实时搜索等功能,向所有用户开放。
责任编辑:振亭
文章内容举报
以上就是手游巴士为您提供《OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相》的详细内容,更多精彩内容请继续阅读上一篇《神了!谷歌街景意外拍下凶手藏尸现场》2024-12-22 加多宝×《崩坏:星穹铁道》新春联动12月26日即将发售,开启新年星运!
2024-12-22 高手对决,一触即发!全国晋级赛明晚打响,究竟谁能杀到最后?
2024-12-22 历史的回声 《战舰世界》活动通行证全新章节开启
2024-12-22 欢迎来到,追光派对! 2024游戏家盛典 启幕啦!
2024-12-22 百度有望调整策略:力挽苹果超百亿美元大单!
2024-12-22 蔚来天行底盘有多强 ET9车头摆放六层香槟塔稳稳通过减速带
2024-12-22 突发!上海地铁11号线遭外部塔吊施工侵入:车窗破裂 无人受伤
2024-12-22 AI竟怂恿美国少年杀死自己父母 周鸿祎:人工智能安全问题不亚于核武器
2024-12-22 积核Geekom将推三款“全球首款”迷你主机!高通、Intel、AMD都有
2024-12-22 没网也能联络!小米15系列星辰无网通12月底升级6km级通话范围
2024-12-22 加绒加厚!棉锦印象黑金护膝防风裤 到手29.9元
2024-12-22 旅客扒高铁车门手被夹住遭拖行 官方通报!网友:当是印度啊
2024-12-22 回力秋冬男女棉鞋清仓处理手慢无 19.9元起
2024-12-22 小米13等6款机型今日起推送澎湃OS 2正式版:流畅度、稳定性大增
2024-12-22 NVIDIA RTX 5090移动版用上16GB显存:性能最高提升60%!
2024-12-22 德国大众与工会达成协议:承诺不关厂但要裁员3.5万人
2024-12-22 RTX 50系列显卡发布顺序:RTX 5080率先亮相、5090紧随其后
2024-12-22 AMD新一代Radeon显卡RDNA 4来了!RX 8800 XT公版卡首曝
2024-12-22 账户仅剩70万美元!法拉第前高管创办的造车新势力凉了:裁员、停产、强制休假
2024-12-22 旗舰配置下放!曝华为畅享系列支持北斗卫星通信 回归麒麟芯片
2024-12-22 4999元起!京东自营iPhone 16系列年底大降价:最高立减1200元
2024-12-22 周鸿祎称95%以上的中国电脑安装了360 网友吐槽难卸载:官方早有回应
2024-12-21 蔚来NIO Day何小鹏来探班:给李斌送去汤圆
2024-12-21 京东2折寄件:15元快递费实付仅3元
2024-12-21 苹果史上变化最大的一代!iPhone 17 Pro系列将迎来6大升级
手游巴士
手游巴士