首页全站导航手机版加入收藏关注我们
全站导航
  • 手游行业
  • 游戏问答
  • 新游前瞻
  • 游戏动态
  • 视频攻略
  • 新游预告
  • 热游视频
  • 周边视频
  • 资讯中心
  • 游戏攻略
  • 礼包中心
  • 热门攻略
  • 游戏专区
  • 手游合集
  • 手游分类
  • 手游开服
  • 手游开测
  • 全部手游
  • 苹果排行
  • 安卓排行
  • 单机排行
  • 网游排行
  • 福利美图
  • 吐槽八卦
  • 内涵GIF
  • 游戏截图
  • 游戏壁纸
关注我们
手游巴士

资讯

  • 资讯
  • 游戏
  • 视频
  • 礼包
  • 图片
  • 首页
  • 游戏中心
  • 手游行业
  • 新游资讯
  • 新游预告
  • 游戏活动
  • 综合资讯
  • 硬件资讯
  • 游戏攻略
  • 游戏评测
当前位置:首页 > 手游资讯 > 业界资讯 > 直追GPT-4!李开复Yi-34B新成绩公布

直追GPT-4!李开复Yi-34B新成绩公布

2023-12-11 14:49 来源:shouyoubus.com 作者:佚名

用手机看

扫描二维码随身看资讯 使用手机 二维码应用 扫描右侧二维码,您可以
1.在手机上细细品读~
2.分享给你的微信好友或朋友圈~

仅次于GPT-4,李开复零一万物Yi-34B-Chat最新成绩公布——

在Alpaca经认证的模型类别中,以94.08%的胜率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT!

直追GPT-4!李开复Yi-34B新成绩公布

不仅如此,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。

在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的 “聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。

Elo评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。

直追GPT-4!李开复Yi-34B新成绩公布
△LMSYS ORG榜单(发布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微调模型同样不遑多让。SuperCLUE是一项针对中文能力的排行榜,从基础能力、专业能力和中文特性能力三个不同的维度,评估模型的能力。

根据11月底发布的《SuperCLUE中文大模型基准评测报告 2023》,11月下旬首度发布的 Yi-34B Chat,迅速晋升到和诸多国产优秀大模型齐平的 “卓越领导者” 象限,在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。

直追GPT-4!李开复Yi-34B新成绩公布
△中文SuperCLUE排行榜(发布于2023年11月28日)

对话场景实测

Yi-34B-Chat 模型实力在不同的对话场景中实力如何?来看几个更直观的问题演示:

例如“喂”给Yi-34B-Chat如下问题:

Transformer 模型结构能不能走向 AGI ?

直追GPT-4!李开复Yi-34B新成绩公布

不难看出,Yi-34B-Chat的回答可以说是有理有据。

再来:

给我生成一个小红书文案,给大家安利一只豆沙色的口红。

直追GPT-4!李开复Yi-34B新成绩公布

回答可以说是非常符合现在小红书主流的带货风格了。

中文理解方面,我们再出一道题:

小王给领导送了一份礼物后。领导说:“小王,你这是什么意思?”小王:“一点心意,意思意思。”领导:“你这就不够意思了。”小王:“小意思,小意思。”领导:“小王,你这人真有意思。”小王:“也没什么别的意思。”领导:“那我多不好意思。”小王:“是我不好意思。”这个意思到底是什么意思?

直追GPT-4!李开复Yi-34B新成绩公布

可以看到,即便是在非常“绕”的中文理解方面,Yi-34B-Chat也是精准的拿捏住了。

据零一万物介绍,除了 Yi 系列强基座的贡献以外,Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。

在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。

在数据的量和质方面,一方面,团队在强基座模型上,实现仅需要少量数据(几条到几百条),就能激发模型特定单项能力;另一方面,数据质量比数量重要,少量高质量数据比大量低质量数据更好。通过关注超出模型能力的“低质量”数据,减少了模型“幻觉”。

在指令多样性与难度方面,团队通过在各能力项下构建任务体系,实现了训练数据中的指令均衡分布,大幅提升了模型泛化性。通过复合指令构造和指令难度进化,不仅提升了模型效果,也显著降低了对数据量的需求。

在风格一致性方面,团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度,因此统一了回复风格,比如重点设计了CoT的回复风格,实现在轻量SFT情况下,避免了风格不一致加剧模型的“记忆”现象。

在多能力融合阶段,团队采用网格搜索的方法来决定数据配比和超参数的设置,通过基准测试和自建评测集的结果来指导搜索过程,成功实现模型的多能力融合。

不仅如此,Yi模型开源首月,数据也很亮眼。

在Hugging Face社区下载量为16.8万,魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。

由于性能表现强劲,多家知名公司和机构推出了基于Yi模型基座的微调模型,比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大学和粤港澳大湾区数字经济研究院(简称IDEA研究院)认知计算与自然语言研究中心(简称CCNL中心)联合发布的SUS-Chat-34B等,均性能表现优异。而AMD和Hugging Face合作的GPU加速大模型的实验中,也选择了Yi-6B作为范例项目。

知名技术写作者苏洋表示,在他观察的近期Hugging Face榜单中,前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个,“从这点看 Yi 对于开源生态的帮助还是非常巨大的。”

用户真实反馈实录

Yi-34B开源发布后,开发者Eric Hartford就发现了模型存在的一个小问题。

他在邮件中写道:

感谢你们提供了一个优秀的模型。Yi模型使用了与LLaMA模型完全相同的架构,只是将两个张量改了名字。由于围绕LLaMA架构有很多投资和工具,保持张量名称的一致性是有价值的。”Eric建议,在Yi被广泛传播前,及时恢复张量名称。

零一万物意识到命名问题的疏忽对开发者造成的不便,跟Eric和其他开发者提出说明,表达诚挚的歉意,并很快便在各开源平台重新提交模型及代码,完成了开源社区的版本更新。

然而Eric自己也没有预想到,他的这个建议,在国内竟被曲解、误读,引发了舆论关于Yi模型“抄袭”LLaMA的质疑。

事实上,一个模型核心技术护城河是在架构之上,通过数据训练获得的参数和代码,在沿用了开源社区普遍使用的LLaMA 架构之上。

根据零一万物团队的说法,他们是从零开始,用高质量的数据集、自研训练科学和AI Infra打造了 Yi-34B 在内的系列模型。为了执行对比实验的需要,对部分推理参数进行了重新命名。原始出发点是为了充分测试模型,而非刻意隐瞒来源。

身处这场舆论风暴的中心,Eric也在X(twitter)上写道:

他们没有在任何事情上撒谎。所有的模型都是在相互借鉴架构。架构是学术研究的产物,已经发表在论文中,任何人都可以自由使用,这丝毫不减损Yi团队的成就。他们从零开始使用自己创建的数据集训练Yi,对开源领域的贡献是值得赞扬的。

直追GPT-4!李开复Yi-34B新成绩公布

紧接着,他又说,“使用Llama架构没有任何问题。训练才是关键。Yi给了我们目前可获得的最佳模型,没有任何可抱怨的。”

现在,Eric已经成为Yi-34B的忠实拥趸,会使用Yi-34b-200k数据集训练其他的模型产品,并感叹丝滑般的训练体验。

数字化创业者,开发者,技术写作者苏洋表示:

我自己本身是大模型产品的重度用户,除了用了很久的 Tabnine、Copilot 做代码辅助生成之外,也算是第一批开始氪金使用 Chat 的玩家,基本各家厂商模型出来都会申请内测,体验模型的实际能力。这里除去工作中接触和使用模型的机会外,作为独立开发者,玩了十几年的代码,我个人也非常好奇模型究竟能够发展到什么程度。

我了解到 Yi-34B 有几个渠道,当时的 Huggingface 榜单第一名、小圈子朋友的“点赞”和“吐槽”、各种群里刷屏的消息。

直追GPT-4!李开复Yi-34B新成绩公布

我是开发者,同时也是终端用户,所以非常好奇,这个模型到底行不行?或者说更想知道模型哪里是行的,哪里是不行的。尤其是榜单分数这么高,质疑声浪也这么高?与其雾里看花、众说纷纭,不如自己实际跑一跑。

于是,我尝试使用家里本地的机器,在纯 CPU 环境、CPU & GPU 混合环境下对模型进行测试,结果比想象中要好。

尤其是社区中的 finetune 后的版本,在对新闻、研究报告的摘要总结方面,对非结构化的信息中的实体识别和抽取上表现非常不错。早些时候,官方还未推出 Chat 版本时,来自社区的 Chat 版本在对话的过程中,通史类的问答表现也非常不错。当然,可能是由于零一在训练过程中,出于安全考虑,过滤太多语料的缘故,一些本土化的内容仍然不够深入。

而且,不光是我的个人体验,海外也有用户有相同体感,在“海外贴吧” Reddit 上有分享自己的感受,你们可以自己搜搜看。

我会时不时的浏览下 HF 的榜单,在最近榜单中的前三十名,有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个,从这点看 Yi 对于开源生态的帮助还是非常巨大的。

34B 普通用户努努力还是能自己相对低成本跑起来的,68 和 70B 的模型想要本地运行,需要更多的资源。但其实目前分数其实相比较 34B 拉不开太多,也就三四分平均分,但参数量差了一倍。换言之,企业想部署使用,所需要的成本也可以得到非常大的节约。

目前国产大模型在开源榜单上已经是第一梯队,但如果把竞争范围追加到闭源模型、尤其是海外的模型,仍有很大的距离要去追赶。目前的普遍体验是开源模型最多只有 GPT-3.5 + 的水平。

我个人相信国产大模型是能够很快追赶至第一梯队的。

就如同很多底子很好,又勤奋刻苦的中国大学生,能够在使用正确方法的前提下,通过努力,不断的进入更好的学习环境,不断刷新自己成绩,取得耀眼的学术成就。现实中,哪怕是对华人苛刻的 “八大藤校”,是不是中国人越来越多了呢?

只要底子好,坚持使用开源的正确路线和方法,做好本地化适配和调优,就有希望。

参考链接:

[1]https://huggingface.co/01-ai/

[2]https://www.modelscope.cn/organization/01ai

责任编辑:随心

以上就是手游巴士为您提供《直追GPT-4!李开复Yi-34B新成绩公布》的详细内容,更多精彩内容请继续阅读上一篇《纯电增程两种动力!哪吒L申报信息公布:纯电续航164km 馈电油耗5.5L》

表羞涩嘛~喜欢就点我

分享吧~提高逼格:

相关阅读

  • 2023-12-11 一加 12 开售 5 分钟,斩获第三代骁龙 8 机型首销全天销量和销售额品牌 TOP 2

  • 2023-12-11 官方提高免税新能源车技术要求:冬季低温续航衰减率不得超过35%

  • 2023-12-11 《黑神话》预告中的壁画为AI创作?杨奇公布原图回应!

  • 2023-12-11 《天国:拯救》皇家版首批NS截图曝光:畅游中世纪欧洲

  • 2023-12-11 《全民街篮》进入定档阶段,竞技少年的篮球梦!

  • 2023-12-11 《匹诺曹的谎言》豪华捆绑包八折优惠 并免费更新三款服饰

  • 2023-12-11 鸿蒙、安卓加速“分割”!华为官宣同花顺完成鸿蒙原生应用Beta版

  • 2023-12-11 《怪物猎人:荒野》4K实机截图曝光!明夏公布更多情报

  • 2023-12-11 岚图下定决心变革!追光PHEV加入新能源汽车价格内卷战

  • 2023-12-11 《大学》风范 止于至善!《生化4》最近好评率高达99%

  • 2023-12-11 《无人深空》开发商新作有真实的山脉可攀!比珠峰还高

  • 2023-12-11 曝黑曜石《宣誓》或将于明年下半年发售!首发加入XGP

  • 2023-12-11 努比亚Z60 Ultra真机首晒:超窄边无开孔 屏幕完胜iPhone 15 Pro

  • 2023-12-11 Pearl Abyss韩游《红色沙漠》《多可比》再度推迟发售

  • 2023-12-11 谁不心动!《GTA6》金发美女是重放次数最多的镜头之一

  • 2023-12-11 世嘉计划重启五大游戏系列:《疯狂出租车》等回归,或更新《VR战士》

  • 2023-12-11 纯电增程两种动力!哪吒L申报信息公布:纯电续航164km 馈电油耗5.5L

  • 2023-12-11 直追GPT-4!李开复Yi-34B新成绩公布

  • 2023-12-11 知名卡牌游戏《影之诗》公开续作!2024年夏季上线

  • 2023-12-11 逐点半导体与腾讯《使命召唤手游(国服)》就移动端视觉处理优化达成合作

  • 2023-12-11 《三国杀十周年》周年庆12月16日上线!惊喜内容、福利首曝!

  • 2023-12-11 英伟达:希望能与英特尔合作 共同生产下一代芯片

  • 2023-12-11 前索尼开发者声称《漫威刀锋战士》不是Xbox独占

  • 2023-12-11 莫瑞娜·巴卡琳回归《死侍3》 凡妮莎会有所不同

  • 2023-12-11 《OD》是TGA上最受媒体青睐的游戏 《战神》紧随其后

热点推荐

  • 《天国:拯救》皇家版首批NS截图曝光:畅游中世纪欧洲《天国:拯救》皇家版首批NS截图曝光:畅游中世纪欧洲
  • 《全民街篮》进入定档阶段,竞技少年的篮球梦!《全民街篮》进入定档阶段,竞技少年的篮球梦!
  • 《怪物猎人:荒野》4K实机截图曝光!明夏公布更多情报《怪物猎人:荒野》4K实机截图曝光!明夏公布更多情报
  • 《大学》风范 止于至善!《生化4》最近好评率高达99%《大学》风范 止于至善!《生化4》最近好评率高达99%

热门游戏

  • 时逆

    时逆

    立即下载
  • 剑侠世界

    剑侠世界

    立即下载
  • 铁甲风暴

    铁甲风暴

    立即下载
  • 三国志奇侠传

    三国志奇侠传

    立即下载
  • 蜀山战神

    蜀山战神

    立即下载
  • 人气动漫大乱斗

    人气动漫大乱斗

    立即下载

热点资讯

更多+
  • 刘慈欣献声!《流浪地球》手游预约正式开启
    刘慈欣献声!《流浪地球》手游预约正式开启
  • 《天龙八部2:飞龙战天》手游更新活动开启
    《天龙八部2:飞龙战天》手游更新活动开启
  • 缤纷搭配 定格时尚《光遇》时装节:展示你的个性装扮
    缤纷搭配 定格时尚《光遇》时装节:展示你的个性装扮

小编热推

更多+
奥比岛手游2.5「凛冬星辰」版本活动开启

满分攻略

  • 《为了吾王2》第四章怎么过 第四章过关攻略分享

    满分 《为了吾王2》第四章怎么过 第四章过关攻略分享

    关
    查看全部
  • 羊了个羊12月10日通关攻略 通关攻略第二关12.10

    满分 羊了个羊12月10日通关攻略 通关攻略第二关12.10

    02关
    查看全部
  • 羊了个羊今日攻略12.9 羊了个羊12月9日羊羊大世界和第二关怎么过

    满分 羊了个羊今日攻略12.9 羊了个羊12月9日羊羊大世界和第二关怎么过

    02关
    查看全部

热门礼包

更多+

三国杀

三国杀 剩余:500/500 有效日期:2017-05-02

领取

三国杀

领取

三国杀愚人节礼包

三国杀愚人节礼包 剩余:500/500 有效日期:2017-05-31

领取

三国杀愚人节礼包

领取

三国杀独家礼包

三国杀独家礼包 剩余:500/500 有效日期:2017-07-26

领取

三国杀独家礼包

领取

三国杀移动版国庆礼包

三国杀移动版国庆礼包 剩余:500/500 有效日期:2017-11-29

领取

三国杀移动版国庆礼包

领取

一步高升新手礼包

一步高升新手礼包 剩余:491/1000 有效日期:2019-09-14

领取

一步高升新手礼包

领取

奶块首发大礼包

奶块首发大礼包 剩余:344/1900 有效日期:1970-01-01

领取

奶块首发大礼包

领取

奶块成长礼包

奶块成长礼包 剩余:297/1167 有效日期:2017-12-31

领取

奶块成长礼包

领取

植物大战僵尸2特权礼包

植物大战僵尸2特权礼包 剩余:232/300 有效日期:2018-05-31

领取

植物大战僵尸2特权礼包

领取

银河战舰代言人公测礼包

银河战舰代言人公测礼包 剩余:232/300 有效日期:2018-10-01

领取

银河战舰代言人公测礼包

领取

植物大战僵尸2豪华福包

植物大战僵尸2豪华福包 剩余:228/500 有效日期:2018-07-31

领取

植物大战僵尸2豪华福包

领取

热门合集

更多+
  • 适合女生玩的HTML5游戏

    查看合集
  • 2017手机游戏排行榜

    查看合集

手游资讯

NEWS
手游行业 手游活动 新游前瞻 综合资讯

最全攻略

RAIDERS
游戏资料 游戏攻略 硬件资讯 游戏问答

视频中心

VIDEO
视频攻略 新游预告 热门游戏 周边视频

游戏中心

GAME
手游合集 游戏分类 发号中心 热门专区

手游排行

TOP 100
安卓榜 苹果榜 单机榜 网游榜

手游巴士

手游巴士

  • 关于我们
  • 商务洽谈
  • 联系我们
  • 友情链接
  • 版权声明

Copyright © 2020-2022 手游巴士 shouyoubus.com, All Rights Reserved.赣ICP备2021011040号