资讯
2023-05-09 15:34 来源:快科技 作者:快科技
用手机看
5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。
中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。
值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到GPT 3.5平齐的水准。
在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过GPT-4。
而百度文心一言在总榜单中排名最后一名,得分32.61分。
据了解,SuperCLUE评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.
基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。
专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
总榜单
基础能力榜单
中文特性榜单
2023-05-09 将战略写在浪潮之上!《大航海时代:海上霸主》还你热血海上之旅
2023-05-09 小度将发布新品牌小度青禾!手机配置被文心一言曝光:骁龙8+5G芯片
2023-05-09 卖疯了!Switch最新销量公布:超1亿2千万
2023-05-09 票价20元 全国首条旅游云巴线今日开通:比亚迪100%自主知识产权
2023-05-09 《王牌竞速》手游传说车辆免费升级?再看一眼 竟然是真的!
2023-05-09 服务器3年损失20%份额 Intel苦日子来了:AMD抢走一大块肉
2023-05-09 《漫长的季节》"爹味"上热搜 部分女性观众:无法共情
2023-05-09 《奥比岛》新版本5月11日开启 玩具主题时装宠物童趣上线!
2023-05-09 《阴阳师百闻牌》S29游览卡即将上线!般若带着学院怪谈来袭
2023-05-09 AI和武侠的碰撞 带你领略大宋江湖!《逆水寒》手游体验
2023-05-09 中文通用大模型评测基准SuperCLUE发布:讯飞星火认知大模型国内第一 文心一言垫底
2023-05-09 比亚迪或进军车险业 全资接盘易安财险被批
2023-05-09 猫头鹰公布最新路线图:白色风扇消失无踪
2023-05-09 渔民捞到巨型翻车鱼放生:长相奇特唇部似涂口红 最“蠢”的鱼
2023-05-09 40W+GAN+双口!QCY氮化镓充电头29.9元发车
2023-05-09 国产芯片一哥中芯国际股价闪崩 11日将发布Q1财报
2023-05-09 iQOO Neo8 Pro真机亮相:天玑9200+、V1+旗舰双芯
2023-05-09 免费授权歌曲给刘畊宏跳操超大方!周杰伦回应:谈钱伤感情
2023-05-09 山东学生身高全国第一?实际并非最高
2023-05-09 豆瓣9.4分!《漫长的季节》被吐槽“爹味”浓
2023-05-09 仅次宁德时代 比亚迪超LG成全球第二大电动车电池供应商
2023-05-09 周杰伦入职中国移动:工号0716 动感地带至今20年终于“转正”
2023-05-09 累计换电已超2100万次 蔚来沈斐:全球没有比我们更能打的新能源团队
2023-05-09 《边境》之后 中国玩家的国产情怀还能被消费几次?
2023-05-09 明明可以靠实力 偏偏要靠颜值!影驰RTX 4070星曜OC评测
手游巴士
手游巴士