资讯
2024-07-29 10:53 来源:快科技 作者:快科技
用手机看
7月29日消息,如今的AI大模型规模越来越庞大,动辄成百上千亿参数,训练过程不仅需要数万甚至十几万块GPU加速卡,出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。
Meta在报告中披露,为了训练自己的Llama 3 4050亿参数大模型,使用了包含16384块NVIDIA H100 80GB GPU的集群,一共花了45天,期间居然出现了419次意外报错,平均每3个小时就一次,而一半的错误都和GPU及其自带的HBM3内存有关。
要知道,大模型训练的工作量异常庞大,而且需要高度同步,一次错误就可能导致整个训练工作必须从头再来。
报告显示,为期45天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的,且大部分都来自硬件问题,GPU又是最多的,占了其中的58.7%。
具体来说,148次即30.1%的意外中断来自各种GPU失效(包括NVLink总线),72次即17.2%来自HBM3内存失效——毕竟,700W的功耗太热了。
还有19次来自GPU SRAM,17次来自GPU处理器,6次来自GPU静默数据错误,6次来自GPU散热和传感器。
其他错误来自软件bug、网线和网卡等等各个方面。
有趣的是,CPU错误只出现了2次。
还好,Llama 3团队非常给力,在这么高的出错几率下,依然维持了超过90%的有效训练时间,而且只有三次GPU报错需要大量人工干预,其他都被自动化管理纠正了。
2024-07-29 英国周销榜:《霍格沃茨之遗》登顶 《FC 24》第二
2024-07-29 冒险游戏《渡神纪 芬尼斯崛起》国行版即将发售!!
2024-07-29 再一次,怦燃心动!《龙之谷》怀旧服不删测定档8.20!
2024-07-29 3D资源经营探索游戏《不毛之地》Steam特别好评
2024-07-29 《Sky's The Limit》登陆Steam 肉鸽元素麻将新游
2024-07-29 电影《变形金刚:起源》确定引进国内 档期待定
2024-07-29 休闲模拟游戏《动物园模拟器》现已在Steam平台正式推出 获好评
2024-07-29 《刀剑神域:碎梦边境》新增4位角色参战 10月3日发售
2024-07-29 《三伏》庆祝发售一周年 作者月光蟑螂分享新作进度
2024-07-29 《鸣潮》帧率上限解除!影驰 GeForce RTX 40系列+DLSS带来性能狂飙!
2024-07-29 史克威尔艾尼克斯的AI》新书公布 浅显易懂理解游戏AI
2024-07-29 奥运会惊现兜帽男屋顶跑酷 育碧提醒《刺客信条:大革命》主角亚诺正在注视
2024-07-29 《英魂之刃口袋版》携手《少年歌行》,与你共赴武侠奇缘
2024-07-29 新突破!世界首台3000吨级OMB粉煤加压气化炉投产
2024-07-29 NVIDIA全面转向开源GPU驱动!性能实测与专有驱动相当
2024-07-29 品牌首款纯电轿跑SUV!大众ID.UNYX与众开启交付:起售价20.99万元
2024-07-29 苹果疑在广告中故意丑化安卓手机 颜值是对比出来的?
2024-07-29 169元!小米米家首款电磨笔发布:木艺雕刻、玉器抛光神器
2024-07-29 放马过来!余承东:我们的车的确是最安全的车 黑我们只会让华为更强
2024-07-29 七彩虹B650、A620主板首发支持AMD锐龙9000系列:套装有福利
2024-07-29 AMD锐龙9000推迟原因曝光!锐龙5、7错印成锐龙9
2024-07-29 余承东:只要是诚实、正直的人开一开问界M9都会说是好车
2024-07-29 国产大飞机再+1!东航第7架C919飞机今日交付
2024-07-29 全球首搭对开侧滑门!极氪MIX官图更新:下半年有望上市
2024-07-29 中国电竞第一股星竞威武上市!大股东何猷君敲钟:eStar和NIP母公司
手游巴士
手游巴士