首页全站导航手机版加入收藏关注我们
全站导航
  • 手游行业
  • 游戏问答
  • 新游前瞻
  • 游戏动态
  • 视频攻略
  • 新游预告
  • 热游视频
  • 周边视频
  • 资讯中心
  • 游戏攻略
  • 礼包中心
  • 热门攻略
  • 游戏专区
  • 手游合集
  • 手游分类
  • 手游开服
  • 手游开测
  • 全部手游
  • 苹果排行
  • 安卓排行
  • 单机排行
  • 网游排行
  • 福利美图
  • 吐槽八卦
  • 内涵GIF
  • 游戏截图
  • 游戏壁纸
关注我们
手游巴士

资讯

  • 资讯
  • 游戏
  • 视频
  • 礼包
  • 图片
  • 首页
  • 游戏中心
  • 手游行业
  • 新游资讯
  • 新游预告
  • 游戏活动
  • 综合资讯
  • 硬件资讯
  • 游戏攻略
  • 游戏评测
当前位置:首页 > 手游资讯 > 手游行业 > 阿里云复盘“香港 Region 可用区 C 发生大规模服务中断”事件:将尽快处理赔偿事宜

阿里云复盘“香港 Region 可用区 C 发生大规模服务中断”事件:将尽快处理赔偿事宜

2022-12-25 16:03 来源:it之家 作者:佚名

用手机看

扫描二维码随身看资讯 使用手机 二维码应用 扫描右侧二维码,您可以
1.在手机上细细品读~
2.分享给你的微信好友或朋友圈~

12 月 25 日消息,阿里云今日发布《关于阿里云香港 Region 可用区 C 服务中断事件的说明》称,12 月 18 日,阿里云香港 Region 可用区 C 发生大规模服务中断事件。经过复盘,阿里云进一步说明了故障情况、问题分析和改进措施。

了解到,阿里云在说明中向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。

阿里云表示,此次香港 Region 可用区 C 服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。

以下为阿里云《关于阿里云香港 Region 可用区 C 服务中断事件的说明》全文:

北京时间 2022 年 12 月 18 日,阿里云香港 Region 可用区 C 发生大规模服务中断事件。经过复盘,我们在这里向大家进一步说明故障情况、问题分析和改进措施。

处理过程

12 月 18 日 08:56,阿里云监控到香港 Region 可用区 C 机房包间通道温控告警,阿里云工程师介入应急处理,通知机房服务商进行现场排查。09:01,阿里云监控到该机房多个包间温升告警,此时工程师排查到冷机异常。09:09,机房服务商按应急预案对异常冷机进行 4+4 主备切换以及重启,但操作失败,冷水机组无法恢复正常。09:17,依照故障处理流程,启动制冷异常应急预案,进行辅助散热和应急通风。尝试对冷机控制系统逐个进行隔离和手工恢复操作,但发现无法稳定运行,联系冷机设备供应商到现场排查。此时,由于高温原因,部分服务器开始受到影响。

自 10:30 开始,为避免可能出现的高温消防问题,阿里云工程师陆续对整个机房计算、存储、网络、数据库、大数据集群进行降载处理。期间,继续多次对冷机设备进行操作,但均不能保持稳定运行。

12:30,冷机设备供应商到场,在多方工程师诊断下,对冷塔、冷却水管路及冷机冷凝器进行手工补水排气操作,但系统仍然无法保持稳定运行。阿里云工程师对部分高温包间启动服务器关机操作。14:47,冷机设备供应商对设备问题排查遇到困难,其中一个包间因高温触发了强制消防喷淋。15:20,经冷机设备商工程师现场手工调整配置,冷机群控解锁完成并独立运行,第 1 台冷机恢复正常,温度开始下降。工程师随后继续通过相同方法对其他冷机进行操作。18:55,4 台冷机恢复到正常制冷量。19:02,分批启动服务器,并持续观察温升情况。19:47,机房温度趋于稳定。同时,阿里云工程师开始进行服务启动恢复,并进行必要的数据完整性检查。

21:36,大部分机房包间服务器陆续启动并完成检查,机房温度稳定。其中一个包间因消防喷淋启动,未进行服务器上电。因为保持数据的完整性至关重要,工程师对这个包间的服务器进行了仔细的数据安全检查,这里花费了一些必要的时间。22:50,数据检查以及风险评估完成,最后一个包间依据安全性逐步进行供电恢复和服务器启动。

服务影响

12 月 18 日 09:23,香港 Region 可用区 C 部分 ECS 服务器开始出现停机,触发同可用区内宕机迁移。随着温度继续升高,受影响的服务器停机数量持续增加,客户业务开始受到影响,影响面扩大到香港可用区 C 的 EBS、OSS、RDS 等更多云服务。

阿里云香港可用区 C 的故障,没有直接影响客户在香港其他可用区运行的业务,但影响了香港 Region ECS 管控服务(Control Plane)的正常使用。因大量可用区 C 的客户在香港其他可用区新购 ECS 实例,从 12 月 18 日 14:49 开始,ECS 管控服务触发限流,可用性最低跌至 20%。客户在使用 RunInstances / CreateInstance API 购买新 ECS 实例时,如果指定了自定义镜像,部分实例在购买成功之后会出现启动失败的现象,由于自定义镜像数据服务依赖可用区 C 的单 AZ 冗余版本的 OSS 服务,无法通过重试解决。此时,部分 Dataworks、k8s 用户控制台操作也受到了故障影响。API 完全恢复可用为当日 23:11。

12 月 18 日 10:37,阿里云香港可用区 C 的部分存储服务 OSS 开始受到停机影响,此时客户暂不会感知,但持续高温会导致磁盘坏道,影响数据安全,工程师对服务器进行停机操作,从 11:07 至 18:26 中断了服务。阿里云在香港 Region 可用区 C 提供了 2 种类型的 OSS 服务,一种是 OSS 本地冗余 LRS 服务(通常叫单 AZ 冗余服务),仅部署在可用区 C;另一种是 OSS 同城冗余 ZRS 服务(通常叫 3AZ 冗余服务),部署在可用区 B、C 和 D。在此次故障中,OSS 同城冗余 ZRS 服务基本没有受到影响。可用区 C 的 OSS 本地冗余服务中断时间较长,因不支持跨可用区切换,需要依赖故障机房的恢复。从 18:26 开始,存储服务器重新分批启动。其中,单 AZ 本地冗余 LRS 服务有部分服务器因消防问题需要做隔离处理。恢复服务前,我们必须要确保数据可靠性,花费了较多的时间进行完整性检验工作。直至 12 月 19 日 00:30,这部分 OSS 服务(单 AZ 冗余服务)才恢复了对外服务能力。

阿里云网络少量单可用区产品(如:VPN、Privatelink 以及少量 GA 实例)在此次故障中受到影响。12 月 18 日 11:21,工程师启动网络产品可用区容灾逃逸,12:45 完成 SLB 等大部分网络产品可用区容灾逃逸,13:47NAT 产品完成收尾逃逸。除上述少量单可用区产品以外,各网络产品在故障期间保持了业务连续性,NAT 有分钟级业务受损。

12 月 18 日 10:17 开始,阿里云香港 Region 可用区 C 部分 RDS 实例出现不可用的报警。随着该可用区受故障影响的主机范围扩大,出现服务异常的实例数量随之增加,工程师启动数据库应急切换预案流程。截至 12:30,RDS MySQL 与 Redis、MongoDB、DTS 等跨可用区实例完成跨可用区切换。部分单可用区实例以及单可用区高可用实例,由于依赖单可用区的数据备份,仅少量实例实现有效迁移。少量支持跨可用区切换的 RDS 实例没有及时完成切换。经排查是由于这部分 RDS 实例依赖了部署在香港 Region 可用区 C 的代理服务,由于代理服务不可用,无法通过代理地址访问 RDS 实例。我们协助相关客户通过临时切换到使用 RDS 主实例的地址访问来进行恢复。随着机房制冷设备恢复,21:30 左右绝大部分数据库实例恢复正常。对于受故障影响的单机版实例及主备均在香港 Region 可用区 C 的高可用版实例,我们提供了克隆实例、实例迁移等临时性恢复方案,但由于底层服务资源的限制,部分实例的迁移恢复过程遇到一些异常情况,需要花费较长的时间来处理解决。

我们注意到,同时在多个可用区运行业务的客户,在这次事件中依然可以维持业务运行。对于业务需要绝对高可用的客户,我们持续建议您采用全链路多可用区的业务架构设计,以应对各种可能的意外事件。

问题分析与改进措施

1、冷机系统故障恢复时间过长

原因分析:机房冷却系统缺水进气形成气阻,影响水路循环导致 4 台主冷机服务异常,启动 4 台备冷机时因主备共用的水路循环系统气阻导致启动失败。水盘补水后,因机房冷却系统的群控逻辑,无法单台独立启动冷机,手工修改冷机配置,将冷机从群控调整为独立运行后,陆续启动冷机,影响了冷却系统的恢复时长。整个过程中,原因定位耗时 3 小时 34 分钟,补水排气耗时 2 小时 57 分钟,解锁群控逻辑启动 4 台冷机耗时 3 小时 32 分钟。

改进措施:全面检查机房基础设施管控系统,在监控数据采集层面,扩大覆盖度,提升精细度,提高对故障的排查和定位速度;在设施管控逻辑层面,确保系统自动切换逻辑符合预期,同时保证手工切换的准确性,防止内部状态死锁从而影响故障的恢复。

2、现场处置不及时导致触发消防喷淋

原因分析:随着机房冷却系统失效,包间温度逐渐升高,导致一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏,增加了后续恢复难度和时长。

改进措施:加强机房服务商管理,梳理机房温升预案及标准化执行动作,明确温升场景下的业务侧关机和机房强制关电的预案,力求更简单有效,并通过常态化演练强化执行。

3.客户在香港地域新购 ECS 等管控操作失败

原因分析:ECS 管控系统为 B、C 可用区双机房容灾,C 可用区故障后由 B 可用区对外提供服务,由于大量可用区 C 的客户在香港其他可用区新购实例,同时可用区 C 的 ECS 实例拉起恢复动作引入的流量,导致可用区 B 管控服务资源不足。新扩容的 ECS 管控系统启动时依赖的中间件服务部署在可用区 C 机房,导致较长时间内无法扩容。ECS 管控依赖的自定义镜像数据服务,依赖可用区 C 的单 AZ 冗余版本的 OSS 服务,导致客户新购实例后出现启动失败的现象。

改进措施:全网巡检,整体优化多 AZ 产品高可用设计,避免出现依赖 OSS 单 AZ 和中间件单 AZ 的问题。加强阿里云管控平面的容灾演练,进一步提升云产品高可用容灾逃逸能力。

4、故障信息发布不够及时透明

原因分析:故障发生后阿里云启动对客钉群、公告等通知手段,由于现场冷机处理进展缓慢,有效信息不够。Status Page 页面信息更新不及时引发客户困惑。

改进措施:提升故障影响和客户影响的快速评估和识别拉取能力。尽快上线新版的阿里云服务健康状态页面(Status Page),提高信息发布的速度,让客户可以更便捷地了解故障事件对各类产品服务的影响。

总结

最后,我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。此次香港 Region 可用区 C 服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。稳定性是云服务的生命线,对我们的客户至关重要。我们将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性,不辜负客户所托!

阿里云

2022 年 12 月 25 日

以上就是手游巴士为您提供《阿里云复盘“香港 Region 可用区 C 发生大规模服务中断”事件:将尽快处理赔偿事宜》的详细内容,更多精彩内容请继续阅读上一篇《Finalmouse 发布 LED 全显屏机械键盘:自带 CPU 和 GPU,搭载佳达隆全透矮轴》

表羞涩嘛~喜欢就点我

分享吧~提高逼格:

相关阅读

  • 2022-12-25 Finalmouse 发布 LED 全显屏机械键盘:自带 CPU 和 GPU,搭载佳达隆全透矮轴

  • 2022-12-25 阿里云复盘“香港 Region 可用区 C 发生大规模服务中断”事件:将尽快处理赔偿事宜

  • 2022-12-25 荣耀 80 GT 宣传视频公布:骁龙 8 + 旗舰芯搭配超帧独显芯片,12 月 26 日发布

  • 2022-12-25 Meike 25mm f / 0.95 APS-C 手动对焦镜头发布,适配索尼 E 卡口、富士 X 卡口

  • 2022-12-25 青岛地铁 4 号线将于明日正式开通,比原计划提前四个月

  • 2022-12-25 盘点 2022 年芯片产业:穿越周期,韧性增长

  • 2022-12-25 7 天免费试用:三星 Galaxy S21 Ultra 官翻机 4799 元开售

  • 2022-12-25 李斌再回应蔚来用户数据泄露:哪怕公司赔破产也不会妥协

  • 2022-12-25 本田全新一代皓影上市,未来还有 HEV 和 PHEV 版本

  • 2022-12-25 汽车芯片,不缺了?

  • 2022-12-25 零跑汽车七周年:年交付量已突破 10 万辆大关

  • 2022-12-25 至高 24 期免息 + 限量 1000 台:红米 K60 尝鲜计划开启预约

  • 2022-12-25 刚插上网线,电脑怎么知道自己的 IP 是什么

  • 2022-12-25 正式发布前,英伟达 RTX 4070 Ti 已在塞尔维亚提前上架

  • 2022-12-25 渝厦高铁常德至益阳段将于明日开通运营:常德至长沙最快 59 分钟可达

  • 2022-12-25 消息称微软将在明年初将举办 Xbox 游戏展示会,带来第一方新作

  • 2022-12-25 “造车”VS“上车”,家电巨头想明白了

  • 2022-12-25 难得性价比:苹果 Apple Watch S3 智能手表 899 元大促

  • 2022-12-25 融入环首都一小时交通圈:石家庄至北京将实现一小时通达

  • 2022-12-25 Redmi K60 系列经典“墨羽”全身照亮相,玻璃下暗藏纹理

  • 2022-12-25 李斌谈蔚来手机:不会当做主业,比造车容易多了

  • 2022-12-25 三星 Galaxy S23 Ultra 最新 Geekbench 跑分出炉,多核成绩达 5179 分

  • 2022-12-25 英特尔爱尔兰 Fab 34 工厂首台 EUV 光刻机开机并产生 13.5nm 波长的光,助力 Intel4 工艺量产

  • 2022-12-25 推特恢复自杀预防功能,但马斯克称推特不能防止自杀

  • 2022-12-25 特斯拉上海工厂被曝已停产,原因未知

热点推荐

  • 大话2《宫里的大话》第二话 揭秘国风赋新计划背后的故事大话2《宫里的大话》第二话 揭秘国风赋新计划背后的故事
  • 爱游戏2017Chinajoy大玩情怀  “游戏不灭 天生爱玩”!爱游戏2017Chinajoy大玩情怀 “游戏不灭 天生爱玩”!
  • 映客入局王者荣耀职业联赛,投资过亿开启“一键即播”映客入局王者荣耀职业联赛,投资过亿开启“一键即播”
  • 太极熊猫3:猎龙与好莱坞大片金刚:骷髅岛建立影游合作太极熊猫3:猎龙与好莱坞大片金刚:骷髅岛建立影游合作

热门游戏

  • 时逆

    时逆

    立即下载
  • 剑侠世界

    剑侠世界

    立即下载
  • 铁甲风暴

    铁甲风暴

    立即下载
  • 三国志奇侠传

    三国志奇侠传

    立即下载
  • 蜀山战神

    蜀山战神

    立即下载
  • 人气动漫大乱斗

    人气动漫大乱斗

    立即下载

热点资讯

更多+
  • 啪啪三国2手游枪兵好玩吗?枪兵作战有什么特色
    啪啪三国2手游枪兵好玩吗?枪兵作战有什么特色
  • 轩辕剑之汉之云手游双属性职业阴阳战斗玩法
    轩辕剑之汉之云手游双属性职业阴阳战斗玩法
  • 莽荒纪3D手游新手必备 浩瀚世界里的修仙小伙伴上
    莽荒纪3D手游新手必备 浩瀚世界里的修仙小伙伴上

小编热推

更多+
《有杀气童话2》『蔚骑士·青蛙公主』降临!童话庆典开启!

满分攻略

  • 羊了个羊第二关怎么过12.25 羊了个羊12.25攻略

    满分 羊了个羊第二关怎么过12.25 羊了个羊12.25攻略

    02关
    查看全部
  • 点灯游戏攻略第一章 点灯第一章图文通关流程

    满分 点灯游戏攻略第一章 点灯第一章图文通关流程

    02关
    查看全部
  • 点灯第二章通关攻略 点灯游戏攻略第二章解密流程

    满分 点灯第二章通关攻略 点灯游戏攻略第二章解密流程

    02关
    查看全部

热门礼包

更多+

三国杀

三国杀 剩余:500/500 有效日期:2017-05-02

领取

三国杀

领取

三国杀愚人节礼包

三国杀愚人节礼包 剩余:500/500 有效日期:2017-05-31

领取

三国杀愚人节礼包

领取

三国杀独家礼包

三国杀独家礼包 剩余:500/500 有效日期:2017-07-26

领取

三国杀独家礼包

领取

三国杀移动版国庆礼包

三国杀移动版国庆礼包 剩余:500/500 有效日期:2017-11-29

领取

三国杀移动版国庆礼包

领取

一步高升新手礼包

一步高升新手礼包 剩余:491/1000 有效日期:2019-09-14

领取

一步高升新手礼包

领取

奶块首发大礼包

奶块首发大礼包 剩余:344/1900 有效日期:1970-01-01

领取

奶块首发大礼包

领取

奶块成长礼包

奶块成长礼包 剩余:297/1167 有效日期:2017-12-31

领取

奶块成长礼包

领取

植物大战僵尸2特权礼包

植物大战僵尸2特权礼包 剩余:232/300 有效日期:2018-05-31

领取

植物大战僵尸2特权礼包

领取

银河战舰代言人公测礼包

银河战舰代言人公测礼包 剩余:232/300 有效日期:2018-10-01

领取

银河战舰代言人公测礼包

领取

植物大战僵尸2豪华福包

植物大战僵尸2豪华福包 剩余:224/500 有效日期:2018-07-31

领取

植物大战僵尸2豪华福包

领取

热门合集

更多+
  • 适合女生玩的HTML5游戏

    查看合集
  • 2017手机游戏排行榜

    查看合集

手游资讯

NEWS
手游行业 手游活动 新游前瞻 综合资讯

最全攻略

RAIDERS
游戏资料 游戏攻略 硬件资讯 游戏问答

视频中心

VIDEO
视频攻略 新游预告 热门游戏 周边视频

游戏中心

GAME
手游合集 游戏分类 发号中心 热门专区

手游排行

TOP 100
安卓榜 苹果榜 单机榜 网游榜

手游巴士

手游巴士

  • 关于我们
  • 商务洽谈
  • 联系我们
  • 友情链接
  • 版权声明

Copyright © 2020-2022 手游巴士 shouyoubus.com, All Rights Reserved.赣ICP备2021011040号