本文梳理了国内外8家云巨头公司共17次故障事件,从中可以窥得云服务在发展过程中故障主要发生的阶段以及不同阶段故障发生的频次、原因等,结合云服务产生背景以及优势,指出云服务即使在发展的过程中会发生故障宕机事件,但是随着该服务的不断完善进步,有望进入更好的下一发展阶段。

一、华为云事件概览

6月13日,一条"同花顺崩了"的消息登上微博热搜。部分客户反映同花顺出现了无法进入页面交易、界面卡顿等情况。据悉,此次故障是由于为其提供相关服务的华为云产生了故障导致,从而引发了市场对于云计算服务的担忧。

基于此,华为云官方微博当日发布通知表示:2022年6月13日10:45-11:19,华为云检测发现华为云华南-广州区域公网访问异常,目前故障已排除、服务已恢复,问题根因正在进一步定位中。同时了解到华为云内部已经成立专项组分析故障原因。据了解,华为云在2020年4月10月也曾经因部分主机异常发生一次较大范围的故障,故障修复时间大约为2小时左右,具体原因未公开披露。

尽管故障具体原因尚不清楚,但是结合之前几年其他云服务提供商相继出现的数十次故障分析来看,故障的产生既有技术因素也可能受自然因素影响。本文梳理了国内外的故障发生情况借以引起对相关云服务的关注思考。

二、云服务发展迅速

(一)云服务产生原因

随着互联网不断发展,网络用户激增,对于网络服务的需求逐渐多元化。为了支持传统应用应对以上情况,企业对于硬件设备和相关数据库等软件的需求大幅增加,相对应的,使用者也需要组建运营维护技术团队来安装、配置、运行、升级这些设备和软件以维持相关应用的正常安全服务。最终导致的结果是企业的运营费用增加,为此需要支付巨大的开销成本;同时,企业费力费钱运营所提供的服务且仍不能满足用户日益增长的需求。由此云服务应运产生。

云服务是基于互联网的相关服务的增加、使用和交互模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。

(二) 云服务供应商逐年增加

自云服务提出以来,国内国外云服务商逐年增加。国外主要云服务商包括全球最全面、应用最广泛的云平台——亚马逊AWS云服务;微软基于云计算的操作系统——Azure;谷歌云服务器Google Cloud等。

近年来,我国云服务也快速发展。根据中国信息通信研究院的云计算发展调查报告显示,在技术进步及利好政策的驱动下,越来越多企业实体在云端部署数字系统及增值技术服务。中国的云服务科技解决方案的支出总额由2016年的人民币893亿元增至2020年的人民币3220亿元,复合年增长率为37.8%。在众多云服务商中,阿里云、腾讯云、京东云、华为云、百度智能云占据头部位置,市场份额占比较大。

作为本次事件的主角——华为云近年来发展势头也较好。根据市场调研机构Gartner发布的数据显示,华为云2021年市场位居全球第五。前四名分别是亚马逊、微软、阿里巴巴、谷歌。

三、云服务故障分析

(一)国内云服务故障事件概览

据零壹智库不完全统计,自2010年以来,作为第一家混合云上市公司——青云QingCloud发生过约4次故障宕机事件,全球领先的云计算及人工智能科技公司——阿里云发生过约5次故障宕机事件,腾讯旗下的云计算品牌——腾讯云发生过约8次故障宕机事件。

对于国内云发生的诸多故障事件中,青云在2015年发生的多次故障值得一提,从中可以得出云服务故障相关规律。据了解,2015年6月6日,青云广东1区全部硬件设备意外关机重启,故障发生时段为13:48至16:30。2015年7月22日,青云大量北京2区(PEK2)用户网络中断,故障持续时间由12:47至15:15,之后用户业务才逐渐恢复。2015年7月23日,青云PEK 2再次出现网络故障,故障发生时间分别为13:15至13:30以及13:50至18:50。后两次故障都发生在北京2区,尤其是7月23日网络在短暂恢复后再次故障,并持续长达5小时。这三次频发的较大型故障均发生在青云上线后两年。同时,青云在2017年也发生过一次持续时间超过4小时的故障,该事故同样发生在2015年曾经发生过两次故障的北京2区。

由此可以窥得,由于受到技术不够成熟等原因,相关云服务商处于技术摸索完善阶段。在云服务创立的前期,故障发生的概率较大。之前某些部件发生的故障可能再次发生。

研究其他云服务商发现,阿里云、腾讯云十年来所发生的故障多发生2018-2019年间,即尽管云服务已经进入技术较为成熟的阶段,但仍有较大概率发生宕机事件。

综上,可以得出结论:在云服务商提供云服务初期,故障发生的概率较大,此阶段处于故障高发阶段;在成熟期,故障发生的概率相对较小,但在此阶段也有可能发生故障集聚。无论是技术处于哪一阶段,故障发生并不是不可能事件,故障所发生的环节也有可能存在重复,故障的原因多样,需要云服务商不断自身检验以求完善。

下表主要列举了近五年我国部分云服务发生故障的相关情况。

表 1 近五年来国内部分云服务故障统计情况

资料来源:公开资料、数据化讲习所、零壹智库

(二)国外云服务故障事件概览

据零壹智库不完全统计,自2010年以来,作为全球最全面、应用最广泛的云平台——亚马逊云科技AWS,发生过约22次故障宕机事件;谷歌云计算——Google Cloud Platform发生过约12次故障宕机事件;微软云计算——Azure发生过约8次故障宕机事件。

在国外云服务发生的诸多故障中,选取部分案例以分析故障修复时间的相关规律。据了解,2018年7月18日,亚马逊核心产品AWS云服务出现了中断,客户使用帐户登录时遇到间歇性错误,无法访问AWS管理控制台。即使并未对亚马逊的消费者业务产生任何有意义的影响,但该故障持续了将近6小时才修复完成。2019年7月2日,谷歌云计算东部一区出现网络和负载均衡问题,原因是部分光纤受到了物理损坏所致。该故障导致部分服务近10小时无法访问。2018年9 月 4 日,微软在部分地区的数据中心的冷却系统发生故障,数据中心的自动化措施强制关闭了系统电源,这一事故引发了 Azure 中断,整个故障中断时间超过 24 小时才恢复正常。在已知发生的云服务故障修复中,修复时间在短至40秒长至24小时不等。

综上,可以得出结论:故障发生不仅与技术有关还受到自然因素等不可抗力影响。而故障修复时间主要受云服务供应商技术处理能力、自然天气、故障原因等多重因素决定。

下表主要列举了近五年国外部分云服务发生故障的相关情况。

表 2 近五年来国外部分云服务故障统计情况

资料来源:公开资料、数据化讲习所、零壹智库

(三)云服务未来发展前景良好

即使云服务在发展的过程中会由于诸多原因而发生故障宕机事件,但是云服务本身在产生的过程中已经具备了相对传统服务降低故障发生概率的优势。

根据CSDN显示,传统服务器硬件发生故障主要受到厂商品牌、机型、服务器运行时间、以及部件型号的故障率等诸多因素影响。而云服务遵循一对多的模型,与单独的桌面程序部署相比,有比较专业的基础运维团队和内核团队,可以通过内核隔离硬件故障、热迁移规避故障隐患,以及监控故障率并主动下架不良厂商机型等方式降低服务器硬件发生故障的概率,不断提升服务器硬件质量。

综上,云服务相比传统服务已经具备不可替代的优势,故障的概率与传统服务相比已呈现出大大降低的趋势,随着技术的不断完善,云服务将在更多场景中发挥自己独一无二的作用。

四、结语

通过此次华为云故障事件,可以看出云服务在为企业提供更好,更便宜和更可靠的应用过程中,也不可避免会发生不同程度的故障,故障原因多种多样不仅与技术有关,故障发生后对于故障的修复也尤为重要。

云服务商应该更加重视数据中心基础设施、硬件设备和传输网络的可靠性和稳定性,对于不可预期的外部故障和事故,云服务商应汲取教训,积累经验,做好提前检测和压力测试,减少故障发生频率,也尽力减少故障对客户造成的损失。作为用户的我们,也应该对云服务采取更加包容支持的态度。相信云服务在未来的发展过程中有望进入下一个发展阶段,服务于更多用户。

延伸阅读:

  • 邬贺铨:东数西算战略中,数据中心发展的重点是降低能耗
  • 重庆市大数据发展局副局长胡军国:高标准建设重庆数据中心集群
  • 推进"东数西算" 建设 重庆正高标准建设数据中心集群