今年最大的云服务宕机事件由市场三巨头主导:AWS、微软Azure和谷歌云平台。
无论原因如何或最终影响范围的有多大,一旦出现宕机,企业对公有云的信心都会出现动摇。
虽然没有云是完美的,其在某种程度上的停机也是不可避免的,但是市场领先的供应商应该需要长时保持更高的标准。这就是为什么AWS、微软Azure和谷歌云平台这三个巨头的宕机事件如此尴尬与引入注目。
这些公有云巨头均在2018年出现了多次服务中断,而其中的一些耗时格外地长、影响也格外地严重。
尽管云服务的中断不可避免,但灾难性的故障似乎是该行业早期阶段时的旧事物,因为如今的供应商应早已掌握了如何进行长时正常运行时间的技术与经验。
谷歌云, 2月15日
2月15日,谷歌应用开发平台的出现了数据库故障引发了不少该平台客户的烦恼。
该问题于接近于中午12点时发生在Google Cloud Datastore上,这是为规模型用户设计的一款非关系型数据库。
在事故中,谷歌PaaS服务Google App Engine的用户经历了长达一小时的错误与延迟情况。
游戏玩家在这次事件中受波及最为严重,因为不少的热门在线游戏使用了谷歌服务。而像Pokemon Go和Snapchat也备受冲击。
AWS,3月2日
3月2日,AWS的宕机广泛影响了大量的Alexa语音助手的用户,并波及到了很多热门在线服务商,如Atlassian、Slack和Twilio。
稍后,亚马逊表示他们位于弗吉尼亚数据中心在早上遇到了强烈东北风暴的冲击,而使得网络连接出现了问题。
这场风暴切断了AWS北弗吉尼亚地区与两个东海岸运营商Equinix和CoreSite连接。
微软Office 365,4月6日
4月6日,大量欧洲、亚州和美国的微软客户的电子邮件账户出现了问题。
其中英国受影响最为巨大,由于Office 365的宕机,许多企业无法发送邮件与登录Skype。
一些用户报告说他们只能使用单点登录来登录那些办公生产力套件。
有些讽刺的是,这次事件距离微软发布全新Office 365安全保护功能后仅一天。
AWS,5月31日
5月31日,因北弗吉尼亚地区的数据中心中的硬件问题,该云巨头又一次出现了连接问题。
其影响时间大约为30分钟,在此期间用户报告说因硬件错误,所有的数据不能得以被全部再存储。
该宕机是“由数据中心和一些网络设备中的一些物理服务器上的电力事件引起的”,AWS在事后报告中写到。
AWS的核心EC2服务,Workspaces 虚拟桌面服务以及Redshift数据仓库服务都受到了影响。
微软Azure,6月17日
由热浪而引发的存储和网络中断使得欧洲的许多微软云客户在17,18日两日间与他们的数据分开了超过5小时的时间。
微软表示,在爱尔兰特别炎热的夏季里,一个在爱尔兰的数据中心恒温系统出现了问题。
谷歌,7月17 日
在7月17日的下午,谷歌云的宕机使得Spotify和Snapchat等热门服务又不得不中断。
谷歌方面称,他们在中午就意识到了其负责均衡器的问题。宕机影响了谷歌的开发平台App Engine、Cloud Networking和Stackdriver,后者旨在为公有云用户提供绩效与数据诊断服务。
之后,谷歌发布了一项更新,表示由该事件导致的502问题已在下午1:05时得到解决。
亚马逊,7月16日
如同国内电商们的双十一一样,亚马逊在美国也创造了自己的购物节日Amazon Prime Day(亚马逊会员日)。
但是,在第四届亚马逊会员日当日的开幕仪式后几分钟,大规模的故障使得7月16日的销售陷入了瘫痪。
AWS的发言人表示,这些问题与AWS无关。
但是对于全球最大的电商网站来说,失败就是失败了,这个网站是在据说是世界上最领先的云上托管的。许多消费者乘兴而来败兴而归,得到的只有一个宕机通知。
但尽管如此,但该客户日的销售业绩仍然破了纪录
微软,9月5日
微软发现自己在9月的第一周就在两个方面出现了问题。
第一个是,9月5日全世界用户都遇到了部分时间时无法访问365 Outlook或Skype for Business的情况。用户报告说,当他们尝试登录微软时,他们会受到一条错误消息,说“受到限制”。
微软将这次终端归咎于Azure后端身份验证系统的更新问题。
与此同时,在4日到5日两天里,微软在圣安东尼奥的数据中心遭遇了雷击,这导致了美国中南部区域中Azure和Office 365服务的中断。
Facebook 11月12日、11月20日
对于社交网络巨头来说,11月是糟糕的一月,两次宕机事件影响了大量的企业协同产品用户。
包括Workplace协同工具在内的Facebook服务在11月12日出现宕机,在服务恢复前,其收到了数千起投诉。
短时间内,“FacebookDOWN”成为了Twitter上的热门话题。
仅仅一个多星期后,11月20日,Facebook又出现了一起宕机事件,这是Facebook自8月以来出现的第三起重大停机事件。
有3/4的用户报告称从早上8点到下午早些时候,他们遇到了全面宕机或登录困难问题。
微软,11月18日
据微软披露,11月18日,一些用户无法登录Azure和Office 365服务。
这次宕机影响了许多需要身份验证而登录云服务的用户,并横跨整个欧洲、亚太和美洲地区,从当地时间周日晚上11:39起开始影响Azure和Offic 365服务。