宕机月月有,本月特别多。

比如今天,又有两个互联网巨头被爆出现宕机事故。

早间消息,苹果App Store出现全球性宕机!有网友在社交网络媒体上反馈,自己的App Store出现了打不开的情况,随后这个情况蔓延到iTunes Store上,不过那时只是国外用户反馈,所以跟国内用户影响并不大。

随后,这个问题开始蔓延到国内,不少iPhone、iPad用户都表示,自己的App Store出现了打不开的情况,至于是什么原因并不清楚。对此,有外媒报道称,App Store和iTunes Store今天出现了宕机,而且影响是全球性的。

微信图片_20181122162702

显然苹果也注意到了这个问题,目前他们已经修复了这个情况。根据宕机追踪器DownDetector给出的看,报告故障在美国东部时间晚上8点开始出现。

另外,据彭博社报道,随着美国传统“黑色星期五”促销日的临近,Facebook的广告购买系统在本周二发生了故障。

根据媒介购买者等知情人士透露,美国当地时间周二早些时候,企业和广告公司用来购买Facebook广告的系统发生了宕机。目前该系统正在恢复,但运行速度仍然很慢。

 

Facebook发言人在电子邮件中表示:“正在开展的广告营销活动不应受到影响,广告将继续投放。然而,创建新营销活动,或是对现有营销活动进行调整的广告主可能会遇到问题。”

此次问题发生在“黑色星期五”来临之前,这是一年中美国最重要的购物日之一。广告主目前正在社交媒体、电子邮件和网站等渠道大举投放广告,以吸引人们在此期间消费。

这两起宕机事故,目前宕机故障报告还未出现,具体宕机原因还未可知。不过除了今天的宕机事件,本月已经有不少互联网巨头因各种奇葩的理由而宕机,比如腾讯云、谷歌、百度等。

谷歌网络服务宕机,却让中国电信背锅

北京时间11月11日,谷歌旗下的云服务、YouTube等网络服务在全球范围内均发生了数小时的宕机,外媒称因遭到来自中国电信IP的BGP劫持导致故障发生。虽然这次事件为中国电信带来了“宝贵”的谷歌流量,但是黑锅我们真的不背。

本次事件是由一家名为Main One的西非电信公司进行网络更新引发的。Main One是位于尼日利亚拉各斯的一家商业ISP供应商,在葡萄牙和南非之间运营着一条海底电缆。

该公司表示:由于更新时采用了错误配置,导致Google的流量被重定向至中国电信,持续时间长达74分钟。

微信图片_20181122162615

在这期间,全球范围内的用户再尝试连接Google、YouTube、Spotify和Nest等网络服务时,流量会通过一个名为TransTelekom的俄罗斯ISP供应商重定向至中国电信,中国电信无法解析这些莫名其妙的流量和请求,因此导致宕机事件。

腾讯20岁生日之际,腾讯云DNSPod 被恶意攻击了

11月9日晚间到凌晨,DNSPod出现问题,遭到大量用户在微博、朋友圈吐糟。恰巧昨天是腾讯20岁生日,因为这事儿,有点儿扫兴,有人故意而为之?

系统安全不能忽视,第十三届中国产业年度大典特设智能运维安全论坛,探讨安全技术与应用。

微信图片_20181122162619

以下是腾讯云对11月9日DNSPod域名解析失败的技术复盘:11月9日21:46至11月10日00:06期间, DNSPod出现云解析服务异常,导致用户域名解析失败, 给用户业务造成比较大的影响,对此我们表示诚挚的歉意。同时, 我们对本次故障的整个过程进行了深入的技术复盘。

并解释了此次的故障原因:部分基于DPDK的NS服务器集群被大量恶意请求包攻击,导致部分域名解析服务异常, 技术人员通过紧急封堵后恢复。

被DNSPod连累宕机的百度

而在11月9日上午,多名网友反馈称百度网站疑似崩溃,移动端和网页端均无法打开。

针对此事,下午,百度官方微博也作出了回应,并给出了解决方案,百度表示,是由于运营商DNS的问题影响了部分北京地区的联通网络用户的正常访问。经过双方的紧急处理,目前相关问题已经解决。

微信图片_20181122162623

GKE全球大宕机长达19小时

11月9日,Google公有云下的Kubernetes服务(GKE),从清晨4点30分开始,宕机将近19小时,直至当日深夜11点才完全完成修复。但是在修复过程中,却因为GCP的不稳定性,而使Google被大量网友诟病。

微信图片_20181122162626

根据Google所发布的公告,GKE服务从11月9日清晨4点30分起,Kubernetes节点池构建功能出现异常,管理员无法通过Cloud Console UI创建新节点,Google随即开始进行调查故障原因,并开始处理。

到11月9日清晨5点57分,Google表示,受到影响的企业用户,可以先改为使用GCP内置的gcloud command,创建新Kubernetes节点。

但11月11日,在知名开发者Hacker News网站上,网友发布《Google Kubernetes Engine连续第三天服务中断》表示,他目前正在评估两个独立的Google GCP项目,发现自提交支持请求以来,即使在40多个小时的时间内,他们也没有收到GCP支持的响应。

相关人士针对这些疑问,使用Google故障声明进行解答:通过云控制台用户界面创建Google Kubernetes引擎节点池的问题已于2018-11-09 14:30美国/太平洋地区解决。只是Google忘了将其标记为如此,因此才会引起误会,让大家认为此次宕机事件没有及时进行解决。

实际上,经过10个小时的维修,在11月9日下午2点30分时,Cloud Console UI建立节点池功能已经恢复正常。

以上梳理的宕机事故,故障缘由都较为奇葩,不过本月一系列的宕机事故也为各公司带来了不少经济上的损失。

早有调查显示表明,网络宕机损失已增加了38%,从2010年的平均505,502美元增加到2015年的740,357美元。企业和用户的宕机事件的损失变得更加昂贵,并增加企业的网络依赖性,意味着这一趋势将继续上升,其中损失高的行业包括金融服务、通信、医疗保健、电子商务,以及托管数据中心

在这个基础上,为避免宕机,实现智能运维则变得非常重要。而将于2018年12月12—13日在北京国家会议中心隆重召开的以“赋能企业数字化转型”为主题的第十三届中国IDC产业年度大典,其分论坛智能运维安全论坛,将解读如何从自动化运维向智能运维转变,欢迎关注。

相关阅读

华云数据:“正向混合云”为企业打造上云之路

用好教育大数据:助力新时代高校科学管理

云计算技术优势和商业优势是什么

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-11-27 13:59:00
国内资讯 宕机频发险致OpenAI“散伙” 智算中心如何保障稳定性?
根据实际来看,影响智算中心可靠性的因素包括多个方面,想要保障安全稳定性,需要提升智算基础设施的建设运维能力、网络安全能力、智算供给能力等,这其中涉及到芯片的选择 <详情>
2023-05-25 08:48:28
运营商 中国电信与招商局集团签署战略合作框架协议
5月23日,中国电信集团有限公司与招商局集团有限公司在深圳举行战略合作框架协议签约仪式。 <详情>
2023-05-19 08:53:14
运营商 中国电信邵广禄:投资结构向数字经济倾斜,天翼云、AI等数字产业投资每年增长40%
在5月17日举办的2023年世界电信和信息社会日大会上,中国电信集团有限公司董事、总经理、党组副书记邵广禄介绍了中国电信在云、网、数、智、安等方面的新进展。 <详情>