大一互联“企业如何规避运维突发事故”

2015-06-25 10:05:53 大一互联 123
       最近一段时间, 接二连三出现安全和运维事故, 先是支付宝服务因线路被挖,局部服务中断; 接着是携程整站被删,给企业带来了巨大的损失,携程用了10多个小时全部恢复过来。其间,各种消息满天飞,有在讨论为何没有备份,有在讨论双活为何没生效,有在讨论系统被黑,有在讨论内部员工干的,也有说是出打bug了,发布的东西立即被删,最后被官方确定为员工误操作引起等。历史以来的事故背后,总会有一连串的故事, 但归根结底,还是那些烂熟于胸的分类:硬件故障,人为破坏,误操作,软件设计缺陷等。我还是引用微信上说的话,安全是细活,但做得再细,再强大的团队也是无法规避问题的出现。但,如何规避呢?
 
手动实施,基础入门措施,没做的,赶紧做起来
 
       在线类业务/核心业务,特别对于依赖互联网渠道销售的企业来说,是企业重中之中,应当作为第1优先级来保护。首当其冲,是对其核心数据库进行主从部署,如果有银子,另外这些节点应当都具备一定的节点容错能力,也就是说Raid这些技术上去。但主从的问题,实际上,不少企业没有做从啊,好可怕的。这里如果做了,+1分。做了从以后,还要在本地备份,对如果有备份意识的,其实已经做了。但是否就足够了呢? NO,本机备份只是很简单的方案,理论上,出现问题的概率也基本一样,一样被删,硬件故障一样没用。这时候,就需要手动复制一份到其他地方去,进行异地备份。这里做了,再+1分,遗憾的是更少的企业会做这个。
 
       以上是一个简单的对核心数据库进行备份的方案,但这也仅仅是一个基础,数据小,业务简单也不是难事,写几个脚本就可以了。一旦当数据和业务规模发展起来后,数据量,业务种类,节点数目,版本迭代,研发流程等都会全面影响数据管理策略。遗憾的是,从目前了解的信息看,不少企业的负责人或执行团队,并没有与业务一起进步,忽略了数据连续性的价值,才导致看起来很低概率发生,最后变成了下一携程。
 
       总体来说,手动方案靠1个有态度,且敬业的团队,否则,这个方案出问题的可能性很大
 
       全程自动化,系统化,数据大、业务多、团队大的场景,更鼓励用此方案
 
       我们简单想象一样,数十TB级数据,100个节点,10台DB,30个业务,加上互联网敏捷式的按天,按周的迭代,互联网企业运维团队常用的备份小技巧,主从,手动,本地,异地,手动归档等会变成麻烦起来了: 忘记做备份, 空间满备份失败,找不到备份版本, 备份慢,传输异常中断,恢复慢,换人了,甚至备份了,也不敢用来恢复,……你说有啥用呢。
 
       实际场景会更复杂,在线系统,内部研发系统,关键业务支撑系统等,加上团队规模一大,基本上这块事情就变复杂了。
 
       对此,比较好的方案就是系统梳理业务类型,数据类型(DB,图片,视频,文档,代码),是抓取的,还是编辑产生的,内部,外部,需要保护的策路,包括频率,以及数据保留的历史周期,选择好容错能力的存储设施,业务数据的敏感程度等,抽象几种行为的结果,统一对数据,应用代码进行本地和异地备份,对比较历史的数据直接归档到离线位置。同时考虑在出现紧急问题后,最好能够快速对核心系统恢复,甚至瞬间对部分核心环节的文件,数据库单表进行恢复。结合自动化逻辑,不管规模有多大,按内外,按业务,按部门等视图,集中在一个系统管理起来,一个系统全局掌握企业的核心业务分布,数据保护状态;当出现这类紧急情况后,通过自动化系统,只需要在数十分钟,有序就恢复了;一切尽在掌握。你说,这样该有多好啊?当然实际携程的网络结构会更复杂,对全网实施,需要比较长时间梳理和设计,如5.28这种全网出问题后,恢复的时间会略长。
 
       自动化方案就比较多,做数据管理和保护的IT公司不下500家,像IBM、HP、Dell、EMC、赛门铁克、康沃、飞康、爱恩铁山、CA、carbonite这些老牌的上市公司,由于历史传统IT基因,这类对互联网类型基本难适应,互联网类公司一般也不原意用;还有很多新型的互联网创业公司,如Datto、code42、durva、Rubrik等企业。深圳的一家企业,多备份,算是后起之秀,互联网化的产品,全新混合云自动备份保护路线,一站式支持各型主流DB系统,OS,各型类型数据集中管理保护。无论在线,还是内部系统,文件和数量多大,可以对IT运维团队非常友好,一个面板集中管理起来,更适合携程这种现象的治理。
 
那,已经做了,如何?不把鸡蛋放在一个篮子
 
       同1个磁盘,同1个节点,同1个机房,同一个人维护,统一钟存储设备等都是鸡蛋放在篮子的表现,对于重要的数据,这不是良策。不少情况出问题,都由这几类原因发生。因此
 
       无论如何,一个健壮的数据保护系统,必须要有能力规避掉。多点存储,异地,交叉检查,还是要结合用上的。
 
       我经常听到不少同学提到,我们是用的云,我们是用的这家云,很牛的云,很多案例,但又能怎么样呢?云不是万能的,都是人写代码,加上机器垒起来的,是人就会犯错误,硬件不例外,数据中心也不例外,微软发生过,AWS也发生过。对于云磁盘本身的快照也只能做到整体恢复,存储重点也是解决硬件故障。出问题的恢复动作其实满大的,数据越大,越不容易可控 , 对于可靠的备份机制来说,细粒度备份和恢复时必要的,备份的场景和恢复的需求太多, 云平台强项是虚拟化计算和存储。这就是为什么云平台包括AWS,阿里云等都有备份保护类的服务。
 
      从另外1个角度看,一个平台依然存在一个篮子问题,所以我们鼓励企业在做数据备份的时候,进行交叉部署,交叉备份管理,特别对于关键的业务系统和重要数据,尤其要注意,尤其是在关键发展阶段的企业,即将要上市的企业啊,特别要注意的。
 
      目前此环节,市面上传统的IT企业推出的硬件方案,比较难做到这点,一般都需要采购一批硬件进行部署,实施的成本还是比较高的。面向云的方案是比较适应这类场景,国外有些企业比如Datto,Rubrik等都是基于云和本地混合保护方案 ; 而在国内,可以根据需要进行异构,异地,异云的交叉组合。
 
有心无力怎么办
 
       当然,也有超强备份保护数据意识的企业执行团队,问题在于数据一大,预算就马上爬升, 这样的情况,有心无力,那怎么办呢? 其实还有第2个方案,就是基于混合云的技术。基于云的技术一次投入超低,几千块就起飞了,成本随企业的发展,其实都已经摊薄,这样天然就是异地的方案,如果说你担心安全,其实也没必要,数据加密上去,退一万步讲,云平台被入侵了也不担心,其实国内主流的云平台都是一线企业,舍他选谁?安全是他们生命,比任何一个企业都在乎;如果这样你还不放心,你说你数据比银行要求还机密,这样一些相对历史或边缘的数据,可以选择加密上云。当然,只有云还不能解决快速恢复的问题,特别对于数据规模比较大的情况下,这时候,就要用本地和云混合的方案来解决。本地用一般的NAS,服务器,或再数据上到10TB级,专业点用SAN,当出现问题后,可以并行从本地往各个节点,系统进行同步恢复。类似携程这种情况,几分钟到几十分钟也就OK了,至少对于关键几个业务系统。随后周边一些业务在主系统恢复的时候,逐步按批次恢复。基本也就在1-2个小时就全网恢复了。万一本地的备份系统也被干掉了,那还可以从云端以数Gb级的速度做灾难恢复。国内了解到有一些创新型企业都在做此类事情,提供自动化,基于混合云,集中管理的方案,无论多复杂的业务结构,都可以清晰梳理,并有序管理起来,有效规避人为,自然,系统因素。
 
最后,如何整起?
 
       当然,你说你是很牛的企业,人多,钱多,愿意投入数十人的IT运维工具开发团队,花几十到百万,开发一套系统自动化做这些事情。但是,你愿意不,你能做到不?只有不到1/1000的企业会这样投入做。当然,你说可以结合开源的工具来做,包括文件同步,数据库导出工具,甚至二机制日志,也不是不行,最大的问题,还是在于数据量,业务量,网络结构复杂后,这些都会变成问题 ;逐渐你的企业会变成依赖一个不愿意反复做类似事情的团队,而不是一套针对性的系统来解决问题。


文章转载请注明www.bigone.com.cn  广东idc 大一互联
我们专业提供广州各大运营商机房服务器托管租赁等IDC机房业务!
您可以选择电信/双线/BGP多线/等多家运营商线路运行您的业务!
文章如有侵权,请及时联系我们删除!
销售电话:020-83560263    销售手机:
13760852008

标签:  运维事故