10月16日,2018年开放数据峰会(Open Data Center Summit 2018)于上午在北京国际会议中心开幕。作为数据中心行业的一大盛事,ODCC每年都将汇聚数千名数据中心专家与几十名主流媒体。本届峰会时间为16日-17日,ODCC将发布最新研究成果,碰撞尖端热点技术,分享国际技术进展,展示主流产品应用。

2


 

首先感谢ODCC提供这么个平台,让我代表包商银行来学习分享,同时感谢大家下午坚持这么长时间来听,我是最后一个,希望能讲的稍微活泼一点,大家也别犯困,因为你会发现讲到最后我们还是有些商机的,别看包商银行小。我今天想跟大家分享的是包商银行十年之间两到三代整个IT系统和数据中心变革的这么一个经历。

这是我们包商银行整个IT的现状,我们现在有三个数据中心,有两个在北京,一个是在包头,来支撑我们全行所有的IT设备。包商银行本身业务系统总数大概200套,包商村镇银行大约26套,包商银行现在是内蒙古大的股份制银行,我们在内蒙地区、宁波、深圳、成都、北京设立了18家分行,同时设立了30家村镇银行,机构遍布全国16个省市自治区,2017年年末,资产规模约5500亿元。

这块我先来说一下,我们下面的第一个想讲的是数据中心的精细化管理。这张图之前,我先讲一个笑话,我是2009年入职包商银行的。刚入职的时候我去包头,我们的领导跟我说包商银行机房比较老,我当时对什么叫比较老没有概念。等我第一次进到这个机房里的时候我发现咱们机房里的空调其实跟我们家用的空调是一样的,是大金的柜机,我不知道大家有没有这个概念,风冷的家用柜机做机房的空调,有时候冷凝水排的不畅,边上还得放一个盆接冷凝水。所以我们面临的是包头地区人才不足的问题,技术响应慢,设备备品和备件不足。IBM690那个时候用的时候,如果出了故障,IBM还得坐飞机从北京往那里背备件。因此从2009年开始到2010年包商银行领导决策当然也是比较有眼界的,把包商银行的数据中心设立在了北京,我也是这个时候就入职了。我们当时北京有一个备份的数据中心、主数据中心,包头作为灾备中心承接当时2010年这一代的核心系统。这就是我们当时的数据中心,如果有光大的同事在这里就会发现,光大当时在我们数据中心的二层,我们当时在一层,后来他们受不了了,搬走了,我们现在还凑合在用,是马连道的数据中心,起租时间是2009年初。

这就是机房的现状,这就是当时地下室的柴油机,电力我们当时确实是真的双路的,有柴机、有风冷空调,监控和报警系统也都具备。但是面临什么问题?当时给我们UPS做的是N+1的模式,当时机房的总电量也不够,1000多平米的机房只给我们500千伏安的电,层高也不足,4.5米的层高,底下线缆放多了,风量就不足了。人员也一样,我们基本没有的专业的运维人员,全部都新入职员工就地转成运维人员,自动化工具也欠缺,2009年的时候一切都是重新开始,整体就面临这些问题。

这是我们当时的一个统计,作为外部的一个分析来讲,人为操作的失误它的影响频度也高,同时它的影响冲击度也高。所以说我们当时想通过精细化的管理解决人为操作失误导致的这种非计划停机的问题,这个饼图是我们自身的统计,我们有软件的故障、硬件的故障、网络的故障,人为操作的失误在包商银行里大概导致了13%左右的非计划停机时间。

这张图是我们精细化管理的目标,我们当时从2010年开始就要做一个什么事?就是机房精细化运维的管理,我们想解决什么问题,目标是什么,我们想通过精细化管理解决人为操作的风险,改善基础架构平台的可用性,最终是减少故障的发生。怎么来实现这个目标?精细化管理我们搭建了标准化作业SOP的体系,为运营提供坚实的基础。这块包商银行的钱相对来讲少,所以说除了商用工具,我们自身也通过主观能动性开发了很多小微的工具,来填补商用工具在运维里的空缺,最终提升效率,同我们也降低了IT运行的成本。

当时精细化管理就是一句话,精细化管理五个字。但是真正怎么落地我们借鉴的是丰田精益化管理工业上的应用场景落到IT领域。第一块是现场的管理和5Why?发生了什么、看到了什么、情况如何、问题何在,找到根本的问题。第二个看板管理。还有标准的工作程序SOP。还有品质管理,品质管理就是要用数据来真正指导我们将来的工作,是一个闭环的管理过程,就是你拿到了你的分析数据,怎么来改变你将来的工作模式?我们通过这个品质管理来解决。还有一块是智能化和少人化,通过丰田的五个领域落到IT来解决我们数据中心运维的问题。

这就是我们当时设立的一个模型,这个模型着重在五块,是四个大圈通过电子化的工具来支撑流程管理的精细化、操作管理、质控管理、安全管理精细化。同时光有这些流程的改进没有用,我们还设定了很多指标,通过这些指标来真正的引导我们做相应的改进。像流程管理的一些考核指标,我不知道现在大家还有没有紧急变更的比率,当时我们就面临很头疼,各种各样的紧急变更,不知道大家有没有概念,会带来很多不确定性。所以当时我们第一个就是把紧急变更的指标占比降下来,其次就是变更的成功率,这两块实际上变更是对于运维来讲冲击大的一个事。

操作管理重点是什么?就是人应该怎么干活?我讲一个故事,上下电。不知道大家的机房管理里遇没遇到过?机房的上下电其实也是一种真正意义上的变更,但是在我们当时来讲不认为这是一个变更,把机器往上一架、电一插就解决了。最初遇到什么问题,上架一台机器,一插,整个柜子掉电了,这个问题我们通过精细化管理解决了。还有质控问题等等,这些都是我们当时考核的重点指标。当然还有安全的管理,像ISO27001里提到的物理安全、人员权限,还有现在对银行来讲人员的离职尤其是大行,人员规模大,进出频繁,离职以后权限应该怎么收这块也是很重要要关注的事。我们通过这些指标来真正引导我们的精细化管理的推进。

这张图就是刚才要提到的从流程管理向过程管理的延伸,其实我发现以我的工作经验来讲,其实制度都写的很全,事件管理办法、变更管理办法,但是这些管理办法到最终底下的任务,监控出现了告警应该怎么处理,中间这段在银行来讲,尤其小我们中小银行是缺失的。所以我们的精细化管理重点解决的是过程管理的问题,比如怎么监控、怎么备份、补丁怎么发布,每一项细节从管理办法到实施细则,其实这就是大行管理制度里的实施细则,实施细则到具体底下的任务我们把中间的管理过程完善了,形成了自己的SOP体系。

这个就是过程管理中的认为操作精细化的例子,设备上下电就像刚才提到的,设备上下电的问题应该怎么上解决了,比如我们单独设一个柜子和整个生产分开,现在把机器保证它的电流模块没问题,不会导致机柜单漏掉电的情况下,我们还做了工具操作的精细化。工具操作为什么要做精细化管理?比如说有量电压、电流的设备,我们之前也有过往机器上一插漏掉电了,这个设备在使用之前应该在非生产区域进行测试,确保测试设备是安全的然后再进到机房里去使用,这就是工具操作精细化。

还有设备搬迁,其实怎么保护地板,怎么保护设备,其实都是我们精细化管理其中的一部分内容。还有系统运维的操作,我们一线运维人员发现了问题应该怎么具体操作,变更怎么实施,通过这几方面形成了我们标准的SOP体系。

这是举一个例子,这是巡检,当时2012年的时候我们已经实现了PAD的巡检。之前我提过其实人是没有责任心的,尤其是外包人员,你安排他巡检,他能保证每一个柜子都巡检到吗,光靠人是不行的。SOP里指定了,他要通过PAD扫描二维码接任务,如果有故障拍照把故障上报给后续运维平台的方式,来确保每一个点、每一个机位都巡检到,这个模式一直保持至今,这就是我们SOP的样子,其实每一个SOP都有自己不同的内容。

这张图是成果,推动精细化的管理两到三年的时间,我们在理论探索的基础上结合实际,初步实现了一套可供中小商业银行借鉴、复制或者说做裁减的精细化运维管理体系。这个体系我们在内蒙银监会也是认可的,在2016年的时候组织全内蒙地区的银行还有银监会的监管处领导一起来把这个体系在我们的数据中心做了一下相当于调研和讲解。

第二是人为操作的事件,我们从精细化之后就没有再发生过人为操作导致非计划停机的事件,这个风险大幅降低了。

最后是我们的获奖情况,2014年获得了中国人民银行科技发展三等奖,这也是我们整个内蒙地区第一次在人民银行获得这种数据中心的奖项。

下面是第二部分了,做了这么多事情,我们发现又不能满足我们业务发展的要求了,这就是在2013年的时候,整个宏观的经济形势对银行业的经营产生影响。包商银行内部也开始进行相应的组织变革、事业部的改革。我们当时从2013年8月15日起开始做了一个815的项目,项目简单来讲在业务领域,客户关系管理、客户视图、流程、作业渠道、量化管理方面一次性地开发建设150套应用系统,同时我们新建了一个数据中心,然后我们又把原有的数据中心做改造,这三件事合在一起,在2015年5月23日进行一次性投产切换成功。所以我们管这个叫815项目。

下面讲一下整个815项目数据中心建设的情况,我们其实管这个叫定制化的数据中心,我们跟我们的合作伙伴租了整整一层,这一层按照我们的要求做了一下规划、定制的数据中心。大家可以看到在这个位置,这一个数据中心5000平米,在这条线这边是我们运维的区域,所有的人都在这边进行相应的工作。在这条线的这边是我们机房的区域,我们现在有四个大的机房模块,周围有相应的空调间、UPS间、电池间等等,完成了整个数据中心的规划。

下面来看一下建设的情况,我这里标红了,35天把一个数据中心建成,我不知道大家能不能理解这是一个什么概念。2015年1月12日,我们2014年12月份做的商务谈判,确定了要在这里建机房,切实了规划。2015年1月12日,这张照片是2015年1月份的照片,我们把墙建好了、地板铺上了。2015年2月10日,我们的机柜接好了,线从上面甩下来,设备开始进机房。通过单侧的水系统,为了赶时间,单侧的水冷完成以后就把设备放进去了,2月14日机房正式上线运行。为什么这么急?因为领导说5月份全行生产系统要正式上线,而大家知道150多套系统的切换是不可能把机器放在那里安装好,系统自动切换就能切换成。我们当时的作业是三班倒24小时建设,我们包商银行的同事现场住在工地上,跟我们的合作伙伴一起去做,这个机房建设速度业内应该是最快的。

这是我们基础设施的情况,我跟我们的合作厂商,机房楼一共有8层,所有其他层用的都是华为的设备,因为他们有框架协议。只有我们这一层用的是进口的,这个机房大家刚才看到了我们是独立的,什么叫独立的概念?我们这个机房除了两路市电从楼上输下来,水冷环网从楼底下送上来以外,全部都是自给自足的,不需要任何外部干预包商银行的系统,支撑它的运行。为了保障员工的身体健康,我们在房顶和地板满铺了细铜网接地隔离辐射。同时我们的水冷系统ECC全部是UPS电的,都包含在电池的供应时间内。

这是我们西红门数据中心一个虚拟的图,我们也有自己机房三维环境监控的体系。大家看到这是3D的,我点到一个机房模块就显示这个机房模块的细节,再点到某一个冷通道,就进到某一个冷通道,再点到某一个机器,就能看到这台机器用了多少电、电流是多少。包括我们的电池,2000多块电池,每一块电池也是有电池监控来实现整个可视化的监控。

这是我们消防的监控,这是我们机房的温场。大家能看到我们是7台水冷对吹每一个模块,实际上在冬天和夏天我们在一面开三个、一面开四个,就能够保证整个机房模块的制冷需求了。这是我们的监控,我们有340多个摄象头,在5000平米没有任何一个平米有死角,除了卫生间。蓄电池的监控,经过两年多的时间,包商银行的第一批蓄电池有零星已经开始有内阻的问题了,已经开始进行更换了。整个数据中心的监控体系覆盖了消防、电力、各PDU电流、开关状态等等。

这是从2014年获奖了之后,我们新的数据中心依旧延续了精细化管理的体系,相应的流程都是按照精细化管理的流程做要求和做管理的。具体的不提了。我们现在除了人为的有保安、安检门我们还有人脸识别,通过这种管理我们能保证在物理安全上不出问题。我们刚才提到了一个叫自给自足,除了水和电进来自给自足,我们的人在里头也是自给自足的,这是给我们整个运维体系做支撑的电子化平台。我们有流程管理的平台,集中备份的平台,日志审计、移动巡检,我们自行开发的小微工具,还有堡垒机系统。开个玩笑,包商银行的5000平米,只要给水给电发工资,就能够保证全行生产系统在里面运转不出任何问题,当时设计的时候就是这么设计的。

这是我们运维的看板,因为我们也有ECC和24小时监控的大屏,我们今年进行了改造,我们实现了把机房的监控、软硬件、网络、中间件、业务系统告警全部整合到这个看板上了。所有包商银行正常业务系统最关键的监控告警全部整合到这个看板上了,实现24小时不间断的监控。

这是我们业务的监控系统,这块要提一个词,其实我们今年也在做,银行业的运维的价值是应该怎么向运营的价值去做转型的?我们通过业务的监控系统,我让他们9月份截了一个图这是9月28日的,我们包商银行的交易笔数现在大概一天是500万笔左右这么一个规模,一个自然日。分布还是内蒙地区的最多,其次是北京,底下还有类似浙江等。我们通过按地区、机构、渠道和系统四个维度把业务进行区分之后,可以向运营来提供支撑,支撑什么?支撑分支机构和总行头寸的实时监控,还有大额异常交易的变动,还有实时风控系统。我们的运维数据中心已经做好准备,给他们来做这些事,打好了基础。

下面我们从今年开始又进入了一个新的阶段,首先是今年双活的建设。大家看到这个图分两个颜色,上面的颜色是蓝色的,蓝色意味着什么?意味着在包商银行已经实现了应用系统前端的双活。我们在西红门数据中心和马连道数据中心有一部分应用系统已经实现了业务的两个数据中心的接入,这块当然我们肯定也有自己的区分,业务类系统是有这个需求的,管理类系统其实就没必要做双活了。红色的部分是我们今年正在做的部分,因为存储大部分都是EMC的,我们想通过EMC的 Vplex技术,利用Oracle RAC/DBZ PureScale实现部分应用系统同城数据库双活。银行业从现在来看再往后走,可能不再提同城灾备的概念,大部分银行都是双活、云的概念,所以我们想把灾备的等级从5级变成6级,意味着数据中心失效的时候业务并不中断。这是我们数据中心今年想做的推进的事。

这张图也就是物联网的数据中心,从人管理向自动化管理去转型,在原有虚拟化的基础上,我们会用射频标签来实现人员进出、设备进出、资产等等几个方面的管理。从原有的虚拟的3D的数据中心向真实物理世界的这种自动化来转型,这是我们今年要做的数据中心持续改进的事。

这就是我刚才提到的我们今年还有生意,马连道数据中心从2009年起租已经十年了,这十年之后不管是配电、空调整个不堪重负。电力不足,同时部分列头柜开关状态缺少动环监控系统。政策风险,马连道数据中心为国有资产对外租赁也是风险点之一。新的数据中心我们主要关注有两点,第一高可靠性,第二我们希望更绿色节能一点,包商银行2015年定制的数据中心大的问题是太费电了,现在我们一年电费上千万,所以这块想有没有什么方式能够更节电一点。

我们包头原有的数据中心也不打算再改动逐渐废弃了,新的总行的包头大楼已经建成,在新大楼五层我们要建设一个包头生产的分中心,除了承载当地的生产业务和管理类系统以外,我们还要把它当做一个先进的异地灾备中心来建设,这就是我们今年的建设目标,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-22 15:25:05
2024-01-19 15:41:34
国际资讯 亚马逊宣布将在五年间在日本投资150亿美元 用于扩建数据中心
此项投资将主要用于扩建该公司在日本的数据中心,并加强其在当地的业务运营。 <详情>
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>