10月16日,2018年开放数据峰会(Open Data Center Summit 2018)于上午在北京国际会议中心开幕。作为数据中心行业的一大盛事,ODCC每年都将汇聚数千名数据中心专家与几十名主流媒体。本届峰会时间为16日-17日,ODCC将发布最新研究成果,碰撞尖端热点技术,分享国际技术进展,展示主流产品应用。

4


 

大家好,我是来自于中国民生银行数据中心的陈显义,我给大家分享的内容是分布式核心运维体系建设。这是我的个人介绍,长期从事商业银行核心系统的运维工作,全程参与了中国民生银行两代核心系统的建设历程。现在是我们中国民生银行核心系统的运维负责人,主持搭建了分布式核心系统运维支撑体系。曾担任某国际知名咨询公司的高级技术咨询顾问,为多家世界500强企业实施了企业信息化项目。

我今天分享的内容分为三部分,第一个部分,分布式核心的建设背景,第二个部分,分布式核心的运维挑战,第三个分布式核心的运维体系建设。我们来看一下中国民生银行的科技建设历程,从银行创立的时候单机作战时代,到数字化管理时代,以及到2013年新核心系统全面上线,2014年凤凰计划开启科技创新时代,再到2018年我们董事长在500强国际金融峰会上提出了民生银行十年之内必将成为一个金融科技公司的战略构想。我们的一位总经理提出坚持科技创新,以数据场景化应用为导向,用科技创新为全行业务发展提供原动力,充分发挥信息科技的战略支撑作用的要求。

我们除了顺应行内的战略,分布式核心系统的架构还需要顺应科技金融的行业趋势,实现科技价值。极致用户体验、海量支撑、高并发、高性能、弹性伸缩、业务高连续性、降本增效。民生科技金融战略的目标是用未来3—5年的时间全面构建基于数字化的智能银行,我们把分布式作为科技金融银行建设的基础。

具体我们的目标分为商业目标和技术目标,技术层面分布式架构是利用网络计算机社别,把计算任务和数据进行分解、彼此协调,共同完成一项业务功能的技术架构。我们分布式架构是作为我们科技金融的基础,是由内部原因和外部原因决定的。内部原因是我们的核心系统存在技术瓶颈,系统的成本比较高,产品把控能力比较弱。外部环境是互联网金融的发展、市场环境、国家战略以及行业背景。

我们说到分布式架构和集中式架构的对比,集中式架构已经无法满足业务发展的需要,主要存在以下一些问题。首先是集中式架构普遍缺乏弹性伸缩的能力,随着数据量和交易量的发展,我们部分的数据量一旦交易量巨大,部分的实时业务交易场景已经无法支撑,更不用说现在我们互联网客户瞬时爆发的时候海量交易。我们这种瓶颈首先一般体现在核心系统,核心系统升级之后,随着我们处理能力的飞跃提升,在渠道、支付、安全、数据以及运维体系支撑,各方面的瓶颈也会充分地暴露出来。所以我们系统集成式架构这种转型,不单从核心系统,从各个渠道、安全、其他产品以及运维体系,都需要配合这种整体架构的转型,摆脱我们集中式架构的束缚。

第二个问题,我们说集中式架构的成本比较高,我们集中式架构一般普遍是基础设施建立在小型机或者大型机上,硬件及软件的采购成本比较高。尤其是我们核心系统,软件版权费用也比较高,服务高度依赖厂商,服务成本也比较高。

第三个问题,我们说集中式架构存在单点的风险,因为集中式架构一般构建的基础是应用,开发、运维管理的力度比较粗,容易牵一发而动全身这种情况。所以我们想要构建这种分布式的情况,它存在着能够提供轻量化敏捷开发的这种理念。另外,我们集中式的架构技术体系一般比较封闭,技术升级一般要高度依赖厂商,尤其是国外的一些厂商。我们自己的IT运维团队把控能力比较弱,而反观我们的互联网层面,分布式架构在我们互联网IT技术领域广泛地应用,同时也积累了大量的经验,很多的技术和开源软件都已经比较成熟。

另外,随着互联网的快速发展,大数据量的这种要求越来越多。同时我们利率市场化,所以我们要全面构建基于新一代的分布式架构,能够提供海量支撑、弹性扩展、灵活的信息化部署的这种系统,已经成为我们当前银行业迫切的需求。2018年2月6日我们分布式核心顺利成功上线了,标志着我们民生银行具备了国际一流金融领域解决方案的能力,我们实现了多快好省的业务和成本效益。

我们说分布式架构存在优势,它的设计是基于各层解耦,提供水平扩展的能力,来实现我们这种整体处理能力的提升。我们在服务接入层,实现了服务陆游及管控能力,支持服务和数据单元化部署。在应用层,提供了分布式的这种应用支持,通过水平扩展应用服务器来达到应用处理能力的提升。

在数据库层面,我们使用了读写分离和分库分表,通过这种我们实现了数据库的水平扩展,从而实现了数据的水平扩展的访问能力。这是我们分布式技术平台的功能。我们的分布式系统上线之后,给我们数据中心业带来了一系列的挑战,它能够解决我们的很多问题。首先来看一下集中式架构和分布式架构的对比,有一个直观的印象。我们数据中心首先面对的问题是分布式系统如何运维,因为首先系统变的多了,原来的很多运维方式、运维方法都需要改变,很多标准、工具也需要改变,商业银行的分布式系统如何运维?因为分布式在互联网应用的比较多,在银行领域应用的比较少,分布式系统如何运维,这一系列的挑战给我们数据中心系统带来了思考。我们面对的是两个分散,应用分散和几百个分布式应用实例,另外是数据分散。面对三个层次复杂,服务层次复杂、调用关系复杂、系统状态复杂。四个多,设备多、应用多、服务多、配置多。

这是我们分布式架构的故障定位,平常我们处理业务分析的时候是不是有一种叫做飘洋过海来看你,我们简简单单的一笔转帐交易耗时3秒钟可能通过了2个城市、3个机房,调用了12套系统,路过了21台服务器。我们把它总结为运维人在囧途。

我们分布式架构能够解决很多问题,以及它能够给我们带来很多优势,能够顺应行内的战略发展,另外也给我们数据中心带来了很多运维难点。我们如何运维?面对这些问题和难点,我们借鉴了1938年5月毛主席他老人家写的关于游击战争的战略问题。其中关于抗日区根据地的建立也是从无到有的创建这种论述,我们要解决的问题可能跟先辈们解决的问题不可同日而语,但是这个创建为我们分布式核心解决这些难点提供了理论和方向的指导。

下面是我们数据中心根据方法论的指导,我们自己创建了分布式核心的运维体系,我们把它叫做四化建设。分为运维管理集中化,运维操作自动化,运维监控可视化,运维分析智能化。这跟郝处长前面讲到的可视化也有很多的相似之处,我们首先来说其中的一个叫管控平台,也是运维管理集中化,我们对分布式系统进行集中管控管理的一个最主要的平台,它主要是面向我们系统的维护人员,主要包括配置管理、服务管理、作业管理和数据管理等模块。

我们使用了大量的开源软件,包含这八个主要的组件,是我们运维人员自己开发的,而且是我们平常对分布式核心系统运维的时候使用最多的工具。另外我们对数据库做了分库分表,提供了这种弹性的扩展能力,但是我们数据的查询是通过自主研发的一个工具CDAL来实现数据的集中化统一查询管理,我们自主研发的这个工具CDAL我们也申请了专利。我们的集中监控平台是中国民生银行科技应用系统的重要监控工具。这是我们分布式的DevOps平台,我们通过它来实现开发和运维一体化的部署,这是我们运维部署的实时流程图。

另外我们也实现了自动化,这是总揽,通过它我们可以很直观地判断出总体的运行情况。这是我们应用的批量部署。我们通过分布式这种架构,实现了多数据中心、多活的这种部署,但是我们平常做这种自动化切换以及这种切换,我们原来集中式的那种架构和方法已经不太适用了,所以我们把很多技术做了整合,实现了不同数据中心、不同机房之间的一键自动化切换。

交易监控平台是实现我们可视化的交易监控,包括交易量、响应时间、成功率、响应率、支持多个维度、多层次的交易分析。全景运维是我们运维团队的一个小伙子我们一块根据我们经常遇到的需求来开发的,我们分为三步,第一步看全景,展示了民生银行所有科技数据中心的系统,我们把它分为三个指标级,系统间的调用关系、系统交易量以及我们可以实现系统点击下载,进去查看每个系统的健康情况。针对所有系统的情况,哪一台系统如果有问题或者出现了告警之类的,我们都会这个图中通过红色的高亮提示出来,这是我们全部的系统所有的交易量。

前面我们看了全景,我们第二步通过系统里面点击下载来查自己,通过性能和交易量的分析可以查出我们系统自己本身的健康状况是什么时间和历史数据的交易量对比,都可以直观地看出来。

第三步,我们叫追别人。我们全景运维通过统一的流水号从前到后串联起来了,整个提供端到端的这种服务,所以我们叫它追别人。追别人,我们可能前面讲过了冰山下面,我们有这种交易的很多困难和难点。我们一笔3秒钟的交易可能路过了民生银行7套系统,每一套系统里面大家看发了多长时间,总共3秒钟,每一套系统每一步在哪、花了多长时间,我们可以通过这个很直观的看出来。通过交易的调用关系和分析,我们不用在运维团队之间一个问题转来转去了。

我们同时实现了架构的在线可查,我们叫它云图系统,前面全景运维里面展现出来的每一个点、每一个系统的架构,我们在这里都可以在线的把它查出来。这是我们云图系统里面分布式核心的系统架构,我们在这个架构展示出来,在各个数据中心它的系统的运行的健康状况,因为它跟我们集中监控平台实现了数据共享,实时地可以展现出系统告警、交易量等等。

日志在分库分表之后也做了集中化的处理,我们叫做它一眼清平台,通过这个平台把各个分库里面的日志做集中化的分析和处理,我们系统里面的问题可以通过集中的这种查询、分析。我们有了这个一眼清平台之后,可以把所有的日志聚合起来,轻松的可以面对上百台服务器。

最后一个是我们运维分析智能化里面的海链系统,因为我们分布式系统做了微服务的这种调整,各个组件分布在不同的服务器上,或者各个组件分布在不同的机房之间。我们单个交易有问题之后可以通过海链系统把每一个步骤、每一个技术组件都可以查询出来,哪一步调用了哪些,都可以通过这个展示出来。

通过这些,我们分布式核心系统建设方向就实现了提前的掌控,实现了对问题的精准定位,实现了防患未然,实现了对问题分析的快速响应。通过四化建设,我们实现了整个科技系统的全面掌控,为我们民生银行科技战略的转型提供了有力的支持。

我的演讲完了,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-22 15:25:05
2024-01-19 15:41:34
国际资讯 亚马逊宣布将在五年间在日本投资150亿美元 用于扩建数据中心
此项投资将主要用于扩建该公司在日本的数据中心,并加强其在当地的业务运营。 <详情>
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>