中国IDC圈7月1日报道,2016年6月24日,由数据中心联盟金融信息技术委员会主办、中国IDC圈协办的"2016金融信息化成果展示会"暨金融信息化技术委员会成立一周年报告会在北京国际会议中心盛大召开。

本次会议持续一天时间,共设置了一个主论坛和三个分论坛,分论坛包括大数据专场、数据中心专场、云计算专场。会议特邀了国内各大银行技术大咖及业界精英齐聚一堂,共同探讨"互联网+"时代下,我国金融信息化发展的现在和未来。其中,阿里中间件上云架构师张勇出席“云计算专场”并发表了题为《互联网分布式核心架构》的精彩演讲。

云计算--张勇

阿里中间件上云架构师

以下为张勇演讲实录:

张勇:我分享的内容有三块,第一块叫阿里技术架构实践,这里面更多是基于阿里,包括蚂蚁,包括淘宝点上双十一架构的实践,给大家讲阿里的技术架构构建历程,这个历程中阿里碰到什么问题,怎么解决的。第二讲阿里分布式核心产品介绍,这些产品具有什么能力,能够帮大家解决什么问题。第三是案例分享。我的重点会在第一个章节,待会儿我如果我超时大家提醒我一下。

从阿里的技术发展来讲,2008年是阿里基础架构的分水岭,在2008年之前,大家可以看到整个阿里的架构就是从2002年到2005年到2008年的发展过程,业务发展比较快,从几十个人,到最后的几百个人,发展过程中碰到几个问题,不能敏捷开发,大家经常讲业务创新,第二个就是业务发展会发生故障,第三个是业务的快速创新复用能力差。最重要的是在2008年之前阿里的基础架构是这样的单块架构,这是大部分做系统比较常见的架构,也就是我把前面整个的单块架构,包括整个电商融到一起,发到一个应用服务其上去,单块架构带来的问题有四个,第一个问题就是整个开发协同的成本会很高,我今天有一个商品系统做了改动,我整个应用系统要发一遍,开发的成本比较高。第二个就是讲复用的程度,我做了淘宝主阵以后,还做过彩票,阿里健康等等,我发现所有的模块都需要重新做一个架构去改造,没法做到,我今天需要一个阿里健康,我能在一个月内让我的业务上线。第三个问题就是说随着阿里整个的业务发展,数据的发展,整个业务的发展,数据量特别大,包括前面的并发,我发现后端没法做到同一水平的扩展。第四个问题就是集中化的方式,今天整个电商里面有一个送积分系统,如果它出现问题,它可能把整个业务系统拖垮,这是碰到的问题。

阿里怎么去解决呢?从2008年前后,阿里进行了这样一个服务化的改造,也就是现在讲的基于微服务化的改造,基本理念就是大系统小做,把原来所有在一起的系统通过拆解,第一步做了用户中心这个集群,所有跟用户相关的操作都集中在用户中心这样一个集群里,并且用户相关的数据都由用户中心来维护。后面把交易、商品、店铺等等所有的模块都拆分出来,并且把整个电商领域,或者蚂蚁领域所从事的都沉淀出一个平台,我叫共享平台。上面是薄薄的应用,承担了阿里的架构特点,我们叫厚平台薄应用,我在下面整合的这些共享服务,大概有五十多个共享服务,在我上面制成了整个阿里四百个应用,包括淘宝、天猫、聚划算、淘点点,这是我们阿里的厚平台薄应用架构。从2015年年底之后,阿里讲一个战略叫做大中台小前台,它基本的理念就是说,把阿里的服务都沉淀一个共享服务,并且每个服务都是微服务,从而做到对业务的支撑。第一点就是做业务的拆分,把每个系统做成一个小系统,每个系统后面都是一个快速线性扩展。第一点把应用服务器做一个拆分,做到大系统小作的目标。

第二点我们面向互联网以后,有个很重要的特点,经常有海量的访问,并且有高的吞吐量,并且也能做到最客户快速的响应,在互联网领域,经常会基于业务场景的设计去做异步的业务设计,通过异步的业务设计第一点可以提高系统的耦合度会降到更低,我所有的可以通过消息系统进行异步,今天我发现交易不够,我只需要扩交易,我不需要关注后面的优惠、积分这两个处理能力,因为消息系统能够帮我做天然的堆积能力。第二步我们基于消息系统做系统的异步,这是第二点。做完这亮点,我在解决一个什么问题呢?我是在解决前面服务器的水平扩展能力,我希望我前面的运维服务器可以做到拓展,我今天缺容量不够,我需要再加五十台,把容量扩起来,这是我要达到的目标。

解决了应用服务其水平扩展以后,数据层面的水平扩展其实是大部分应用系统碰到的瓶颈,随着用户量的增多,数据层面的瓶颈会变得越来越明显,这个时候阿里是经历了几个过程,第一点我会去做数据的拆分,比如说我把用户数据用来维护自己的数据库,不屈共享数据库,第二点我即使把用户中心有这样的垂直拆分以后,更大的问题就是说,我的用户中心随着业务的发展,我的整个数据也会变得很多,我就需要后台有更多的数据库实力,来去承载这个业务的访问和并发,并且随着业务的发展,刚开始我可能是四个业务的实力,随着业务的发展我能够做一个弹性的数据水平扩展,原来是在四个实力的情况,我希望在将来某一天,数据撑不住的时候,我能够贪生到八个的实力。阿里怎么解决呢?主要是基于这种分布式改造,数据库改造达到一个目标是什么?一个就是说我们解决数据水平拆分达到极高的存储访问容量上限,还有就是达到全量增量数据迁移,我怎么达到在数据业务没有停歇的情况下,达到数据层面的水平扩展。第三个通过廉价的X86服务器,通过SAS、SSD构成分布式数据库,第四点就是异地多活进一步提升容量上限,并解决容灾问题。

其实从分支是数据库改造里面会围绕几个关键的功能点,第一我们会通过前端分布式数据库做到分库分表,读写分离,高可用,数据库扩容,全客户端语言支持、事务、自定义运维指令、运维平台,我们对下面管理的买SQL能力做一个运维的东西。

其实做完分布式数据库的改造,我们解决了数据水平扩展,也解决了数据层面的水平扩展,其实做完前面运维服务器的拆分,解决了数据层面的水平扩展以后,我基本上认为我的一个系统理论上是海量的水平扩展系统,其实非常重要的一点就是说,我今天把大系统做成小系统以后,系统间的调用,就是基于本地的调用,变成了跨网络的调用,针对这种服务化,或者做微服务,或者做分布式系统里面大的难点,就是如何做这种治理,保证业务的连续性,和业务的稳定性,阿里在这方面更多的实践就是说,首先我有一套完整的鹰眼跟踪,整个的调动链路,我今天下单,从下单后面用户登陆,查商品信息,其实整个链路下来有上百个调运服务,这个服务里面我这样的一个下单过程中,我怎么知道今天因为下单失败,我怎么知道今天因为某一个服务出问题导致了这样一个链路失败,我需要一个完整的链路跟踪,知道今天整个的微服务运行状态,这是我们讲的服务链路跟踪问题。还有一个就是说我可以针对一段时间以后,下单过程中,这是整个下单过程中依赖大的服务,这个服务是一个易故障点高的服务,这个服务是易耗时点的服务,我知道这个地方要么容量不够,要么程序有问题,从而能够针对这样一个链路分析,我能够提前去预警整个业务链上的问题,提高业务的稳定性和连续性。这两步只是基于服务化,或者基于微服务化的两个重要的东西。

针对这种服务治理,更多的还有针对服务的陆游、服务的分组、同机房优先规则,还有异步调运,这都是服务非常重要的环节,做好微服务,不是简单地把系统拆了,就可以解决微服务,更重要的是把服务治理好、管控好,能够把整个服务做一个完整的数据化监控,这是非常重要的环节。

基本上就呈现了阿里的核心架构,就是我们讲的厚平台薄应用,或者大中台小前台。我通过下面共享的能力中心去支持整个阿里上面的应用,包括天猫、淘宝,下面支撑共享能力中心的技术平台就是阿里的企业及互联网架构平台,包括EDAS、DRDS、MQ、CSB.面向互联网以后我将来需要把更多的能力开放出去,这样才能构建一个生态。

其实这个东西是更完整的,就是说阿里这样一个厚平台薄应用的架构,下面有我的PAAS平台,或者是分布式架构技术平台,上面制成了我的五十个共享中心,上面是应用。其实从我们阿里金融云或者是阿里集团来讲,我们给客户提供的服务有哪些,这层面向基础设施的管理、管控我不会提供,共享中心的PAAS平台,或者分布式技术平台是我们提供的,我们可以帮助客户一起去构建面向客户所属领域的共享中心,从而支撑到它将来应用的快速开发,或者是应用的快速上线,或者是支撑不同的端,或者PC端的业务,这是我们能提供的东西。

还有一点非常重要的东西,大家可能会问,我把这种共享能力沉淀出来有什么好处,第一点就是因为我整个所从事的核心领域能力沉淀出来以后,第一个好处就是我以后所有的业务创新,包括我整个的数据治理都是会非常清晰。比如说交易、商品、店铺所从事的数据都维护在自己的领域里,不会说一个数据会留在很多地方存储,这是第一点。第二点,我把共享的能力沉淀出来以后,将来我有新的应用我可以用共享能力快速地构建,比如原来的整个聚划算从规划到上线只需要一个半月时间。互联网也讲创新,只有我把这个平台都能够沉淀出来以后,我将来做一个错的成本会非常低,如果我发现整个的业务形态或者整个的市场反映不好,我可以换去做另外一个东西。整个的共享平台带来的一个核心价值就是说,其实我们认为做一个IT部门最核心的是真正沉淀共享能力,而不是你有一堆自己去购买来的系统,或者是服务器,基于这样一个平台以后,我们更多也希望下面共享的平台能够不断地发现,从而得到平台更好的发展,从而平台能够做一个平衡的路线。

其实互联网还有一个特点就是讲开放,拿淘宝或者天猫来讲,大家知道我们平常用的是淘宝,大家可以买东西,上面有商家,中间有一层被隐藏的环节就是整个淘宝里面有第三方的开发商,它基于套房开放的API,快速构建商家的系统,从而做成完整的心态,最终这种生态是通过什么构建的,我把整个电商领域的核心业务能力,比如说商品的能力、交易的能力、店铺的能力,通过能力开放平台开放给第三方,第三方开素构建业务应用,从而支撑到真正的商品的商家,在整个阿里电商上面有大概十五万SB,上面制成两百万的商家系统,我们认为将来的社会,一个企业的开放能力,企业所从事的能力开放出去,也是企业对社会的价值。最终的目标是你要把这些能力开放出去,能力开放的时候,第一点需要把这些共享能力沉淀出来,从而你才有一些东西开放出去,另外就是说,因为你把能力开放出去以后,有可能你将来面临着海量的访问。能力开放、互联互通是互联网非常重要的特征。

我们讲互联网的分布式核心架构的核心理念,第一个是应用线性扩展能力。第二个就是高可靠融错能力,我们是用廉价的X86构建系统,一个X86系统一天坏一两台物理服务器的几率会大很多,怎么保证出现问题我的业务不受影响,就是要有高可靠的容错能力。第三点就是数据库的运营能力,我希望有一个手段或者工具让我的系统能完整知道系统的运行状态。能支持大规模的分布式服务框架,我今天把系统开放以后,这种调用的连链路压力会非常大,我怎么保证性能没有问题。最后一点,敏捷的快速创新能力,这是互联网的分布式架构核心理念。最终就是说,我们认为构建一个互联网的分布式核心架构,第一点就是云化应用架构,IAAS不能真正解决应用的弹性,也不能解决应用的资源池塘构建,你需要通过云化应用架构。第二点形成能力中心,真正把你从事行业的这些核心能力沉淀出来,从而做成一个厚厚的平台,从而支撑你上面的业务应用和新的这种业务形态。第三点就是说我们现在也知道移动端的发展可能将来更多的这种应用会通过无线手机端来接触,要支持移动互联的发展。还有应用的无限可能,异地多活,才能保证业务的连续性。

其实尊重互联网核心架构的核心价值围绕着几个方面,敏捷、弹性、安全、共享、业务连续和高效运维。我怎么通过高效的弹性能力、敏捷能力、共享、快速制成运维,这是互联网核心的价值。

其实后面我会快速过一下阿里的互联网分布式核心架构的产品介绍,里面主要是讲能力,或者是它的一些关键点。第一个就是我们刚才讲沉淀的产品有五个,一个是EDAS,主要围绕几个领域,服务化、应用生命周期管理,我们讲完全的IT系统,除了有稳定的运行环境以外,必须有完整的运维环境,从而去帮助客户降低运维成本,提高运维的效率,从而提高业务的连续性,包括立体化的监控,包括面向互联网的运维管控能力,比如像容量规划,这些能力都是我们整个平台可以提供的能力。第一点我们讲服务化,服务化里面更多关注线性扩展,包括服务的有效治理,高效的服务监控,这是整个平台可以做的,对于业务来讲,对于应用来讲,你只要关注你业务层的开发,后面很多东西会自动帮你去做。

第二我们讲软负载,最终我交易去掉帐务系统调用,动作服务注册中心做这个事情,服务注册中心会向它推送,最后是点对点的通讯。它是去中心化的架构,最终是业务跟它是点对点,而不是通过这样的总线架构去做。其实还有一个就是服务的弹性支撑我今天能够快速做到,比如我的订单去查明晰,我发现两台机器不够,我只需要加一台机器,通过注册中心就会把相应的信息推送给前面的调用,从而实现快速的水平扩展,和快速的荣错,这个过程中不需要做任何的配置变更,只需要加机器。其实还有容错,我津亭有一个机器坏掉,我会自动感觉到,我把请求打开到可用的机器上来。还有一个讲整个的链路跟踪,这是完整的下单过程,我会把整个的调动链路跟踪出来,比如它调哪些服务,每个服务是否正常,这样我能够快速地定位出,如果发现我整个的下单链路有问题,我能开素定位。应用生命周期管理,是从创建部署、启动、扩容、下线等做到快速的发布。还有一个就是面向互联网的特点,就是限流降级,包括大家在双十一当天,零点下单,大家会发现想要去忙,其实是在做限流,保证后面的业务不被打死,所以我要去做限修,包括做降级,比如我今天积分系统挂了,但是我希望把这个系统刨除掉。还有一个就是弹性伸缩,我只需要去快速地设定一些预值,真正应用的弹性,把容量打到相应的机器上来,快速应对有访问红分的场景。

第二个产品是DRDS,它是架在中间的数据旅游的中间件,它兼容SQL语法,它可以挂更多的数据库实力,包括做快速的弹性拓展。它的特点就是读写分离、弹性扩容,面向分布式系统必然有一些不同维度的查询,我必然会有小表广播和异步索引。还有就是完整的系统运维是非常重要的环节,对SQL的运行状况有一些工具,对你SQL的优化,SQL的执行计划的运行情况提出建议,从而去优化这种SQL的语具,从而提高性能。还有一个产品就是说我们叫MQ,更多通过消息中间件提高异步和吞吐量。把大事务拆解成小事务的环节,更多的还有优秀的堆积能力,其实有很多MQ当它堆积到一定能力以后,它前端的生产,后端的消费就会有线性的下降,我们的系统要保证水平的投递性能。还有两个产品,一个是我将来把这个能力要开放出去的时候,我需要一个能力开放平台,能力开放平台就是我针对这种服务的计费、分享、管理,让第三方做适度的数据做转换,包括内部的协议做转换。还有就是面向互联网,比如说大家要做实时大屏,通过数据的抓取,比如有自己写的日志,快速把日志收集起来,做处理,来进行展现。我们的特点就是通过任务编排能够自动生成后面的任务,你不需要自己去写,我可以通过这种前端的编排方式,快速地去生成这些任务,有一个图形化的展现,这是我们做业务的实时监控。

这些所有的产品更多的都是我们整个阿里双十一,或者是十年互联网的沉淀,包括阿里云,包括金融云,包括我们也面向整个的专有云做输出做方案。

最后一个讲案例,金融领域有一些客户,基本上都是说像银行更多像网络金融,就是说传统的比如网银,前端的电商系统通过改造,应对新业务的创新能力,我们也帮助客户去构建这样一个平台,让它真正做一个面向互联网的业务转型的IT架构的转型。

我分享的内容就这些,谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-01 08:43:57
国内资讯 上半年我国规上互联网企业完成收入6433亿元,同比增长2.6%
7月31日,工信部官网公布了2023年上半年互联网和相关服务业运行情况。总体来看,上半年,互联网业务收入保持小幅增长,利润总额增幅维持较高水平。 <详情>
2023-05-30 08:59:59
互联网 信通院发布《2023年一季度我国互联网上市企业运行情况》研究报告
日前,中国信息通信研究院政策与经济研究所互联网运行分析团队发布了《2023年一季度我国互联网上市企业运行情况》报告。 <详情>
2023-04-17 17:23:00
市场情报 信息技术赋能国际数据流通 “数据空间论坛暨汽车数据流通研讨会”成功举办
由下一代互联网国家工程中心(CFIEC)和国际数据空间协会(IDSA)共同主办的“国际数据流通技术高峰会议-数据空间论坛暨汽车数据流通研讨会” 4月14日下午在北京成功举办 <详情>
2022-12-28 11:40:00
2022-11-23 11:23:00
互联网 首本《互联网平台企业社会责任蓝皮书》在京发布,滴滴、拼多多、小红书等19家企业得分低于20分,仍在旁观
首本《互联网平台企业社会责任蓝皮书》在京发布,三家企业达到四星级水平,社会责任发展指数前十名企业“出炉”。 <详情>