奇虎360胡振勇：云时代的运维安全_IDC国内资讯

中国IDC圈1月12日，2015年1月7-9日，第九届中国IDC产业年度大典（IDCC2014）（http://www.idcquan.com/Special/idcc2014/live/）在北京国家会议中心隆重举行。本次大会由工信部通信发展司、中国信息通信研究院（工信部电信研究院）、云计算发展与政策论坛、数据中心联盟指导，中国IDC产业年度大典组委会主办，中国IDC圈承办，作为国内IDC行业规模大、具权威性和影响力的盛会，此次大会再创辉煌，三天的会议参会人数超过8000人次。

从1月7日到9日连续三天，工信部相关领导、IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂，以"大变革新生态"为主题煮酒论道。其中奇虎360企业安全技术总监胡振勇应邀出席本次大会并发表了"云时代的运维安全"的演讲。

奇虎360企业安全技术总监胡振勇

以下为胡振勇演讲实录：

胡振勇：说到运维先说一下运维和开发的区别，在网上找了两张图，左边这个图是屌丝男士，这是典型的评测员的形象，右边是精壮的男人是在机房里面跪求服务器不要出问题。软件工程师是什么？可以理解成汽车设计师，设计了软件功能、软件性、可维护性，设计模式、模块化设计等。运维工程师是什么？开发软件，完成特定的任务，可以理解成汽车驾驶员，在平台上跑需要什么资源？CPU、内存、硬盘、网络等等。关心程序Crash，什么时候资源不够了，机房停电、机房屋顶漏雨了等等都需要考虑。

运维工程师不是修电脑的，运维不是修机器的，更多是指信息化，信息化在各行各业中的比重越来越大，信息化带来收入，2014年火热的词O2O，能够创造新的利润增长点。

谈信息化其实就是信息化的ROI-投入产出比，投入产出更多的是降低信息化的成本；第二个提高信息化的效率。从这两点来看，今天主要讲运维自动化，通过运维自动化减少人员投入，今天大概有四个方向跟大家谈一下。一个是部署自动化，为了提高我们上线的效率，我2009年进入360个时候，那会儿360服务器不到三千台，发展到今天七万多台服务器，我们每年新增服务器都是历史综合还要多一些，所以我们在发展过程中从刚开始一台一服务器安装操作系统，发展到后来我们现在属于批量自动安装，我们现在服务器由厂家工程师就是请得农民工把服务器放到机架上接好网线，然后插上电源线打开电源，这个事情结束了。我们所有人员在远程，因为厂家会把服务器Map地址给我们，Map地址和对应的资源号，我们给每个机器分配机器，拿出一张表，上传到一套系统里面去，在机房里面有安装员服务器，所有服务器自动把系统安装好，操作系统自动安装好了。业务软件这块儿，我们也通过自己的业务定制软件，比如说我们用的Nginx、Mysql有自己的定制，包括Uscerlou有定制，统一通过样品配置可以升级了。另外业务可以实现自动上线，把业务软件部署好之后，只需要把服务器加到某一个特定的资源集群里，这个资源集群为业务提供服务的自动配置完成。

后面讲的监控自动化，比如我们搞运维的人关心业务的连续性，如果业务老是宕机被开掉的第一个是干运维的人，所以我们现在第一个首先要做新业务上线自动发现，因为大家知道有很多程序员会不自主的上线新版本，这块儿我们要通过有机制发现某些业务没有通过安全检查，我们360规定所有业务上线都有安全检查机制。另外对服务有效性的监控，我们以业务为视图的，我们最开始360用监控软件用的是Captol和Labols，这个大家在座很多人都知道，但是我们后来发现不太适合，大家知道Captol以机器为基础加的，以机器为单位加的时候到最后查业务的机器状态，根据业务先找对应服务器的IP，IP再去搜，这个很痛苦，后来我们经过很长时间的折磨之后决定自己开发系统，直接按照自己设定业务模式，以业务为视图进行监控。同样包括资源监控，像CPU、内存、磁盘IO.这些都是按照业务监控，这样以来业务很清晰，关心业务服务状况，很容易看得到。

再讲管理自动化，提高服务质量，大家应该想到新服务器上线以后，我还需要加一大堆的模板，需要去加监控，配制一堆的东西很繁琐，我们应用系统自动上线，操作系统是我们自己定制的，这里面基础监控可以起来了，这个时候我们把基本监控系统加进去了，而且服务器分配出去的时候已经在系统里面设定了哪个业务，管理人员是谁？业务部门是谁？另外还有业务变更的批量化，比如我们现在在每台服务器上安装了自己开发的小Agent，每一台服务器有一个Agent，连接到我们中心控制集群，这个控制集群来管理这几万台服务器，然后我们有任何需要执行的命令，某一批服务器上执行的命令通过统一的控制平台下发下去，我们可以实现版本更新批量化、业务调整批量化。现在在后台做管理，按照配置全部的东西通过版本控制，包括我们甚至可以做一些业务按需扩容，我们通过监控，已经把每个资源使用情况监控起来了，知道这个CPU内存不够了，数据库集群，这个时候增加服务器都可以体现。

讲应急的自动化，不光是安全事故还有网络故障，应急流程的制定，每一个应急的流程背后都对应着事故，通过教训的积累准备一些预案，从事故发生、原因总结、故障监控、制定预案，处理预案，再发生事故这套系统会不停的叠加下去。一个是我们好几万服务器进行管理，帐号怎么管？来了新员工，有一个新员工管几百台服务器，另外一个新员工是到部门运维的，管上万台服务器，这个时候加新帐号是非常困难的，全国四十多个城市有机房，这些城市之间的机房我们之前曾经考虑过用Ldap驱动，比如我们把Ldap中心服务器放到哪儿都是问题，后来我们考虑用Esbak脚本，加一个帐号要24个小时，这个也没有办法理解。

同样的道理删掉离职员工的帐号比较麻烦，这个后来我们解决了。包括去年发生过两次比较重大的漏洞事件，一个是ssh补丁，还有一个Nginx补丁，当时老板要求一夜之内把这些处理完，不允许过夜处理，实际上远程部署方式把所有东西推下去，几个小时解决了。

这是另外一个例子，Windows漏洞，微软每月第二个周二，对应中国第二个周三对Windows版本发布一堆补丁，360卫士会有修复补丁，是周二晚上发布的，那会儿大家都在睡觉，等第二天早上上班的时候，开电脑所有的人同时下补丁的时候突发带宽2000G.所以我们也通过预订的方式，预订一天，我们通过和CDN、视频公司合作，买他们临时带宽。正常是加CDN只能加一个，我们支持按比例划分，按地区划分，这个都可以灵活调整的。

另外讲运维系统选择，更多是合适的更重要。并非一定要使用最流行的技术，很多代码是机遇传统的，最重要是拿稳定有效的方案。运维不是刚开发的，运维稳健一点比较好。另外拿来主义，不要自己单干，造汽车的人不用自己造轮子不自己炼钢铁，专业的事情交给专业的人来做，可能成本更低。系统设计的松耦合，不要把多个系统设计的关联太紧，通过API调用而不是数据调用。

运维系统的建设，实用主义，不一定做到好。95分到99分，需要付出的代价可能远超60分到95分，软件一定追求最新的版本，一定会疲惫不堪。

控制好预算，首先要考虑清楚信息化生产的关系，这块儿按照自己的体量去做比较合适一点。如果足够有钱自己做操作系统完也没问题。

说安全，边界安全是否足够？有可能说我在公司里面放一个防火墙就安全了，回答肯定不是，从安全来说除了100分就是0分，我们往往把门堵死了黑客活动从窗户爬了进来。不妨换一个角度，如果我是黑客我会怎么黑掉这个系统。这是一张图，大家都玩过，植物大战僵尸，有各种各样的僵尸，但是这里面不同的攻击方式有特定的方式去防护，单纯一种或者几种安全设备无法解决所有的安全问题，其实你可能在某个环节上没有设防，其他防护即形同虚设。安全不是简单的安全设备堆砌，安全没有一劳永逸的解决方案，安全方案需要更新的。

比如360我们做安全有四个假设，假设一切都是靠不住的。我们有四种安全理念，系统中一定存在未发现的漏洞，如果在座做安全肯定知道；系统中一定存在有未修复的漏洞，比如说Nginx出一个新的补丁，后面运维的人马上把补丁上去，肯定上不去，上去了业务系统马上崩溃掉了。另外系统中一定存在后门，如果你系统曾经被人入侵过，你敢保证这个系统有哪些后门，所有后门你都找到了吗？这个不可能。另外还有一个员工不一定可靠，有时候也搞不清楚哪个员工，曾经有些安全厂商出现过员工被人买通的情况。

安全的话题很多，我们提出基于大数据分析的安全防护，跟过去讲的防火墙理论不太一样。我们首先看一个安全事故怎么处理？首先发现可疑事件，第一个做溯源，要看黑客怎么进来？什么时间进来的？第二关联分析，攻击了我还攻击了谁？另外通过攻击者有没有攻击其他人。具体的手段是什么？一句话总结全流量侦听，所有网络流量侦听，把所有网络流量全部记录下来，传输的文件，访问的URL、服务器打开过的URL，数据库访问、还原和分析。一旦发生安全事件马上溯源，发现哪台机器中招了，某一个员工电脑上出现了木马病毒，根据病毒找出样本，通过原复件进来的还是打开了哪个网页，这个可以看到。另外可以做关联分析，比如说服务器被入侵了，入侵者从哪几个跳板机过来的？另外安全检测也不再是基于一个个独立的请求进行检测，类似于看防火墙日志，是一个一个告警，告诉你这里有一个中微告警、严重告警，看了这个有什么意义？一大堆的信息，一天上万条日志你肯定做不起来，我们通过大数据把这些东西关联起来，关联起来之后变成一系列事件，我们拉出一个时间轴，在这个时间轴上这个黑客一月一号，一月十号干了什么事？其实这从侦查的角度来看是并案处理。

另外在360内部终端的安全防护上，终端有两种办公电脑和服务器，在办公电脑上实现所有白名单机制，首先电脑上每个人装了360安全卫士企业版，你电脑上运行的程序是我认可的，否则你一定不能运行，这样完全做到任何一个未知文件的预警，哪怕下载机下载下来也运营不起来。第二服务器上所有代码的更新，我们在每个服务器上有个程序监控，任何一个文件发生变化了，这个文件马上会传到其他服务器上去，另外服务器进行测试、分析。所有的运维人员不管是什么，只要在服务器运行的命令一定是实时远程备份和审计，你要执行一个文件，这种高敏感的东西马上有审计，那边有人员报警。

给大家看一下结果。这边我在360管一个产品叫网站卫士，首先从大数据，网站卫士攻击记录里面拿到的，五分钟会出哪个IP打了我们哪个服务器，攻击了多少次数，右边有，但是比较小，排在第一个是北京的IP.安全周报，这里面可以看到每天攻击量在两三百万之间，攻击的类型可以看到，包括哪些网站容易被打，哪些IP在白天攻击。这种我们就直接拉黑了。Web攻击的类型，集中攻PRP文件，Web攻击的方式大部分是挂D-docs脚本，第二个是扫漏洞的东西。这个也可以看到，Web攻击源的全国分布，包括CC攻击源的分布，这个可能看起来不太一样。

最后一点，我们还能做点儿什么？我这里面陈列了两个，IP黑白名单，出现攻击了拦截所有黑名单，包括URL白名单，这里面有考虑过，因为我们做Web防护，学习到网站的URL规则，访问模型，知道你网站，第一个参数第二个参数是什么，每个参数的名字，值是什么？这个可以知道，如果可以把这个学习到，凡是不符合匹配的一律拦截。这种方式任何人会达到不同的效率，大家如果做安全的知道这个方式，今天的分享就这么多，谢谢大家。