京东云李道兵：对象存储的新挑战_IDC国内资讯

2018年3月21-22日，由中国信息通信研究院主办、中国通信标准化协会支持的"OSCAR云计算开源产业大会"在国家会议中心举行。

随着云计算技术的日益发展，并开始进入“深水区”，开源技术与云计算融合的程度进一步加深，并开始成为产业发展的重要支撑。"OSCAR云计算开源产业大会"将邀请行业内多位大咖与权重人物共同探讨、交流云计算开源技术、研发、治理、产业化方面的经验，探索开源与云计算的创新发展新路径。

京东云高级总监李道兵出席了会议并发表主题演讲，他的演讲主题是《对象存储的新挑战》。

李道兵

以下为演讲实录：

李道兵：大家好，我是京东云的李道兵。今天我想与大家分享的是对象存储近来的趋势，以及未来几年时间我们大概能看到的比较新的东西。

首先，我们看一下过去几年对象存储的数据量趋势。从2013年起，对象存储的总量已经超过结构化数据，在接下来几年，结构化数据的量没有大的增长，大概是很平稳的缓慢增长的趋势，而对象存储则是一个爆发性增长趋势。爆发性增长究竟来自于哪？大量增长来自于UGC的内容，而这些UGC内容为什么大规模爆发式增长呢？有以下几点可以说明。

第一个点，全球性带宽容量增长和带宽价格下降。中国在五年之前移动还是2G时代，联通、电信3G时代，现在4G时代，以前每月流量包200兆水平，现在几乎每个人都是几G水平，家庭带宽从2兆、5兆到百兆，这是中国的情况。而世界的情况，比如印度和非洲，大量移动设备的引入，这些都造成了大量带宽的大幅度增长。带宽大幅增长带来的就是UGC内容的增长。

第二个点，大量新的交流媒介的诞生，最早的是文字、短信、QQ、微信文字版，接下来通过微信平台开始发图片，慢慢从图片再到视频，视频再到直播。我们也看到，现在大量的像快手、陌陌、美拍视频直播平台诞生，这里隐含的是消费升级是不可逆的。你现在再回到之前的时代，不允许发图片，不允许在朋友圈炫耀这个小孩多么可爱，你会受不了，你不会接受那个结果。

第三个点，我们看到大量的企业，富媒体企业，已经从中成功探索赢利模式，比如美图已经成功在香港上海，陌陌在美国上市，快手差不多现在成为中国流量大企业之一，尽管没有上市，整个估值是非常高的。这些都可以看到，在富媒体驱动下大规模的增长。

另外一个好消息，今年我们能够看到，家庭宽带、企业宽带还要继续往下降，这就意味着，这个方面的增长趋势还能继续延续一波。这方面我们能看到一些新的点，AI的引入，在之前，最早我们只是对数据库进行处理，接下来在我们能对文字进行处理之后，就诞生了像Google、百度这样的基于搜索引擎的巨无霸企业，接下来通过AI的引入，我们逐步获得通过图片、视频的分析能力，未来能够带来什么我们还不大看得清，但至少我觉得在未来我们能看到很大的企业基于图片和视频，通过里面的资源挖掘能力，从而变成一个超级巨无霸的公司。AI是一个强有力的工具，能让很多公司的富媒体数据，从成本变成资产，很多银行之前有很多传统票据，这些票据他们做大量的拍照，藏着。随着AI增强的OCR技术的引入，这些票据可以全部数字化。法院以前大量判决书也是靠图片存着，现在变成大量的司法文本语料。我们可以看到，富媒体数据的价值在逐步增加。

所以说，在对象存储方面，富媒体的增量未来仍然非常乐观。

在未来，究竟还有什么趋势呢？对于我来讲，看到更多的是两个点。第一个点，半结构化数据大量流入。第二个点，SSD逐步取代HDD.半结构化是什么？常规放在数据库的称为结构化数据，放在以图片、音频、视频存储的东西我们称为非结构化数据，而中间的一些类日志的海量数据则是半结构化数据，半结构化数据量为什么会急速增加呢？首先是IoT，家庭里各种各样的传感器，穿在身上的传感器，这些传感器都会产生大量数据，这些数据如何产生价值？肯定要保存起来，做大量的分析，从这里面产生有价值的数据。这样的话就会导致你需要保存的数据量大规模增加。第二个是自动驾驶，自动驾驶行业是一个巨无霸行业，它产生的价值是什么，它能帮整个世界节省数千万人年。这样有价值的行业它依赖的更多是我们从大量驾驶数据，从里面提取我们未来能够做决策的依据，这些东西是半结构化数据的量。第三个是精细化运营，几年前的互联网市场，容量很大，大家都能迅速扩张的时候，不需要精细化运营。但是现在进入了互联网下半场，互联网下半场每个企业都面临你赚的钱和你的获客成本究竟谁大的问题，要赚钱，就需要你做大量精细化运营工作。不管是降低你的获客成本。还是从单个客户挖掘出更大的利润价值，更多还是从对用户行为进行分析来获得这方面价值。这就带来了大量保存用户行为数据，分析行为数据的需求。

我们可以看到，现在保存半结构化数据存储方式还非常原始，而这些原始方式可能不会满足在未来的一些需求。比如说，现在大量数据还放在HDFS、elastic search，TSDB或者InfluxDB等时序数据库，容量非常有限，老数据必须搬迁到存储，查询老数据的时候又不得不搬回来，这个问题也很难解决。那么能否考虑，我们能不能把大量计算往存储上引呢，对于存储来讲它需要做的是什么？回到刚才的问题，我们大部分情况下要做的计算其实不仅仅是MapReduce，更精确的是FilterMapReduce，从海量数据里面先进行过滤，然后在做MapReduce计算。那么就可以简单的做些优化，这个优化就是指我们用对象存储作为半结构化数据的存储池，然后我们在存储里面完成filter操作，把filter结果拿到计算引擎去做。这样的话可以解决刚才很多问题，你的计算引擎支撑不了这么大量的数据，这个时候通过filter存储承担大量数据的操作。从这个角度上讲，对对象存储有一些挑战，但挑战并不大，之前我们只提供简单的PUT， GET.， DELETE接口，现在我们只需要在原始接口上加入filter相关接口就可以了。AWS S3已经提供了S3 select这类的服务，能够帮助我们实现我们想要的功能。

SSD未来对HDD的冲击，现在对象存储大部分是基于传统的磁盘，在2U空间放下12块硬盘，一块盘8TB或者10TB，这个图是SSD的价格变化曲线图，下面的红线是HDD传统硬盘价格变化曲线，蓝色线和紫色线都是两种SSD价格变化趋势。从这里可以看到，在不远的未来，我们可以看到SSD价格可能低于HDD，当然，现在说这个话时机有点不太合适，因为最近SSD和内存正在拼命涨价，大家可能不以为然，但未来三到五年这个东西可能变成现实。另外一个报告预测企业市场SSD空间占有率，比如2020年左右，大概能够占到15%. SSD究竟能够给我们带来什么好处呢？第一个，单位机架容量。传统HDD时代，平均每U大概能放90TB，SSD时代每U可以简单放下1000TB，我的存储容量单位提升10倍，我在一个机柜空间，或者一个机房里存储容量直接上升一个数量级。第二个是功耗。传统HDD功耗每TB需要1.5瓦的水平，SDD能够降到0.2瓦的水平，从环保和节省机架费用的角度，我们能够降一个数量级。第三个是IOPS.不说了，折合单位容量差了将近30倍左右，传输速率是5左右，唯一差别就是价格。如果价格不再成为问题的情况下，SSD能够给我们带来更加海量的存储，而且只需要更小的体积。

在新的SSD模型上面会不会有新的问题呢？这是一个1U 1PB的SSD存储服务器。这里面带来一个大的问题。每个SSD能提供500MB/s的吞吐，30个SSD提供15GB/s的吞吐，网卡的瓶颈可以用filter来解决，我们从磁盘读取了15GB/s 的数据，但不用向网卡吐那么多数据，只把需要的数据吐出去。但15GB/s远超过CPU的处理能力，即使是顶尖的E5双路CPU也不能满足需求，更何况这样的CPU实在是太贵了。有没有可能我们把计算能力进一步下沉，下沉到SSD里面去呢，SSD为了实现自己的调度算法，自带了计算芯片，我们能不能在芯片里做一些简单的处理，比如过滤、汇总等，这样Filter过程完全不用CPU参与，直接在SSD里就做完了，在新的SSD架构里面这个事情是非常有需求的一件事情。而且，我们也能得到额外的好处，比如半结构化数据可压缩性很强，这套框架也可以用于数据压缩，可以进一步在不影响使用的情况提高存储密度，同时不增加CPU的负担。从这个角度上讲，可以说是两端计算，对半结构化数据，我们拼命把计算往两边迁移，其中一侧我们往下推，推到服务器，再推到磁盘，推到SSD里面自己完成计算。另外一端，我们把汇总出来的数据往另外一侧推，类似spark这类的集中式计算引擎，这种对半结构化数据filter模型就比较方便，能够达到未来半结构化数据计算的需求。对于对象存储你需要做的改变也不太多，需要一套新的支持查询的API，一套查询语法规范（类似于SQL），还有就是对Spark等程序进行改造来支持这个规范。

我觉得对象存储在未来几年的蓬勃发展肯定没有问题，而且其中富媒体作用是主力，但是半结构化数据也会慢慢成长起来，慢慢逐步的可能会成为新的主流的数据存储需求，通过两端计算模型，能够更好的利用半结构化数据和存储的过程优势，把半结构化数据的价值充分发挥出来。我想讲的就是这些，谢谢大家！