etcd 在超大规模数据场景下的性能优化

阿里云云栖号发布时间：2019-05-15 10:55:47 ，浏览量：4

概述

etcd是一个开源的分布式的kv存储系统, 最近刚被cncf列为沙箱孵化项目。etcd的应用场景很广，很多地方都用到了它，例如kubernetes就用它作为集群内部存储元信息的账本。本篇文章首先介绍我们优化的背景，为什么我们要进行优化, 之后介绍etcd内部存储系统的工作方式，之后介绍本次具体的实现方式及最后的优化效果。

优化背景

由于阿里巴巴内部集群规模大，所以对etcd的数据存储容量有特殊需求，之前的etcd支持的存储大小无法满足要求，因此我们开发了基于etcd proxy的解决方案，将数据转储到了tair中(可类比redis))。这种方案虽然解决了数据存储容量的问题，但是弊端也是比较明显的，由于proxy需要将数据进行搬移，因此操作的延时比原生存储大了很多。除此之外，由于多了tair这个组件，运维和管理成本较高。因此我们就想到底是什么原因限制了etcd的存储容量，我们是否可以通过技术手段优化解决呢？

提出了如上问题后我们首先进行了压力测试不停地像etcd中注入数据，当etcd存储数据量超过40GB后，经过一次compact(compact是etcd将不需要的历史版本数据删除的操作)后发现put操作的延时激增，很多操作还出现了超时。监控发现boltdb内部spill操作(具体定义见下文)耗时显著增加(从一般的1ms左右激增到了8s)。之后经过反复多次压测都是如此，每次发生compact后，就像世界发生了停止，所有etcd读写操作延时比正常值高了几百倍，根本无法使用。

etcd内部存储工作原理

etcd存储层可以看成由两部分组成，一层在内存中的基于btree的索引层，一层基于boltdb的磁盘存储层。这里我们重点介绍底层boltdb层，因为和本次优化相关，其他可参考上文。

etcd中使用boltdb作为最底层持久化kv数据库，boltdb的介绍如下:

Bolt was originally a port of LMDB so it is architecturally similar. 
Both use a B+tree, have ACID semantics with fully serializable transactions, and support lock-free MVCC using a single writer and multiple readers.
Bolt is a relatively small code base (

关注

打赏

1688896170

查看更多评论

etcd 在超大规模数据场景下的性能优化

[ 申请 ]友情链接：