凌云时刻 · 技术
导读:本期为“玩转 ECS”系列第 7 讲,由阿里云智能弹性计算专家余初武(悟元)介绍云上环境如何做数据备份的最佳实践。
嘉宾 | 余初武
整理 | 贾子甲
来源 | 凌云时刻(微信号:linuxpk)
前言
近期,“凌云时刻”特别推出“阿里云玩转 ECS”系列课程,每周二、周四准时更新,欢迎关注。点击文末“阅读原文”可查看本系列所有已发布内容。
本文中,阿里云智能弹性计算专家余初武(悟元)将结合阿里云近期推出的数据备份新特性(快照极速备份、一致性快照组)来介绍云上环境如何做数据备份的最佳实践,适合需要构建云上架构的工程师,架构师和云上实施从业人员收看。
关键词:极速备份、崩溃一致性、异地备份
余初武(悟元),阿里云技术专家,2011 年加入阿里巴巴,一直从事服务端研发工作;2015 年加入阿里云 ECS 团队,在 ECS 管控、云盘、快照等多个管控领域有丰富的研发经验。
以下内容根据演讲视频以及 PPT 整理而成。
本次分享主要围绕以下三个方面:
一、快照极速可用特性
二、一致性快照组
三、总结与思考
数据是企业重要资产,作为存储数据的介质,IT 设施发生问题是不可避免的,人为误操作或者程序 bug 导致数据丢失的情况也偶有发生。因此,每一个企业都应该做好数据备份,保证数据的安全与业务的可用。
为了提升备份与同步的性能,阿里云推出了快照极速可用特性和一致性快照组,为了客户提供更高性能的数据备份功能。
本文将重点介绍如何利用这两个新特性以及阿里云提供的各种运维部署工具,便捷地完成云上自建数据库的数据备份的两个最佳实践。
第一个是自建数据库的磁盘扩容场景,适用于大多数的企业;第二个则是使用了多磁盘自建数据库的场景,则更多见于大型复杂的业务。
极速可用特性
——秒级,非一致性数据备份
阿里云 ECS 的极速可用特性主要包括四个方面,分别是快照秒级可用、云盘回滚性能 0 损失、ESSD 增值特性以及全地域支持等。阿里云 ECS 极速可用特性的典型使用场景包括快速搭建研发测试环境;业务关键配置的变更保护,实现秒级备份相关磁盘数据;云盘极速回滚,并实现回滚的磁盘性能无损耗。
基于极速可用的特性,用户仅需要几秒钟的时间就可以复制出一个新磁盘。
这一过程也非常简单,首先创建一个带极速可用特性的快照,关键参数的设置如下图所示,主要包括 InstantAccess 和 InstantAccessRetentionDays,前者设置为 True 就可以设置成为极速可用的快照,后者则是极速可用特性的保留天数,可以让这特性到期之后就会自动被关闭。当快照创建完成(极速可用特性开启的情况下,不需要等快照进度完成)之后,就能够快速创建磁盘并立即挂载使用。
在这样的情况下,最直接能想到的解决方案是纯人工方式。
首先,对于需要扩容的磁盘打好一个普通快照,这个过程一般都比较慢,往往需要几分钟、几小时以及几天不等的时间。
其次,需要人工登录到控制台对磁盘进行在线扩容。
再次,要登录到实例内部找到相应的磁盘进行扩展分区以及文件系统等各种命令的操作,而这些命令往往是非常复杂的,也是非常容易出错的。
这一方案的缺点十分明显,那就是耗时很久,平均需要 1 到 2 小时,而且很容易出错。
而目前阿里云推荐的最佳解决方案是将上述过程全部通过编码实现自动化,做成 OOS(运维编排,Operation Orchestration Service)的模板,通过 OOS 模块实现一键扩容,完成上述方案的全部过程。
这种方案的使用方式就非常简单了,用户可以直接进入到 OOS 控制台,找到相应的模板并创建一个相应的执行即可,整个过程只需要几十秒就可以完成,而且可以进一步优化至十几秒。
接下来对于刚才提到的 OOS 一键扩容的关键技术内幕进行讲解。
其实在该方案背后主要包括三个关键技术,分别是:快照的极速可用特性、通过云助手执行扩展分区的命令以及磁盘的序列号。
这里值得注意的是通过云助手执行扩展分区命令时,我们无法知道具体扩展的是哪一块磁盘,因此才需要磁盘的序列号。
磁盘序列号这一特性目前在公有云 ECS 上也已经上线了,用户通过 DescribeDisks 就可以返回磁盘序列号 SerialNumber,之后通过云助手将磁盘序列号传递给 GuestOS 内部的脚本,而 GuestOS 内部的脚本则可以通过 udevadm info 这串命令获取任意一块磁盘已挂载设备的序列号,这个序列号与 DescribeDisks 返回的序列号是完全一致的,而且从磁盘诞生之后,序列号就不会再发生任何改变,因此可以作为磁盘在 GuestOS 内部的唯一标识,并且与 OpenABI 的接口实现唯一关联。
这样才能帮助我们准确无误地找到需要扩展的磁盘去执行相应的命令。同时,因为 ECS 具有快照极速可用特性,秒级地打出了一个数据备份,一旦发生任何意外,还可以通过快照实现秒级回滚,基本可以做到万无一失地实现自动扩容过程。
一致性快照组
——崩溃一致性数据备份
介绍完快照极速可用特性,我们继续跟大家分享下一致性快照组。
一致性快照组的主要特点主要包括四点:即多云盘 IO 写入一致性、ESSD 云盘增值特性、实例级别保护以及功能免费。
适用的场景主要有三种:
第一种场景,企业上云的时候可以实现实例级别整机的保护和备份。
第二种场景,自建数据库特别是跨多云盘自建数据的模式下,一定要使用一致性快照来备份。
第三种场景是 SAP HANA 的整机一致性保护,也需要用到一致性快照。
这里要介绍的案例是自建数据库时使用了多数据盘,这样的做法主要是为了将数据库常见的日志和数据拆分到独立的云盘上去,使得整个数据库的性能和稳定性都能够得到较大的提升,同时实现日志和数据的读写隔离。
在这种情况下,一旦需要拆分就会遇到两块磁盘上数据存在强关联关系的问题。熟悉数据库的同学都知道,任何一次写操作都会先进行日志操作,日志写完之后再去修改真正的数据,当数据写入完成之后再回来修改日志,比如像 MySQL 的 Redo 日志等。
可见,日志和数据存在强依赖逻辑关系,此时如果打普通快照,那么存在任何一点点时差都会导致写入数据在两块磁盘上存在不一致的问题,此时就必须要用到一致性快照,实现崩溃一致性的数据备份。
对于这样的案例场景,阿里云也提供了最佳实践,也就是使用 ROS(资源编排,Resource Orchestration Service)。
该方案的基本过程就是将上述理念通过 ROS 实现模板化,通过 ROS 创建完全一样的数据库系统。方案关键点在于创建两块独立的数据盘,一块放数据,另外一块放日志,同时对于两块数据盘赋予系统的数据库快照策略 Auto Snapshot Policy,并定期地对于两块盘进行数据备份,并且使用一致性快照进行备份,避免出现废弃数据的问题。
总结与思考
以上的案例都是基于自建数据库的,这两个案例的关键点在于多数据盘和自动扩容磁盘。
将上述两个案例进行串联才能够看到真实的使用场景,也就是先用 ROS 固化上述提到的最佳实践过程,也就是实现多数据盘,即日志盘和数据盘的隔离,并且使用自动快照的策略定期地打一致性快照。
与此同时,配上云监控就能够在磁盘空间不足的时候,及时报警,此时在通过 OOS 一键扩容实现磁盘的自动扩容。
当然,这个过程还可以更进一步优化,在 OOS 控制台配置相应的云监控项目,当收到监控项报警之后自动触发 OOS 运行和扩容的模板进行一键扩容,真正地实现自动扩容,也就是所谓“无人值守”。
对于本次介绍的新特性进行总结,本次主要介绍了极速可用和一致性快照两个新特性,这两个新特性很快就会上线供大家使用。
对于极速可用特性而言,建议结合 OOS、云助手来磁盘或者其他场景的自动运维实践。如果要对云盘进行操作或者自动化运维则需要使用磁盘序列号在 GuestOS 内部唯一地标识一块磁盘,这样才能做到准确无误。一致性快照则是在 MySQL 这种多盘场景下才会使用,主要用来实现奔溃一致性备份。
本次分享到此结束,感兴趣的同学可持续关注和学习云上环境数据保护最佳实践。
END
往期精彩文章回顾
浅谈原子操作
弹性计算 Region 化部署和跨可用区容灾介绍
6 岁!是时候重新认识下 Serverless 了
饿了么技术往事(下)
IDC发布2020上半年SD-WAN报告:阿里云领跑国内服务市场
Serverless 在编程教育中的实践
弹性计算安全组最佳实践及新特性介绍
何万青:直呼其名——我与中国计算机学会十年命运交织
基于弹性计算网络能力提升容器密度最佳实践
申通完美支撑“双11”亿级包裹背后的云基础设施
长按扫描二维码关注凌云时刻
每日收获前沿技术与科技洞见