企业的实时数据除了存储在大数据引擎中,还有很多非结构化的日志数据,通过阿里云的Elasticsearch,用全托管的方式提供低成本的冷热存储方案,轻松助力企业搭建统一的云上全观测运维监控平台,实现海量数据的实时监控分析,提高自动化运维管理效率。DataWorks数据集成提供了 “MySQL一键实时同步至Elasticsearch” 的解决方案,可以将MySQL中的数据库,通过一次性的简单配置,全增量一体化同步到Elasticsearch,达到数据实时落入ElasticSearch,实时可以用于分析的效果。如果您只需要将业务库数据离线全量或者增量搬迁到Elasticsearch中,也可以将MySQL数据库,通过一次性的简单配置,全增量一体化离线同步到Elasticsearch中。DataWorks数据集成采用自研高性能引擎,在相同的机器规格情况下,同步性能更高,价格更优惠!
方案简介本方案是整库全增量实时/离线同步 至Elasticsearch(目前支持的源数据库类型为MySQL,后续更多类型持续增加中)。在DataWorks数据集成界面下,单击 “一键实时同步至Elasticsearch” 新建同步任务,再通过完成“设置同步来源和规则”、“设置目标表”、“DDL消息处理规则”、“运行资源设置”这样4步简单的产品化配置,就可以将指定类型的数据库中全部表或者部分表的数据实时同步到Elasticsearch里。或者单击“整库离线同步至Elasticsearch”新建离线同步任务,再通过完成“设置同步来源和规则”、“设置目标索引”、“同步规则设置”、“运行资源设置”实现数据离线同步到Elasticsearch里。
适用场景“一键实时同步至Elasticsearch”适用于业务库需要保持业务数据库数据实时更新至ElasticSearch的场景,供上层应用做实时数据检索分析或者后续数据开发。“整库离线同步至Elasticsearch”适用于将业务库数据全量或者增量搬迁到Elasticsearch中。
优势特点整库级别同步:
- 不需要一个个建立表到索引的同步,支持以库为单位,选择其中所有表或者部分表进行同步
高效实时同步:
- 支持数据实时同步至ElasticSearch,灵活配置DDL规则
多种同步方式:
- 离线同步支持全量、增量以及全量和增量结合的方式,同时支持周期性调度设置
配置简单:
- 避开纷繁复杂的同步任务、建索引配字段、相互依赖、参数对齐等操作,只需简单的产品化的功能配置。
1.登录并进入"数据集成"页面,单击“一键实时同步至Elasticsearch”新建实时同步任务或者单击“整库离线同步至Elasticsearch”新建离线同步任务。
2.完成方案名称等基本信息配置。在基本配置区域,配置各项参数。
1.在数据来源区域,选择类型和数据源(仅支持选择MySQ类型的数据源)
2.在选择同步的源表区域,选中需要同步的源表 图标,将其移动至已选源表。
该区域会为您展示所选数据源下所有的表,您可以选择整库全表或部分表进行同步。
注意 如果选中的表没有主键,将无法进行实时同步。
3.在设置同步规则区域,单击添加规则,选择相应的规则进行添加。同步规则包括表名转换规则和目标表名规则:
- 表名转换规则:转换表名为目标表名,进行字符串替换。
- 目标表名规则:支持对转换后的表名添加前缀和后缀。
4.单击下一步。
步骤三:选择目标数据源并配置目标表格式1.在设置目标表/设置目标索引页面,选择目标**Elasticsearch数据源**。
2.单击刷新源表和**Elasticsearch索引映射**,创建需要同步的源表和目标Elasticsearch索引的映射关系。 3.查看任务的执行进度和表来源。
4.单击下一步。
步骤四:DDL消息处理规则/同步规则设置1.如果是“一键实时同步至Elasticsearch”任务,那么这一步是配置DDL消息处理规则,如下图配置要同步的方式和参数。
2.处理规则说明:
处理方式解释正常处理此DDL消息将会继续下发给目标数据源,由目标数据源来处理,不同目标数据源处理策略可能会不同。比如“增加列”对于MaxCompute来说就是个错误,但是对于Hologres来说就可以正常增加一列。忽略丢弃掉此DDL消息,不再向目标数据源发送此消息。告警在日志中发送告警信息,同时丢弃掉此DDL消息。出错直接让实时同步任务以出错状态终止运行。3.如果是“整库离线同步至Elasticsearch”任务,那么这一步应该是配置同步规则设置,如下图配置要同步的方式和参数。
4.方案选择:
方案解释全量一次性同步后周期增量先将源端所有数据全量拉取到Elasticsearch后,再按照指定的过滤条件和重复周期,每次循环将增量数据拉取到Elasticsearch中。只全量一次性同步只进行一次同步,将源端所有数据全量拉取到Elasticsearch。只增量一次性同步只进行一次同步,按照指定的过滤条件将源端的增量数据拉取到Elasticsearch中。周期性全量同步按照指定的重复周期,每次循环都将源端所有数据拉取到Elasticsearch中。周期性增量同步按照指定的过滤条件和重复周期,每次循环将增量数据拉取到Elasticsearch中。 步骤五:运行资源设置在运行资源设置页面,配置各项参数。目前解决方案仅支持使用独享数据集成资源组,该资源组可以在DataWorks官网下“单独产品”购买处点击购买(注意是“独享数据集成资源”,不是调度资源),资源组详情也可参见资源规划与配置文档。
1.如果是“一键实时同步至Elasticsearch”任务,这一步配置界面如下:
2.如果是“整库离线同步至Elasticsearch”任务,这一步配置界面如下:
3.单击完成配置,完成数据同步解决方案任务创建。
查看运行状态及结果在解决方案任务列表页面,单击已运行任务后的执行详情,查看当前解决方案数据同步过程中各子任务节点的运行详情。 单击子任务节点后的执行详情,可在弹窗中单击任务链接进入子节点的数据开发页面。
管理数据同步解决方案任务查看或编辑任务。在解决方案任务列表页面,单击相应任务后的任务配置,可以查看或编辑任务。 仅单击未运行状态后的任务配置,您可以编辑任务。其它状态下的任务配置页面,仅支持查看。
删除任务:单击相应任务后的删除。在删除对话框中,单击确定(仅删除当前任务的配置记录,已经生成的表和任务不受影响)。
以上就是Elasticsearch实时同步解决方案的全部内容,数据同步到Elasticsearch之后,您可以很方便地做实时分布式的搜索与分析,Elasticsearch构建在Elastic Stack开源生态矩阵中,包括Beats(轻量级数据采集工具)、Logstash(收集、过滤、传输数据的工具)、Elasticsearch、Kibana(灵活的可视化工具)。您可以很方便地利用丰富的工具快速搭建您的数据检索或者实时监控运维应用。
如果您对本次方案感兴趣的话,可以到Elasticsearch和DataWorks的官网查看具体产品信息: 数据集成产品介绍:https://help.aliyun.com/document_detail/199008.html Elasticsearch产品官网:https://www.aliyun.com/product/bigdata/product/elasticsearch DataWorks产品官网:https://www.aliyun.com/product/bigdata/ide
原文链接:https://developer.aliyun.com/article/781134?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。