ETL:Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程.对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,
Kettle是一款国外开源的ETL工具,纯java编写(所以需要安装在本地环境安装JDK),可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
总的来说既然是可拖拽的工具来进行数据的清洗,想必操作内容大于开发内容cuiyaonan2000@163.com
官网:kettle的基础概念入门、下载、安装、部署 – Kettle中文网
简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle:现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成
- Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
- Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
- Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
- Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)
- 转换: 就是字面意思,将目标内容转成标准内容(换句话说,如果有超过2个转换的输入则必须使用作业cuiyaonan2000@163.com)
- 作业:即复杂的转化,多个转换相互协调即为作业.同时作业也可嵌套作业
- 输入:即原始数据的来源
- 输入:即标准内容输出结果
Spoon是构建ETL Jobs和Transformations的工具。Spoon以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。
Data Integration Server是一个专用的ETL Server,它的主要功能有:
从下图可以看到Job就是任务的控制,包括了读取数据,传送数据,检查数据.那具体的转换工作是由Transformation来操作的.
官方网址:Hitachi Vantara Customer
下载stable版本.下载完成后,直接点击Spoon.bat 就可以启动成功.(我下载的最新版本pdi-ce-9.2.0.0-290 ,该版本不支持jdk15,改成JKB1.8 启动成功.如果版本不对爆出的错误是 JVM虚拟机启动失败cuiyaonan2000@163.com)
启动后界面如下: