Kettle 是一款开源、免费的 ETL 数据集成工具广泛应用于数据抽取、转换、加载、跨库数据同步等场景。本文详细讲解 Windows环境下 Kettle 的安装步骤、环境配置并搭配入门案例演示基础使用方法零基础也能快速上手。一、工具简介1、什么是kettleKettle现更名为Pentaho Data Integration简称 PDI是开源的 ETLExtract-Transform-Load工具纯 Java 开发跨平台、无代码可视化操作支持数据抽取、清洗、转换、加载、定时任务、跨数据库同步等功能是大数据、数仓开发、运维人员常用的数据集成工具。前置要求Kettle 基于 Java 运行必须先安装 JDK 8 及以上版本并配置好 Java 环境变量。2、Kettle工程存储方式1以XML形式存储2以资源库方式存储(数据库资源库和文件资源库)3、Kettle的两种设计4、Kettle的组成5、kettle特点二、kettle安装kettle官网https://community.hitachivantara.com/home下载kettle压缩包因kettle为绿色软件解压缩到任意本地路径即可双击Spoon.bat启动图形化界面工具就可以直接使用了右键编辑,可以修改编码为UTF-8启动后页面三、kettle简单使用1、将txt数据导⼊到excel 中选择 【转换】-- 【新建】拖拽 【⽂本⽂件输⼊】和 【Excel输出】摁住shift键拖拽连接两者。双击 【文本文件输入】添加完文件后点击内容修改分隔符以及编码方式点击获取字段双击Excel输出文件不用加后缀点击字段获取字段。没有添加格式最后输出数据会有问题输入格式前输入格式后2、Excel文件到mysql数据库双击Excel找出需要传递的Excel表数据浏览数据发现有问题需要修改格式连接数据库测试连接发现驱动有问题需要在lib文件下安装驱动再次测试发现时区有问题解决方法连接上以后获取字段后点击sql里面的类型不是很规范转为mysql需要的建表语句修改以后执行3、Mysql到Mysql双击表输入是 每一个字段都写出来否 只写一个*双击表输出上述会出现 执行多次会将重复内容一直加进去的问题因此用 表输入 到 插入/更新更好这样子重复执行也不会有有重复的数据只有当原来的表有数据改变时才会改变。比如添加一条数据会添加修改了哪条数据会修改4、Mysql到hive需要提前添加hive的jar包输出hive类型会报错误 类型不一致导致的。修改表输入查询的语句修改完后执行hive中就有数据了四、总结 后续学习方向本文完成了 Kettle 在 Windows平台的安装、环境排错以及最基础的转换实战新手可快速入门。Kettle 核心学习路线基础转换、作业、各类输入 / 输出组件、数据库连接进阶数据清洗、联表查询、增量同步、定时调度、集群部署实战跨库数据迁移、数仓数据同步、日志采集等业务场景Kettle 作为轻量化开源 ETL 工具上手简单、功能强大是数据开发必备工具之一建议多动手练习各类组件逐步掌握复杂数据同步场景。