news 2026/4/26 22:21:06

一 kettle 一世界,一 spoon 一流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一 kettle 一世界,一 spoon 一流程

Kettle 概述

Kettle 是一款开源的 ETL(Extract, Transform, Load)工具,全称为 “Kettle E.T.T.L. Environment”。其核心功能围绕数据处理流程的三个关键阶段:

Extract(抽取)
支持从多样化数据源获取数据,包括关系型数据库(MySQL、Oracle)、文件(Excel、CSV)、NoSQL 数据库及 Web 服务等。

Transform(转换)
提供数据清洗、聚合、字段计算、去重等操作。例如,可通过内置函数处理日期格式、过滤无效记录或合并多数据源字段。

Load(加载)
将处理后的数据加载至目标系统,如数据仓库、报表数据库或云存储服务。支持批量插入、更新或增量同步等模式。

名称“Kettle”源自项目理念:将数据视为液体,通过“壶”统一处理并按需输出。


一、Kettle 是什么?

1.1 基本定义

Kettle 是一款开源的 ETL 工具,ETL 是数据仓库领域的核心概念,包含三个步骤:

  • Extract(抽取):从各种数据源读取数据

  • Transform(转换):清洗、加工、转换数据

  • Load(加载):将处理好的数据存入目标系统

Kettle 的全称曾为 "KDE Extraction, Transportation, Transformation and Loading Environment",由主程序员 Matt Casters 于 2003 年发起。这个项目名称的灵感来源于一个比喻:把各种数据放进一个壶(Kettle)里,然后按指定的格式流出来

1.2 发展历程

时间里程碑事件
2003年Matt Casters 发起 Kettle 项目
2005年12月Kettle 进入开源领域
2006年被 Pentaho 公司收购,更名为 Pentaho Data Integration (PDI)
2015年Pentaho 被 Hitachi Data Systems 收购
2017年Hitachi Data Systems 更名为 Hitachi Vantara

截至 2021 年 1 月,Kettle 开源版累计下载量达 836 万次,其中 19% 来自中国,国内用户仍习惯称其为 Kettle。

1.3 Kettle 的架构

Kettle 是一个组件化的集成系统,包含以下几个主要部分:

组件类型主要功能
Spoon图形化界面设计、调试 ETL 流程(核心开发工具)
Pan命令行工具执行转换(Transformation)
Kitchen命令行工具执行作业(Job)
Carte轻量级 Web 服务远程执行、集群部署
Encr命令行工具字符串加密(如数据库密码)

1.4 核心概念:转换(Transformation)与作业(Job)

Kettle 的工作分为两个层次:

转换(Transformation,以 .ktr 结尾)

  • 定义数据操作的容器,是比作业更细粒度的执行单元

  • 内部的 Step 是最小执行单元,每个 Step 完成一个特定功能(如读取表、过滤数据)

  • Step 之间通过 Hop(连接线)连接,数据在其中流动

  • Step 是并行执行的

作业(Job,以 .kjb 结尾)

  • 负责将转换组织在一起,完成更大的工作任务

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/26 22:05:13

如何正确为包含浮动子元素的父容器设置完整背景色

当对包含 float 元素的 <div> 设置 background-color 时&#xff0c;背景往往只显示在“行内高度”区域而非整个块级容器——这是因浮动导致父容器高度塌陷所致&#xff1b;本文提供简洁可靠的解决方案。 当对包含 float 元素的 设置 background-color 时&#xff…

作者头像 李华
网站建设 2026/4/26 21:58:28

hls高层次综合总结

一、优化指令总结 1.vivado hls的所有优化指令都应用于其包含的对象范围&#xff1a; 其中&#xff0c;指令应用于顶层函数&#xff0c;也就是作用域&#xff1b;并在指令中 标识接口的端口&#xff0c;也就是优化对象。二、hls优化内容 1.处理函数的参数以及接口合成 2.函数参…

作者头像 李华
网站建设 2026/4/26 21:53:07

如何高效预览3D模型:5个专业技巧与实战指南

如何高效预览3D模型&#xff1a;5个专业技巧与实战指南 【免费下载链接】f3d Fast and minimalist 3D viewer. 项目地址: https://gitcode.com/GitHub_Trending/f3/f3d 在当今数字化设计时代&#xff0c;3D模型预览工具已成为设计师、工程师和开发者的必备利器。面对复杂…

作者头像 李华
网站建设 2026/4/26 21:50:31

DeepSeek-OCR-2保姆级教程:一键部署,轻松识别PDF/图片文字

DeepSeek-OCR-2保姆级教程&#xff1a;一键部署&#xff0c;轻松识别PDF/图片文字 1. 引言 1.1 为什么选择DeepSeek-OCR-2 在日常工作和学习中&#xff0c;我们经常需要从PDF文档或图片中提取文字内容。传统OCR工具往往存在识别准确率低、排版混乱、无法理解复杂文档结构等问…

作者头像 李华
网站建设 2026/4/26 21:49:22

MoocDownloader终极指南:5分钟掌握离线MOOC课程下载技巧

MoocDownloader终极指南&#xff1a;5分钟掌握离线MOOC课程下载技巧 【免费下载链接】MoocDownloader An MOOC downloader implemented by .NET. 一枚由 .NET 实现的 MOOC 下载器. 项目地址: https://gitcode.com/gh_mirrors/mo/MoocDownloader 你是否曾经遇到过这样的困…

作者头像 李华