Waha! Transformer是ETL(Extract Transform Load)工具,进行数据抽取、转换和加载。
本产品有诸如强大的数据清洗,多Provider环境的文字码转换,高效数据处理和运行支持等功能。 这些功能可用于在designer中提供一个可视化环境。
作业指定了一系列的处理数据的操作。 作业用的输入文件被详细定义好了,比如,哪种数据清洗或代码转换必须要处理,再或者什么样的要做成的文件必须被指定。
作业单元中可以控制和维护处理流,而作业可以在任何时间从其它应用程序中启动和调用。
一个作业是由如下部分组成的。
本产品的设计考虑是这样的,不仅可以读取基于微软Excel的文本格式文件,也可以读取二进制数据文件或者大型机或主机生成的与数据库相关的文件。
大多数文件都是按照固定规则利用像表格行和列这样的二维表开发的。
文件可以按照表格行来读写。 按照文件的格式不同表格行是不同的。 使用如记事本之类的文本编辑器可以将行用逗号的间断格式换行。 大型机或者主机生成的文件行的长度是固定的。
表格行(记录)划分为项目单元(表格列)。 表格栏里有像数字或者字符或者日期这样的属性。
主要视表是这样用的,它可以处理所有常用文件,因为本产品支持不同的文件格式。 所有要读的文件信息都定义在视表中。
本产品对文件的读写都是通过视表完成的。
为了访问数据,物理位置的信息是有必要的。 如果是磁盘文件,目录就是能提供的信息。 如果是数据库,服务器名,用户名和密码就是提供的信息。
无论环境是如何变化(如,由于机器迁移或者是驱动器改变等),所有这些信息都存储在视表中。 对作业修改后,应该再执行一下。
本产品包含了用于访问所需存储信息的主要连接。
视表中注册了实际文件名和连接信息,而没有实际文件的物理位置。
要在其它机器上运行作业或者只是修改数据,仅仅只要修改连接就可以了。
通过读视表操作和写到单独的视表里,本产品可以处理不同的数据。
视表过滤器的输出用视表可以写到另一个视表过滤器中去。 通过复制"输入用视表和输出用视表"的处理,可以简化一个复杂的处理。 .
对要追加过滤条件的记录必须指定对应的记录所在表格行。 这种信息端口被称为表格栏过滤器。
表格栏过滤器不仅用于监听操作,也用于组织,计算和执行不同的其它处理。
本产品里用许多组件来处理表格栏的,这些组件被称为函数。