根据您希望如何影响表格数据,管道可以应用不同类型的转换。每个管道至少需要一次(1)转换,并且可以分配几乎无限数量的转换。
注意:当您设置使用比较运算符 (例如 包含、大于、 等于或不等于) 的转换时,请在其值后按 Enter键
。 (例如 包含、大于、这些转变分为四 (4) 类:
- 转换(技术转换)- 修改有效载荷的数据布局。
- 筛选 - 根据一个或多个条件从数据有效负载中删除行。
- 数据 - 按特定字段对数据进行排序,并应用求和来得出数据点。
- 映射(功能转换)——建立数据字段之间的关系。
向管道添加转换是一个指导性很强但并非强制性的过程。这确保了在满足您的转型需求方面拥有最大的灵活性。
注意:在向管道添加转换之前,请务必先锁定一个示例 文件
。
要求
数据准备完全由组织级别控制,不识别单个工作区或其权限。
这意味着:
- 数据准备功能在组织内所有授权用户之间共享。
- 任何有权访问 Chain Builder 的用户也有权访问 Data Prep。
- 所有能够创建或编辑链的用户都将能够在数据准备中管理管道。
- 组织内的多个链和工作区可以使用单个数据准备管道。
转换
要修改表格数据的布局,例如添加或删除列或调整其值,请添加 Transform 转换。
注: 添加列时,您需要指定列的名称、值的类型和格式,以及它在表格数据中的显示位置。
| 转型 | 描述 |
|---|---|
| 插入列 | 向数据集中添加一个字段,该字段的每一行都有一个值。设置此转换时,请指定列的静态值或可变值。 |
| 插入行号 | 向数据集中添加一列,用于显示行编号。设置此转换时,请指定行的起始编号。 |
| Excel公式 | 根据 Microsoft Excel® 公式,添加一列,其中包含对指定列执行操作的结果。设置此转换时,请指定要执行的公式。编写公式时,请使用列标题引用列,例如 SUM(amount1, amount 2)。 注意:与 Excel 不同, 请勿以 = = 5+5;转换会假定此等式 成立。 |
| 删除列 | 从数据集中删除指定的列 |
| 合并列 | 添加一列,其中包含指定列的合并值,并以指定的分隔符分隔。 |
| 重命名 | 重命名数据集中的指定列 |
| 换列 | 重新定位数据集中的指定列 |
| 拆分字段值 | 根据指定的分隔符,将一列的值拆分成多列。 |
| 保留列 | 从数据集中删除除指定列之外的所有列。 |
| 翻转标志 | 翻转指定列的值的符号,例如从正数变为 负数,反之亦然。 |
| 大写字母 | 将指定列的值全部转换为大写 |
| 小写 | 将指定列的值全部转换为小写。 |
| 寻找与取代 | 将数据集中所有指定文本值的实例替换为指定的新值 |
| 按分组 | 根据指定的列将数据集聚合为 唯一记录,类似于 SQL语句中的 GROUP BY 子句。 |
| 复制列 | 添加指定列的副本 |
| 弦距 | 计算将一个文本字符串转换为另一个文本字符串所需的编辑次数(即“距离”)。也称为莱文斯坦距离变换。 每个字符串最多只能包含 1024 个字符;最大距离为 100。 |
提示: 要从数据集中删除 行 ,请使用关键字(例如 忽略)来指示要删除的行。然后,将该关键字用作 映射转换中的 “到 ”值,并设置一个带有 “或 ”条件 的智能 筛选转换 ,以删除任何包含该关键字的映射字段
。 筛选
要根据特定条件从数据中删除行,请添加筛选 转换。
| 转型 | 描述 |
|---|---|
| 完全匹配 | 删除所有与指定文本不完全匹配的行。 |
| 正则表达式匹配 | 删除所有与指定正则表达式(RegExp)不匹配的行 |
| 排 | 删除指定行号及其之后的所有行。例如, 10: 删除第十行及之后的所有行。 |
| 智能过滤器 | 根据指定条件删除或保留列中的记录 |
数据
要对表格数据进行排序或根据特定列应用求和,请添加 数据 转换。
| 转型 | 描述 |
|---|---|
| 排序 | 根据指定的列对数据集进行排序 |
| 如果求和 | 创建一个额外的管道输出,其中包含指定列中所有值的总和。 |
地图
要根据 映射组定义的规则转换列的值,请添加 映射 转换:
- 选择 映射,然后单击 下一步。
- 选择要应用规则的映射组。
- 在 匹配列下,选择管道的哪些列映射到映射组的列。
- 点击 保存。
如果对一列应用多个 Mapping 转换,请确保它们在管道中按正确的顺序排列。
提示: 当管道应用 映射 转换时,它会直接转换列的值。要同时查看列在转换前后的值,请应用 复制列 转换,在 映射 转换之前添加列的副本。要指示副本值的“之前”状态,请在其名称后附加前缀,例如 Src_或 UM_,分别表示源或未映射。要稍后从数据集中删除此列,请应用 “按 列分组”或 “删除列 ”转换
。 附加变换函数
添加转换
点击现有转换右侧或左侧的绿色加号,即可向管道添加其他转换。单击现有变换左侧或右侧的加号,分别可在其前面或后面添加新的变换。
复制转换
管道中任何现有的转换都可以通过单击转换下方的复制图标来复制。创建转换的副本并打开转换表单。根据需要更新转换输入,并保存复制的转换。
删除转换
可以通过单击转换下方的垃圾桶图标来删除管道中的任何转换。当系统提示确认删除时,输入所需的文本,然后单击“删除”按钮。点击确认表单上的“返回”按钮取消删除操作。
当删除管道中创建新列的转换时,任何后续使用已删除转换创建的列的转换都将被标记为无效,并且转换图标(蓝色圆圈)将变为红色,以指示该转换不再有效。
注意: 已删除的转换无法恢复
。重新排序变换
可以通过单击特定变换下方的左箭头和右箭头来更改变换的顺序。点击左箭头,变换将移至上一个变换之前立即发生。向右的箭头将变换移到之前变换之后发生。