在为映射组添加规则时,您可以定义记录系统中值之间的关系。要映射记录系统之间的值,您可以根据精确匹配、简单模式或正则表达式 (Regex) 定义关系。
提示: 有效的映射组通常包含多种不同类型的规则。要为规则应用其他条件,您还可以设置条件映射。
要求
数据准备完全由组织级别控制,不识别单个工作区或其权限。
这意味着:
- 数据准备功能在组织内所有授权用户之间共享。
- 任何有权访问 Chain Builder 的用户也有权访问 Data Prep。
- 所有能够创建或编辑链的用户都将能够在数据准备中管理管道。
- 组织内的多个链和工作区可以使用单个数据准备管道。
完全匹配
精确的规则定义了值之间明确的一对一关系。例如,要将源值 100-10 直接映射到产品代码 Regular cola,请应用精确规则。
注: 使用精确规则时,管道转换后的数据中任何新值都需要更新映射组,添加对应新值的规则。
赞
类似规则根据简单的模式或标准化的值来定义关系。例如,您可以使用 Like 规则根据前缀、后缀或修剪来定义多对一 (n:1) 或多对多 (n:n) 关系。
为了帮助匹配 Like 规则的模式,您可以分别使用问号 (?) 或星号 (*) 作为单个或多个字符的通配符。
方括号 ? 通配符用于替换单个字符,例如当要匹配的模式需要:
- 一定数量字符的值
- 值中间的特定字符
例如:
| 从 | 目的地 | 解释 | 结果 |
|---|---|---|---|
??130 |
它 |
一个多对一的关系,其中任何以 130 结尾的五位数源值都映射到值 IT |
源值 23130 映射到 IT |
??? |
??? |
一种多对多关系,其中任何仅由三位数字组成的源值都映射到自身。 | 源值 630 映射到 630 |
?????? |
AC_?????? |
一种多对多关系,其中任何六个字符的源值都映射到自身,并带有前缀 AC_ |
源值 601010 映射到 AC_601010 |
CC_???? |
???? |
这是一个多对多关系,其中任何以 CC_ 开头的七个字符的源值都映射到其后四个字符。 |
源值 CC_6425 映射到 6425 |
100-??-4000 |
收入 |
一个多对一的关系,其中任何以 100- 开头并以 -4000 结尾的 11 个字符的源值都映射到值 Revenue |
源值 100-80-4000 映射到 收入 |
* 通配符可以替换多个字符,例如当要匹配的模式需要在可变长度的值的开头或结尾处使用特定字符时。例如:
| 从 | 目的地 | 解释 | 结果 |
|---|---|---|---|
*065 |
财经 |
这是一个多对一的关系,其中任何以 065 结尾的源值都映射到值 Finance。 |
源值为 10065 或 9065 映射到 金融 |
* |
* |
多对多关系,其中任何源值都映射到自身,而不管字符如何;这被称为 传递映射 | 源值 500010、 1400或 Salaries 分别映射到自身—— 500010、 1400或 Salaries。 |
* |
CC_* |
一种多对多关系,其中任何源值都映射到自身,前缀为 CC_ |
源值为 92230、 81010或 Quality 时,分别映射到 CC_92230、 CC_81010或 CC_Quality。 |
BU_1* |
1* |
这是一个多对多的关系,其中任何以 BU_1 开头的源值都映射到自身,但不带 BU_ 前缀。 |
源值为 BU_1200 或 BU_1000 分别映射到 1200 或 1000。 注意: 此规则不会 映射源值 |
正则表达式
正则表达式—或 Regex—规则基于更复杂的模式定义关系,这些模式无法用 Like 规则映射。为了识别模式,正则表达式使用段,用开括号和闭括号 (()) 表示。您可以使用多个正则表达式来创建映射条件,并且正则表达式创建的任何段都可以创建映射值。
例如:
| 从 | 目的地 | 解释 | 结果 |
|---|---|---|---|
([4-7])(.*) |
$2 |
这是一个多对多关系,其中任何以 4、 5、 6或 7 开头的源值都映射到其首位数字之后的值。 |
源值 5-100或 映射 到 不 源值 |
提示: 对于正则表达式规则,您可以将 到 的值用花括号括起来,例如 ${2}。例如,要将 From 值 (.*) 替换为源值后跟 1,请输入 To 值 ${1}1
;值 $11 会被误解为捕获组 11,从而导致空字符串。