管道可根據您想要影響表格資料的方式,套用不同類型的轉換。 每個 Pipeline 至少需要一 (1) 個轉換,並可指派幾乎不限數量的轉換。
注意: 當您設定使用比較運算符號的轉換時,例如包含,大於, 相等 (=) 或不相等 (!=) ,請在其值之後按ENTER 。
這些轉換分成四 (4) 類:
- Transform (技術轉換) - 修改有效負載的資料配置。
- 篩選 - 根據準則/標準從資料負載中移除行。
- 資料 - 依特定欄位排序資料,並套用總和得出資料點。
- 映射(功能變換) - 建立資料欄位之間的關係。
將轉換新增至 Pipeline 是一個非常有指導性,但非規範性的流程。這可確保最大的靈活性,以滿足您的轉換需求
請注意: 在您的 Pipeline 中新增轉換之前,請務必釘選一個範例檔案。
要求
Data Prep 完全由組織層級控制,不識別個別工作空間或其權限。
這表示
- Data Prep 由您組織中的所有授權使用者共用。
- 任何具有 Chain Builder 存取權限的使用者也具有 Data Prep 存取權限。
- 所有可以建立或編輯鏈的使用者都可以在 Data Prep 中管理管道。
- 單一資料準備管道可用於組織內的多個鏈和工作區。
轉型
若要修改表格資料的佈局,例如新增或移除欄或調整其值,請新增Transform 變換。
註記: 新增欄位時,指定其名稱、類型和值的格式,以及在表格資料中應該出現的位置。
| 轉型 | 說明 |
|---|---|
| 插入資料欄 | 在資料集中加入欄位,並在每一行中加入值。設定此變形時,請指定欄位的靜態值或變數值。 |
| 插入列號 | 在資料集中加入具有行號的列。設定此轉換時,指定行的起始編號。 |
| Excel 公式 | 根據 Microsoft Excel® 公式,將對指定欄執行的操作結果加入欄中。設定此轉換時,請指定要執行的公式。寫公式時,請以欄目標題來表示,例如SUM(amount1, amount 2) 。 注意: 與 Excel 不同,做而不是 時,以 |
| 移除欄位 | 從資料集中移除指定欄位 |
| 合併欄位 | 以指定分隔符分隔的指定列的合併值新增一列 |
| 重新命名 | 重新命名資料集中的指定列 |
| 移動欄位 | 在資料集中重新定位指定的列 |
| 分割欄位值 | 根據指定的分隔符,將列的值分割為多列 |
| 保留列 | 從資料集中移除除指定列以外的所有列 |
| 翻轉標誌 | 將指定欄值的符號翻轉,例如從正轉為負,或反之亦然。 |
| 大寫 | 將指定欄的值轉換為全部大寫 |
| 小寫 | 將指定列的值轉換為全部小寫 |
| 尋找與取代 | 以指定的新值取代資料集中指定文字值的所有實例 |
| 分組依據 | 根據指定欄位匯集資料集成唯一記錄,類似於aGROUP BY SQL 語句 |
| 複製欄位 | 新增指定列的副本 |
| 字串距離 | 計算將一個文字串轉換成另一個文字串所需的編輯次數(即「距離」)。也稱為 Levenshtein 距離轉換。 每個字串最多只能有 1024 個字元;計算的最大距離為 100。 |
祕訣: 若要從資料集中移除行 ,請使用關鍵字,例如忽略,來指出要移除的行。然後,在映射 變換中使用關鍵字作為至 值,並設定智慧篩選器 變換,其中包含OR 條件,以移除任何包含該關鍵字的映射欄位。
篩選
若要根據特定條件從資料中移除行,請新增篩選器 變換。
| 轉型 | 說明 |
|---|---|
| 完全匹配 | 移除所有與指定文字不完全匹配的列 |
| RegExp 匹配 | 移除所有不符合指定正規表達式 (RegExp) 的列 |
| 移除行 | 移除位於指定數字及其後的所有行。例如,10: 移除第十行及其後的所有行。 |
| 智能篩選器 | 根據指定條件移除或保留欄記錄 |
資料
若要根據特定列對表格資料排序或套用總和,請新增資料 變換。
| 轉型 | 說明 |
|---|---|
| 排序 | 根據指定列對資料集排序 |
| 總和 if | 以指定列中所有值的總和建立額外的管道輸出 |
對應
要根據定義的規則轉換列的值,一個映射群組 ,新增一個映射 變換:
- 選擇對應 ,然後按一下下一步 。
- 選擇要套用規則的映射群組。
- 在Match columns 下 ,選擇管道的哪一列映射到映射群組的哪一列。
- 按一下「儲存」(Save)。
如果您對一列套用多個映射 變換,請確保它們在管道中的順序正確。
提示: 當管道套用Mapping 變換時,它會內嵌變換列的值。若要同時檢視轉換之前和之後的欄值,請套用Copy column 轉換,在Mapping 轉換之前新增欄的複本。若要指出複本值的「之前」狀態,請在其名稱上附加前綴,例如Src_ 或UM_ ,分別代表 Source 或 Unmapped。若要稍後從資料集中移除此列,請套用Group by 或Remove columns 變換。
附加轉換函數
新增轉換
按一下現有轉換右側或左側的綠色加號,即可將其他轉換新增至管道。按一下現有轉換左側或右側的加號,可分別在其之前或之後新增一個新的轉換。
複製變形
透過按一下變形下方的複製圖示,可複製管道中任何現有的變形。建立轉換副本,並開啟轉換表單。根據需要更新變換輸入,並儲存複製的變換。
刪除轉換
透過按一下轉換下方的垃圾桶圖示,可刪除管道中的任何轉換。當提示確認刪除時,請鍵入所需文字,然後按一下刪除按鈕。按一下確認表單上的 [返回] 按鈕,以取消刪除。
刪除在 Pipeline 中建立新列的變換時,任何使用已刪除變換所建立的列的後續變換都會被標記為無效,變換圖示(藍色圓圈)會變成紅色,表示變換不再有效。
注意:已刪除的變形無法還原。
重新排列變形
變形的順序可透過按一下特定變形下的左右箭頭來改變。按一下左箭頭,變換會移動到緊接之前的變換之前。右箭頭會將轉換移至前一個轉換之後。