パイプラインは、表形式データにどのような影響を与えたいかに基づいて、さまざまなタイプの変換を適用できます。 すべてのパイプラインは、少なくとも1つの変換を必要とし、事実上無制限の数の変換を割り当てることができます。
注: 含む,より大きい, 等しい (=) , 等しくない (!=) のような比較演算子を使用する変換を設定する場合、その値の後にENTERを押します。
これらの変換/トランスフォーメーションは、4つのカテゴリーにグループ分けされている:
- 変換/トランスフォーメーション(技術的変換) - ペイロードのデータレイアウトを修正する。
- フィルター - 条件/基準に基づいてデータペイロードから行を削除します。
- データ - 特定のフィールドでデータを並べ替え、合計を適用してデータポイントを導き出す。
- マップ(関数変換/トランスフォーメーション) - データフィールド間の関係を構築する。
パイプラインに変換を追加するのは非常にガイド的なプロセスであるが、規定的なプロセスではありません。これにより、変換のニーズに対応する究極の柔軟性が確保されます。
メモ: 変換/トランスフォーメーションをパイプラインに追加する前に、必ずサンプルファイルをピン留めしてください。
要件
データの準備は完全に組織レベルでコントロールされ、個々のワークスペースやその権限は認識されない。
という意味だ:
- データの準備は、組織内のすべての作成権限者間で共有されます。
- チェーンビルダーにアクセスできるユーザーは、データの準備にもアクセスすることができます。
- チェーンを作成または編集できるすべてのユーザーは、データの準備でパイプラインを管理できるようになります。
- 一つのデータ準備パイプラインは、組織内の複数のチェーンやワークスペースにまたがって使用することができる。
変換
列の追加や削除、値の調整など、表形式データのレイアウトを修正するには、Transform トランスフォーメーションを追加します。
メモ: 列を追加する際には、その名称、値のタイプと書式設定、表形式データのどこに表示するかを指定する。
| 変換 | 説明 |
|---|---|
| 列を挿入 | データセットにフィールドを追加し,各行に値を入れる.この変換を設定する際には、列の静的値または変数値を指定します。 |
| 行番号の挿入 | データセットに行番号付きの列を追加する.この変換を設定する際には、行の開始番号を指定します。 |
| エクセル数式 | Microsoft Excel® の数式に基づき、指定した列に対して実行された操作の結果で列を追加します。この変換を設定する際には、実行する数式を指定します。数式を書くときは、SUM(amount1, amount2)のように、列のヘッダーを参照します。 注: Excelとは異なり、=5+5 のようにm |
| 列の削除 | 指定した列をデータセットから削除する。 |
| 列のマージ | 指定した列の値をマージした列を、指定した区切り文字で区切って追加する。 |
| 名前の変更 | データセットの指定した列の名前の変更 |
| シフト列 | 指定した列をデータセット内で再配置する。 |
| フィールド値の分割 | 指定した区切り文字に基づいて、列の値を複数の列に分割する。 |
| 列を維持する | 指定された列以外のすべての列をデータセットから削除する。 |
| フリップサイン | 指定した列の値の符号を反転させる。例えば、正から負へ、またはその逆。 |
| 大文字 | 指定された列の値をすべてUPPERCASEに変換します。 |
| 小文字 | 指定した列の値をすべて小文字に変換する。 |
| 検索と置換 | データセット中の指定したテキスト値を、指定した新規値で置換する。 |
| 以下によりグルーピング |
GROUP BY SQL 文と同様に、指定された列に基づいて、データセットを一意なレコードに集計します。 |
| コピー列 | 指定した列の複製を追加する。 |
| 文字列の距離 | 一方のテキスト文字列を他方のテキスト文字列に変換するのに必要な編集回数(すなわち「距離」)を計算する。レーベンシュタイン距離変換/トランスフォーメーションとしても知られている。 各文字列は最大1024文字に制限され、最大距離100が計算される。 |
ヒント: データセットから行 を削除するには、Ignoreのようなキーワードを使って、削除する行を指定します。次に、そのキーワードをマッピング トランスフォーメーションでTo 値として使用し、OR 条件でスマートフィルター トランスフォーメーションを設定し、そのキーワードを持つマップされたフィールドを削除する。
フィルター
特定の条件に基づいてデータから行を削除するには、フィルター 変換を追加します。
| 変換 | 説明 |
|---|---|
| 完全一致 | 指定したテキストに完全に一致しない行をすべて削除する。 |
| RegExpマッチ | 指定された正規表現(RegExp)にマッチしない行をすべて削除する。 |
| 列を削除 | 指定した番号以降の行をすべて削除する。例えば、10: は、10行目とそれ以降のすべての行を削除する。 |
| スマートフィルター | 指定された条件に基づいて列のレコードを削除または保持する。 |
データ
表形式のデータを並べ替えたり、特定の列に基づいて合計を適用するには、Data トランスフォーメーションを追加します。
| 変換 | 説明 |
|---|---|
| 並べ替え | 指定された列に基づいてデータセットを並べ替える。 |
| 以下の場合には合計 | 指定された列のすべての値の合計で追加のパイプライン出力を作成します。 |
マッピング
マッピンググループで定義されたルールに基づいて列の値を変換するには、マッピング変換を追加します:
- マッピング を選択し、次へ をクリックする。
- 適用するルールのあるマップグループを選択する。
- Match columns で、パイプラインのどの列がマッピンググループの列にマップするかを選択する。
- [保存]をクリックします。
1つの列に複数のマッピング トランスフォーメーションを適用する場合は、パイプライン内で正しい順序になっていることを確認してください。
ヒント: パイプラインがマッピング トランスフォーメーションを適用すると、列の値がインラインで変換されます。変換前と変換後の列の値を同時にビューするには、コピー列 変換を適用して、マッピング 変換前の列の複製を追加します。コピーの値の "before "ステータスを示すには、その名称に接頭辞を付ける。例えば、Src_ やUM_ は、それぞれソース(Source)またはアンマップ(Unmapped)を表す。この列を後でデータセットから削除するには、Group by またはRemove columns 変換/トランスフォーメーションを適用する。
追加変換関数
変換/トランスフォーメーション追加
既存の変換の右または左にある緑色のプラス記号をクリックすると、変換をパイプラインに追加できます。既存のトランスフォーメーションの左または右にあるプラス記号をクリックすると、その前または後にそれぞれ新規トランスフォーメーションが追加されます。
変換/トランスフォーメーションを複製する
変換の下にあるコピーアイコンをクリックすると、パイプライン内の既存の変換を複製できます。変換のコピーが作成され、変換フォームが開かれます。必要に応じて変換入力を更新し、コピーした変換を名前を付けて保存します。
変換を削除する
変換の下にあるゴミ箱アイコンをクリックすることで、パイプライン内の変換を削除済みにすることができます。削除を確認するプロンプトが表示されたら、必要なテキストをタイプし、削除ボタンをクリックします。削除済をキャンセルする場合は、確認フォームの「戻る」ボタンをクリックします。
パイプラインに新規列を作成する変換を削除すると、削除済の変換によって作成された列を使用する後続の変換は無効とマークされ、変換アイコン(青い丸)が赤色に変わり、変換が無効であることを示します。
メモ:削除済のトランスフォーメーションは復元できません。
Reorder Transformations
変換/トランスフォーメーションの順番は、特定の変換の下にある左右の矢印をクリックすることで変更できます。左矢印をクリックすると、変換は、その前に続いていた変換の直前へ移動します。右矢印は、前へ続く変換の後に変換が起こるようにシフトします。