パイプラインは、表形式データにどのような影響を与えたいかに基づいて、さまざまなタイプの変換を適用できます。すべてのパイプラインは、少なくとも1つのトランスフォームを必要とし、事実上無制限の数のトランスフォームを割り当てることができる。
注: contains
,greater than
, equals (=
), or does not equal (!=
) のような比較演算子を使用する変換を設定する場合、その値の後にENTER を押す。
これらの変形は4つのカテゴリーに分類される:
- トランスフォーム(技術的変換) - ペイロードのデータレイアウトを変更する。
- Filter - 基準/クライテリアに基づいてデータペイロードから行を削除します。
- データ - 特定のフィールドでデータを並べ替え、合計を適用してデータポイントを導き出す。
- マッピング(関数変換) - データフィールド間の関係を構築する。
パイプラインにトランスフォームを追加するのは、非常にガイド的なプロセスであるが、規定的なプロセスではない。これにより、お客様の変革ニーズに対応する究極の柔軟性が保証されます。
注: Pipelineにトランスフォームを追加する前に、必ずサンプルファイルをピン留めしてください。
要件
データ・プレパレーションは完全に組織レベルで管理され、個々のワークスペースやその権限は認識されない。
ということだ:
- データプレップは、組織内の全認証ユーザー間で共有されます。
- Chain Builderにアクセスできるユーザーは、Data Prepにもアクセスできる。
- チェーンを作成または編集できるすべてのユーザーは、Data Prepでパイプラインを管理できるようになります。
- 単一のデータ準備パイプラインは、組織内の複数のチェーンやワークスペースで使用できる。
変換
列の追加や削除、値の調整など、表形式データのレイアウトを変更するには、Transform 変換を追加する。
注: 列を追加する際には、その名前、値の種類と形式、表形式データのどこに表示するかを指定します。
変換 | 説明 |
---|---|
列を挿入 | 各行に値を持つフィールドをデータセットに追加する。この変換を設定する際に、列の静的値または変数値を指定する。 |
行番号の挿入 | データセットに行番号付きの列を追加する。この変換を設定する際には、行の開始番号を指定する。 |
エクセル公式 | Microsoft Excel® の数式に基づいて、指定した列に対して実行された操作の結果を列に追加します。この変換を設定するときに、実行する数式を指定する。計算式を書くときは、SUM(amount1, amount2) のように、列をヘッダーで参照する。 注: エクセルとは異なり、 、 |
列の削除 | 指定した列をデータセットから削除する |
カラムのマージ | 指定された区切り文字で区切られた、指定されたカラムのマージされた値を持つカラムを追加する。 |
名前の変更 | データセット内の指定したカラムの名前を変更する |
シフト・コラム | 指定した列をデータセット内で再配置する。 |
フィールド値の分割 | 指定した区切り文字に基づいて、カラムの値を複数のカラムに分割する。 |
列を維持する | データセットから、指定された列以外のすべての列を削除する。 |
フリップサイン | 指定した列の値の符号を反転させる。例えば、正から負へ、またはその逆。 |
大文字 | 指定されたカラムの値をすべてUPPERCASEに変換する。 |
小文字 | 指定した列の値をすべて小文字に変換する。 |
検索と置換 | データセット中の、指定したテキスト値のすべてのインスタンスを、指定した新しい値で置き換える。 |
グループ別 |
GROUP BY SQL ステートメントに似ています。 |
コピー欄 | 指定したカラムの複製を追加する |
文字列の距離 | 一方のテキスト文字列を他方のテキスト文字列に変換するのに必要な編集回数(すなわち「距離」)を計算する。レーベンシュタイン距離変換としても知られている。 各文字列は最大1024文字に制限され、最大距離は100と計算される。 |
ヒント: データセットから行 を削除するには、無視
などのキーワードを使用して、削除する行を指定する。次に、そのキーワードをマッピング 変換のTo 値として使用し、OR 条件でスマートフィルタ 変換を設定して、そのキーワードを持つマッピングされたフィールドを削除します。
フィルター
特定の条件に基づいてデータから行を削除するには、Filter 変換を追加します。
変換 | 説明 |
---|---|
完全一致 | 指定されたテキストに正確に一致しない行をすべて削除する。 |
RegExpマッチ | 指定された正規表現 (RegExp) にマッチしない行をすべて削除する。 |
列を取る | 指定した番号以降の行をすべて削除する。例えば、10: は、10行目とそれ以降のすべての行を削除する。 |
スマートフィルター | 指定された条件に基づいて、カラムのレコードを削除または保持する。 |
データ
表形式のデータを並べ替えたり、特定の列に基づいて合計を適用するには、Data 変換を追加します。
変換 | 説明 |
---|---|
並べ替え | 指定した列に基づいてデータセットをソートする。 |
もし | 指定された列のすべての値の合計で追加のパイプライン出力を作成します。 |
マッピング
マッピンググループ で定義されたルールに基づいて列の値を変換するには、マッピング 変換を追加します:
- マッピング を選択し、次へ をクリックする。
- 適用するルールのあるマッピンググループを選択します。
- Match columns で、パイプラインのどの列をマッピンググループの列にマッピングするかを選択する。
- [保存]をクリックします。
1つの列に複数のMapping 変換を適用する場合、パイプライン内で正しい順序で適用されていることを確認してください。
ヒント: パイプラインがマッピング 変換を適用すると、カラムの値がインラインで変換されます。変換前と変換後の列の値を同時に表示するには、Copy column 変換を適用して、Mapping 変換前の列の複製を追加します。コピーの値の "before "ステータスを示すには、Src_
やUM_
のように、その名前に接頭辞を付け、それぞれSourceやUnmappedを表す。この列を後でデータセットから削除するには、Group by またはRemove columns 変換を適用する。
その他の変換機能
変身を追加する
既存のトランスフォームの右側または左側にある緑色のプラス記号をクリックすると、追加のトランスフォームをパイプラインに追加できます。既存のトランスフォームの左または右にあるプラス記号をクリックすると、その前または後にそれぞれ新しいトランスフォームが追加されます。
変換をコピーする
変換の下にあるコピーアイコンをクリックすると、パイプライン内の既存の変換を複製できます。変換のコピーが作成され、変換フォームが開かれる。必要に応じて変換入力を更新し、コピーした変換を保存する。
トランスフォームを削除する
トランスフォームの下にあるゴミ箱アイコンをクリックすると、パイプライン内のすべてのトランスフォームを削除できます。削除を確認するプロンプトが表示されたら、必要なテキストを入力し、[削除]ボタンをクリックします。削除をキャンセルする場合は、確認フォームの「戻る」ボタンをクリックしてください。
パイプラインに新しい列を作成するトランスフォームを削除すると、削除されたトランスフォームによって作成された列を使用する後続のトランスフォームは無効とマークされ、トランスフォームアイコン(青い丸)が赤色に変わり、トランスフォームが無効であることを示します。
注:削除されたトランスフォームは復元できません。
Reorder Transformations
トランスフォームの順番は、特定のトランスフォームの下にある左右の矢印をクリックすることで変更できます。左矢印をクリックすると、その変換は、その前に続いていた変換の直前に起こるようにシフトされる。右の矢印は、前に続いていた変換の後に変換が起こるようにシフトする。