Un pipeline peut appliquer différents types de transformations, en fonction de l'impact que vous souhaitez avoir sur les données tabulaires. Chaque pipeline nécessite au moins une (1) transformation et peut se voir attribuer un nombre pratiquement illimité de transformations.
Remarque : Lorsque vous configurez une transformation qui utilise un opérateur de comparaison, tel que contient, supérieur à, est égal (=) ou n'est pas égal (!=), appuyez sur ENTER après sa valeur.
Ces transformations sont regroupées en quatre (4) catégories :
- Transformer (transformations techniques) - modifier la présentation des données de la charge utile.
- Filtre - Retirer des lignes des données utiles en fonction d'un ou de plusieurs critères.
- Données - Trier les données par champs spécifiques et appliquer la sommation pour dériver des points de données.
- Mapping (transformations fonctionnelles) - établir des relations entre les champs de données.
L'ajout de transformations à un pipeline est un processus très guidé, mais non normatif. Cela garantit une flexibilité maximale pour répondre à vos besoins de transformation.
Note : Avant d'ajouter des transformations à votre pipeline, assurez-vous d'épingler un fichier d'exemple.
Exigences
Data Prep est entièrement contrôlé au niveau de l'organisation et ne reconnaît pas les espaces de travail individuels ni leurs autorisations.
Cela signifie que :
- Les données Prep sont partagées entre tous les utilisateurs autorisés de votre organisation.
- Tout utilisateur ayant accès à Chain Builder a également accès à Data Prep.
- Tous les utilisateurs qui peuvent créer ou modifier des chaînes auront la possibilité de gérer des pipelines dans Data Prep.
- Un seul pipeline de Data Prep peut être utilisé sur plusieurs chaînes et espaces de travail au sein d'une organisation.
Transformer
Pour modifier la présentation des données tabulaires, par exemple pour ajouter ou supprimer des colonnes ou ajuster leurs valeurs, ajoutez une transformation Transform.
Note : Lorsque vous ajoutez une colonne, vous spécifiez son nom, le type et le format de ses valeurs, ainsi que l'endroit où elle doit apparaître dans les données du tableau.
| Transformation | Description |
|---|---|
| Insérer une colonne | Ajoute un champ à l'ensemble de données avec une valeur dans chaque ligne. Lorsque vous mettez en place cette transformation, spécifiez la valeur statique ou variable des colonnes. |
| Insérer des numéros de ligne | Ajoute une colonne avec numérotation des lignes à l'ensemble de données. Lorsque vous mettez en place cette transformation, indiquez le numéro de départ des lignes. |
| Formule Excel | Ajoute une colonne avec le résultat d'une opération effectuée sur les colonnes spécifiées, sur la base d'une formule Microsoft Excel®. Lorsque vous mettez en place cette transformation, indiquez la formule à effectuer. Lorsque vous écrivez la formule, faites référence aux colonnes par leur en-tête, par exemple SUM(amount1, amount 2). Remarque : Contrairement à Excel, ne pas commencer par un opérateur |
| Supprimer les colonnes | Supprime les colonnes spécifiées de l'ensemble de données |
| Fusionner des colonnes | Ajoute une colonne contenant les valeurs fusionnées des colonnes spécifiées, séparées par un délimiteur spécifié. |
| Renommer | Renomme les colonnes spécifiées dans le jeu de données |
| Colonne mobile | Repositionne une colonne spécifiée dans l'ensemble de données |
| Diviser la valeur du champ | Divise les valeurs d'une colonne en plusieurs colonnes, sur la base d'un délimiteur spécifié. |
| Conserver les colonnes | Supprime toutes les colonnes de l'ensemble de données à l'exception de celles spécifiées |
| Panneau de basculement | Inverse le signe des valeurs d'une colonne spécifiée, par exemple de positif à négatif, ou vice versa. |
| Majuscules | Convertit les valeurs d'une colonne spécifiée en majuscules. |
| Minuscules | Convertit les valeurs d'une colonne spécifiée en minuscules. |
| Find and replace (Rechercher et remplacer) | Remplace toutes les instances d'une valeur de texte spécifiée dans l'ensemble de données par une nouvelle valeur spécifiée. |
| Groupe par | Agrége l'ensemble de données en enregistrements uniques sur la base des colonnes spécifiées, de manière similaire à une instruction SQL GROUP BY. |
| Copier la colonne | Ajoute un double de la colonne spécifiée |
| Chaîne distance | Calcule le nombre de modifications (c'est-à-dire la "distance") nécessaires pour transformer une chaîne de texte en l'autre. Également connue sous le nom de transformation de la distance de Levenshtein. Chaque chaîne est limitée à un maximum de 1024 caractères ; une distance maximale de 100 est calculée. |
Conseil : Pour supprimer les lignes d'un ensemble de données, utilisez un mot-clé - tel que Ignorez- pour indiquer les lignes à supprimer. Ensuite, utilisez le mot-clé comme valeur To dans une transformation Mapping, et configurez une transformation Smart filter avec une condition OR pour supprimer tout champ mappé avec ce mot-clé.
Filtrer
Pour supprimer des lignes de données en fonction de critères spécifiques, ajoutez une transformation Filter.
| Transformation | Description |
|---|---|
| Correspondance exacte | Supprime toutes les lignes qui ne correspondent pas exactement au texte spécifié |
| RegExp match | Supprime toutes les lignes qui ne correspondent pas à l'expression régulière spécifiée (RegExp). |
| Prendre des rangs | Supprime toutes les lignes à partir du numéro spécifié. Par exemple, 10 : supprime la dixième ligne et toutes les lignes suivantes. |
| Filtre intelligent | Supprime ou conserve les enregistrements d'une colonne en fonction des conditions spécifiées. |
Données
Pour trier des données tabulaires ou appliquer des sommations basées sur des colonnes spécifiques, ajoutez une transformation Data.
| Transformation | Description |
|---|---|
| Trier | Trie l'ensemble de données sur la base des colonnes spécifiées |
| Somme si | Crée une sortie de pipeline supplémentaire avec la somme de toutes les valeurs d'une colonne spécifiée. |
Cartographie
Pour transformer les valeurs d'une colonne en fonction des règles définies par un groupe de mappage, ajoutez une transformation Mapping:
- Sélectionnez Mapping, et cliquez sur Next.
- Sélectionnez le groupe de mappage avec les règles à appliquer.
- Sous Match columns, sélectionnez les colonnes du pipeline qui correspondent à celles du groupe de mappage.
- Cliquez sur Enregistrer.
Si vous appliquez plusieurs transformations Mapping à une colonne, assurez-vous qu'elles sont dans le bon ordre dans le pipeline.
Conseil : Lorsqu'un pipeline applique une transformation Mapping, il transforme les valeurs de la colonne en ligne. Pour visualiser simultanément les valeurs d'une colonne avant et après la transformation, appliquez la transformation Copy column pour ajouter un double de la colonne avant la transformation Mapping. Pour indiquer l'état "avant" des valeurs de la copie, ajoutez un préfixe à son nom, tel que Src_ ou UM_, pour Source ou Unmapped, respectivement. Pour supprimer ultérieurement cette colonne de l'ensemble de données, appliquez une transformation Group by ou Remove columns.
Fonctions de transformation supplémentaires
Ajouter une transformation
Des transformations supplémentaires peuvent être ajoutées à un pipeline en cliquant sur les signes plus verts à droite ou à gauche d'une transformation existante. En cliquant sur le signe plus à gauche ou à droite d'une transformation existante, une nouvelle transformation est ajoutée respectivement avant ou après celle-ci.
Copier une transformation
Toute transformation existante dans le pipeline peut être dupliquée en cliquant sur l'icône de copie qui se trouve sous la transformation. Une copie de la transformation est créée et le formulaire de transformation est ouvert. Mettez à jour les entrées de la transformation si nécessaire et enregistrez la transformation copiée.
Supprimer une transformation
Toute transformation dans un pipeline peut être supprimée en cliquant sur l'icône de la corbeille située sous la transformation. Lorsque vous êtes invité à confirmer la suppression, saisissez le texte requis, puis cliquez sur le bouton Supprimer. Cliquez sur le bouton Retour du formulaire de confirmation pour annuler la suppression.
Lors de la suppression d'une transformation qui crée une nouvelle colonne dans le pipeline, toute transformation ultérieure qui utilise la colonne créée par la transformation supprimée sera marquée comme non valide et l'icône de la transformation (cercle bleu) deviendra rouge pour indiquer que la transformation n'est plus valide.
Note : Les transformations supprimées ne peuvent pas être restaurées.
Réorganiser les transformations
L'ordre des transformations peut être modifié en cliquant sur les flèches gauche et droite situées sous une transformation spécifique. En cliquant sur la flèche gauche, la transformation est décalée pour se produire immédiatement avant la transformation qui l'a précédée. La flèche droite déplace la transformation pour qu'elle se produise après la transformation qui a suivi précédemment.