Pour transformer des données tabulaires avec le connecteur Data Prep , vous devez d'abord configurer la séquence - ou pipeline- des transformations à appliquer. Un pipeline fournit une représentation graphique des transformations définies et permet de prévisualiser l'impact de chaque transformation.
Conseil : Si vos chaînes utilisent une séquence commune de commandes Tabular Transformation et File Utilities pour mettre à jour les données de vos systèmes d'enregistrement, créez des pipelines pour effectuer ces transformations à l'aide d'une seule commande Run pipeline .
Exigences
Data Prep est entièrement contrôlé au niveau de l'organisation et ne reconnaît pas les espaces de travail individuels ni leurs autorisations.
Cela signifie que :
- Les données Prep sont partagées entre tous les utilisateurs autorisés de votre organisation.
- Tout utilisateur ayant accès à Chain Builder a également accès à Data Prep.
- Tous les utilisateurs qui peuvent créer ou modifier des chaînes auront la possibilité de gérer des pipelines dans Data Prep.
- Un seul pipeline de Data Prep peut être utilisé sur plusieurs chaînes et espaces de travail au sein d'une organisation.
Étape 1. Créer le pipeline
Conseil : Avant de créer le pipeline, à partir de Fichiers d'échantillons, téléchargez un fichier d'échantillons qui représente les colonnes et les données qu'il transformera pour définir facilement les colonnes du pipeline et permettre une prévisualisation des transformations appliquées.
- Dans Wdata, cliquez sur Chains et Data Prep.
Note : Pour accéder à Data Prep à partir de Wdata Chains, il faut d'abord configurer un connecteur Data Prep .
- À partir de Pipelines , sous Active pipelines, créez le pipeline :
- Pour la première canalisation, cliquez sur Créer une canalisation.
- Sinon, cliquez sur New pipeline ( ) à côté de la barre de recherche.
- Entrez un nom et une description pour aider à identifier le pipeline.
- Cliquez sur Créer.
Étape 2. Définir les colonnes
Pour spécifier les champs avec lesquels le pipeline interagira, définissez les colonnes des données qu'il transforme. Lorsque vous définissez une colonne, vous spécifiez son nom ainsi que le type et le format de ses données. Par exemple, pour une colonne dont le type de données est Nombre, indiquez ses décimales et les caractères utilisés pour les séparateurs de décimales et de milliers.
Note : Les noms de colonnes définis pour le pipeline peuvent différer des colonnes des données qu'il transforme.
Pour définir les colonnes du pipeline, vous pouvez utiliser la définition des colonnes d'un fichier échantillon téléchargé ou d'un fichier délimité enregistré localement ou sur votre réseau. Vous pouvez également définir manuellement des colonnes.
Pour faciliter la création d'un pipeline, nous vous recommandons d'utiliser un fichier d'exemple pour définir ses colonnes :
Remarque : Pour utiliser un fichier d'exemple, il faut d'abord le télécharger sur Fichiers d'exemple.
- Sous Define columns, cliquez sur Pick from list.
- Sélectionnez le fichier d'exemple contenant la définition de colonne à utiliser et cliquez sur OK.
Remarque : La définition des colonnes du fichier d'exemple remplacera toutes les colonnes définies pour le pipeline.
- Examinez la définition des colonnes et modifiez leur nom si nécessaire.
- Cliquez sur Enregistrer.
Pour définir les colonnes du pipeline, vous pouvez télécharger un fichier contenant la même définition de colonne.
Note : Le fichier doit être délimité et contenir une ligne d'en-tête.
- Sous Définir les colonnes, cliquez sur Créer à partir du fichier.
- Recherchez et sélectionnez le fichier contenant la définition de colonne à utiliser, puis cliquez sur OK.
Note : La définition des colonnes du fichier remplacera toutes les colonnes définies pour le pipeline.
- Examinez la définition des colonnes et modifiez les noms et les types de données des colonnes si nécessaire.
Note : Veillez à revoir et à mettre à jour la définition de la colonne. Le pipeline utilise les noms de colonnes de la ligne d'en-tête du fichier et devine les types de données sur la base des données.
- Cliquez sur Enregistrer.
Pour définir manuellement une colonne :
- Sous Définir les colonnes, cliquez sur Ajouter des colonnes.
- Sélectionnez le type de données de la colonne.
- Entrez un nom et une description pour aider à identifier la colonne.
- Spécifier le format des données de la colonne, en fonction de son type :
- Pour une colonne String, sélectionnez un format spécial, par exemple pour les identificateurs universels uniques (UUID), les chaînes binaires, les adresses électroniques ou les identificateurs de ressources uniformes (URI) des adresses web.
- Pour une colonne Integer, sélectionnez le séparateur de milliers.
- Pour une colonne Number, entrez le nombre de décimales et sélectionnez les séparateurs de décimales et de milliers.
- Pour une colonne Date, Time, ou DateTime, sélectionnez son format string-from-time (strftime).
Note : Une colonne binaire contient des valeurs telles que Vrai ou Faux, ou 1 ou 0.
- Après avoir défini toutes les colonnes, cliquez sur enregistrer.
Étape 3. Mise en place des transformations
- Pour avoir un aperçu de l'impact des transformations, épingle un échantillon de fichier indiquant les colonnes et les données qui seront transformées par le pipeline.
- Cliquez sur Créer une transformation.
- Sélectionnez la transformation à appliquer, et cliquez sur Next.
- Configurez la transformation et cliquez sur Save.
- Pour définir des transformations supplémentaires, cliquez sur Ajouter une transformation avant ou après la transformation existante, en fonction du moment où elle doit se produire.
Conseil : Pour ajouter une autre instance d'une transformation déjà dans le pipeline, cliquez sur sa copie , et configurez la nouvelle instance comme nécessaire.
- Ajustez les transformations si nécessaire :
- Pour repositionner une transformation dans le pipeline, cliquez sur son lien Move forward ou Move back.
- Pour supprimer une transformation du pipeline, cliquez sur son site Delete.
Note : Si vous déplacez ou supprimez une transformation, ajustez si nécessaire toutes les transformations qui dépendent de son résultat.
Étape 4. Publier le pipeline
Lorsque le pipeline est prêt à être utilisé, cliquez sur Publier.
Après avoir publié le pipeline, vous pouvez l'utiliser avec la commande Run pipeline de le connecteur Data Prep pour appliquer ses transformations aux données tabulaires au sein d'une chaîne.