À partir de Data Prep , vous pouvez créer et exécuter des séquences (pipelines), ainsi que créer des transformations fonctionnelles (mapping groups).
Pipeline est une série de transformations techniques à appliquer aux sorties tabulaires dans les chaînes. Par exemple, vous pouvez mettre en place des pipelines de transformations communes pour préparer les données pour ou à partir de vos différents systèmes d'enregistrement.
Conseil : Si vos chaînes utilisent une séquence commune de commandes Tabular Transformation et File Utilities pour mettre à jour les données de vos systèmes d'enregistrement, créez des pipelines pour effectuer ces transformations à l'aide d'une seule commande Run pipeline .
Un pipeline peut appliquer des transformations à :
- Modifier la présentation des données, par exemple en ajoutant ou en supprimant des colonnes ou en ajustant leurs valeurs.
- appliquer des filtres pour supprimer des lignes des données selon des critères spécifiques ;
- trier les données ou appliquer des sommations selon des colonnes spécifiques ;
- établir des relations entre les modèles de données selon des règles définies.
Les groupes de cartographie établissent les relations entre les modèles de données de différents systèmes d'entreprise en définissant comment transformer les codes/valeurs d'un système à l'autre. Ils sont appliqués au sein d'un pipeline en tant qu'étape de transformation.
Les groupes de cartographie prennent en charge une série de techniques de cartographie puissantes, mais simples à utiliser, qui répondent à des besoins communs ou complexes. Ils sont conçus pour que les utilisateurs les définissent et les mettent à jour afin de transformer et d'harmoniser les données. Les groupes de mappage peuvent être partagés entre plusieurs pipelines. L'interface est très proche de celle d'Excel, ce qui la rend familière et accueillante.
Exigences
Data Prep est entièrement contrôlé au niveau de l'organisation et ne reconnaît pas les espaces de travail individuels ni leurs autorisations.
Cela signifie que :
- Les données Prep sont partagées entre tous les utilisateurs autorisés de votre organisation.
- Tout utilisateur ayant accès à Chain Builder a également accès à Data Prep.
- Tous les utilisateurs qui peuvent créer ou modifier des chaînes auront la possibilité de gérer des pipelines dans Data Prep.
- Un seul pipeline de Data Prep peut être utilisé sur plusieurs chaînes et espaces de travail au sein d'une organisation.
Étape 1. Établir une connexion Data Prep
Pour appliquer les transformations d'un pipeline aux données d'une chaîne, vous incluez la commande Run pipeline du connecteur Data Prep. Si vous ne l'avez pas encore fait, établit une connexion Data Prep . Une fois la connexion Data Prep établie, vous pouvez ouvrir Data Prep à partir de Wdata Chains .
Étape 2. Télécharger les fichiers d'échantillons
À partir de Sample files in Data Prep, téléchargez des fichiers d'échantillons qui représentent les données tabulaires à transformer pour faciliter la création du pipeline.
Une fois téléchargé, vous pouvez utiliser un fichier d'exemple pour :
- Définir rapidement les colonnes et les types de données avec lesquels un pipeline interagit
- Prévisualiser l'impact d'un pipeline ou d'une transformation de mappage sur les données
Étape 3. Créer des groupes pour les transformations cartographiques
Pour cartographier les relations entre les modèles de données au sein d'un pipeline, vous pouvez inclure des transformations Mapping. À partir de Groupes de mappage dans Data Prep, créez des groupes de mappage pour définir les relations entre les valeurs et la façon de transformer les valeurs d'un système à l'autre dans le cadre d'une transformation de mappage.
Conseil : Pour définir les valeurs d'une transformation de mappage lors de l'exécution du pipeline, configure les variables d'exécution pour le groupe de mappage.
Lorsque vous créez un groupe de mappage, vous pouvez définir ses règles pour transformer les valeurs en fonction d'une correspondance exacte, d'un motif simple ou d'une expression régulière.
Étape 4. Mise en place des pipelines
Un pipeline est l'ensemble des transformations techniques et fonctionnelles appliquées aux données traitées par Data Prep.
-
Les transformations techniques définies dans un pipeline sont utilisées pour modifier la présentation des données. Des activités telles que l'ajout ou la suppression de colonnes, la réorganisation des colonnes ou l'insertion de nouvelles colonnes sont autant d'exemples de transformations techniques.
-
La transformation fonctionnelle est le processus d'établissement d'une relation entre les modèles de données des systèmes en cours d'intégration. La transformation fonctionnelle est souvent appelée cartographie et est gérée par les groupes de cartographie de la préparation des données. Les groupes de mappage sont appliqués au sein d'un pipeline en tant qu'étape de transformation.
Pour définir la séquence des transformations à appliquer aux données tabulaires, créer des pipelines à partir de Pipelines dans Data Prep.
Lorsque vous créez un pipeline, vous.. :
- Définir les colonnes et les types de données avec lesquelles il interagit, soit manuellement, soit sur la base d'un fichier échantillon ou d'un fichier délimité téléchargé.
- Configurer les transformations à appliquer - dans l'ordre - lors de l'exécution du pipeline
Conseil : Pour définir les valeurs d'une transformation lors de l'exécution du pipeline, configurer les variables d'exécution pour le pipeline.
Étape 5. Exécuter les pipelines en chaîne
Pour appliquer les transformations aux données tabulaires d'une sortie située plus tôt dans une chaîne, utilisez la commande Run pipeline du connecteur Data Prep. Lors de la mise en place de la commande, vous :
- Sélectionner le pipeline à exécuter et la sortie tabulaire à transformer
- Faire correspondre les colonnes du fichier tabulaire à la définition des colonnes du pipeline.
- Définir les valeurs des variables d'exécution pour le pipeline