Em Data Prep , você pode criar e executar sequências (pipelines), bem como criar transformações funcionais (mapping groups).
O pipeline é uma série de transformações técnicas a serem aplicadas a saídas tabulares em cadeias. Por exemplo, você pode configurar pipelines de transformações comuns para preparar dados para ou a partir de seus vários sistemas de registro.
Dica: Se as suas cadeias usam uma sequência comum de comandos Transformação tabular e Utilidades de arquivo para atualizar os dados dos seus sistemas de registro, crie pipelines para executar essas transformações com um único comando Executar pipeline.
Um pipeline pode aplicar transformações para:
- Modificar o layout dos dados, por exemplo, para adicionar ou remover colunas ou ajustar seus valores
- Aplicar filtros para remover linhas dos dados com base em critérios específicos
- Classificar os dados ou aplicar somas com base em colunas específicas
- Mapear relacionamentos entre modelos de dados com base em regras definidas
Mapping Groups constroem as relações entre os modelos de dados de diferentes sistemas corporativos, definindo como transformar os códigos/valores de um sistema para outro. Eles são aplicados em um pipeline como uma etapa de transformação.
Os Mapping Groups suportam uma série de técnicas de mapeamento que são poderosas, porém simples de usar, e atendem a requisitos comuns ou complexos. Eles foram projetados para que os usuários definam e atualizem para transformar e harmonizar dados. Os grupos de mapeamento podem ser compartilhados em vários pipelines. A interface é muito parecida com o Excel, proporcionando uma sensação familiar e acolhedora.
Requisitos
O Data Prep é controlado inteiramente em nível de organização e não reconhece espaços de trabalho individuais ou suas permissões.
Isso significa que você pode usar o Data Prep:
- O Data Prep é compartilhado entre todos os usuários autorizados em sua organização.
- Qualquer usuário com acesso ao Chain Builder também tem acesso ao Data Prep.
- Todos os usuários que podem criar ou editar cadeias terão a capacidade de gerenciar pipelines no Data Prep.
- Um único pipeline do Data Prep pode ser usado em várias cadeias e espaços de trabalho em uma organização.
Etapa 1. Configurar uma conexão de Data Prep
Para aplicar as transformações de um pipeline aos dados em uma cadeia, você inclui o comando Data Prep do conector Run pipeline. Se você ainda não o fez, configure uma conexão Data Prep . Com a conexão Data Prep configurada, você pode abrir Data Prep from Wdata Chains .
Etapa 2. Fazer upload de arquivos de amostra
De Arquivos de amostra em Data Prep, carregar arquivos de amostra que representam os dados tabulares a serem transformados para ajudar a facilitar a criação do pipeline.
Depois de carregado, você pode usar um arquivo de amostra para:
- Definir rapidamente as colunas e os tipos de dados com os quais um pipeline interage
- Visualize como um pipeline ou uma transformação de mapeamento afeta os dados
Etapa 3. Criar grupos para mapear transformações
Para mapear relacionamentos entre modelos de dados em um pipeline, você pode incluir transformações de mapeamento. Em Grupos de mapeamento em Data Prep, crie grupos de mapeamento para definir as relações entre os valores e como transformá-los de um sistema para outro em uma transformação de mapeamento.
Dica: Para definir valores para uma transformação de mapeamento quando o pipeline for executado, configure variáveis de tempo de execução para o grupo de mapeamento.
Ao criar um grupo de mapeamento, você pode definir suas regras para transformar valores com base em uma correspondência exata, um padrão simples ou uma expressão regular.
Etapa 4. Configurar pipelines
Um pipeline é o conjunto de transformações técnicas e funcionais que são aplicadas aos dados processados pelo Data Prep.
-
As transformações técnicas definidas em um pipeline são usadas para modificar o layout de dados. Atividades como adição ou remoção de colunas, reordenação de colunas ou inserção de novas colunas são exemplos de transformações técnicas.
-
A transformação funcional é o processo de criação de um relacionamento entre os modelos de dados dos sistemas que estão sendo integrados. A transformação funcional é geralmente chamada de mapeamento e é gerenciada pelos grupos de mapeamento de preparação de dados. Os grupos de mapeamento são aplicados em um pipeline como uma etapa de transformação.
Para definir a sequência de transformações a serem aplicadas aos dados tabulares, crie pipelines a partir de Pipelines em Data Prep.
Ao criar um pipeline, você:
- Você define as colunas e os tipos de dados com os quais ele interage, seja manualmente ou com base em um arquivo de amostra ou arquivo delimitado carregado
- Configure as transformações a serem aplicadas - em ordem - quando o pipeline for executado
Dica: Para definir valores para uma transformação quando o pipeline for executado, configure as variáveis de tempo de execução para o pipeline.
Etapa 5. Executar pipelines em cadeias
Para aplicar as transformações a dados tabulares de uma saída no início de uma cadeia, use o comando Data Prep do conector Run pipeline . Ao configurar o comando, você:
- Você seleciona o pipeline a ser executado e a saída tabular a ser transformada
- Mapear as colunas do arquivo tabular para a definição de coluna do pipeline
- Definir quaisquer valores de variáveis de tempo de execução para o pipeline