Para transformar dados tabulares com o conector Data Prep, primeiro você configura a sequência - ou pipeline de transformações a serem aplicadas. Um pipeline fornece uma representação gráfica de suas transformações definidas e permite uma visualização do impacto de cada transformação.
Dica: Se as suas cadeias usam uma sequência comum de comandos Transformação tabular e Utilidades de arquivo para atualizar os dados dos seus sistemas de registro, crie pipelines para executar essas transformações com um único comando Executar pipeline.
Requisitos
O Data Prep é controlado inteiramente em nível de organização e não reconhece espaços de trabalho individuais ou suas permissões.
Isso significa que você pode usar o Data Prep:
- O Data Prep é compartilhado entre todos os usuários autorizados em sua organização.
- Qualquer usuário com acesso ao Chain Builder também tem acesso ao Data Prep.
- Todos os usuários que podem criar ou editar cadeias terão a capacidade de gerenciar pipelines no Data Prep.
- Um único pipeline do Data Prep pode ser usado em várias cadeias e espaços de trabalho em uma organização.
Etapa 1. Criar o pipeline
Dica: Antes de criar o pipeline, em Arquivos de amostra, carregue um arquivo de amostra que represente as colunas e os dados que serão transformados para definir facilmente as colunas do pipeline e permitir uma visualização das transformações aplicadas.
- Em Wdata, clique em Cadeias e Data Prep.
Observação: Para acessar o Data Prep do Wdata Cadeias, primeiro configure um conector Data Prep.
- Em Pipelines , em Pipelines ativos, crie o pipeline:
- Para o primeiro pipeline, clique em Criar um pipeline.
- Caso contrário, clique em New pipeline (+) ao lado da barra de pesquisa.
- Digite um nome e uma descrição para ajudar a identificar o pipeline.
- Clique em Create.
Etapa 2. Definir as colunas
Para especificar os campos com os quais o pipeline interagirá, defina as colunas dos dados que ele transforma. Ao definir uma coluna, você especifica seu nome e o tipo e o formato de seus dados. Por exemplo, para uma coluna com um tipo de dados Number (Número), especifique suas casas decimais e os caracteres usados para os separadores de decimais e milhares.
Observação: Os nomes de coluna definidos para o pipeline podem ser diferentes das colunas nos dados que ele transforma.
Para definir as colunas do pipeline, você pode usar a definição de coluna de um arquivo de amostra carregado ou de um arquivo delimitado salvo localmente ou em sua rede. Você também pode definir manualmente as colunas.
Para facilitar a criação do pipeline, recomendamos que você use um arquivo de amostra para definir suas colunas:
Observação: Para usar um arquivo de amostra, primeiro carregue-o em Arquivos de amostra.
- Em Definir colunas, clique em Escolher da lista.
- Selecione o arquivo de amostra com a definição de coluna a ser usada e clique em OK.
Observação: A definição de coluna do arquivo de amostra substituirá todas as colunas definidas para o pipeline.
- Revise a definição da coluna e edite os nomes das colunas conforme necessário.
- Clique em Salvar.
Para definir as colunas do pipeline, você pode carregar um arquivo com a mesma definição de coluna.
Observação: O arquivo deve ser delimitado e conter uma linha de cabeçalho.
- Em Definir colunas, clique em Criar a partir do arquivo.
- Navegue até o arquivo com a definição de coluna a ser usada, selecione-o e clique em OK.
Observação: A definição de coluna do arquivo substituirá todas as colunas definidas para o pipeline.
- Revise a definição da coluna e edite os nomes das colunas e os tipos de dados, conforme necessário.
Observação: Não deixe de revisar e atualizar a definição da coluna. O pipeline usa nomes de colunas da linha de cabeçalho do arquivo e adivinha os tipos de dados com base nos dados.
- Clique em Salvar.
Para definir manualmente uma coluna:
- Em Definir colunas, clique em Adicionar colunas.
- Selecione o tipo de dados da coluna.
- Digite um nome e uma descrição para ajudar a identificar a coluna.
- Especifique o formato dos dados da coluna, com base em seu tipo:
- Para uma coluna String, selecione qualquer formato especial, como para identificadores universalmente exclusivos (UUIDs), cadeias binárias, endereços de e-mail ou endereços da Web com identificador uniforme de recursos (URI).
- Para uma coluna Integer, selecione o separador de milhares.
- Para uma coluna Number, insira o número de casas decimais e selecione os separadores de decimais e milhares.
- Para uma coluna Date, Time, ou DateTime, selecione o formato string-from-time (strftime).
Observação: A Binary coluna contém valores como True ou False, ou 1 ou 0.
- Depois de definir todas as colunas, clique em Salvar.
Etapa 3. Configurar as transformações
- Para visualizar o impacto das transformações, o site fixou um arquivo de amostra indicativo das colunas e dos dados a serem transformados pelo pipeline.
- Clique em Criar transformação.
- Selecione a transformação a ser aplicada e clique em Próximo.
- Configure a transformação e clique em Salvar.
- Para configurar quaisquer transformações adicionais, clique em Adicionar transformação antes ou depois da transformação existente, com base em quando ela deve ocorrer.
Dica: Para adicionar outra instância de uma transformação já existente no pipeline, clique em Copiar e configure a nova instância conforme necessário.
- Ajuste as transformações conforme necessário:
- Para reposicionar uma transformação no pipeline, clique em seu endereço Mover para frente ou Mover para trás.
- Para remover uma transformação do pipeline, clique em seu Excluir.
Observação: Se você mover ou excluir uma transformação, ajuste todas as transformações que dependem de seu resultado, conforme necessário.
Etapa 4. Publicar o pipeline
Quando o pipeline estiver pronto para uso, clique em Publicar.
Depois de publicar o pipeline, você poderá usá-lo com o comando Executar pipeline de o conector Data Prep para aplicar suas transformações a dados tabulares em uma cadeia.