Um pipeline pode aplicar diferentes tipos de transformações, com base em como você deseja afetar os dados tabulares. Cada pipeline requer pelo menos uma (1) transformação e pode ser atribuído a um número praticamente ilimitado de transformações.
Observação: Quando você configurar uma transformação que use um operador de comparação, como contém, maior que, igual (=) ou não igual (!=), pressione ENTER após seu valor.
Essas transformações estão agrupadas em quatro (4) categorias:
- Transform (Transformações técnicas) - modifica o layout de dados da carga útil.
- Filtro - Remova as linhas da carga de dados com base em um critério.
- Dados - Classifique os dados por campos específicos e aplique a soma para obter pontos de dados.
- Mapeamento (Transformações funcionais) - crie relações entre os campos de dados.
A adição de transformações a um pipeline é um processo bastante orientado, mas não prescritivo. Isso garante a máxima flexibilidade para atender às suas necessidades de transformação
Observação: Antes de adicionar transformações ao seu pipeline, certifique-se de fixar um arquivo de amostra.
Requisitos
O Data Prep é controlado inteiramente em nível de organização e não reconhece espaços de trabalho individuais ou suas permissões.
Isso significa que você pode usar o Data Prep:
- O Data Prep é compartilhado entre todos os usuários autorizados em sua organização.
- Qualquer usuário com acesso ao Chain Builder também tem acesso ao Data Prep.
- Todos os usuários que podem criar ou editar cadeias terão a capacidade de gerenciar pipelines no Data Prep.
- Um único pipeline de preparação de dados pode ser usado em várias cadeias e espaços de trabalho de uma organização.
Transformar
Para modificar o layout dos dados tabulares, como adicionar ou remover colunas ou ajustar seus valores, adicione uma transformação Transform.
Observação: Ao adicionar uma coluna, você especifica seu nome, o tipo e o formato de seus valores e onde ela deve aparecer nos dados tabulares.
| Transformação de | Descrição |
|---|---|
| Inserir coluna | Adiciona um campo ao conjunto de dados com um valor em cada linha. Quando você configurar essa transformação, especifique o valor estático ou variável das colunas. |
| Inserir números de linha | Adiciona uma coluna com numeração de linha ao conjunto de dados. Quando você configurar essa transformação, especifique o número inicial das linhas. |
| Fórmula do Excel | Adiciona uma coluna com o resultado de uma operação realizada em colunas especificadas, com base em uma fórmula do Microsoft Excel®. Quando você configurar essa transformação, especifique a fórmula a ser executada. Quando você escrever a fórmula, faça referência às colunas pelos respectivos cabeçalhos, como SUM(amount1, amount 2). Observação: Diferentemente do Excel, faça e não começar com um operador |
| Remover colunas | Remove as colunas especificadas do conjunto de dados |
| Mesclar colunas | Adiciona uma coluna com os valores mesclados das colunas especificadas, separadas por um delimitador especificado |
| Renomear | Renomeia as colunas especificadas no conjunto de dados |
| Deslocar coluna | Reposiciona uma coluna especificada dentro do conjunto de dados |
| Dividir o valor do campo | Divide os valores de uma coluna em várias colunas, com base em um delimitador especificado |
| Manter colunas | Remove todas as colunas do conjunto de dados, exceto as especificadas |
| Sinal de inversão | Inverte o sinal dos valores de uma coluna especificada, como de positivo para negativo, ou vice-versa |
| MAIÚSCULAS | Converte os valores de uma coluna especificada para todas as MAIÚSCULAS |
| Minúscula | Converte os valores de uma coluna especificada em todas as letras minúsculas |
| Localizar e substituir | Substitui todas as instâncias de um valor de texto especificado no conjunto de dados por um novo valor especificado |
| Grupo por | Agrega o conjunto de dados em registros exclusivos com base em colunas especificadas, semelhante à instrução SQL a GROUP BY |
| Copiar coluna | Adiciona uma duplicata de uma coluna especificada |
| Distância da cadeia de caracteres | Calcula o número de edições (ou seja, a "distância") necessárias para transformar uma string de texto em outra. Também conhecida como transformação da distância de Levenshtein. Cada cadeia é limitada a um máximo de 1024 caracteres; é calculada uma distância máxima de 100. |
Dica: Para remover as linhas de um conjunto de dados, use uma palavra-chave - como Ignore- para indicar as linhas a serem removidas. Em seguida, use a palavra-chave como um valor To em uma transformação Mapping e configure uma transformação Smart filter com uma condição OR para remover qualquer campo mapeado com essa palavra-chave.
Filtro
Para remover linhas dos dados com base em critérios específicos, adicione uma transformação Filter.
| Transformação de | Descrição |
|---|---|
| Correspondência exata | Remove todas as linhas que não correspondem exatamente ao texto especificado |
| RegExp match | Remove todas as linhas que não correspondem à expressão regular especificada (RegExp) |
| Pegar linhas | Remove todas as linhas no número especificado e após ele. Por exemplo, 10: remove a décima linha e todas as linhas subsequentes. |
| Filtro inteligente | Remove ou mantém os registros de uma coluna com base nas condições especificadas |
Dados
Para classificar dados tabulares ou aplicar somas com base em colunas específicas, adicione uma transformação Data.
| Transformação de | Descrição |
|---|---|
| Classificar | Classifica o conjunto de dados com base nas colunas especificadas |
| Soma se | Cria uma saída de pipeline adicional com a soma de todos os valores em uma coluna especificada |
Mapeamento
Para transformar os valores de uma coluna com base nas regras definidas por um grupo de mapeamento, adicione uma transformação Mapeamento:
- Selecione Mapeamento e clique em Next.
- Selecione o grupo de mapeamento com as regras a serem aplicadas.
- Em Match columns, selecione quais colunas do pipeline são mapeadas para o grupo de mapeamento.
- Clique em Salvar.
Se você aplicar várias transformações Mapping a uma coluna, verifique se elas estão na ordem correta dentro do pipeline.
Dica: Quando um pipeline aplica uma transformação Mapping, ele transforma os valores da coluna em linha. Para visualizar os valores de uma coluna antes e depois da transformação ao mesmo tempo, aplique uma transformação Copy column para adicionar uma duplicata da coluna antes da transformação Mapping. Para indicar o status "anterior" dos valores da cópia, acrescente um prefixo ao seu nome, como Src_ ou UM_, para Source ou Unmapped, respectivamente. Para remover posteriormente essa coluna do conjunto de dados, aplique uma transformação Group by ou Remove columns.
Funções adicionais de transformação
Adicionar uma transformação
Você pode adicionar outras transformações a um pipeline clicando nos sinais de mais verdes à direita ou à esquerda de uma transformação existente. Ao clicar no sinal de mais à esquerda ou à direita de uma transformação existente, você adiciona uma nova transformação antes ou depois dela, respectivamente.
Copiar uma transformação
Você pode duplicar qualquer transformação existente no pipeline clicando no ícone de cópia que está sob a transformação. Uma cópia da transformação é criada e o formulário de transformação é aberto. Atualize as entradas da transformação conforme necessário e salve a transformação copiada.
Excluir uma transformação
Qualquer transformação em um pipeline pode ser excluída clicando no ícone da lixeira abaixo da transformação. Quando você for solicitado a confirmar a exclusão, digite o texto necessário e clique no botão Excluir. Clique no botão Voltar no formulário de confirmação para cancelar a exclusão.
Ao excluir uma transformação que cria uma nova coluna no pipeline, qualquer transformação subsequente que utilize a coluna que foi criada pela transformação agora excluída será marcada como inválida e o ícone de transformação (círculo azul) ficará vermelho para indicar que a transformação não é mais válida.
Observação: As transformações excluídas não podem ser restauradas.
Reordenar transformações
Você pode alterar a ordem das transformações clicando nas setas para a esquerda e para a direita sob uma transformação específica. Ao clicar na seta para a esquerda, a transformação é deslocada para ocorrer imediatamente antes da transformação que a precedeu anteriormente. A seta para a direita faz com que a transformação ocorra após a transformação que a seguiu anteriormente.