Una pipeline può applicare diversi tipi di trasformazioni in base all'impatto che si vuole avere sui dati tabellari. Ogni pipeline richiede almeno una (1) trasformazione e può essere assegnata a un numero virtualmente illimitato di trasformazioni.
Nota: Quando imposti una trasformazione che utilizza un operatore di confronto, come contiene, maggiore di, uguale (=) o non uguale (!=), premi ENTER dopo il suo valore.
Queste trasformazioni sono raggruppate in quattro (4) categorie:
- Trasformazione (Trasformazioni tecniche) - modifica il layout dei dati del carico utile.
- Filtro - Rimuove le righe dal carico di dati in base a un criterio.
- Dati - Ordina i dati in base a campi specifici e applica una somma per ottenere punti di dati.
- Mappatura (trasformazioni funzionali): crea relazioni tra i campi di dati.
L'aggiunta di trasformazioni a una Pipeline è un processo molto guidato, ma non prescrittivo. Questo garantisce la massima flessibilità per soddisfare le tue esigenze di trasformazione.
Nota: Prima di aggiungere trasformazioni alla tua Pipeline, assicurati di inserire un file di esempio.
Requisiti
Data Prep è controllato interamente a livello di organizzazione e non riconosce gli spazi di lavoro individuali o i loro permessi.
Questo significa che:
- Data Prep è condiviso da tutti gli utenti autorizzati della tua organizzazione.
- Tutti gli utenti che hanno accesso a Chain Builder hanno accesso anche a Data Prep.
- Tutti gli utenti che possono creare o modificare le catene avranno la possibilità di gestire le pipeline in Data Prep.
- Una singola pipeline di Data Prep può essere utilizzata in più catene e spazi di lavoro all'interno di un'organizzazione.
Trasformazione
Per modificare il layout dei dati tabellari, ad esempio per aggiungere o rimuovere colonne o modificarne i valori, aggiungi una trasformazione Transform.
Nota: Quando aggiungi una colonna, specifica il suo nome, il tipo e il formato dei suoi valori e dove deve apparire nei dati tabellari.
| Trasformazione | Descrizione |
|---|---|
| Inserire colonna | Aggiunge un campo al dataset con un valore in ogni riga. Quando imposti questa trasformazione, specifica il valore statico o variabile delle colonne. |
| Inserisci numeri di riga | Aggiunge una colonna con numerazione di riga al dataset. Quando imposti questa trasformazione, specifica il numero iniziale delle righe. |
| Formula di Excel | Aggiunge una colonna con il risultato di un'operazione eseguita sulle colonne specificate, basata su una formula di Microsoft Excel®. Quando imposti questa trasformazione, specifica la formula da eseguire. Quando scrivi la formula, fai riferimento alle colonne con le loro intestazioni, ad esempio SUM(amount1, amount 2). Nota: A differenza di Excel, non inizia con un operatore |
| Rimuovi colonne | Rimuove le colonne specificate dal dataset |
| Unisci colonne | Aggiunge una colonna con i valori unificati delle colonne specificate, separati da un delimitatore specificato |
| Rinomina | Rinomina le colonne specificate nel set di dati |
| Spostare la colonna | Riposiziona una colonna specifica all'interno del dataset |
| Valore di campo diviso | Divide i valori di una colonna in più colonne, in base a un delimitatore specificato. |
| Mantieni colonne | Rimuove tutte le colonne dal set di dati tranne quelle specificate. |
| Capovolgi segno | Inverte il segno dei valori di una colonna specificata, ad esempio da positivo a negativo o viceversa. |
| Maiuscolo | Converte i valori di una colonna specificata in tutti i MAIUSCOLI |
| Minuscolo | Converte i valori di una colonna specificata in tutte le minuscole |
| Trova e sostituisci | Sostituisce tutte le istanze di un valore di testo specificato nel dataset con un nuovo valore specificato |
| Raggruppa per | Aggrega il set di dati in record unici basati sulle colonne specificate, simile all'istruzione SQL a GROUP BY |
| Copia colonna | Aggiunge un duplicato di una colonna specificata |
| Distanza tra le stringhe | Calcola il numero di modifiche (cioè la "distanza") necessarie per trasformare una stringa di testo in un'altra. Conosciuta anche come trasformazione della distanza di Levenshtein. Ogni stringa è limitata a un massimo di 1024 caratteri; viene calcolata una distanza massima di 100. |
Suggerimento: Per rimuovere le righe da un set di dati, usa una parola chiave - come Ignora- per indicare le righe da rimuovere. Quindi, utilizza la parola chiave come valore To in una trasformazione Mapping e imposta una trasformazione Smart filter con una condizione OR per rimuovere qualsiasi campo mappato con quella parola chiave.
Filtro
Per rimuovere le righe dai dati in base a criteri specifici, aggiungi una trasformazione Filter.
| Trasformazione | Descrizione |
|---|---|
| Corrispondenza esatta | Rimuove tutte le righe che non corrispondono esattamente al testo specificato. |
| RegExp match | Rimuove tutte le righe che non corrispondono all'espressione regolare (RegExp) specificata. |
| Prendi le righe | Rimuove tutte le righe successive al numero specificato. Ad esempio, 10: rimuove la decima riga e tutte le successive. |
| Filtro intelligente | Rimuove o mantiene i record di una colonna in base a condizioni specifiche |
Dati
Per ordinare i dati tabellari o applicare sommatorie basate su colonne specifiche, aggiungi una trasformazione Data.
| Trasformazione | Descrizione |
|---|---|
| Ordina | Ordina il set di dati in base alle colonne specificate |
| Somma se | Crea un'uscita pipeline aggiuntiva con la somma di tutti i valori di una colonna specificata |
Mappatura
Per trasformare i valori di una colonna in base alle regole definite da un gruppo di mappatura, aggiungi una trasformazione Mapping:
- Seleziona Mapping, e clicca su Next.
- Seleziona il gruppo di mappatura con le regole da applicare.
- In Abbina le colonne, seleziona quali colonne della pipeline corrispondono a quelle del gruppo di mappatura.
- Clicca su Salva.
Se applichi più trasformazioni Mapping a una colonna, assicurati che siano nell'ordine corretto all'interno della pipeline.
Suggerimento: Quando una pipeline applica una trasformazione Mapping trasforma i valori della colonna in linea. Per visualizzare contemporaneamente i valori di una colonna prima e dopo la trasformazione, applica la trasformazione Copia colonna per aggiungere un duplicato della colonna prima della trasformazione Mappatura. Per indicare lo stato "precedente" dei valori della copia, aggiungi un prefisso al suo nome, come Src_ o UM_, rispettivamente per Source o Unmapped. Per rimuovere successivamente questa colonna dal set di dati, applica una trasformazione Group by o Remove columns.
Funzioni di trasformazione aggiuntive
Aggiungi una trasformazione
È possibile aggiungere ulteriori trasformazioni a una pipeline cliccando sui segni più verdi a destra o a sinistra di una trasformazione esistente. Cliccando sul segno più a sinistra o a destra di una trasformazione esistente, si aggiunge una nuova trasformazione rispettivamente prima o dopo di essa.
Copia una trasformazione
Qualsiasi trasformazione esistente nella Pipeline può essere duplicata cliccando sull'icona di copia che si trova sotto la trasformazione. Viene creata una copia della trasformazione e viene aperto il modulo di trasformazione. Aggiorna gli input della trasformazione se necessario e salva la trasformazione copiata.
Elimina una trasformazione
Qualsiasi trasformazione in una Pipeline può essere eliminata cliccando sull'icona del cestino sotto la trasformazione. Quando ti viene chiesto di confermare l'eliminazione, digita il testo richiesto e poi clicca sul pulsante Elimina. Clicca sul pulsante Indietro nel modulo di conferma per annullare l'eliminazione.
Quando si elimina una trasformazione che crea una nuova colonna nella Pipeline, qualsiasi trasformazione successiva che utilizzi la colonna creata dalla trasformazione eliminata sarà contrassegnata come non valida e l'icona della trasformazione (cerchio blu) diventerà rossa per indicare che la trasformazione non è più valida.
Nota: Le trasformazioni cancellate non possono essere ripristinate.
Riordina le trasformazioni
L'ordine delle trasformazioni può essere cambiato cliccando sulle frecce destra e sinistra sotto una specifica trasformazione. Cliccando sulla freccia sinistra, la trasformazione viene spostata in modo da avvenire immediatamente prima della trasformazione che la precedeva. La freccia a destra sposta la trasformazione in modo che avvenga dopo la trasformazione precedente.