En pipeline kan bruke ulike typer transformasjoner, avhengig av hvordan du ønsker å påvirke tabelldataene. Hver rørledning krever minst én (1) transformasjon og kan tildeles et tilnærmet ubegrenset antall transformasjoner.
Merk: Når du setter opp en transformasjon som bruker en sammenligningsoperator, for eksempel inneholder, større enn, er lik (=), eller ikke er lik (!=), trykker du ENTER etter verdien.
Disse transformasjonene er gruppert i fire (4) kategorier:
- Transform (tekniske transformasjoner) - endre dataoppsettet i nyttelasten.
- Filter - Fjern rader fra datagrunnlaget basert på et kriterium/kriterier.
- Data - Sorter data etter bestemte felt, og bruk summering for å utlede datapunkter.
- Mapping (funksjonelle transformasjoner) - bygger relasjoner mellom datafelter.
Å legge til transformasjoner i en pipeline er en svært styrt, men ikke preskriptiv prosess. Dette sikrer den ultimate fleksibiliteten for å møte dine transformasjonsbehov
Merk: Før du legger til transformasjoner i Pipeline, må du huske å feste en prøvefil.
Krav
Data Prep styres helt og holdent på organisasjonsnivå og gjenkjenner ikke individuelle arbeidsområder eller deres tillatelser.
Det betyr..:
- Data Prep deles mellom alle autoriserte brukere i organisasjonen.
- Alle brukere med tilgang til Chain Builder har også tilgang til Data Prep.
- Alle brukere som kan opprette eller redigere kjeder, vil ha muligheten til å administrere rørledninger i Data Prep.
- En enkelt Data Prep-pipeline kan brukes på tvers av flere kjeder og arbeidsområder i en organisasjon.
Forvandle
Hvis du vil endre oppsettet til tabelldataene, for eksempel legge til eller fjerne kolonner eller justere verdiene, kan du legge til en Transform -transformasjon.
Merk: Når du legger til en kolonne, angir du navnet på kolonnen, type og format på verdiene, og hvor den skal vises i tabelldataene.
| Transformasjon | Beskrivelse |
|---|---|
| Sett inn kolonne | Legger til et felt i datasettet med en verdi i hver rad. Når du konfigurerer denne transformasjonen, angir du kolonnens statiske eller variable verdi. |
| Sett inn radnummer | Legger til en kolonne med radnummerering i datasettet. Når du konfigurerer denne transformasjonen, angir du radenes startnummer. |
| Excel-formel | Legger til en kolonne med resultatet av en operasjon som er utført på spesifiserte kolonner, basert på en Microsoft Excel®-formel. Når du konfigurerer denne transformasjonen, angir du formelen som skal utføres. Når du skriver formelen, refererer du til kolonnene med overskriftene deres, for eksempel SUM(beløp1, beløp 2). Merk: I motsetning til i Excel, må ikke starte med en |
| Fjern kolonner | Fjerner spesifiserte kolonner fra datasettet |
| Slå sammen kolonner | Legger til en kolonne med de sammenslåtte verdiene til de angitte kolonnene, atskilt med et angitt skilletegn |
| Gi nytt navn | Gir nytt navn til angitte kolonner i datasettet |
| Skift kolonne | Flytter en spesifisert kolonne i datasettet |
| Del feltverdi | Deler opp en kolonnes verdier i flere kolonner, basert på et spesifisert skilletegn |
| Behold kolonnene | Fjerner alle kolonner fra datasettet unntatt de som er spesifisert |
| Flip-skilt | Snur fortegnet på verdiene i en spesifisert kolonne, for eksempel fra positiv til negativ, eller omvendt |
| Store bokstaver | Konverterer verdiene i en spesifisert kolonne til alle UPPERCASE |
| Små bokstaver | Konverterer verdiene i en spesifisert kolonne til små bokstaver |
| Finn og erstatt | Erstatter alle forekomster av en spesifisert tekstverdi i datasettet med en spesifisert ny verdi |
| Grupper etter | Aggregerer datasettet til unike poster basert på spesifiserte kolonner, på samme måte som en GROUP BY SQL-setning |
| Kopier kolonne | Legger til et duplikat av en spesifisert kolonne |
| String avstand | Beregner antall redigeringer (dvs. "avstand") som trengs for å gjøre den ene tekststrengen om til den andre. Også kjent som en Levenshtein-distansetransformasjon. Hver streng er begrenset til maksimalt 1024 tegn, og det beregnes en maksimal avstand på 100. |
Tips: Hvis du vil fjerne rader fra et datasett, bruker du et nøkkelord - for eksempel Ignorer- for å angi hvilke rader som skal fjernes. Deretter bruker du nøkkelordet som en Til -verdi i en Mapping -transformasjon, og setter opp en Smart filter -transformasjon med en ELLER -betingelse for å fjerne alle tilordnede felt med dette nøkkelordet.
Filtrer
Hvis du vil fjerne rader fra dataene basert på bestemte kriterier, legger du til en Filter -transformasjon.
| Transformasjon | Beskrivelse |
|---|---|
| Eksakt samsvar | Fjerner alle rader som ikke samsvarer nøyaktig med den angitte teksten |
| RegExp-match | Fjerner alle rader som ikke samsvarer med det angitte regulære uttrykket (RegExp) |
| Ta rader | Fjerner alle rader på og etter det angitte nummeret. For eksempel 10: fjerner den tiende raden og alle påfølgende rader. |
| Smart filter | Fjerner eller beholder poster i en kolonne basert på spesifiserte betingelser |
Data
Hvis du vil sortere tabelldata eller bruke summeringer basert på bestemte kolonner, kan du legge til en Data -transformasjon.
| Transformasjon | Beskrivelse |
|---|---|
| Sorter | Sorterer datasettet basert på angitte kolonner |
| Sum hvis | Oppretter en ekstra pipelineutgang med summen av alle verdiene i en spesifisert kolonne |
Tilordning
For å transformere en kolonnes verdier basert på regler som er definert av en mappinggruppe, legger du til en Mapping -transformasjon:
- Velg Mapping, og klikk på Neste.
- Velg kartleggingsgruppen med reglene som skal brukes.
- Under Match columns velger du hvilke av rørledningens kolonner som skal mappes til kartleggingsgruppens.
- Klikk på Lagre.
Hvis du bruker flere Mapping -transformasjoner på en kolonne, må du sørge for at de er i riktig rekkefølge i rørledningen.
Tips: Når en pipeline bruker en Mapping -transformasjon, transformerer den kolonnens verdier inline. Hvis du vil vise en kolonnes verdier både før og etter transformasjonen samtidig, kan du bruke transformasjonen Copy column for å legge til et duplikat av kolonnen før transformasjonen Mapping. Hvis du vil angi "før"-statusen til kopiens verdier, legger du til et prefiks i navnet, for eksempel Src_ eller UM_, for henholdsvis Source eller Unmapped. Hvis du senere vil fjerne denne kolonnen fra datasettet, bruker du transformasjonen Group by eller Remove columns.
Ytterligere transformasjonsfunksjoner
Legg til en transformasjon
Du kan legge til flere transformasjoner i en rørledning ved å klikke på de grønne plusstegnene til høyre eller venstre for en eksisterende transformasjon. Hvis du klikker på plusstegnet til venstre eller høyre for en eksisterende transformasjon, legges det til en ny transformasjon henholdsvis før eller etter den.
Kopier en transformasjon
Alle eksisterende transformasjoner i rørledningen kan dupliseres ved å klikke på kopieringsikonet under transformasjonen. En kopi av transformasjonen opprettes, og transformasjonsskjemaet åpnes. Oppdater transformasjonsinndataene etter behov, og lagre den kopierte transformasjonen.
Slett en transformasjon
Alle transformasjoner i en rørledning kan slettes ved å klikke på søppelbøtteikonet under transformasjonen. Når du blir bedt om å bekrefte slettingen, skriver du inn ønsket tekst og klikker deretter på Slett-knappen. Klikk på Tilbake-knappen i bekreftelsesskjemaet for å avbryte slettingen.
Når du sletter en transformasjon som oppretter en ny kolonne i pipelinen, vil alle påfølgende transformasjoner som bruker kolonnen som ble opprettet av den nå slettede transformasjonen, bli merket som ugyldige, og transformasjonsikonet (blå sirkel) blir rødt for å indikere at transformasjonen ikke lenger er gyldig.
Merk: Slettede transformasjoner kan ikke gjenopprettes.
Endre rekkefølgen på transformasjonene
Rekkefølgen på transformasjonene kan endres ved å klikke på venstre- og høyrepilene under en bestemt transformasjon. Ved å klikke på venstre pil forskyves transformasjonen slik at den skjer umiddelbart før transformasjonen som tidligere fulgte etter den. Den høyre pilen flytter transformasjonen slik at den skjer etter transformasjonen som fulgte tidligere.