Eine Pipeline kann verschiedene Arten von Transformationen anwenden, je nachdem, wie Sie die Tabellendaten beeinflussen möchten. Jede Pipeline benötigt mindestens eine (1) Transformation und kann mit einer praktisch unbegrenzten Anzahl von Transformationen versehen werden.
Hinweis: Wenn Sie eine Transformation einrichten, die einen Vergleichsoperator verwendet, z. B. enthält
, ist größer als
, ist gleich (=
) oder ist nicht gleich (!=
), drücken Sie ENTER nach seinem Wert.
Diese Umwandlungen werden in vier (4) Kategorien eingeteilt:
- Transform (Technische Transformationen) - ändert das Datenlayout der Nutzdaten.
- Filter - Entfernt Zeilen aus der Daten-Nutzlast auf der Grundlage eines Kriteriums.
- Daten - Sortieren Sie Daten nach bestimmten Feldern und wenden Sie Summierung an, um Datenpunkte abzuleiten.
- Mapping (Funktionale Transformationen) - Herstellung von Beziehungen zwischen Datenfeldern.
Das Hinzufügen von Transformationen zu einer Pipeline ist ein sehr geführter, aber nicht vorgeschriebener Prozess. Dies gewährleistet die ultimative Flexibilität, um Ihre Transformationsanforderungen zu erfüllen
Hinweis: Bevor Sie Transformationen zu Ihrer Pipeline hinzufügen, sollten Sie eine Beispieldatei anheften.
Anforderungen
Data Prep wird vollständig auf Organisationsebene gesteuert und kennt keine individuellen Arbeitsbereiche oder deren Berechtigungen.
Dies bedeutet:
- Data Prep wird von allen autorisierten Benutzern in Ihrer Organisation gemeinsam genutzt.
- Jeder Benutzer mit Zugriff auf Chain Builder hat auch Zugriff auf Data Prep.
- Alle Benutzer, die Ketten erstellen oder bearbeiten können, haben die Möglichkeit, Pipelines in Data Prep zu verwalten.
- Eine einzige Datenvorbereitungspipeline kann über mehrere Ketten und Arbeitsbereiche innerhalb einer Organisation hinweg verwendet werden.
Transformieren
Um das Layout der Tabellendaten zu ändern, z. B. um Spalten hinzuzufügen oder zu entfernen oder ihre Werte anzupassen, fügen Sie eine Transformation Transform hinzu.
Hinweis: Wenn Sie eine Spalte hinzufügen, geben Sie ihren Namen, den Typ und das Format ihrer Werte sowie die Position an, an der sie in den Tabellendaten erscheinen soll.
Umwandlung | Beschreibung |
---|---|
Spalte einfügen | Fügt dem Dataset ein Feld mit einem Wert in jeder Zeile hinzu. Wenn Sie diese Transformation einrichten, geben Sie den statischen oder variablen Wert der Spalten an. |
Zeilennummern einfügen | Fügt dem Dataset eine Spalte mit Zeilennummerierung hinzu. Wenn Sie diese Umwandlung einrichten, geben Sie die Anfangsnummer der Zeilen an. |
Excel-Formel | Fügt eine Spalte mit dem Ergebnis einer Operation hinzu, die auf der Grundlage einer Microsoft Excel®-Formel für bestimmte Spalten durchgeführt wurde. Wenn Sie diese Transformation einrichten, geben Sie die auszuführende Formel an. Wenn Sie die Formel schreiben, beziehen Sie sich auf die Spalten durch ihre Überschriften, z. B. SUMME(Betrag1, Betrag 2) . Hinweis: Anders als in Excel beginnt nicht mit einem |
Spalten entfernen | Entfernt angegebene Spalten aus dem Dataset |
Spalten zusammenführen | Fügt eine Spalte mit den zusammengefassten Werten der angegebenen Spalten hinzu, getrennt durch ein angegebenes Trennzeichen |
Umbenennen | Benennt angegebene Spalten im Dataset um |
Spalte verschieben | Verschiebt eine angegebene Spalte innerhalb des Datensatzes |
Feldwert aufteilen | Teilt die Werte einer Spalte in mehrere Spalten, basierend auf einem angegebenen Trennzeichen |
Spalten behalten | Entfernt alle Spalten aus dem Dataset, außer den angegebenen |
Klappschild | Kehrt das Vorzeichen der Werte einer angegebenen Spalte um, z. B. von positiv zu negativ oder umgekehrt |
Großbuchstaben | Konvertiert die Werte einer angegebenen Spalte in alle GROSSBUCHSTABEN |
Kleinbuchstabe | Konvertiert die Werte einer angegebenen Spalte in Kleinbuchstaben |
Suchen und Ersetzen | Ersetzt alle Instanzen eines angegebenen Textwerts im Datensatz durch einen angegebenen neuen Wert |
Gruppe nach | Aggregiert den Datensatz in eindeutige Datensätze auf der Grundlage der angegebenen Spalten, ähnlich wie eine GROUP BY SQL-Anweisung |
Spalte kopieren | Fügt ein Duplikat einer angegebenen Spalte hinzu |
String-Abstand | Berechnet die Anzahl der Bearbeitungen (d. h. den "Abstand"), die erforderlich sind, um eine Textzeichenfolge in eine andere umzuwandeln. Auch bekannt als Levenshtein-Distanztransformation. Jede Zeichenkette ist auf maximal 1024 Zeichen begrenzt; es wird eine maximale Entfernung von 100 berechnet. |
Tipp: Um Zeilen aus einem Datensatz zu entfernen, verwenden Sie ein Schlüsselwort, z. B. Ignorieren Sie
, um die zu entfernenden Zeilen anzugeben. Verwenden Sie dann das Schlüsselwort als Wert bis in einer Transformation Mapping und richten Sie eine Transformation Smart filter mit einer Bedingung ODER ein, um alle zugeordneten Felder mit diesem Schlüsselwort zu entfernen.
Filtern
Um Zeilen auf der Grundlage bestimmter Kriterien aus den Daten zu entfernen, fügen Sie eine Transformation Filter hinzu.
Umwandlung | Beschreibung |
---|---|
Genaue Übereinstimmung | Entfernt alle Zeilen, die nicht genau mit dem angegebenen Text übereinstimmen |
RegExp-Übereinstimmung | Entfernt alle Zeilen, die nicht mit dem angegebenen regulären Ausdruck (RegExp) übereinstimmen |
Reihen nehmen | Entfernt alle Zeilen an und nach der angegebenen Nummer. Beispiel: 10: entfernt die zehnte Zeile und alle folgenden Zeilen. |
Intelligenter Filter | Entfernt oder behält die Datensätze einer Spalte basierend auf bestimmten Bedingungen |
Daten
Um Tabellendaten zu sortieren oder Summen auf der Grundlage bestimmter Spalten zu bilden, fügen Sie eine Transformation Data hinzu.
Umwandlung | Beschreibung |
---|---|
Sortieren | Sortiert den Datensatz anhand der angegebenen Spalten |
Summe wenn | Erzeugt eine zusätzliche Pipeline-Ausgabe mit der Summe aller Werte in einer angegebenen Spalte |
Kartierung
Um die Werte einer Spalte auf der Grundlage von Regeln umzuwandeln, die von einer Mapping-Gruppedefiniert wurden, fügen Sie eine Transformation Mapping hinzu:
- Wählen Sie Mapping, und klicken Sie auf Weiter.
- Wählen Sie die Zuordnungsgruppe mit den anzuwendenden Regeln aus.
- Unter Match columnskönnen Sie auswählen, welche Spalten der Pipeline den Spalten der Mapping-Gruppe zugeordnet werden sollen.
- Klicken Sie auf Speichern.
Wenn Sie mehrere Mapping Transformationen auf eine Spalte anwenden, stellen Sie sicher, dass sie in der richtigen Reihenfolge in der Pipeline sind.
Tipp: Wenn eine Pipeline eine Mapping Transformation anwendet, transformiert sie die Werte der Spalte inline. Um die Werte einer Spalte vor und nach der Transformation gleichzeitig anzuzeigen, wenden Sie die Transformation Copy column an, um ein Duplikat der Spalte vor der Transformation Mapping hinzuzufügen. Um den "Vorher"-Status der Werte der Kopie anzugeben, hängen Sie ein Präfix an den Namen an, z. B. Src_
oder UM_
, für Quelle bzw. Nicht zugeordnet. Um diese Spalte später aus dem Datensatz zu entfernen, wenden Sie eine Gruppieren nach oder Spalten entfernen Transformation an.
Zusätzliche Transformationsfunktionen
Hinzufügen einer Transformation
Zusätzliche Transformationen können zu einer Pipeline hinzugefügt werden, indem Sie auf die grünen Pluszeichen rechts oder links neben einer vorhandenen Transformation klicken. Wenn Sie auf das Pluszeichen links oder rechts von einer bestehenden Transformation klicken, wird eine neue Transformation vor bzw. nach der Transformation hinzugefügt.
Kopieren einer Transformation
Jede vorhandene Transformation in der Pipeline kann durch Klicken auf das Kopiersymbol unter der Transformation dupliziert werden. Eine Kopie der Transformation wird erstellt und das Transformationsformular wird geöffnet. Aktualisieren Sie die Transformationseingaben nach Bedarf und speichern Sie die kopierte Transformation.
Löschen einer Transformation
Jede Transformation in einer Pipeline kann gelöscht werden, indem Sie auf das Mülleimer-Symbol unter der Transformation klicken. Wenn Sie aufgefordert werden, den Löschvorgang zu bestätigen, geben Sie den gewünschten Text ein und klicken Sie dann auf die Schaltfläche Löschen. Klicken Sie im Bestätigungsformular auf die Schaltfläche Zurück, um die Löschung abzubrechen.
Wenn eine Transformation gelöscht wird, die eine neue Spalte in der Pipeline erzeugt, wird jede nachfolgende Transformation, die die Spalte verwendet, die durch die nun gelöschte Transformation erzeugt wurde, als ungültig markiert und das Transformationssymbol (blauer Kreis) wird rot, um anzuzeigen, dass die Transformation nicht mehr gültig ist.
Hinweis: Gelöschte Transformationen können nicht wiederhergestellt werden.
Transformationen neu anordnen
Die Reihenfolge der Transformationen kann durch Anklicken der Links- und Rechtspfeile unter einer bestimmten Transformation geändert werden. Wenn Sie auf den Pfeil nach links klicken, wird die Transformation so verschoben, dass sie unmittelbar vor der vorhergehenden Transformation stattfindet. Der Pfeil nach rechts verschiebt die Transformation so, dass sie nach der vorhergehenden Transformation stattfindet.