Um tabellarische Daten mit dem Data Prep Connectorzu transformieren , müssen Sie zunächst die Sequenz - oder Pipeline- der anzuwendenden Transformationen einrichten. Eine Pipeline bietet eine grafische Darstellung der definierten Transformationen und ermöglicht eine Vorschau auf die Auswirkungen der einzelnen Transformationen.
Tipp: Wenn Ihre Ketten eine gemeinsame Abfolge von Tabellentransformation und File Utilities Befehlen verwenden, um Daten aus Ihren Aufzeichnungssystemen zu aktualisieren, erstellen Sie Pipelines, um diese Transformationen mit einem einzigen Pipeline ausführen Befehldurchzuführen.
Anforderungen
Data Prep wird vollständig auf Organisationsebene gesteuert und kennt keine individuellen Arbeitsbereiche oder deren Berechtigungen.
Dies bedeutet:
- Data Prep wird von allen autorisierten Benutzern in Ihrer Organisation gemeinsam genutzt.
- Jeder Benutzer mit Zugriff auf Chain Builder hat auch Zugriff auf Data Prep.
- Alle Benutzer, die Ketten erstellen oder bearbeiten können, haben die Möglichkeit, Pipelines in Data Prep zu verwalten.
- Eine einzige Datenvorbereitungspipeline kann über mehrere Ketten und Arbeitsbereiche innerhalb einer Organisation hinweg verwendet werden.
Schritt 1. Erstellen der Pipeline
Tipp: Bevor Sie die Pipeline erstellen, laden Sie unter Beispieldateien, eine Beispieldatei hoch, die die Spalten und Daten darstellt, die transformiert werden sollen, um die Spalten der Pipeline einfach zu definieren und eine Vorschau der angewandten Transformationen zu ermöglichen.
- In Wdata, klicken Sie auf Chains und Data Prep.
Hinweis: Um auf Data Prep von Wdata Chainszuzugreifen, muss zuerst ein Data Prep Connectoreingerichtet werden.
- Unter Pipelines
- Für die erste Pipeline klicken Sie auf Pipeline erstellen.
- Andernfalls klicken Sie auf Neue Pipeline (+) neben der Suchleiste.
, unter Active pipelines, erstellen Sie die Pipeline: - Geben Sie einen Namen und eine Beschreibung ein, um die Pipeline zu identifizieren.
- Klicken Sie auf Erstellen.
Schritt 2. Definieren Sie die Spalten
Um die Felder festzulegen, mit denen die Pipeline interagieren soll, definieren Sie die Spalten der Daten, die sie umwandelt. Wenn Sie eine Spalte definieren, geben Sie ihren Namen sowie den Typ und das Format ihrer Daten an. Geben Sie beispielsweise für eine Spalte mit dem Datentyp Zahl die Dezimalstellen und die Zeichen an, die für die Dezimal- und Tausendertrennzeichen verwendet werden.
Hinweis: Die für die Pipeline definierten Spaltennamen können sich von den Spalten in den von ihr transformierten Daten unterscheiden.
Um die Spalten der Pipeline zu definieren, können Sie die Spaltendefinition aus einer hochgeladenen Beispieldatei oder einer lokal oder im Netzwerk gespeicherten Datei mit Trennzeichen verwenden. Sie können auch manuell Spalten definieren.
Um die Erstellung der Pipeline zu erleichtern, empfehlen wir Ihnen, eine Beispieldatei zu verwenden, um die Spalten zu definieren:
Hinweis: Um eine Beispieldatei zu verwenden, laden Sie sie zunächst auf hoch Beispieldateien.
- Unter Spalten definieren, klicken Sie auf Aus Liste auswählen.
- Wählen Sie die Beispieldatei mit der zu verwendenden Spaltendefinition aus, und klicken Sie auf OK.
Hinweis: Die Spaltendefinition der Beispieldatei ersetzt alle für die Pipeline definierten Spalten.
- Überprüfen Sie die Spaltendefinition und bearbeiten Sie die Namen der Spalten, falls erforderlich.
- Klicken Sie auf Speichern.
Um die Spalten der Pipeline zu definieren, können Sie eine Datei mit der gleichen Spaltendefinition hochladen.
Hinweis: Die Datei muss mit Trennzeichen versehen sein und eine Kopfzeile enthalten.
- Unter Spalten definieren, klicken Sie auf Aus Datei erstellen.
- Wählen Sie die Datei mit der zu verwendenden Spaltendefinition aus, und klicken Sie auf OK.
Hinweis: Die Spaltendefinition der Datei ersetzt alle für die Pipeline definierten Spalten.
- Überprüfen Sie die Spaltendefinition und bearbeiten Sie die Namen und Datentypen der Spalten, falls erforderlich.
Hinweis: Achten Sie darauf, die Spaltendefinition zu überprüfen und zu aktualisieren. Die Pipeline verwendet die Spaltennamen aus der Kopfzeile der Datei und errät die Datentypen anhand der Daten.
- Klicken Sie auf Speichern.
So definieren Sie eine Spalte manuell:
- Unter Spalten definieren, klicken Sie auf Spalten hinzufügen.
- Wählen Sie den Datentyp der Spalte aus.
- Geben Sie einen Namen und eine Beschreibung ein, um die Spalte zu identifizieren.
- Geben Sie das Format der Spaltendaten auf der Grundlage ihres Typs an:
- Wählen Sie für die Spalte String ein spezielles Format aus, z. B. für universell eindeutige Bezeichner (UUIDs), binäre Strings, E-Mail-Adressen oder URI-Webadressen (Uniform Resource Identifier).
- Für eine Spalte Integer wählen Sie das Tausendertrennzeichen.
- Für eine Spalte Zahl geben Sie die Anzahl der Dezimalstellen ein und wählen die Dezimal- und Tausendertrennzeichen aus.
- Für eine Spalte Datum, Zeitoder DateTime wählen Sie das Format string-from-time (strftime).
Hinweis: Eine Binärspalte enthält Werte wie Wahr oder Falsch, oder 1 oder 0.
- Nachdem Sie alle Spalten definiert haben, klicken Sie auf Speichern.
Schritt 3. Einrichten der Transformationen
- Um eine Vorschau auf die Auswirkungen der Transformationen zu erhalten, pinnt eine Beispieldatei an, die die von der Pipeline zu transformierenden Spalten und Daten anzeigt.
- Klicken Sie auf Transformation erstellen.
- Wählen Sie die anzuwendende Transformation, und klicken Sie auf Weiter.
- Richten Sie die Transformation ein, und klicken Sie auf Speichern.
- Um zusätzliche Transformationen einzurichten, klicken Sie auf Transformation hinzufügen vor oder nach der vorhandenen Transformation, je nachdem, wann sie stattfinden soll.
Tipp: Um eine weitere Instanz einer bereits in der Pipeline befindlichen Transformation hinzuzufügen, klicken Sie auf Kopieren, und richten Sie die neue Instanz wie erforderlich ein.
- Passen Sie die Transformationen nach Bedarf an:
- Um eine Transformation innerhalb der Pipeline neu zu positionieren, klicken Sie auf Vorwärts bewegen oder Zurück bewegen.
- Um eine Transformation aus der Pipeline zu entfernen, klicken Sie auf deren Löschen.
Hinweis: Wenn Sie eine Transformation verschieben oder löschen, passen Sie alle Transformationen, die von ihrem Ergebnis abhängen, entsprechend an.
Schritt 4. Veröffentlichen der Pipeline
Wenn die Pipeline zur Verwendung bereit ist, klicken Sie auf Veröffentlichen.
Nachdem Sie die Pipeline veröffentlicht haben, können Sie sie mit dem Befehl Pipeline ausführen von dem Data Prep Connector verwenden, um ihre Transformationen auf Tabellendaten innerhalb einer Kette anzuwenden.