Potok może stosować różne typy przekształceń, w zależności od tego, w jaki sposób chcesz wpłynąć na dane tabelaryczne. Każdy potok wymaga co najmniej jednej (1) transformacji i może mieć przypisaną praktycznie nieograniczoną liczbę transformacji.
Uwaga: Po skonfigurowaniu przekształcenia, które używa operatora porównania, takiego jak zawiera, większe niż, równa się (=) lub nie równa się (!=), naciśnij ENTER po jego wartości.
Przekształcenia te są pogrupowane w cztery (4) kategorie:
- Transform (Transformacje techniczne) - modyfikują układ danych ładunku.
- Filtr - Usuń wiersze z ładunku danych na podstawie kryterium/kryteriów.
- Dane - sortuj dane według określonych pól i stosuj sumowanie w celu uzyskania punktów danych.
- Mapowanie (przekształcenia funkcjonalne) - buduj relacje między polami danych.
Dodawanie przekształceń do potoku jest procesem bardzo ukierunkowanym, ale nie nakazowym. Zapewnia to najwyższą elastyczność, aby zaspokoić Twoje potrzeby w zakresie transformacji
Uwaga: Przed dodaniem transformacji do Pipeline, upewnij się, że przypiąłeś przykładowy plik.
Wymagania
Data Prep jest kontrolowany całkowicie na poziomie organizacji i nie rozpoznaje poszczególnych obszarów roboczych ani ich uprawnień.
Oznacza to:
- Data Prep jest udostępniane wszystkim autoryzowanym użytkownikom w Twojej organizacji.
- Każdy użytkownik z dostępem do Chain Builder ma również dostęp do Data Prep.
- Wszyscy użytkownicy, którzy mogą tworzyć lub edytować łańcuchy, będą mogli zarządzać potokami w Data Prep.
- Pojedynczy potok Data Prep może być używany w wielu łańcuchach i obszarach roboczych w organizacji.
Przekształć
Aby zmodyfikować układ danych tabelarycznych, np. dodać lub usunąć kolumny lub dostosować ich wartości, dodaj transformację Transform.
Uwaga: Dodając kolumnę, określasz jej nazwę, typ i format jej wartości oraz miejsce wyświetlania w danych tabelarycznych.
| Transformacja | Opis |
|---|---|
| Wstaw kolumnę | Dodaje pole do zbioru danych z wartością w każdym wierszu. Podczas konfigurowania tej transformacji określ statyczną lub zmienną wartość kolumn. |
| Wstaw numery wierszy | Dodaje kolumnę z numeracją wierszy do zbioru danych. Podczas konfigurowania tej transformacji określ numer początkowy wierszy. |
| Formuła programu Excel | Dodaje kolumnę z wynikiem operacji wykonanej na określonych kolumnach na podstawie formuły programu Microsoft Excel®. Podczas konfigurowania tej transformacji określ formułę do wykonania. Podczas pisania formuły odwołaj się do kolumn za pomocą ich nagłówków, takich jak SUM(amount1, amount 2). Uwaga: W przeciwieństwie do Excela, czy nie zaczyna się od operatora |
| Usuń kolumny | Usuwa określone kolumny ze zbioru danych |
| Scal kolumny | Dodaje kolumnę ze scalonymi wartościami określonych kolumn, oddzielonymi określonym separatorem |
| Zmień nazwę | Zmienia nazwy określonych kolumn w zbiorze danych |
| Przesuń kolumnę | Zmienia położenie określonej kolumny w zbiorze danych |
| Podziel wartość pola | Dzieli wartości kolumny na wiele kolumn na podstawie określonego separatora |
| Zachowaj kolumny | Usuwa wszystkie kolumny ze zbioru danych z wyjątkiem tych określonych |
| Odwróć znak | Zmienia znak wartości określonej kolumny, na przykład z dodatniego na ujemny lub odwrotnie |
| Wielkie litery | Konwertuje wartości określonej kolumny na wszystkie UPPERCASE |
| Mała litera | Konwertuje wartości określonej kolumny na wszystkie małe litery |
| Znajdź i zastąp | Zastępuje wszystkie wystąpienia określonej wartości tekstowej w zbiorze danych określoną nową wartością |
| Grupuj wg | Agreguje zestaw danych w unikalne rekordy na podstawie określonych kolumn, podobnie jak w przypadku instrukcji SQL a GROUP BY |
| Kopiuj kolumnę | Dodaje duplikat określonej kolumny |
| Odległość sznurka | Oblicza liczbę edycji (tj. "odległość") potrzebną do przekształcenia jednego ciągu tekstowego w drugi. Znana również jako transformacja odległości Levenshteina. Każdy ciąg jest ograniczony do maksymalnie 1024 znaków; obliczana jest maksymalna odległość 100. |
Wskazówka: Aby usunąć wiersze ze zbioru danych, użyj słowa kluczowego - takiego jak Ignoruj- aby wskazać wiersze do usunięcia. Następnie użyj słowa kluczowego jako wartości To w transformacji Mapping i skonfiguruj transformację Smart filter z warunkiem OR, aby usunąć każde zmapowane pole z tym słowem kluczowym.
Filtruj
Aby usunąć wiersze z danych na podstawie określonych kryteriów, dodaj transformację Filter.
| Transformacja | Opis |
|---|---|
| Dokładne dopasowanie | Usuwa wszystkie wiersze, które nie pasują dokładnie do podanego tekstu |
| RegExp match | Usuwa wszystkie wiersze, które nie pasują do określonego wyrażenia regularnego (RegExp) |
| Weź rzędy | Usuwa wszystkie wiersze o podanym numerze i następujące po nim. Na przykład 10: usuwa dziesiąty wiersz i wszystkie kolejne wiersze. |
| Inteligentny filtr | Usuwa lub zachowuje rekordy kolumny na podstawie określonych warunków |
Dane
Aby posortować dane tabelaryczne lub zastosować sumowanie na podstawie określonych kolumn, dodaj transformację Data.
| Transformacja | Opis |
|---|---|
| Sortuj | Sortuje zbiór danych na podstawie określonych kolumn |
| Suma, jeśli | Tworzy dodatkowe wyjście potoku z sumą wszystkich wartości w określonej kolumnie |
Mapowanie
Aby przekształcić wartości kolumny na podstawie reguł zdefiniowanych przez grupę mapowania, dodaj transformację Mapowanie:
- Wybierz Mapping, a następnie kliknij Next.
- Wybierz grupę mapowania z regułami do zastosowania.
- W sekcji Dopasuj kolumny wybierz, które kolumny potoku są mapowane na kolumny grupy mapowania.
- Kliknij Zapisz.
Jeśli zastosujesz wiele transformacji Mapping do kolumny, upewnij się, że są one we właściwej kolejności w potoku.
Wskazówka: Gdy potok stosuje transformację Mapping, przekształca wartości kolumny inline. Aby wyświetlić wartości kolumny zarówno przed, jak i po transformacji w tym samym czasie, zastosuj transformację Kopiuj kolumnę, aby dodać duplikat kolumny przed transformacją Mapowanie. Aby wskazać stan "przed" wartości kopii, dodaj przedrostek do jej nazwy, taki jak Src_ lub UM_, odpowiednio dla Source lub Unmapped. Aby później usunąć tę kolumnę ze zbioru danych, zastosuj transformację Group by lub Remove columns.
Dodatkowe funkcje transformacji
Dodaj transformację
Dodatkowe transformacje można dodawać do potoku, klikając zielone znaki plus po prawej lub lewej stronie istniejącej transformacji. Kliknięcie znaku plus po lewej lub prawej stronie istniejącej transformacji powoduje dodanie nowej transformacji odpowiednio przed lub po niej.
Skopiuj transformację
Każdą istniejącą transformację w Pipeline można powielić, klikając ikonę kopiowania znajdującą się pod transformacją. Tworzona jest kopia przekształcenia i otwierany jest formularz przekształcenia. W razie potrzeby zaktualizuj dane wejściowe transformacji i zapisz skopiowaną transformację.
Usuń transformację
Dowolną transformację w potoku można usunąć, klikając ikonę kosza pod transformacją. Po wyświetleniu monitu o potwierdzenie usunięcia wpisz wymagany tekst, a następnie kliknij przycisk Usuń. Kliknij przycisk Wstecz w formularzu potwierdzenia, aby anulować usunięcie.
Podczas usuwania transformacji, która tworzy nową kolumnę w potoku, każda kolejna transformacja, która wykorzystuje kolumnę utworzoną przez usuniętą transformację, zostanie oznaczona jako nieważna, a ikona transformacji (niebieskie kółko) zmieni kolor na czerwony, aby wskazać, że transformacja nie jest już ważna.
Uwaga: Usuniętych przekształceń nie można przywrócić.
Zmień kolejność przekształceń
Kolejność przekształceń można zmienić, klikając strzałki w lewo i w prawo pod określonym przekształceniem. Kliknięcie strzałki w lewo powoduje przesunięcie transformacji tak, aby wystąpiła bezpośrednio przed transformacją, która ją poprzedzała. Strzałka w prawo przesuwa transformację, aby nastąpiła po transformacji, która nastąpiła wcześniej.