Przegląd przygotowania danych

Na stronie Data Prep możesz tworzyć i uruchamiać sekwencje (pipelines), a także tworzyć transformacje funkcjonalne (mapping groups).

Pipeline to seria przekształceń technicznych stosowanych do tabelarycznych danych wyjściowych w łańcuchach. Możesz na przykład skonfigurować potoki wspólnych przekształceń w celu przygotowania danych do lub z różnych systemów ewidencji.

Wskazówka: Jeśli twoje łańcuchy używają wspólnej sekwencji poleceń Tabular Transformation i File Utilities do aktualizacji danych z systemów rekordów, utwórz potoki, aby wykonać te transformacje za pomocą jednego polecenia Run pipeline .

Potok może stosować transformacje do:

Modyfikuj układ danych, np. dodając lub usuwając kolumny lub dostosowując ich wartości
Zastosuj filtry, aby usunąć wiersze z danych na podstawie określonych kryteriów
Sortuj dane lub stosuj sumowanie na podstawie określonych kolumn
Mapuj relacje między modelami danych w oparciu o zdefiniowane reguły

Grupy mapujące budują relacje między modelami danych różnych systemów przedsiębiorstwa, definiując sposób przekształcania kodów/wartości z jednego systemu do drugiego. Są one stosowane w potoku jako krok transformacji.

Grupy mapowania obsługują szereg technik mapowania, które są wydajne, a jednocześnie proste w użyciu i spełniają typowe lub złożone wymagania. Są one przeznaczone dla użytkowników do definiowania i aktualizowania w celu przekształcania i harmonizacji danych. Grupy mapowania mogą być współdzielone przez wiele potoków. Interfejs jest bardzo podobny do Excela, zapewniając znajomą i przyjazną atmosferę.

Wymagania

Data Prep jest kontrolowany całkowicie na poziomie organizacji i nie rozpoznaje poszczególnych obszarów roboczych ani ich uprawnień.

Oznacza to:

Data Prep jest udostępniane wszystkim autoryzowanym użytkownikom w Twojej organizacji.
Każdy użytkownik z dostępem do Chain Builder ma również dostęp do Data Prep.
Wszyscy użytkownicy, którzy mogą tworzyć lub edytować łańcuchy, będą mogli zarządzać potokami w Data Prep.
Pojedynczy potok Data Prep może być używany w wielu łańcuchach i obszarach roboczych w organizacji.

Krok 1. Skonfiguruj połączenie Data Prep

Aby zastosować transformacje potoku do danych w łańcuchu, dołącz polecenie konektora Data Prep Run pipeline. Jeśli jeszcze tego nie zrobiłeś, skonfiguruj połączenie Data Prep . Po skonfigurowaniu połączenia Data Prep możesz otworzyć Data Prep z Wdata Chains .

Krok 2. Prześlij przykładowe pliki

Z Sample files attach_file w Data Prep, prześlij przykładowe pliki, które reprezentują dane tabelaryczne do przekształcenia, aby ułatwić tworzenie potoku.

Po przesłaniu możesz użyć przykładowego pliku do:

Szybko definiuj kolumny i typy danych, z którymi potok wchodzi w interakcję
Wyświetl podgląd wpływu potoku lub transformacji mapowania na dane

Krok 3. Utwórz grupy dla transformacji mapowania

Aby mapować relacje między modelami danych w potoku, możesz dołączyć transformacje mapowania. Z Mapping groups library_books w Data Prep, utwórz grupy mapowania, aby zdefiniować relacje między wartościami i sposób przekształcania wartości z jednego systemu do drugiego w ramach transformacji mapowania.

Wskazówka: Aby ustawić wartości dla transformacji mapowania podczas działania potoku, skonfiguruj zmienne wykonawcze dla grupy mapowania.

Podczas tworzenia grupy mapowania możesz zdefiniować jej reguły, aby przekształcać wartości na podstawie dokładnego dopasowania, prostego wzorca lub wyrażenia regularnego.

Krok 4. Skonfiguruj potoki

Pipeline to zbiór transformacji technicznych i funkcjonalnych, które są stosowane do danych przetwarzanych przez Data Prep.

Przekształcenia techniczne zdefiniowane w potoku służą do modyfikowania układu danych. Działania takie jak dodawanie lub usuwanie kolumn, zmiana kolejności kolumn lub wstawianie nowych kolumn są przykładami transformacji technicznych.
Transformacja funkcjonalna to proces budowania relacji między modelami danych integrowanych systemów. Transformacja funkcjonalna jest często określana jako mapowanie i jest zarządzana przez grupy mapowania Data Prep. Grupy mapowania są stosowane w potoku jako krok transformacji.

Aby zdefiniować sekwencję przekształceń, które mają być zastosowane do danych tabelarycznych, utwórz potoki z Potoki w Przygotowanie danych.

Gdy tworzysz potok, możesz:

Zdefiniuj kolumny i typy danych, z którymi wchodzi w interakcję, ręcznie lub w oparciu o przykładowy plik lub przesłany plik rozdzielony
Skonfiguruj transformacje, które mają być stosowane w kolejności po uruchomieniu potoku

Wskazówka: Aby ustawić wartości dla transformacji podczas działania potoku, skonfiguruj zmienne uruchomieniowe dla potoku.

Krok 5. Uruchom potoki w łańcuchach

Aby zastosować transformacje do danych tabelarycznych z danych wyjściowych wcześniej w łańcuchu, użyj polecenia Run pipeline konektora Data Prep . Podczas konfigurowania polecenia

Wybierz potok do uruchomienia i tabelaryczne dane wyjściowe do przekształcenia
Mapuj kolumny pliku tabelarycznego na definicję kolumny potoku
Ustaw dowolne wartości zmiennych runtime dla potoku

Wsparcie

Wspólnota

Centrum wsparcia Workiva