Desde Data Prep , puede crear y ejecutar secuencias (pipelines), así como, crear transformaciones funcionales(mapping groups).
Pipeline son una serie de transformaciones técnicas que se aplican a las salidas tabulares en cadena. Por ejemplo, puede configurar cadenas de transformaciones comunes para preparar datos para o desde sus diversos sistemas de registro.
Sugerencia: Si sus cadenas utilizan una secuencia común de comandos Transformación tabular y Utilidades de archivos para actualizar los datos de sus sistemas de registro, cree canalizaciones para realizar esas transformaciones con un único comando Ejecutar canalización.
Un pipeline puede aplicar transformaciones a:
- Modificar la disposición de los datos, por ejemplo, para añadir o eliminar columnas o ajustar sus valores
- Aplicar filtros para eliminar filas de los datos en función de criterios específicos
- Ordene los datos o aplique sumas basadas en columnas específicas
- Asignar relaciones entre modelos de datos basados en reglas definidas
Grupos de mapeo construyen las relaciones entre los modelos de datos de diferentes sistemas empresariales definiendo cómo transformar los códigos/valores de un sistema a otro. Se aplican dentro de un Pipeline como paso de transformación.
Los Grupos de Mapeo admiten una serie de técnicas de mapeo que son potentes, pero sencillas de utilizar, y abordan requisitos comunes o complejos. Están diseñados para que los usuarios los definan y actualicen para transformar y armonizar los datos. Los grupos de mapeo pueden compartirse en varias canalizaciones. La interfaz es muy similar a la de Excel, por lo que resulta familiar y acogedora.
Requisitos
Data Prep se controla totalmente a nivel orgánico y no reconoce los espacios de trabajo individuales ni sus permisos.
Es decir:
- Data Prep se comparte entre todos los usuarios autorizados de su org.
- Cualquier usuario con acceso a Chain Builder también tiene acceso a Data Prep.
- Todos los usuarios que puedan crear o editar cadenas tendrán la capacidad de gestionar canalizaciones en Data Prep.
- Una única canalización de preparación de datos puede utilizarse en varias cadenas y espacios de trabajo de una organización.
Paso 1. Establezca una conexión Data Prep
Para aplicar las transformaciones de un pipeline a los datos de una cadena, se incluye el comando Run pipeline del conector Data Prep . Si aún no lo ha hecho, configure una conexión Data Prep. Con la conexión Data Prep configurada, puede abrir Data Prep desde Wdata Chains .
Segundo paso Cargar archivos de muestra
Desde Archivos de ejemplo cargue archivos de ejemplo que representen los datos tabulares a transformar para facilitar la creación de pipelines.
en Data Prep,Una vez cargado, puede utilizar un archivo de muestra para:
- Defina rápidamente las columnas y los tipos de datos con los que interactúa una canalización
- Previsualizar cómo afecta a los datos una transformación de canalización o mapeo
Paso 3. Crear grupos para las transformaciones cartográficas
Para asignar relaciones entre modelos de datos dentro de una canalización, puede incluir transformaciones de asignación. Desde Grupos de mapeo crear grupos de mapeo para definir las relaciones entre valores y cómo transformar valores de un sistema a otro dentro de una transformación de mapeo.
en Data Prep,Sugerencia: Para establecer valores para una transformación de asignación cuando se ejecuta la canalización, configure variables de tiempo de ejecución para el grupo de asignación.
Al crear un grupo de asignación, puede definir sus reglas para transformar valores basándose en una coincidencia exacta, un patrón simple o una expresión regular.
Paso 4. Establecer canalizaciones
Un Pipeline es el conjunto de transformaciones técnicas y funcionales que se aplican a los datos procesados por Data Prep.
-
Las transformaciones técnicas definidas en un Pipeline se utilizan para modificar la disposición de los datos. Actividades como añadir o eliminar columnas, reordenar columnas o insertar columnas nuevas son ejemplos de transformaciones técnicas.
-
La transformación funcional es el proceso de construcción de una relación entre los modelos de datos de los sistemas que se integran. La transformación funcional suele denominarse mapeo y es gestionada por los Grupos de Mapeo de Preparación de Datos. Los Grupos de Mapeo se aplican dentro de un Pipeline como un paso de transformación.
Para definir la secuencia de transformaciones que se aplicarán a los datos tabulares, cree pipelines a partir de Pipelines en Data Prep.
Cuando se crea una canalización:
- Definir las columnas y los tipos de datos con los que interactúa, ya sea manualmente o basándose en un archivo de muestra o en un archivo delimitado cargado
- Configure las transformaciones que se aplicarán -en orden- cuando se ejecute la canalización
Sugerencia: Para establecer valores para una transformación cuando se ejecuta la canalización, configure variables de tiempo de ejecución para la canalización.
Paso 5. Ejecutar canalizaciones en cadena
Para aplicar las transformaciones a los datos tabulares de una salida anterior de una cadena, utilice el comando Run pipeline del conector Data Prep . Cuando configures el mando:
- Seleccione el pipeline a ejecutar y la salida tabular a transformar
- Asignar las columnas del archivo tabular a la definición de columnas de la canalización
- Establezca los valores de las variables de tiempo de ejecución para la canalización