Para transformar datos tabulares con el conector Data Prep, primero se configura la secuencia -o pipeline-de transformaciones a aplicar. Un pipeline proporciona una representación gráfica de sus transformaciones definidas y permite una vista previa del impacto de cada transformación.
Sugerencia: Si sus cadenas utilizan una secuencia común de comandos Transformación tabular y Utilidades de archivos para actualizar los datos de sus sistemas de archivo, cree canalizaciones para realizar esas transformaciones con un solo comando Ejecutar canalización.
Requisitos
Data Prep se controla totalmente a nivel de organización y no reconoce los espacios de trabajo individuales ni sus permisos.
Es decir:
- Data Prep se comparte entre todos los usuarios autorizados en su org.
- Cualquier usuario con acceso a Chain Builder también tiene acceso a Data Prep.
- Todos los usuarios que puedan crear o editar cadenas tendrán la posibilidad de gestionar canalizaciones en Data Prep.
- Una única canalización de preparación de datos puede utilizarse en varias cadenas y espacios de trabajo de una organización.
Etapa 1. Crear la canalización
Consejo: Antes de crear la canalización, desde Archivos de ejemplo, cargue un archivo de ejemplo que represente las columnas y los datos que transformará para definir fácilmente las columnas de la canalización y habilitar una vista previa de las transformaciones aplicadas.
- En Wdata, haga clic en Cadenas y Preparación de datos.
Nota: Para acceder a Data Prep desde Wdata Chains, primero configure un conector Data Prep.
- Desde Pipelines
- Para la primera canalización, haga clic en Crear una canalización.
- Si no, haga clic en Nuevo conducto (+) junto a la barra de búsqueda.
, bajo Pipelines Activadas, crear el pipeline: - Introduzca un nombre y una descripción para ayudar a identificar la tubería.
- Haz clic en Crear.
Etapa 2. Definir las Columnas
Para especificar los campos con los que interactuará la canalización, defina las columnas de los datos que transforma. Al definir una columna, se especifica su nombre y el tipo y formato de sus datos. Por ejemplo, para una columna con un tipo de datos Números, especifique sus decimales y los caracteres utilizados para sus separadores decimal y de miles.
Nota: Los nombres de columna definidos para la canalización pueden diferir de las columnas en los datos que transforma.
Para definir las columnas de la canalización, puede utilizar la definición de columna de un archivo de muestra cargado o de un archivo delimitado guardado localmente o en su red. También puede definir columnas manualmente.
Para facilitar la creación de canalizaciones, le recomendamos que utilice un archivo de ejemplo para definir sus columnas:
Nota: Para utilizar un archivo de ejemplo, primero cárguelo en Archivos de ejemplo.
- En Defina las columnas, haga clic en Elija de la lista.
- Seleccione el Archivo de ejemplo con la definición de columnas que desee utilizar y haga clic en Aceptar.
Nota: La definición de columnas del Archivo de muestra Reemplazará cualquier columna definida para el pipeline.
- Revise la definición de la columna y edite los nombres de las columnas según sea necesario.
- Haz clic en Guardar.
Para definir las Columnas del pipeline, puede cargar un archivo con la misma definición de columnas.
Nota: El Archivo debe estar delimitado y contener una fila de encabezado.
- En Definir columnas, haga clic en Crear a partir del Archivo.
- Busque y seleccione el Archivo con la definición de columnas que desee utilizar y haga clic en Aceptar.
Nota: La definición de columnas del Archivo Reemplazará cualquier columna definida para el pipeline.
- Revise la definición de la columna y edite los nombres y tipos de datos de las columnas según sea necesario.
Nota: Asegúrese de revisar y actualizar la definición de la columna. La canalización utiliza los nombres de las columnas de la fila de cabecera del Archivo y adivina los tipos de datos basándose en los datos.
- Haz clic en Guardar.
Para definir manualmente una columna:
- En Definir columnas, haga clic en Agregar columnas.
- Seleccione el tipo de datos de la columna.
- Introduzca un nombre y una descripción para ayudar a identificar la columna.
- Especifique el formato de los datos de la columna, en función de su tipo:
- Para una columna String , seleccione cualquier formato especial, como para identificadores únicos universales (UUID), cadenas binarias, direcciones de correo electrónico o direcciones web de identificador uniforme de recursos (URI).
- Para una columna Entero , seleccione el separador de miles.
- Para una columna Número , introduzca el número de decimales y seleccione los separadores decimal y de miles.
- Para una columna Fecha, Hora, o FechaHora , seleccione su formato cadena-de-tiempo (strftime).
Nota: A Binary columna contiene valores como Verdadero o Falso, o 1 o 0.
- Después de definir todas las Columnas, haga clic en Guardar como.
Etapa 3. Configurar las transformaciones
- Para previsualizar el impacto de las transformaciones, fije un archivo de muestra indicativo de las columnas y datos que serán transformados por el pipeline.
- Haga clic en Crear transformación.
- Seleccione la transformación a aplicar, y haga clic en Siguiente.
- Configure la transformación y haga clic en Guardar como.
- Para configurar transformaciones adicionales, haga clic en Agregar transformación antes o después de la transformación existente, en función de cuándo deba producirse.
Sugerencia: Para agregar otra instancia de una transformación que ya está en el pipeline, haga clic en su Copiar, y configure la nueva instancia según sea necesario.
- Ajuste las transformaciones según sea necesario:
- Para reposicionar una transformación dentro de la canalización, haga clic en su Mover hacia delante o Mover hacia atrás.
- Para Quitar una transformación del pipeline, haga clic en su Eliminar.
Nota: Si mueve o elimina una transformación, ajuste las transformaciones que dependan de su resultado según sea necesario.
Etapa 4. Publicar la canalización
Cuando la canalización esté lista para su uso, haga clic en Publish.
Después de publicar la canalización, puede utilizarla con el comando Ejecutar canalización de el conector Data Prep para aplicar sus transformaciones a datos tabulares dentro de una cadena.