Para transformar datos tabulares con el conector Data Prep, primero se configura la secuencia -o pipeline-de transformaciones a aplicar. Una canalización proporciona una representación gráfica de las transformaciones definidas y permite previsualizar el impacto de cada transformación.
Sugerencia: Si sus cadenas utilizan una secuencia común de comandos Transformación tabular y Utilidades de archivos para actualizar los datos de sus sistemas de registro, cree canalizaciones para realizar esas transformaciones con un único comando Ejecutar canalización.
Requisitos
Data Prep se controla totalmente a nivel orgánico y no reconoce los espacios de trabajo individuales ni sus permisos.
Es decir:
- Data Prep se comparte entre todos los usuarios autorizados de su org.
- Cualquier usuario con acceso a Chain Builder también tiene acceso a Data Prep.
- Todos los usuarios que puedan crear o editar cadenas tendrán la capacidad de gestionar canalizaciones en Data Prep.
- Una única canalización de preparación de datos puede utilizarse en varias cadenas y espacios de trabajo de una organización.
Etapa 1 Crear la canalización
Consejo: Antes de crear la canalización, desde Archivos de ejemplo, cargue un archivo de ejemplo que represente las columnas y los datos que transformará para definir fácilmente las columnas de la canalización y permitir una vista previa de las transformaciones aplicadas.
- En Wdata, haga clic en Cadenas y Preparación de datos.
Nota: Para acceder a Data Prep desde Wdata Chains, primero configure un conector Data Prep.
- Desde Pipelines
- Para la primera canalización, haga clic en Crear una canalización.
- De lo contrario, haga clic en Nueva tubería (+) junto a la barra de búsqueda.
, en Pipelines activos, cree el pipeline: - Introduzca un nombre y una descripción para ayudar a identificar la tubería.
- Haz clic en Crear.
Paso 2. Definir las columnas Definir las columnas
Para especificar los campos con los que interactuará la canalización, defina las columnas de los datos que transforma. Al definir una columna, se especifica su nombre y el tipo y formato de sus datos. Por ejemplo, para una columna con un tipo de datos Número, especifique sus decimales y los caracteres utilizados para sus separadores decimal y de miles.
Nota: Los nombres de columna definidos para la canalización pueden diferir de las columnas de los datos que transforma.
Para definir las columnas de la canalización, puede utilizar la definición de columna de un archivo de muestra cargado o de un archivo delimitado guardado localmente o en su red. También puede definir manualmente las columnas.
Para facilitar la creación de canalizaciones, le recomendamos que utilice un archivo de ejemplo para definir sus columnas:
Nota: Para utilizar un archivo de muestra, primero cárguelo en Archivos de muestra.
- En Definir columnas, haga clic en Elija de la lista.
- Seleccione el archivo de ejemplo con la definición de columna que desea utilizar y haga clic en OK.
Nota: La definición de columna del archivo de ejemplo sustituirá a cualquier columna definida para la canalización.
- Revise la definición de la columna y edite los nombres de las columnas según sea necesario.
- Haz clic en Guardar.
Para definir las columnas del pipeline, puede cargar un archivo con la misma definición de columna.
Nota: El fichero debe estar delimitado y contener una línea de encabezamiento.
- En Definir columnas, haga clic en Crear a partir del archivo.
- Busque y seleccione el archivo con la definición de columna que desea utilizar y haga clic en OK.
Nota: La definición de columna del archivo sustituirá a cualquier columna definida para la canalización.
- Revise la definición de la columna y edite los nombres y tipos de datos de las columnas según sea necesario.
Nota: Asegúrese de revisar y actualizar la definición de la columna. El proceso utiliza los nombres de las columnas de la fila de cabecera del archivo y adivina los tipos de datos basándose en los datos.
- Haz clic en Guardar.
Para definir manualmente una columna:
- En Definir columnas, haga clic en Añadir columnas.
- Seleccione el tipo de datos de la columna.
- Introduzca un nombre y una descripción para ayudar a identificar la columna.
- Especifique el formato de los datos de la columna, en función de su tipo:
- Para una columna String , seleccione cualquier formato especial, como para identificadores únicos universales (UUID), cadenas binarias, direcciones de correo electrónico o direcciones web de identificadores uniformes de recursos (URI).
- Para una columna Integer , seleccione el separador de miles.
- Para una columna Número , introduzca el número de decimales y seleccione los separadores decimal y de miles.
- Para una columna Date, Time, o DateTime , seleccione su formato string-from-time (strftime).
Nota: A Binary columna contiene valores como Verdadero o Falso, o 1 o 0.
- Una vez definidas todas las columnas, haga clic en Guardar.
Paso 3. Establezca las transformaciones
- Para previsualizar el impacto de las transformaciones, fija un archivo de muestra indicativo de las columnas y datos que serán transformados por el pipeline.
- Haga clic en Crear transformación.
- Seleccione la transformación a aplicar, y haga clic en Siguiente.
- Configure la transformación y haga clic en Guardar.
- Para configurar transformaciones adicionales, haga clic en Añadir transformación antes o después de la transformación existente, en función de cuándo deba producirse.
Sugerencia: Para añadir otra instancia de una transformación ya existente en el pipeline, haga clic en su Copiar, y configure la nueva instancia según sea necesario.
- Ajuste las transformaciones según sea necesario:
- Para reposicionar una transformación dentro del pipeline, haga clic en su Avanzar o Retroceder.
- Para eliminar una transformación del pipeline, haga clic en su Eliminar.
Nota: Si mueve o elimina una transformación, ajuste las transformaciones que dependan de su resultado según sea necesario.
Paso 4. Publicar la canalización
Cuando la canalización esté lista para su uso, haga clic en Publish.
Después de publicar la canalización, puede utilizarla con el comando Ejecutar canalización de el conector Data Prep para aplicar sus transformaciones a datos tabulares dentro de una cadena.