|

miércoles, 5 de junio de 2013

Steps, Transformations and Jobs


in step
Spoon es el IDE de Pentaho para construir procesos ETL. Con el podemos crear dos tipos de componentes, Transformaciones y Trabajos.

Transformacion (Transformation): Conjunto de pasos (steps) interconectados por medio de saltos (hops) que procesan registros a partir de un origen de datos y cuya salida son uno o mas registros. Los steps dentro de una transformación se procesan de manera simultánea y asíncrona.



Cada step nos permite realizar un proceso de entrada, transformación o salida de registros. PDI se puede conectar a prácticamente cualquier origen de datos, la siguiente imagen muestra los mas utilizados:


Trabajo (Job): Conjunto de transformaciones, trabajos y pasos que se ejecutan de manera secuencial. El job en sí no maneja registros sino secuencias de tareas. La salida de cada job es un estado exitoso o fallido.

EXPLORANDO STEPS
  • Abrimos Spoon, si nos pide conectar a un repositorio (tema de una próxima entrada) damos clic en el botón Cancelar (Cancel).
  • Vamos al menú File -> Nueva -> Transformation
  • Al lado izquierdo podemos encontrar dos pestañas: View y Design. Elegimos Design y damos clic en la carpeta Input. Esta carpeta contiene todos los componentes que pueden tomarse como origen de datos. Para agregar un componente a nuestra transformación, basta con arrastrarlo al área de trabajo.

  • En las pestaña design podemos encontrar otras carpeta Transform, que contiene pasos para Limpiar datos, realizar cálculos o cambiar el tipo del dato.
  • La carpeta Scripting, contiene componentes que posibilitan agregar y ejecutar código de Java, JavaScript o SQL en nuestra transformación. Otros lenguajes como Ruby estan soportados mediante plugin.
  • La carpeta Flow, contiene los pasos que nos permiten controlar y dividir el flujo: Filtrar registros, realizar sentencias SWITCH/CASE, abortar la transformación o detenerla mientras termina algún proceso.
  • La carpeta Output, contiene los pasos que nos permiten tener salidas de datos: tablas de bases de datos, archivos de texto, archivos de excel, archivos xml, entre muchos otros.
Esta fue una breve reseña de los STEPS de pentaho, ya simplemente es de cada uno explorar cada uno de los componentes. El siguiente enlace se puede encontrar la documentación oficial de cada paso http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps

0 comentarios:

Publicar un comentario

Related Posts Plugin for WordPress, Blogger...