✒️SAP BI / BW BO Introducción al ETL
SAP BI / BW BO Introducción al ETL
1.- Procesos ETL (Extract, Transform and Load - Extraccion, transformacion y carga) de datos
También conocido como flujo de datos, los cuales corresponden a los pasos que deben seguir los datos en su estado inicial, sistema fuente, para que sean extraídos, transformados y finalmente cargados en nuestro sistema, caso de estudio SAP BI. En resumen, tendremos un dato inicial "crudo" proveniente de nuestro sistema fuente/base para luego realizar las transformaciones del dato necesarios; union, desunion, eliminacion de caracteres especiales, etc para luego ser cargados en nuestras tablas del modelo de datos final.
2.- Proceso de Extracción
Este proceso es el paso inicial de un ETL, el cual consiste en recuperar/leer/extraer los datos desde los sistemas fuentes/origen/base.
Los sistemas fuentes pueden ser de diferentes tipos; por ejemplo archivos Excel, de texto plano, XML, bases de datos relacionales, etc.
La función principal del proceso de extracción es la de poner a disposición los datos útiles, desde los sistemas fuentes antes mencionados, para que luego sean "manipulados" por el siguiente proceso llamado Transformación.
Dato importante en este paso es siempre considerar que los datos deben ser útiles, para lo cual es necesario realizar un análisis previos de cuales serán considerados y cuales no, como también de la carga/volumen de datos que serán extraídos para no afectar el diario comportamiento de los sistemas de la empresa, esto cuando el sistema fuente es una base transaccional.
3.- Proceso de Transformación
Tal como lo dice la palabra, en este paso se realizará la transformación de los datos, habilitados en el proceso anterior de extracción, para luego darle un valor agregado con respecto a las reglas del negocio, esto se puede considerar en seis puntos bases, los cuales serán:
* Codificación: asignación de una nomenclatura/abreviación a una palabra/detalle/concepto empresarial. ejemplo chocolate = CH
* Cálculos: Realizar cálculos en base a dos o mas variables, ejemplo valor total = valor inicial + valor final
* Llaves primarias: Asignar un identificador único al registro que se esta cargando, por ejemplo cuando se consideran varios orígenes de datos, pero no existe una "norma" en cuanto a la definición de los mismos, en este punto, se puede hacer la diferenciación, por ejemplo datos cargados del sistema fuente A, queda con la asignación 1 y los del sistema fuente B con la asignación 2 y así sucesivamente.
* Agrupación: generación de registros con cálculos totales, por ejemplo se agrupan los datos para obtener las ventas por ciudad.
* Concatenación: Acción de unir dos o mas palabras para generar una sola, ejemplos los nombres con los apellidos, la dirección completa de un lugar, etc.
¨Limpieza: Eliminación de todo caracter "extraño" en los datos existentes, para no "arrastrar" estas "basuras" en los datos y que pueda ser perjudicial o entorpecer el proceso de análisis final.
4.- Proceso de Carga
Este paso corresponde a la realización de la carga de los datos, ya extraídos y posteriormente transformados, en nuestro sistema final, el cual puede ser un cubo de datos o una ODS.
Las cargas de datos pueden ser realizadas de 2 maneras:
* Cargas Full: Como lo indica la palabra, se carga todo desde el sistema fuente al sistema destino.
* Cargas Delta: A diferencia de la carga full, la carga delta solo cargara los datos que aún no han sido almacenados.
Punto a favor de la carga delta es que "aliviana" el proceso de carga del sistema fuente ya que no realizaría una sobre carga del sistema a diferencia de lo que si podría ocurrir con una carga full.
DATAWAREHOUSE: Es un repositorio de la información transaccional obtenida desde los sistemas de gestión (incluido SAP ERP), organizada de tal manera que se adapte mejor a las necesidades de reportes, disminuyendo los tiempos de consulta y optimizando el uso de recursos de hardware. Las fuentes de información de un datawarehouse puede que provenga de la propia plataforma SAP instalada, o bien de fuentes externas como ser datos provenientes de la web, aplicaciones externas, documentaciones anexadas etc.
 
 
 
Sobre el autor
Publicación académica de Mauricio Osenga Vasquez, en su ámbito de estudios para la Carrera Consultor en SAP BI / BW BO.
Mauricio Osenga Vasquez
Profesión: Ingeniero Informatico - Chile - Legajo: XR81O
✒️Autor de: 46 Publicaciones Académicas
🎓Cursando Actualmente: Consultor en SAP BI / BW BO Nivel Avanzado
🎓Egresado del módulo:
Certificación Académica de Mauricio Osenga