El proceso de (E)xtraction, (T)ransform y (L)load, consume entre el 60 y el 80% del tiempo de un proyecto de Business Inteligence. Por lo tanto este fase del proyecto puede representar el fracaso o el exito de proyecto. Por ende debemos comprender y utilizar multiples estrategias para garantizar el exito del mismo.
En esta fase se realizan multiples tareas tales como
Validar los datos
Limpiar los datos
Transformar los datos
Agregar los datos
Cargar los datos
Todos estos pasos son importantes para garantizar la consistencia de los datos para la etapa de reporte y analisis.
A continuacion explicare los pasos anteriores
1. Extraccion: En esta fase nos conectamos a los diferentes origenes de datos, bien sea archivos planos, base de datos relaciones, cubos olap, hojas excel o cualquier otra fuente.
2. Limpieza: una vez recuperado los datos se procede a validar su calidad mediante la eliminacion de datos . duplicados, en caso de que los haya, corregir valores erroneos, completar valores vacios o eliminarlos segun las reglas establecidas. con este paso se busca generar datos limpios y de alta calidad
El resultado de este proceso es la obtención de datos limpios, consistentes y útiles
La limpieza de datos se divide en varias etapas que a continuacion que se mencionan a continuacion.
Depurar los valores (parsing)
Corregir (correcting)
Estandarizar (standarzing)
Relacionar (matching)
Consolidar (consolidating)
3. Transformacion: Una vez que los datos estan limpios se les estructura y resumen en los distintos modelos de analisis. El resultado de este paso es datos estandarizados y con las reglas del negocio aplicadas segun el equipo de trabajo, tambien se cambian formatos sustitucion de codigo valores derivados y agregados
4. Integracion: Este proceso valida que los datos que se van a cargar en el DW son consistentes con las definiciones y formatos del DW
5. Actualizaion: Este proceso es que nos permite añadir los nuevos datos al DW o la bd destino.
Tambien el el proceso de carga una vez los datos estan limpios y con las reglas de negocioas aplicadas
Se cargan los datos y se generan automaticamente las claves subrogadas
una clave subrogada es una identificación que se crea para cada registro que se encuentra en una dimensión. Es una clave que carece de todo sentido para cualquier persona de negocio, pero que se pone en las tablas para poder hacer que los queries o consultas sean mucho más rápidas.
Entre las características de las claves subrogadas se encuentra que son campos de tipo numérico y enteros, generalmente son campos autoincrementales. Lo que hacemos con las claves subrogadas es que las utilizamos para poder hacer todos los joins entre tablas.