¿Qué es Data Warehouse?

data warehouse que es

En la actualidad las empresas dependen del uso de la información para la toma de decisiones. Una vez que se recogen, almacenan e integran los datos de manera eficaz, es posible proceder a analizar la información importante, fundamental para optimizar los beneficios, generar ingresos o contener los costos de cada organización. En este post te contamos todo sobre la herramienta de almacenamiento de datos, Data Warehouse, qué es, para qué sirve, y todas sus principales características. 

Para contextualizar, debemos saber que las empresas utilizan datos de múltiples fuentes que pueden ser internos como datos del personal, estado de las ventas o compras, seguimiento de los clientes, nuevas oportunidades, etc., o datos externos, como información de la competencia, del mercado, posibles clientes, etc. De esta manera, cuanto más se amplíe el horizonte de información que se utilizara para la toma de decisiones mayor será la cantidad de datos que habrá que almacenar.

Toda esta información podemos procesarla con métodos como el ETL (Extraer, Transformar, Cargar) y luego, el resultado almacenarlo en un Data Warehouse, un almacén electrónico donde las empresas guardan una gran cantidad de información valiosa. En este lugar, los datos disponibles se almacenan de forma segura y resultan fáciles de recuperar y de analizar. 

Los datos que se almacenan en un Data Warehouse son tanto históricos como actuales, lo que además permite un panorama aún mayor. Es importante saber que por definición sólo almacena datos que fueron modelados o estructurados, a diferencia de un Data Lake donde podemos encontrar datos que finalmente no nos serán útiles.

Dentro de las ventajas del Data Warehouse podemos destacar la facilidad de puesta de uso, la capacidad de transformar la información en conocimiento, el gran aporte a la toma de decisiones y el aumento de la productividad.

 

1. ¿Para qué sirve data warehouse?

Para seguir analizando el termino Data Warehouse, continuaremos hablando de datos. Y como ya hemos hablado en el punto anterior, para la toma de decisiones la información es vital. De esta manera, entre las funciones que podemos ver comúnmente tenemos el análisis de distintos tipos de datos:

Tendencias de mercado para inversiones.

Estado financiero de clientes para seguros, ya sean de hogar, de autos, motos hasta de vida, u otorgamiento de préstamos.

Análisis de usuarios web para la creación de audiencias de marketing.

Determinar políticas de precios o descuentos en base a las tendencias de compras.

Sumado a esto, como complemento extra, la información almacenada en los Data Warehouse permiten a los Dat Scientist realizar modelos de Machine learning o Inteligencia Artificial, potenciando aun mas resultados como la generación de audiencias para Marketing o predecir fluctuaciones en el mercado financiero.

 

2. Características del data warehouse

Las características principales se basan en los siguientes puntos:

Puede obtener datos de múltiples fuentes, sin importar el origen, siempre cuando cumplan con el segundo punto.

Los datos ya tuvieron un primer procesado, esto quiere decir que fueron limpiados y lo que se almacena en el Data Warehouse (en su mayoría al menos) es útil, clasificado y se encuentran consolidados en un sistema organizado.

A su vez la capacidad de soportar grandes cantidades de datos lo hace ideal para almacenar cantidad de datos históricos, los cuales crecen día a día.

 

3. Diferentes tipos de Data Warehouse

En la actualidad hay definidos 3 tipos de Data Warehouse:

Offline

Cada cierto periodo de tiempo se actualizan los datos, puede ser en distintos intervalos, como diario, semanal o mensual.

En tiempo Real

Se actualiza constantemente, para otorgar la última información disponible. En cada momento que se genera un dato nuevo es automáticamente ingresado.

Un ejemplo pueden ser los puntos de ventas de una cadena de locales, en cada venta se actualizará.

Integrado

Estos trabajan colaborativamente con otros sistemas de información, permitiéndoles así acceder para procesar informes.

 

4. ¿Quién utiliza un Data Warehouse?

Son utilizados principalmente por Data Analysts, quienes obtienen toda esta información y la analizan para así tomar decisiones o para la búsqueda de insights. También los Data Scientists utilizan Data Warehouse para la creación de modelos de Machine Learning e Inteligencia Artificial.

A su vez sistemas de Business Intelligence utilizan los Data Warehouse como fuentes de datos, ya que son confiables y respetan un esquema, facilitando el uso y disponibilidad de la data, y dando lugar a análisis más certeros.

 

5. ¿Cómo funciona un Data Warehouse?

El almacenamiento de los datos útiles es la parte sencilla del proceso. La cuestión principal o donde reside la “complejidad” es durante el trabajo previo, en los puntos que se deben tener en cuenta al momento de planificar e implementar el almacenamiento de datos en Data Warehouse. 

Es esencial tener en claro varios aspectos importantes a la hora de implementar Data Warehouse. Entre ellos, definir el alcance, definir las necesidades empresariales que deben satisfacerse, tener en claro las fuentes de datos con las cuales se trabajará, la disponibilidad de estas, el proceso de ETL pertinente para cada una de las fuentes o la periodicidad con la cual se va a alimentar.

Todo esto es importante tenerlo en cuenta desde el inicio ya que varios de estos puntos tendrán incidencia desde el minuto 1 de desarrollo y luego puede ser complejo modificarlo. Esto debido a que la información de las diversas fuentes pueden estar interconectadas, y modificar uno puede significar tener que modificar toda la estructura, desde la ingesta hasta la transformación.

 

6. Estructuras de un Data Warehouse

Una estructura básica para un data warehouse consiste primero en las fuentes de datos, que pueden ser de cualquier tipo, ya sean estructuradas, semiestructuradas o no estructuradas, de las cuales obtenemos la “raw data” o “data sucia”.

Esta data es almacenada en un Data Lake, y hasta este punto “podemos” utilizar estos datos pero será difícil obtener buenas conclusiones ya que está repleta de información poco útil y desechable.

De esta manera, aquí es donde se realiza el ya mencionado proceso de ETL, o “Extract, Transform, Load”. Se limpia y moldea la información, descartando lo que se considera inútil y dejando solo aquellos datos que pueden ser utilizados finalmente por los analistas.

Terminado todo este proceso, el output se almacena en el Data Warehouse, dando lugar así a que con el correr del tiempo vaya creciendo cada vez más el volumen y obteniendo finalmente un histórico de toda la información útil.

 

7. Data Warehouse en la nube ¿Por qué migrar a la nube?

Hay diversos motivos por los cuales migrar a la nube un Data Warehouse. Entre ellos se destaca la agilidad, ya que la capacidad de cómputo no estará ligada a una máquina física local la cual puede tener sus limitaciones.

Esto nos lleva al segundo punto, los costos, que son más fáciles de manejar ya que soluciones como las que ofrece Google con BigQuery cobran por consumo, esto permite no tener que estar aumentando la capacidad de almacenamiento de una máquina local, sino que simplemente a medida que necesitemos más, automáticamente aumentará el uso en BigQuery y a menor uso se reducirán los costes.

Por otro lado, la seguridad también es un factor clave en el manejo de datos, y al tenerlos todos en una nube como la de Google podemos confiar en que estarán seguros, ya que desde GCP este tema está cubierto.

Otro factor diferencial es la disponibilidad, ya que donde esté almacenado el Data Warehouse no nos veremos afectados por cortes de electricidad o de internet. En casos donde el servidor pueda sufrir alguno de estos problemas o incluso fallar algún componente, se podrá solucionar y hasta no hacerlo la data estará bloqueada. La ventaja es que este tipo de problema no sucede en la nube.

Además, tener disponible los datos en la nube además da la posibilidad de utilizar procesamiento analítico en línea, eliminando la barrera del hardware y la latencia.

Para poder obtener todos estos beneficios no es necesario empezar un proceso de cero, se puede realizar una migración de un data warehouse on premise a la nube.

 

7.1 Principales ventajas de mover el data warehouse a la nube

Como mencionamos en los motivos por los cuales migrar a la nube, encontramos diversas ventajas del Data Warehouse. Entre las principales se destacan la seguridad de los datos, la alta disponibilidad de la información y una baja latencia.

Al mismo tiempo, es sumamente importante la capacidad de cómputo para procesar rápidamente los datos y obtener toda la información deseada, incluso vinculando directamente con herramientas de dashboarding como Looker Studio o Looker.

El cambio, en la manera de estimar los costos lo vemos como una ventaja, ya que no estarán más los problemas que tienen que ver con fallas o necesidad de mejoras en el hardware.

 

Share

Deja un comentario

¿Quieres saber más sobre Google y tecnología?​

¡Suscríbete a nuestra newsletter mensual!