Almacén de Datos: ¿De qué sistemas obtiene los datos y cómo los reúne?

El almacén de datos se define de distintas formas

No es fácil dar una definición clara de almacén de datos (conocido en inglés con el término Data Warehousing, DWH). La descripción original de Bill Inmon, el padre del almacén de datos, dice lo siguiente: “el almacén de datos consiste en la recopilación de datos orientados, integrados, dependientes del tiempo, que suponen la base de las decisiones de gestión” (Inmon, 1992 – traducción propia). Hoy en día sigue siendo la descripción más utilizada para este concepto.

En su significado original, el almacén de datos significa puramente el almacenaje de la información. No obstante, Inmon le otorga un objetivo inmediatamente a la recopilación de datos: tomar decisiones empresariales. Esto significa que el almacenamiento de datos es la base de la inteligencia de negocios (BI). La estrecha relación entre los dos conceptos ha hecho que los términos almacén de datos e inteligencia empresarial coexistan, pero en la práctica a menudo se usan como sinónimos.

¿Por qué las empresas configuran un almacén de datos?

En un almacén de datos, la información se almacena desde todos los tipos de aplicaciones empresariales: desde gestión documental a recursos humanos y ERP. En principio, un almacén de datos no reúne esta información por sí mismo. Los datos tampoco pueden ser revisados en el almacén de datos. Sin embargo, al hacer que la información relevante esté rápidamente disponible, hace que todos los tipos de informes sean eficientes.

Por supuesto, los informes se pueden hacer también directamente a través del ERP. Los módulos de informes (limitados) que muchos sistemas ERP ofrecen también son satisfactorios para algunas empresas. Sin embargo, un almacén de datos puede ahorrarle mucho tiempo a aquellas empresas que quieren reunir datos a gran escala y que quieren obtener una visión general de sus operaciones comerciales. La recopilación central de los datos se encarga de que pueda crearse más análisis holísticos. Esto permite tomar decisiones reales a nivel de política empresarial y optimizar las estrategias. Este enfoque general también es útil para proporcionar informes generales a los accionistas.

Finalmente, la combinación de una imagen general y de la información detallada en el almacén de datos también ayuda a las empresas mostrándoles si cumplen con cierta ley. Por ejemplo, cuando un legislador recibe una queja de mala gestión empresarial o de privacidad, éste puede solicitar cierta información. Una empresa que tiene de antemano de forma útil sus datos y actividades en el almacén de datos, puede justificarse mejor y, por lo tanto, tiene menos probabilidades de equivocarse.

Diferentes modelos de trabajo

Un almacén de datos puede configurarse de muchas formas diferentes. Los modelos más conocidos son los del método original de Inmon y el método de Kimball. Además, también hay un método más nuevo llamado Data Vault. El método más idóneo diferirá dependiendo de la compañía.

El método Inmon

El padre del almacén de datos, Inmon, utiliza un enfoque de arriba hacia abajo. Según su modelo, el diseño de un almacén de datos comienza con la estructura general. Primero, se configura todo el modelo de datos estandarizado, y después, los data marts.

Explicación: Los data marts pueden describirse como pequeñas bases de datos dentro del almacén de datos.

Los data marts contienen información específica para un departamento específico o de una aplicación determinada. Al igual que el modelo de datos, estos data marts se han estandarizado. El método Inmon es apto especialmente para empresas que trabajan siguiendo procesos empresariales realmente estrictos y estandarizados. Además, es un modelo muy holístico y estructurado. Los data marts más pequeños se unen sin problema en un modelo de datos más grande. El diseño y la puesta en marcha de todo el modelo requiere más tiempo e inversión que el método Kimball, pero con esta clasificación clara, el sistema tiene relativamente poca labor de mantenimiento.

El método Kimball

Kimball ofreció la primera alternativa para el método tradicional de Inmon: un enfoque de abajo hacia arriba. Esto no supone inicialmente un almacén de datos estandarizado. En cambio, primero se centra en la recopilación de datos reales. Después, los datos se dividen en data marts. La estructura tanto de data marts como de modelos de datos más grandes dependen, por lo tanto, del tipo de datos que una empresa quiere reunir. Al método Kimball lo escogen especialmente las empresas que quieren ser rápida a nivel operacional y que no quieren o pueden afrontar una inversión grande. Además, es un método de trabajo más flexible, ya que el modelo superior está influenciado por los data marts. El inconveniente más grande que las empresas encuentran con este método es que falta una estructura general.

Data Vault

El data vault, desarrollado por Dan Linstedt, es la manera más novedosa y puede que también la más complicada de llevar a cabo un almacén de datos. Este modelo combina todas las formas de recopilación de datos y los conecta también de varias formas entre ellos. El modelo data vault consiste de tres componentes:

Hubs
Enlaces
Satélites

Para aclarar cada componente, se procederá a explicarlo usando datos de un sistema ERP para el comercio.

Los hubs que se encuentran dentro del data vault son tablas que representan la entidad comercial. Por ejemplo, la entidad comercial puede ser un “cliente”, “producto” o “almacén”. La entidad puede identificarse a través de un número de código único y con sus diferentes nombres.

Los enlaces representan relaciones o transacciones entre los hubs. De esta manera, la relación entre un producto y el almacén puede indicar el nivel de inventario. La transacción que ocurre entre un producto y el cliente es una acción de compra.

Los satélites completan el modelo de datos. Ellos agregan información muy relevante sobre el hub o el enlace. Por ejemplo, esto puede referirse a datos de ubicación de un cliente, descuentos especiales, etc.

Lo que hace que el data vault sea aún más complicado es que los datos proceden de diferentes fuentes y vienen en versiones diferentes. Todos los datos se guardan tal y como son registrados. Por lo tanto, la responsabilidad de la fiabilidad de los datos recae sobre la fuente. Los datos históricos también se guardan. Por lo tanto, una actualización de algunos datos no elimina sus versiones anteriores.

A menudo, el método de data vault es implementado por empresas que quieren ofrecer sus datos de una manera muy dinámica y que otorgan una gran importancia a las relaciones subyacentes. En realidad, Data Vault va mucho más allá del almacén de datos. El diseño de la información se encarga de proporcionar directamente interpretaciones que suelen estar más técnicamente cubiertas por la inteligencia de negocios (BI).