WhatsApp Facebook Twitter LinkedIn Mail

Integración de datos (Data Integration)

Índice:

  1. ¿Qué es la integración de datos?
    1. ¿Para qué sirve?
  2. Retos de la integración de datos
    1. Diseño integración
    2. Dificultades de implementación
    3. Gran inversión
  3. Formas de integrar

¿Qué es la integración de datos?

La integración de datos, data integration, consiste en la recopilación de datos desde las distintas fuentes empresariales para asegurar tener datos completos y precisos. La integración permite consolidar datos de diferente índole (estructurados, no estructurados, en streaming, etc.). Así, las empresas se aseguran que se pueda realizar cualquier operación empresarial, como consultar en las bases de datos o hacer analíticas complejas.

Según un artículo publicado en el Harvard Business Review sólo el 3% de los datos empresariales cumplen con los estándares básicos de calidad.

La integración de los datos se puede hacer de forma manual, pero en el momento que se llega a cierto volumen, este tipo de integración se vuelve insostenible incluso para las pequeñas empresas. Por ello, hay muchos fabricantes de software que ofrecen plataformas de integración de datos para facilitar esta labor. Algunos de estos software son Oracle Data Integration Suite, IBM Cloud Pack for Integration, y SAP Cloud Platform Integration Suite.

¿Para qué sirve el data integration?

Con la llegada del internet y el auge de la tecnología, los datos no sólo son cada vez más voluminosos, sino que también suelen estar esparcidos en diferentes sistemas. Los motivos más comunes por los que una empresa hace una integración de datos son los siguientes:

  1. Creación de data lakes: algunas empresas desean tener un data lake (lago de datos) donde almacenar todos sus datos empresariales. Los datos dentro de un lago de datos se encuentran en un formato natural, sin procesar, generalmente como blobs de objetos o archivos.
  2. Gestión de datos maestros y consistencia de datos: la integración de los datos también es muy usada para asegurar la conexión de entidades y dominios empresariales (como clientes, proveedores, personal, producto, etc.). Al integrar los datos se hace posible acceder a la información y sincronizar los procesos y, así, mejorar la gestión de datos maestros. Asimismo, también aumenta la consistencia a nivel de base de datos entre aplicaciones.
  3. Migración (migration): cuando se va a realizar una migración de datos de una solución empresarial a otra, se realiza una integración de datos. Esto se debe a que se tiene que realizar el proceso de ETL (extracción, transformación y carga de los datos) hacia el nuevo sistema.
  4. Replicación de bases de datos (data replication): la replicación de la base de datos es muy importante, ya que así las empresas mejoran la disponibilidad, consistencia y accesibilidad de los datos. Esto se debe a que si hay incidencia en alguna base de datos, el sistema redirigirá a los usuarios afectados a la otra base de datos que contiene los datos replicados.
  5. Almacenamiento de los datos de diferentes fuentes en un almacén de datos o en data center: las empresas ponen sus datos en un almacén de datos o en data services para que haya interoperabilidad entre los distintos sistemas de la empresa. De esta forma, la empresa se asegura que haya una sincronización de los datos de los diferentes sistemas, evitando que los empleados tengan que insertar los mismos datos en diferentes aplicaciones.
  6. Preparar los datos para sistemas de BI: los sistemas de BI necesitan poder tomar los datos de fuentes que tengan un formato concreto. Por ello, muchas empresas hacen uso de los data services de sus soluciones de BI para asegurarse que los datos estén en el formato correcto. Algunos de ejemplos de estos data services son Microsoft Dataverse, que se usa para las aplicaciones gestionadas en PowerApps, como PowerBI, o SAP Data Center, que es usado por sistemas como SAP BusinessObjects o SAP Analytics Cloud.

Retos de la integración de datos

La integración de datos es un proceso complicado. Por ello, es recomendable estudiar muy bien por qué y cómo se va a hacer. Además, cuando una empresa se plantea hacer una integración de datos se encuentra con los siguientes retos:

Hay que hacer un diseño concienzudo de la integración

Lo primero que hay que hacer al empezar un proyecto de integración de datos es hacer un análisis de los requisitos. El análisis de estos requisitos debe ser tanto: funcionales (por qué se quiere hacer, qué objetivos y resultados se quieren obtener con la integración); y los no funcionales (cuántos usuarios harán uso de los datos integrados, cuál es el máximo de tiempo que se ha de tardar en el procesamiento datos, mejorar la política de seguridad de datos).

La implementación no es tarea fácil

Una vez realizado el análisis de los requisitos es importante hacer un estudio de factibilidad para elegir una herramienta de integración de datos. La elección de la herramienta también dependerá del propósito que se desea conseguir. Por ejemplo, no se escogerá la misma herramienta si se quiere obtener un ecosistema más escalable porque la empresa está creciendo, que si lo que se quiere es que haya una reducción en el coste de implementación de una herramienta o de licencias.

Además, también suele ocurrir que algunos datos están muy vinculados al sistema en el que se creó. Esto pasa en sistemas que tienen ya cierto tiempo. Generalmente, estos datos suelen ser más difíciles de integrar debido a esta vinculación exclusiva a su sistema, por lo que no son fáciles de extraer para otras áreas de la empresa. Asimismo, durante la implementación, en muchos casos, será necesario realizar un trabajo de transformación de los datos (data modeling) para que se ajuste al modelo central de los datos, ya sea un almacén de datos o un data center. Algunos de estos aspectos son de carácter semántico, porque pueden surgir alertas de error si se guardan datos integrados en un formato que no se debe. Por ejemplo, si normalmente se guarda la fecha como dd/mm/aaaa y algunos empleados la escriben como aaaa/mm/dd, la fecha puede traspasarse en el formato incorrecto al integrarse los datos.

Una integración requiere una gran inversión

Una vez escogida la herramienta o plataforma de integración hay que tener en cuenta que son muy difíciles de usar. Eso significa que la empresa tendrá que contratar a un especialista para hacer el trabajo de integración. Contratar a personal de este tipo no resulta nada barato. Además, también habrá gastos de inversión de capital (el coste de la herramienta de integración, si se tuvo que comprar hardware o algún otro sistema para hacer la integración) y los gastos operativos. A dichos costes, también hay que sumarle los gastos de hospedaje, de mantenimiento, soporte y gestión de la infraestructura necesaria.

Formas de llevar a cabo la integración de datos

Dependiendo de las necesidades, deseos y requisitos de la empresa, la integración de los datos se hará de una forma u otra. A continuación se enumeran las formas más conocidas para la integración de datos:

  • Integración manual (Manual data integration): la persona que se va a encargar de la integración de los datos tendrá que recopilar y limpiar los datos de las distintas fuentes y después combinarlos dentro de un mismo almacén. Este tipo de integración sólo puede darse en empresas muy pequeñas que tienen muy pocos datos. Esto se debe a que requiere mucho tiempo, por lo que resulta ser un poco ineficiente y, también, porque pueden cometerse errores humanos al hacer la integración. El lenguaje que se usa para hacer este tipo de codificación es el SQL.
  • Integración con uso de middleware (Middleware data integration): el middleware ayuda a normalizar los datos de acuerdo a la aplicación de destino para que puedan ser usados. Este tipo de integración se suele usar cuando hay un sistema heredado (legacy system), ya que debido a su antigüedad no suele encajar bien con el resto de sistemas. Por ello, al usar un middleware, se facilita la integración de los datos procedentes de este sistema en otros.
  • Integración a partir de aplicaciones (Application-based integration): este tipo de integración sólo es posible cuando la integración se va a realizar entre una cantidad no muy numerosa de aplicaciones. Esto se debe a que la herramienta de integración que haga este tipo de integración será un software que localiza, extrae e integra los datos desde las distintas fuentes. También, por ello, es necesario que las diferentes fuentes sean compatibles entre sí, ya que no siempre se incluye la parte de transformación de los datos.
  • Integración de acceso uniforme (Uniform access integration): en este tipo de integración los datos se mantienen en la fuente original de los datos. Sin embargo, se crea una interfaz para que los datos parezcan coherentes cuando se accede a los datos desde otras fuentes. Por ejemplo, este tipo de integración pueden emplearse en los sistemas de gestión de base de datos orientados a objetos porque así se genera una apariencia de uniformidad entre las distintas bases de datos.
  • Integración de almacenamiento común (Common storage integration): esta integración consiste en hacer una copia de los datos de las diferentes fuentes en un almacén de datos o data service. De esta forma, se consigue una visión unificada. Por tanto, esta forma de integrar es opuesta a la integración de acceso uniforme, ya que los datos se guardan como copia en otro sistema, no únicamente en la fuente original de cada uno de los datos.

Algunas de estas formas, como la integración a partir de aplicaciones o la de almacenamiento común, se apoyan en herramientas de procesos de ETL para hacer la integración de datos. Este proceso consiste en extraer los datos del sistema de origen, transformarlos para que sean compatibles en el sistema y de acuerdo a la forma empresarial establecida y, finalmente, se cargan los datos en el sistema de destino.

procedimiento migracion etl extract transform load

¿Quieres usar este artículo como fuente? Haz clic para copiar:

European Knowledge Center for Information Technology. (2022, 1 septiembre). Integración de datos (Data Integration). TIC Portal. https://www.ticportal.es/glosario-tic/integracion-datos