En 2020, la cantidad total de datos creados, capturados, copiados y consumidos en el mundo fue de 59ZB y se prevé que para 2025 alcance la cifra de 175ZB. Este aumento está haciendo que las arquitecturas de datos centralizadas estén llegando a sus límites.
La solución para este problema es la virtualización de datos. A pesar de ello, existen muchas ideas equivocadas acerca de esta tecnología. Por ese motivo, Denodo ha elaborado una lista con los mitos más comunes que rodean este concepto.
“La gestión del dato es imprescindible para llevar a cabo cualquier estrategia de negocio y, por ello, son cada vez más las empresas que están implementando la virtualización de datos, ya que les permite optimizar el tiempo, los costes y los procesos”, explica José Andrés García, responsable para Iberia y Latinoamérica de Denodo.
Mitos virtualización de datos
Estos son los mitos más destacados sobre la tecnología de virtualización de datos:
- La virtualización se puede sobrecargar con grandes conjuntos de datos y consultas complejas. La virtualización de datos proporciona un enfoque único para la integración y gestión de datos que no se encuentra en ninguna otra tecnología. Hace unos años, los datos se introducían en un servidor federado, un proceso de software que permitía que varias bases de datos operasen como una sola, pero que no funcionaba bien cuando se procesaban grandes conjuntos de datos o consultas complejas. En la actualidad, las soluciones de virtualización de datos pueden reescribir las solicitudes de manera que se procesen en el origen de los datos eliminando la necesidad de mover los datos a través del sistema. Mejorando el rendimiento de las consultas para las fuentes de datos más lentas al utilizar los datos almacenados en la caché local. Por ello, las plataformas modernas de virtualización de datos son capaces de procesar consultas complejas de forma rápida y eficaz.
- Las herramientas de BI y la virtualización de datos son intercambiables. Las herramientas de inteligencia empresarial ofrecen funcionalidades para combinar datos, es decir, para coordinar, procesar y analizar datos de diferentes fuentes y crear informes a partir de ellos con una visión orientada al negocio. Sin embargo, su funcionalidad es muy limitada ya que cada herramienta necesita su propio silo de datos semánticos. Esto provoca barreras de acceso, integración y compatibilidad de datos para 8 de cada 10 empresas, según Forrester Consulting. La conexión entre las diferentes herramientas no se da, por lo que la mezcla de datos se centra en la herramienta de un proveedor específico. En cambio, la virtualización de datos es capaz de conectar los datos de cualquier fuente con una variedad de consumidores y herramientas en una única capa de tejido de datos de toda la empresa.
Conoce los 5 mitos más destacados sobre la virtualización de datos
- El Data Lake sustituye a la virtualización de datos. Hoy en día, todos los datos corporativos se almacenan, analizan y procesan en Data Lakes, pero son extremadamente complejos, no todos los datos pueden copiarse en él y, además, carecen de los servicios de entrega de datos. En lugar de simplemente poder acceder a los datos, los usuarios tienen que buscarlos. La virtualización de datos, por su parte, proporciona acceso a los datos de los diferentes Data Lakes, y de otras fuentes, en una sola capa unificada, lo que ayuda a los usuarios a encontrar y comprender los datos del Data Lake de forma ágil.
- Cuando se utilizan herramientas ETL, la virtualización de datos no es necesaria. Las herramientas ETL pueden utilizarse para extraer datos de diferentes fuentes, transformarlos y luego cargarlos en una base de datos o un almacén de datos. Pero las estructuras de ETL son frágiles; por ejemplo, si se añade una nueva fuente de datos, las empresas prefieren construir una nueva estructura en lugar de cambiar la existente. Por un lado, esto da lugar a silos de datos, lo que dificulta a los usuarios encontrar y procesar de forma rápida los datos necesarios. Por otro lado, conduce a la duplicación de datos; las empresas llegan a tener hasta 12 copias del mismo dato repartidas dentro de su arquitectura. En cambio, con la virtualización de datos, éstos permanecen donde están y sólo se representan en una capa virtual. Esto ahorra hasta un 30% de los costes operativos y un 50% de tiempo respecto a los métodos tradicionales de integración.
- La virtualización de los datos conlleva una pérdida de control sobre los mismos. La virtualización de datos permite a todos los empleados acceder a los datos de la empresa para que puedan realizar ellos mismos los análisis de forma rápida y sencilla a través del autoservicio. Sin embargo, esto hace que se pierda la visión general de quién utiliza qué datos y cómo lo hacen. La realidad es que las plataformas de virtualización de datos ofrecen muchos controles para regular el acceso y restringir las solicitudes -por ejemplo, en términos de duración, prioridades o filas en el resultado- y para limitar su alcance, por ejemplo, mediante el uso de filtros. Las empresas también pueden proporcionar datos estandarizados y listos a sus empleados.