Únete a la Comunidad de Directivos de Tecnología, Ciberseguridad e Innovación Byte TI

Encontrarás un espacio diseñado para líderes como tú.

datalakes, Data Discovery

Los DataLakes, una evolución en el análisis de los datos

En 2012 comienzan a lanzarse los primeros DataLakes en banca como primeras iniciativas en proyectos de big data. El concepto es simple: bajo un mismo repositorio de datos, almacenar todas las fuentes de datos posibles, sin transformaciones previas ni complicados procesos de carga, solo datos en su estado bruto tal cual son escupidos por un sistema operacional o por un sensor. La idea es poder “pescar” cualquier tipo de información para interrelacionarla después, sin las barreras impuestas por un Data Warehouse DWH (almacén de datos) o las restricciones de un datamart, como dato agregados dentro de un DWH.

Hasta el momento, los datos que se generan por la actividad diaria se trasforman y normalizan para ser almacenados en el DWH bajo ciertas reglas de negocio y sobre un modelo de datos que ya establece sus relaciones básicas. Por ejemplo, ticket de caja con tienda, referencia de artículo, cantidad, cliente, etc. Una vez dentro del DWH, la información se agrupa en datamarts para un mejor y más rápido cálculo. Todo esto ha funcionado relativamente bien hasta que se han incorporado fuentes de datos nuevas con diferentes estructuras en los datos como las fotos, videos, tweets, o información de blogs de navegación en webs, etc. Además de todo esto, el ingente volumen de datos ha llevado a evolucionar los sistemas informacionales a nuevos sistemas de big data que permitan la ingesta, almacenamiento y proceso de cualquier tipo de dato, tenga la estructura que tenga y en tiempo real.

La principal función de los DataLakes es realizar Data Discovery entre todos los datos, tarea que no permitían los antiguos Data Warehouse

De ahí que la función de los DataLakes sea ingestar toda la data posible, sin límite, y con unas ventanas de carga rápidas en el tiempo dejando que sea un experto analista de datos o data scientist el que decida qué hacer con ellos, como interrelacionarlos y buscar patrones ocultos en los mismos. A partir de aquí se inician las fases de integración y transformación de los mismos para su posterior análisis.

Por ello, la principal función de los DataLakes es realizar Data Discovery entre todos los datos, tarea que no permitían los antiguos Data Warehouse con la información compartimentada en departamentos a través de los data marts: datamart de producción, comercial, de riesgos, de productos, geográficos, etc. A través del data Discovery se trata de buscar patrones ocultos de comportamiento y relación entre los datos que no son visibles a golpe de vista o con un análisis tradicional de los mismos.

Los DataLakes constituyen hoy en día uno de los pilares principales de los primeros proyectos de big data en las grandes compañías. Esta técnica que fue introducida inicialmente por bancos, telecos y más tarde compañías eléctricas, es actualmente un concepto muy extendido, que se aplica en cualquier tipo de compañía y supone un cambio de filosofía en cuanto al tratamiento de los datos para su posterior análisis.

Las empresas pueden de verdad tener una visión cliente 360 grados al disponer en un repositorio único de toda la información de sus clientes, de tal forma que al llamar al call center este puede visualizar en tiempo real la posición y el valor como cliente para sí poderle ofrecer la mejor atención y poder ofrecer los productos más atractivos en cada caso.

Deja un comentario

Scroll al inicio