Diariamente se registra un aumento en el intercambio de volumen de dato en redes, el uso de redes sociales o el llamado Intenet of Thing (IoT) son dos simples ejemplos al respecto.

Si revisamos algunos datos, en agosto de 2020, Facebook era la red social más grande del mundo con 1,18 mil millones de usuarios activos mensuales. Twitter, con 313 millones de usuarios activos mensuales, es una de las redes sociales que la gente probablemente utilizará para compartir su opinión.

LinkedIn es la red profesional más grande del mundo con 467 millones de usuarios registrados. YouTube tiene más de mil millones de usuarios únicos cada mes y está disponible en cientos de millones de dispositivos.

El Big Data para el análisis del dato

El análisis de estos datos no hubiera sido posible sin el Big Data y los avances tecnológicos en cuanto al almacenamiento y procesamiento de los datos generados. Las empresas e instituciones oficiales los han tomado como su principal activo, convirtiéndolo en el foco de su toma de decisiones estratégicas.

Como características, además del volumen masivo de datos disponibles para su análisis debido a su generación automática, hay que señalar la alta velocidad en su generación en tiempo real y almacenamiento debido al flujo masivo y constante de información.

También merecen mención su variedad debida a que las fuentes de datos son altamente heterogéneas y la necesidad de por parte de las empresas de velar por su veracidad Dentro del entorno de los datos se han desarrollado dos perfiles principales.

Uno el científico de datos (Data Scientist) asociado a la analítica de datos y otro el arquitecto de datos (data Architect). El arquitecto del dato está encargado del diseño de los sistemas hardware y software que permiten el almacenamiento y procesado de la ingente cantidad de datos que se genera.

Apache Hadoop y su sistema de archivos distribuido HDFS

Estos sistemas se basan en el paradigma de la distribución y reparto de la carga de trabajo entre diferentes elementos de una red de ordenadores (el más representativo es Apache Hadoop y su sistema de archivos distribuido HDFS).

Esta arquitectura hardware y software en un principio se encontraba ubicada en las instalaciones de cada una de las compañías, pero desde hace unos años la tendencia es alojarla en la nube, principalmente debido al ahorro de costes de inversión en despliegue y mantenimiento.

En cualquiera de los casos, el arquitecto del dato se encarga de optimizar el uso de todos los recursos hardware para hacer rentable la inversión en infraestructura. Así, implantan soluciones de software de gestión de los datos que garantizan su disponibilidad para que los científicos de datos realicen su trabajo.

El científico de datos, por su parte tiene como principal función la generación de modelos prescriptivos y predictivos que permitan convertir los datos crudos mediante su análisis, en conocimiento para la empresa.

Unificación del Machine Learning con el conocimiento empresarial 

Como paso previo, realizan un depuración y limpieza de los datos para descartar la información irrelevante. Estos profesionales unifican el uso de conocimientos estadísticos y aprendizaje automático (machine learningi) con un profundo conocimiento de ámbito empresarial donde desarrollan su actividad para ser capaces de generar los modelos que permitan el análisis de datos.

En muchos casos los algoritmos matemáticos que utilizan aparecieron en el entorno de la IA en el siglo pasado, paro ha sido en nuestro tiempo con los avances tecnológicos asociados a las arquitecturas de Big Data, cuando han podido ser aplicados.

Otros perfiles en auge dentro del mundo de Big Data están asociados a la visualización y al llamado gobierno del dato. La forma de presentar los resultados del análisis es fundamental a la hora de hacer rentable el trabajo en torno al dato facilitando la interpretación de los resultados.

Por otro lado, la gestión del ciclo de vida de dato abarca tantos aspectos, como gestión de la calidad o de la seguridad del dato, que se hace indispensable un perfil conocido como “data governance “ para engranar todas las piezas.

Autor: Alfonso Castro, que es el coordinador del Grado de Ingeniería del Software y el Director de Máster en Data Science y Big Data en U-Tad.

>