Ram Ventakesh, CTO Global de Cloudera

Hablamos con Ram Ventakesh, CTO Global de Cloudera, sobre la importancia creciente que tienen los datos en la transformación digital de las empresas. El máximos responsable de tecnología de la compañía habla también sobre la revolución que puede suponer la IA generativa en la operativa de las empresas.

Entrevista con Ram Ventakesh, CTO Global de Cloudera

¿Dónde ve que se van a centrar los principales retos de las organizaciones en los próximos meses?

Los datos son el combustible para la transformación de la economía digital en la que estamos inmersos actualmente. Por eso, es tan importante obtener el máximo valor de ellos, siendo este uno de los principales desafíos de las organizaciones. Tecnológicamente, tendrán que adaptarse a arquitecturas modernas de datos como los data lake houses, data fabric y data mesh. Además, en los próximos meses, el equilibrio entre la descentralización con data mesh y la centralización a través de data lakes será clave para avanzar en la gestión de datos empresariales.

Y es que es crucial promover la toma de decisiones basada en datos desde la cúpula directiva, al mismo tiempo que se fomente que todas las áreas de la organización trabajen de manera eficiente, eliminando sistemáticamente los cuellos de botella e incentivando resultados exitosos.

ChatGPT ha provocado que la población en general descubra las capacidades de la IA. ¿Qué cree que supone esto?

Es sorprendente lo rápido que estas herramientas se han convertido en parte de la vida de muchas personas. Esta nueva forma de interactuar con un dispositivo o máquina es muy novedosa e impresionante, y se siente muy natural, por lo que creo que la analítica conversacional es un camino interesante que ChatGPT ha abierto.

Para los negocios, herramientas como ChatGPT han generado mucha conciencia y han alimentado conversaciones sobre la IA y sus posibles beneficios empresariales. Los modelos de lenguaje de gran escala están aumentando el acceso de todos a los datos, pero al hacerlo, también plantean preocupaciones sobre el cumplimiento normativo y la propiedad intelectual. Las empresas necesitan soluciones de IA en las que puedan confiar. Y confiar en la IA comienza con confiar en los datos. Los modelos de lenguaje de gran escala serán tan buenos si los datos con los que han sido entrenados lo son.

Desde la irrupción de ChatGPT se ha hablado mucho de aspectos apocalípticos como la eliminación de puestos de trabajo o incluso la aniquilación de la Humanidad por parte de la IA… Sin embargo, se dejan de lado aspectos realmente importantes como puede ser la protección de los datos o el desarrollo de legislaciones para proteger las fuentes, ¿cuál cree que será la evolución de la IA?

Para nosotros, el análisis de datos y el aprendizaje automático van de la mano. Así que creemos que los clientes querrán utilizar estas herramientas con todos sus datos. Lo interesante que estamos viendo en el ámbito de la gestión de datos es que solíamos enfocarnos mucho en los datos estructurados, como las transacciones en un punto de venta u otras actividades similares. Y las empresas solían usar consultas SQL para analizar esos datos, ¿verdad? Pero cada vez más, la mayoría de los datos de nuestros clientes, alrededor del 70% al 80%, son datos no estructurados.

Pueden ser desde tweets documentados, grabaciones de Zoom, audio, vídeo y todo tipo de datos que conforman la información disponible en una empresa, ya sean estructurados de manera diferente o sin estructura clara. Esos son los datos que se encuentran en los sistemas de cualquier empresa. Por eso, cuando pensamos en datos de esta manera, es razonable esperar análisis basados en el aprendizaje automático. Por eso, nuestros clientes pueden hacerlo ya en nuestra plataforma de datos. Mostramos a la gente lo que es posible con la IA en la actualidad de una forma muy fácil de entender y utilizar.

Sin datos no existe la inteligencia artificial, ¿qué propone Cloudera al respecto? Si ya es difícil realizar una gestión de los datos eficiente, ¿cuáles son los retos de la gestión de datos con respecto a la IA?

Nuestros clientes nos han dicho que, aunque los servicios de IA como ChatGPT son atractivos, les encantaría construir experiencias interactivas similares utilizando sus propios datos para mejorar la inteligencia y relevancia de su negocio.

Para que la IA respalde de manera efectiva las decisiones críticas de una empresa, los conjuntos de datos deben ser completos, precisos y actualizados en tiempo real. Pero no se trata solo de agregar datos, también es necesario prepararlos y analizarlos, ya que los modelos de IA únicamente son tan buenos como la calidad de los datos de los que aprenden.

Como he mencionado antes, el problema es que los datos empresariales a menudo están desordenados y compuestos por diferentes tipos de datos, y cada uno requiere un análisis por separado. Además, los datos se almacenan en diferentes lugares, como centros de datos, nubes privadas, en el edge o en diversas nubes públicas.

Nosotros, desde Cloudera, ofrecemos un Prototipo de Aprendizaje Automático Aplicado (AMP) que permite a las empresas utilizar un chatbot similar a ChatGPT, pero con sus propios datos corporativos, evitando respuestas extrañas debido a la falta de contexto y fuentes de datos no validadas. Porque las empresas necesitan respuestas en las que puedan confiar sin comprometer el cumplimiento de los datos y la propiedad intelectual.

La tecnología siempre ha evolucionado, el problema ahora, ¿puede ser que está evolucionando tan rápido que ni los departamentos de TI ni las propias personas tienen tiempo para adaptarse a esos cambios?

Es cierto que hace seis meses no hubiéramos tenido una conversación sobre la IA generativa o su impacto en los datos, pero, desde mi punto de vista, eso es lo realmente emocionante en el ámbito de los datos: hay tantas posibilidades y tantos beneficios para el valor de los datos que debemos ver esta evolución como algo positivo.

Los profesionales de TI y los expertos en datos necesitan estar actualizados en las tendencias del mercado y los nuevos desarrollos tecnológicos. Solo aquellas empresas comprometidas en proporcionar formación continua tendrán éxito en la industria de los datos.

Más allá del impacto de la IA y de los datos, ¿qué otras tendencias cree que van a ser realmente disruptivas en el medio plazo?

Desde mi punto de vista, las arquitecturas modernas de datos como data fabric, data mesh o data lakehouse están evolucionando y reflejan las necesidades y capacidades para gestionar y aprovechar los datos de manera efectiva. La integración de datos en arquitecturas modernas es esencial para que las organizaciones aprovechen al máximo su potencial. Facilita conocimientos precisos, mejora la eficiencia operativa, optimiza las experiencias del cliente y permite que las organizaciones sean ágiles y competitivas en el panorama actual impulsado por datos.

Otra tendencia relevante es la transformación de la nube pública. En ese sentido, creo que la nube pública es una parte importante del panorama de data lake, que también es algo nuevo de los últimos tres,cinco años. Creo que puede ser una forma efectiva de implementar el intercambio y la colaboración segura en lo que respecta al acceso a los datos.

Como empresa cloud, ¿qué ha supuesto la nube en la gestión de los datos?

La migración de datos a la nube mejora la accesibilidad de los datos, optimiza el almacenamiento y la copia de seguridad, aumenta la escalabilidad y flexibilidad, y permite un entorno de innovación más rápido. De hecho, una mejor accesibilidad es la principal razón por la cual las empresas españolas migraría a la nube, según un estudio reciente de Cloudera en el que encuestamos a 850 responsables de TI en Europa. Además de estos datos, el 81% afirmó haber trasladado más datos a la nube pública en los últimos 12 meses, y esa cifra alcanza el 87% en España.

Muchos CIOs están afirmando que la nube es el nuevo on-premise, ¿qué hay de realidad en esta afirmación?

Aunque el 87% de los responsables de TI en España afirmaron que su empresa trasladó más datos a la nube pública en los últimos 12 meses, el 72% planea repatriar datos a entornos locales. Las principales razones para no migrar a la nube pública son las preocupaciones relacionadas con la gobernanza de datos y el cumplimiento normativo, la ciberseguridad y el temor al cloud lock in, lo que dificultaría el cambio de plataformas en el futuro, según este estudio.

La realidad es que las arquitecturas híbridas son el estándar por defecto para la mayoría de las empresas. Según nuestro análisis, el 71% de las organizaciones españolas utilizan un entorno híbrido para almacenar sus datos, mientras que solo el 4% utiliza exclusivamente la nube pública.

¿Qué errores se cometen en la migración al cloud y por qué muchas empresas están volviendo a trasladar datos a los entornos on-premise?

Los datos son un activo con un gran valor y demandan su propia estrategia. La nube es en última instancia un modelo de entrega, flexible, ágil y escalable. Sin una Estrategia de Datos Empresariales, basada únicamente en la nube, dificultaría la gestión, el acceso, la seguridad, la gobernanza y la obtención de información de los datos. Esto es exactamente lo que han experimentado los primeros adoptantes de la nube: el traslado a la nube pública creó nuevos silos de datos y análisis que eran más difíciles de gestionar y, además, eran más costosos. Esto les está llevando a reevaluar dónde deben residir algunas cargas de trabajo.

Las decisiones sobre si una carga de trabajo es más adecuada para su implementación nativa en el cloud, ya sea en una nube pública compartida o en un entorno local, deben estar impulsadas por datos confiables. El análisis de cargas de trabajo permite a las empresas observar el rendimiento de una carga de trabajo antes de tomar una decisión en una dirección u otra. Las cargas de trabajo que son más predecibles y consumen un nivel de recursos relativamente estable a menudo son más económicas de ejecutar en un entorno local. Mientras que un servicio orientado al cliente, que es más variable, puede funcionar mejor en la nube debido a su elasticidad.

Con la aparición de arquitecturas de datos modernas, las organizaciones pueden obtener más valor de sus datos y optimizar sus costos en la nube al mismo tiempo.