¿Por qué las empresas deberían adoptar un framework de código abierto en la era Zettabyte?

El crecimiento de los datos continúa su trayectoria imparable. Según IDC, se generarán alrededor de 103 zettabytes de datos en todo el mundo para 2023. Si a esta cantidad de datos le sumamos la proliferación de dispositivos IoT, la tecnología 5G y el crecimiento masivo de plataformas de entretenimiento como el vídeo, estamos simplemente viendo la punta del iceberg de cómo las empresas almacenarán y extraerán valor de los datos.

Afrontar la era Zettabyte significa que empresas de cualquier tamaño y sector tendrán que rediseñar la arquitectura de sus centros de datos para poder satisfacer el nuevo tipo de demanda.

Un nuevo enfoque de arquitectura de almacenamiento para la era Zettabyte

Para poder entender este nuevo paradigma debemos saber qué es un zettabyte;  es un trillón de gigabytes, una ingente cantidad de datos. Un término que probablemente no os resulte familiar ya que, rara vez os habéis visto en la necesidad de almacenar dicha cantidad de información.  Pero, el mundo está cambiando.

Innovación, productos y nuevos requisitos serán necesarios para este cambio que se avecina y que dependerá de varios factores:

  • En primer lugar, la necesidad de desagregar los datos de la computación, el almacenamiento y la red, para aprovechar cada componente de la manera más eficiente y óptima. La desagregación es la única forma de tratar el volumen, la velocidad y la variedad de los datos que inevitablemente traerá la era del zettabyte.
  • La segunda consideración se refiere al hecho de que la infraestructura de datos tendrá que ser construida con un objetivo. Las empresas ya no pueden confiar en soluciones de ámbito general, es decir, una solución no puede ser «suficientemente buena» para resolver las necesidades generales. Las organizaciones necesitan maximizar la eficiencia y centrarse en un solo objetivo o propósito: ofrecer el equilibrio perfecto entre rendimiento, densidad y coste en el mundo de los zettabytes.
  • Por último, pero no menos importante, será necesaria la colaboración e inteligencia entre los diferentes elementos de un proyecto de esta magnitud. Es decir, debe existir una completa interacción entre hardware y software para maximizar el rendimiento y la funcionalidad del proceso en su conjunto.

Soluciones SMR diseñadas a medida

Conseguir la aportación de las comunidades de código abierto y Linux para las tecnologías SMR (grabación magnética por superposición) será clave para tratar de encontrar soluciones que puedan satisfacer los requisitos de datos durante la próxima década. Los sistemas de datos de almacenamiento magnético funcionan superponiendo pistas en un disco, ayudando a los proveedores de hardware a conseguir un aumento de la capacidad de aproximadamente un 20%. Esto requiere que los datos se escriban de forma secuencial para que no alteren una pista de escritura subyacente.

Conseguir la aportación de las comunidades de código abierto y Linux para las tecnologías SMR (grabación magnética por superposición) será clave

Para muchos hiperescaladores la escritura secuencial es una buena opción debido a su capacidad de lectura/escritura de muchas cargas de trabajo a gran escala, como sucede en el caso de vídeo en streaming. Pero la curva para implementar soluciones SMR requiere rediseñar su ubicación final en el disco, es decir, modificar el sistema operativo para poner en escena la escritura secuencial o incluso permitir que la aplicación reconozca el modelo de escritura secuencial. Aunque el rediseño de la arquitectura requiere ciertos esfuerzos al principio, las ventajas y beneficios de densidad y costes que ofrecen las soluciones SMR de hardware y software son sustanciales.

Utilizar namespaces por zonas (ZNS)

Puede parecer extraño el hecho de comparar unidades de disco duro (HDD) SMR con unidades de disco duro de estado sólido (SSD) ya que son tecnologías completamente diferentes. Sin embargo, las SSDs y NAND son parte del futuro de la tecnología desagregada, siendo complementarias para las SMR/HDD namespaces por zonas.

Las memorias basadas en NAND sólo pueden almacenar un cierto número de bits por capa y, como resultado, tienen que ser gestionados. La Capa de Transición Flash (FTL) se ocupa inteligentemente de todo, desde el caché hasta el rendimiento, pasando por la nivelación del desgaste. Sin embargo, en la escala zettabytes, la gestión del nivel de dispositivo trae consigo una relación indirecta entre el host y el medio real e influye en el rendimiento, la latencia y el coste. Para poder controlar todos estos elementos y maximizar su eficiencia es necesario considerar la opción de trasladar la administración de todas sus funciones desde el nivel del dispositivo al host, como lo desarrolla el sistema SMR.

La tecnología ZNS divide la memoria flash en zonas; cada zona es un namespace aislado. Los proveedores de cloud pueden, por ejemplo, separar las cargas de trabajo o los tipos de datos en diferentes zonas para que los patrones de uso sean predecibles entre múltiples usuarios. Aunque lo más importante es que en el sistema SMR los datos se escriben a través de una única zona de forma secuencial. De este modo, ya no existe la necesidad de gestionar todas esas memorias. Los resultados son significativos:

  • Mayor ahorro debido a la disminución del aprovisionamiento excesivo de NAND
  • Mejor resistencia de conducción al reducir la amplificación de la escritura
  • Reducción de la latencia
  • Mejoras significativas del rendimiento

Almacenamiento por zonas, una plataforma unificada para soportar las tecnologías SMR y ZNS

A medida que las empresas se preparan para gestiona runa mayor demanda de datos, iniciativas como ZonedStorage, en las que trabajan todas las industrias para desarrollar un software de código abierto que pueda soportarZNS y SMR con la misma interfaz y API, son realmente importantes. Este avance permitirá a los usuarios finales adoptar una única interfaz que puede comunicarse con toda la capa de almacenamiento. Como resultado, los arquitectos de centros de datos podrán hacer la transición a arquitecturas medidas en zettabytes más fácilmente ya que las aplicaciones no tienen que cambiar independientemente del entorno de almacenamiento que elijan. Este sistema permitirá a las empresas alcanzar un nuevo equilibrio entre rendimiento, latencia y coste mediante el uso de arquitecturas desagregadas diseñadas especialmente para este fin y de forma inteligente.

Por Davide Villa, director de Desarrollo de Negocio EMEA  de Western Digital