SAS está desarrollando un entorno interactivo de programación analítica para el marco de código abierto, Hadoop, basado en la tecnología SAS in-memory. Este nuevo software permitirá a las organizaciones extraer información de cualquier volumen y cantidad de datos con mayor rapidez y precisión, impulsar sus resultados, reducir los riesgos, mejorar la comprensión del cliente e incrementar las oportunidades de éxito.
SAS® In-Memory Statistics for Hadoop habilitará a múltiples usuarios, simultánea e interactivamente, a gestionar, explorar y analizar datos, construir y comparar modelos y tratar grandes cantidades de datos en Hadoop. El marco de trabajo de código abierto, Hadoop, es considerado el futuro del big data. El lanzamiento del nuevo software de SAS está previsto para el primer semestre de 2014 y se espera que aumente notablemente la productividad de los data scientists o analistas de datos.
“Si comparamos SAS In-Memory para Hadoop con las soluciones que requieren la transcripción de datos al disco, la metodología aplicada con big data hasta el momento es claramente ineficaz. Con SAS In-Memory Statistics para Hadoop, los datos de Hadoop se cargan y mantienen en la memoria para múltiples análisis en una misma sesión y para más de un usuario”, explica Christian Gardiner, director general de SAS España.
La arquitectura en memoria de SAS, la misma que utiliza SAS Visual Analytics, ofrece una velocidad de gestión de datos sin precedentes -un requisito indispensable para encontrar valor en ingentes cantidades de datos-. Según Gardiner, “los data scientists, programadores y estadistas no necesitarán nunca más una gran variedad de herramientas, porque estamos eliminando la necesidad de utilizar diferentes lenguajes de programación analítica. SAS In-Memory Statistics para Hadoop incluye toda la gama de técnicas analíticas y provee al profesional de un medio rápido, poderoso y comprensivo para el análisis colaborativo”.
Entre las numerosas técnicas analíticas y de programación incluidas en Hadoop se encuentran: clustering, regresión, generación de modelos lineales, análisis de variantes, árboles de decisión, análisis de textos y recomendación de sistemas.
¿Por qué Hadoop?
La consultora IDC prevé que Hadoop alcance los 812,8 millones de dólares en ventas en 2016, lo que supone un crecimiento anual del 60,2%. SAS anticipa que los consumidores continuarán generando arquitectura de big data para obtener conocimiento de los datos.
“Hadoop representa un beneficio significativo para las empresas cuyos datos acumulados tienen mucho valor. SAS tiene el compromiso de proveer de las mejores técnicas analíticas a aquellas organizaciones que despliegan esta prometedora arquitectura de big data”, comenta Christian Gardiner. Además, Gardiner asegura que las relaciones estratégicas de SAS con Cloudera y Hortonworks proporcionan a los consumidores las principales técnicas analíticas de la industria dentro de la distribución de Hadoop.
Hadoop distribuye datos entre una amplia variedad de servidores e implementa los procesos en paralelo. También detecta y gestiona los fallos, algo crítico para los sistemas de procesamiento distribuido. Además de reducir el coste del hardware distribuido y de tener una red de seguridad con redundancia de datos, los avances de Hadoop incluyen:
– Procesamiento paralelo de datos. El modelo de computación distribuida de Hadoop puede llegar a procesar grandes volúmenes de datos;
– Escalabilidad. Los sistemas de Hadoop pueden dimensionarse añadiendo más nodos;
– Flexibilidad de almacenamiento. A diferencia de las bases de datos relacionales tradicionales, los datos no tiene porqué ser procesados con antelación para su almacenamiento, Hadoop almacena con facilidad los datos desestructurados.