1.- Crecimiento vegetativo de la información

    La información disponible alcanza volúmenes inabordables. La creciente intermediación y soporte de los sistemas de información en todo tipo de actividad hace crecer sin límite el almacenamiento de datos en una variada gama de formatos. También es cierto, que a causa de constantes repeticiones, se producen duplicidades, modificaciones y desactualizaciones, motivando la consiguientes incertidumbre y confusión sobre la utilidad y el grado de validez de parte de esa información.

    Publicidad

    Actualmente, se estima que cada dos años, se generan y almacenan más datos que todos los existentes previamente. Las cifras varían, según las fuentes que se consulten y los argumentos de ciertas promociones de los proveedores tecnológicos. Además, las diferencias suelen ser muy abultadas, hasta el punto de que solo puede extraerse una conclusión común de todos ellas: el presente desarrollo de la IT ha llevado a una situación caótica que afecta la parte esencial de todo sistema: el volumen, la calidad y la vigencia de la información. La conclusión es clara, la información se ha convertido en un recurso “contaminado” que precisa una mejor gestión.

    Siendo cuestionables tan sacrosantos atributos (vigencia, calidad, etc.) en la materia prima de los “sistemas de información”, y siendo éste un sentimiento o una sospecha que ya viene arrastrándose desde hace bastante tiempo, es preciso tomar en consideración algunos aspecto básicos sobre el fenómeno de la inflación real de la información, cuyo índice de crecimiento, en términos de volumen, es exponencial.

    1.1. Volumen y contaminación

    El motivo de que esta preocupación sea hoy compartida por muy diferentes niveles de responsabilidad dentro de las organizaciones, se debe a que el crecimiento del volumen de información, impregnado de dudosa calidad, tiene fuertes repercusiones colaterales, como por ejemplo, el enorme volumen de recursos que supone su almacenamiento y mantenimiento, así como los recursos que se dedican a la depuración, recuperación y transporte (ancho de banda) por las redes de comunicaciones.

    Hemos tenido la oportunidad de contemplar, a lo largo de los dos últimos decenios, diferentes fases o aproximaciones a la resolución del problema de crecimiento del volumen de información, hasta llegar al estado actual, donde el fenómeno ha sido bautizado como Big Data.

    Hay dos enfoques para el análisis de este fenómeno. El más positivo de todos es el que ha tomado la industria de IT, donde se trata de encontrar soluciones para soslayar las dificultades inherentes a la gran cantidad de información, manteniendo que mayor volumen supone mayor oportunidad de exactitud en las conclusiones derivadas del análisis de los datos. Esto supone que el ruido o la contaminación es despreciable frente al volumen total y no afectara al resultado final.

    El segundo enfoque es más negativo, o mejor dicho, más crítico. Se trata de partir de la base que toda la información no es coherente porque existe un importante nivel de ruido a consecuencia de duplicidades, malas o insuficientes actualizaciones, carencia de mantenimientos rigurosos, etc. Es decir, asumir que la contaminación o el ruido deteriora o hace ineficaz el tratamiento masivo de los datos. Claro está, que este segundo enfoque plantea mayores dificultades. La depuración de los recursos de información conlleva un trabajo y esfuerzo de análisis, con recompensa a largo plazo.

    Sin embargo, la aproximación recomendable para muchos centros de dataos es pasar por el segundo enfoque (depuración) para luego poder adoptar con éxito y verdadero retorno el primero (explotación masiva).

    1.2. Una mirada retrospectiva

    Con perspectiva histórica, la organización de la información en estructuras formales, como las bases de datos, fue sin duda un paso determinante para situar y localizar la información relevante. En ese caso, se daban dos certezas simultaneas: se sabía “a priori” cómo se tratarían los datos (aplicación) y cuáles eran los datos susceptibles de tal tratamiento, incluyendo la indización para su fácil acceso. Una tercera certeza inherente a un buen tratamiento conllevaba un mantenimiento y actualización que permitiese controlar el nivel de ruido.

    El ciclo de vida de esta arquitectura racional y sistémica venía dado por la validez en el tiempo del procedimiento o proceso al que se sometía la información y, en su caso, de la adicción pertinente de nuevos datos, incluso tablas y enganches entre si, y a las estructuras previas. El sistema en su conjunto, con esta racionalidad intrínseca, mantenía su calidad en función de un buen diseño de las aplicaciones y de los procedimientos de actualización y mantenimiento asociados. Además, sucesivas técnicas organizativas de las bases de datos, con sus correspondientes utilidades de gestión, han permitido una evolución muy adecuada en el soporte requerido para muchos modelos de negocios y servicios. De forma compacta, muchas soluciones ERP proporcionaban ayudas y soluciones para mantener la “conformidad informativa” de los datos.

    La mayor accesibilidad a las bases de datos, por parte de usuarios internos y externos, ha exigido nuevas herramientas de interrogación, que han precisado cierta “sindicación” o consolidación de la información, más o menos formal, cuando estas interrogaciones requerían datos de diferentes fuentes, y frecuentemente, de diferentes sistemas de bases de datos. Típicamente, algunas bases de datos solían estar asociadas a grupos de aplicaciones concretos que formaban procesos específicos propios del negocio.

    1.3. La gran reserva de datos

    En este punto, y ante estas necesidades, surgieron las  primeras decisiones complicadas  para la arquitectura general de los sistemas disponibles en línea. Había que decidir entre una gran base de datos para todo, o casi todo, o diversas bases de datos especializadas por procedimientos, y a veces departamentos, incluso considerando su posible estructura distribuida pero conectada, etc.

    En la figura adjunta se señala, siguiendo la metodología de la consultora alemana R.J. Sievers, la evolución que los centros de datos han tenido que realizar para superar estos temas de arquitectura, más o menos extensos, según los casos.

    En definitiva, muestra la disposición de los recursos físicos de almacenamiento y proceso para alcanzar de forma eficaz y segura el dato preciso en los diferentes procesos automatizados del trabajo con el sistema de información.

    Estando los datos organizados y accesibles en grandes masas próximas o “comunicantes” en un pool o repositorio, se plantea de manera natural el acceso a la información de modo más informal que el disponible orientado a las aplicaciones, y para ello es preciso permitir interrogaciones más abiertas y cambiantes. Esta mayor generalización, instaura nuevas formas de acceso al dato, como un conjunto combinado “ad doc”, que deviene finalmente en el alumbramiento de las técnicas de búsqueda por significados.



    1.4. La exploración por contenidos

    El mundo de la búsqueda de información ha tenido luz propia, pero a veces su brillo ha sido algo intermitente. Por principio, la búsqueda eventual, cruzada y flexible, requería que las masas de información organizadas para servir a las aplicaciones pudieran ser vistas con otros criterios, más orientados al contenido o significado mismo del dato propiamente. El significado formal de los contenidos fue la primera cuestión que suscitó gran cantidad de teorías y controversias. Sus orígenes son bastante remotos en el tiempo dentro de la historia de las tecnologías de la información. Las diversas teorías al uso tenían por objetivo establecer  la metodología que permitiera pasar de la noción de datos a la de contenido inteligente. Y ya puestos, a la de conocimiento. Este camino ha seguido un curso teórico de diversa naturaleza, cuya utilización pragmática no siempre ha sido inmediata, ni eficaz. Su consecuencia instrumental en los ambientes informáticos más cotidianos ha tenido, desde ciertas resistencias a su adopción, hasta ciertas dificultades reales de carácter aplicativo práctico.

    De aquellas dos condiciones ciertas que teníamos al principio, la ubicación lógica del dato y su tratamiento “procedimental”, ahora, hemos prescindido de una, el tratamiento procedimiento en forma de aplicación. La forma de llegar al dato ha pasado a ser variable y más combinativa. Buscamos los datos a nuestro antojo, o mejor dicho, en función de necesidades ajenas a un procedimiento preestablecido y acotado. En el nuevo escenario de las búsquedas de contenido, se distinguía entre información estructurada y no estructurada, es decir la que se encontraba en un esquema previamente definido como una base de datos y la que simplemente residía en los recursos de almacenamiento, al alcance de la arquitectura general del sistema.

    La oferta más pragmática del sector al entorno empresarial ha optado por sistemas de dos clases: una más orientada a las herramientas de explotación y gestión de los datos mejor estructurados, aquellos que formaban las grandes bases de datos corporativos con técnicas de “data mining”, término que se ha llegado a traducir como “minería de datos”, aunque su verdadero significado no es encontrar materia prima, sino patrones y relaciones que evidencien la existencia de significados depurados. En definitiva, otro paso en la búsqueda del significado más cualificado, o como ya se ha dicho, del pretendido conocimiento.

    La segunda clase de ofertas es una colección de técnicas que han estado más orientadas al resultado de las actuaciones procedimentales, cuyo valor era muy interesante para comprender como la “fabricación” diaria de los sistemas de información podían explicar o alumbrar la toma de ciertas decisiones. En este apartado cabría señalar las técnicas de BPI o BI (Business Process Intelligence o simplemente Business Intelligence). Más que encontrar normas que nos expliquen significados implícitos, ahora se trata de comparar, segmentar y enfrentar de las diversas maneras posibles, los datos tal cual son, contemplándolos en escenarios geográficos, cualitativos o de otro tipo para entender mejor su significado “contextual” y proporcionara ayuda en el desarrollo y toma de decisiones del negocio.

    Los potentes algoritmos de búsqueda que la industria ha puesto a disposición de los usuarios han ayudado enormemente a utilizar la información residente en los sistemas, con gran flexibilidad.  Lo más interesante es que estos algoritmos se han desarrollado paralelamente para dar facilidades a los usuarios de los sistemas de información de un determinado centro de datos (gestores de contenidos) y, también, para encontrar la información “buscada” en el enorme sistema que forman las páginas web de la RED (buscadores on line, arañas, crawlers, etc.). La cifras en este punto, pueden servir para ilustrar algunas premisas del fenómeno que hoy estamos  denominando Big Data.


    1.5. Internet, el gran cambio

    En 1992, comienzos de Internet para el gran público, había conectadas, aproximadamente, un millón de dispositivos (106 ). Actualmente, hay más de diecisiete mil millones (17×109) y se estima que cada mes se crean un millón (1.000.000) de nuevos dominios a los que se puede acceder para encontrar información. Internet que parece la rueda, o la imprenta de nuestra era, lo ha cambiado todo, como ocurrió antes con los dos inventos citados, y lo ha multiplicado por varios órdenes de magnitud.

    A esta explosión de tamaño, le ha seguido en paralelo una explosión de opciones. Si en 1995 había una decena de motores de búsqueda en Internet, es muy posible que, en la actualidad, haya más de 2000, con características mucho más avanzadas que aquellos. Por tanto, la potencia de las herramientas y el escenario de Internet nos abre un mundo de información que lo inunda todo. Al mismo tiempo, la potencia y funcionalidad de las herramientas de búsqueda disponibles en la Red permite crecimientos desbordantes.

    En el interior de una organización empresarial se produce, a menor escala, el mismo fenómeno que en Internet. Hay una parte importante de la información que está estructurada en bases de datos, y otra que se genera constantemente y produce la llamada información desestructurada, que va quedando almacenada en terminales ofimáticos, principalmente, y contiene elaboraciones interesantes para gran número de búsquedas. No siempre, este tipo de información pasa a la intranet. Por su parte, la “intranet” proporciona accesibilidad a un universo colaborativo de la propia organización, con sistemas de interrogación y búsqueda adecuados para su gestión de contenidos. La vida paralela de un mismo dato está servida. Sin embargo, se desea tener acceso a toda la información existente, aunque no esté organizada en la mejor manera posible. No es extraño que en estas situaciones se utilicen motores especializados de búsqueda general, incluso “appliance” como el de Google o gestores de contenidos de diverso alcance, ex profeso para la gestión de información, que funcionan fuera de los procesos de las aplicaciones convencionales.

    De lo anterior se desprende que la concurrencia de dos factores, la mayor facilidad de búsqueda de la información en tiempo y cantidad, y la combinatoria de formas de buscar, obteniendo resultados de nuevo valor informativo, acarrea una despreocupación por la unicidad del dato, los procedimientos depurativos y, con ello, la explosión del volumen de la información disponible en los sistemas.


    Si quieres leer la segunda parte del artículo, haz click aquí