Los datos crecen día a día de forma exponencial. En solo diez años, la información generada por empresas, organismos públicos y ciudadanos se ha multiplicado hasta alcanzar cotas inimaginables. En este contexto, su explotación se ha convertido en una herramienta indispensable para la toma de decisiones.
El Big Data y la Inteligencia Artificial han contribuido a ello. Se han conformado como las tecnologías de referencia para la progresiva explotación de estos datos. Tecnologías que indefectiblemente están unidas a la transformación digital de las empresas.
Compañía Data Driven
El concepto de “data-driven” o “dirigida por el dato” ha tomado relevancia entre instituciones públicas y grandes compañías. Se trata de un modelo de gestión que trabaja con voluminosas fuentes de dato persiguiendo extraer información implícita que responda a objetivos claramente estratégicos. No en vano, la inteligencia de negocio a menudo reside en grandes repositorios que, estructurados o no, son explotados con modernas herramientas “cuantitativamente inteligentes”. Y decimos “cuantitativamente” porque solo representan una parte de esa inteligencia de negocio que persiguen. Habitualmente existe otra parte, que podríamos definir como “cualitativa”, que proviene de la experiencia de los profesionales de cada compañía. Y esta inteligencia resulta más complicada de automatizar.
El dato como materia prima
Recientemente, el III Congreso del ISACA en Madrid debatía sobre este aspecto y concluía sobre la necesidad de disponer de un modelo de gobierno del dato que fuera riguroso y coherente con los objetivos de cada organización, tanto en términos de procedimientos como de evaluación de la calidad del dato.Y es que este último aspecto, el de la calidad del dato, resulta fundamental para una correcta toma de decisiones.
Determinar si un dato recoge fielmente un hecho objetivo no es una tarea sencilla. La duplicidad, las contradicciones, el sesgo o incluso la incompletitud hace del procesamiento de los datos un paso previo indispensable para la correcta explotación de la información. Pero ni siquiera eso es suficiente. Realmente no existe un patrón de oro para comparar los datos y determinar si representan a la realidad. Existen, como mucho, metodologías, como la Evaluación de la Calidad del Dato (Data Quality Assessment–DQS) que contribuyen al proceso. Decidir sobre la exactitud, precisión, completitud, oportunidad e integridad de los datos es una tarea de enorme complejidad.
Manipulación de datos
Sin calidad de datos ningún avance tecnológico cumplirá su verdadera función. Los datos que se utilizan para estudios estadísticos permiten validar hipótesis sobre cuestiones relacionadas con la salud, la economía, el medioambiente, la industria o la sociedad en general. Por ejemplo, últimamente, mucho se habla de la calidad de los datos como condición esencial para monitorizar la evolución de la información sanitaria.
Un reciente estudio publicado en dos revistas científicas de prestigio internacional concluía hace unos días que “la hidroxicloroquina era un medicamento no solo ineficiente sino perjudicial para el tratamiento de la pandemia del covid-19”. Sin embargo, poco después, los editores de dichas revistas desmentían los resultados del estudio basándose en la calidad de los datos que los autores habían utilizad. Es evidente que la manipulación de los datos para presentar resultados interesados resulta una práctica real y extendida en muchos entornos y que algunos, pocos, tratan de demostrar.
P-hacking
Los primeros en detectar esta manipulación fueron los psicólogos Uri Simonsohn, Joseph Simmons y Leif Nelson que definieron el concepto de “p-hacking”. Para los expertos en estadística el valor “p” es un concepto conocido.Define el indicador que “muestra la probabilidad de que un valor estadístico calculado sea posible dada una hipótesis nula cierta”. Para que nos entendamos, la probabilidad de que un hallazgo o hipótesis sea el resultado de la casualidad. Ese valor, según las normas aceptadas por los expertos, debe ser inferior a 0.05; es decir la casualidad debe estar por debajo del 5% de probabilidad.
Sin calidad de datos ningún avance tecnológico cumplirá su verdadera función
Pues bien, los referidos Uri Simonsohn, Joseph Simmons y Leif Nelson demostraron que seleccionando los datos a considerar y adaptando el tamaño de las muestras era posible alterar el valor “p” de una hipótesis. La conclusión no resulta baladí. Realmente vinieron a plantear que la calidad de los datos es fundamental para validar hipótesis, porque con datos imprecisos o intencionadamente manipulados siempre es posible conseguir los resultados deseados. Actualmente existen incluso herramientas que enseñan cómo automatizarlo.
Ciberseguridad de Inteligencia Artificial
Este efecto se muestra con meridiana claridad en los sistemas de detección y prevención de ciberataques. Si las herramientas encargadas de recoger los datos relacionados con la ciberseguridad proporcionan información incompleta o dudosa, sistemas como SIEMoSOAR, encargados de tomarlas decisiones, serán incapaces de detectar o prevenir la presencia de amenazas de forma efectiva.
Pero aún hay más. Cuando estas herramientas utilizan técnicas de Inteligencia Artificial, la falta de calidad de los datos puede resultar aún más dañina. A las tareas tradicionales de recogida, preparación, limpieza y análisis de datos, normalmente se une un modelado del proceso de decisión basado en técnicas de Inteligencia Artificial que resultan difusas.
Para algunos investigadores estas técnicas presentan serias dudas en cuanto a predictibilidad. A la hora de reproducir comportamientos de dos instancias diferentes del mismo software sus resultados pueden llegar a ser diferentes ya que se mostrarán totalmente dependientes de los datos que hayan sido utilizados para entrenarlas. Ello puede dar lugar a importantes anomalías y sesgos. Ejemplos concretos los encontramos en todos los contextos, desde las herramientas utilizadas por departamentos de RRHH en la selección de personal o las entidades financieras para la concesión de créditos hasta, como ha ocurrido en el pasado, en aplicaciones de reconocimiento facial en el control de aduanas cuando se trata de identificar a posibles sospechosos.
Datos, datos, datos…
¿Invalidaría esto el uso de técnicas de Inteligencia Artificial en la toma de decisiones? En absoluto. Sin embargo, y bajo esta premisa, hay una conclusión a la que podemos llegar y que resulta controvertida: en la calidad de los datos se asienta la propiedad fundamental de un sistema para la toma de decisiones.
Sin esa característica los resultados pueden llegar a ser erróneos o incluso peligrosos para la propia organización, tal y como ha manifestado recientemente la Comisión Europea dentro de su estrategia futura en el tratamiento de los datos en los entornos de Inteligencia Artificial. Es por eso por lo que quizás las organizaciones deberían empezar a pensar en cómo utilizan sus datos. De no hacerlo es probable que las conclusiones a las que lleguen las conviertan en víctimas de su propio p-hacking.