Más de cuarenta mil años atrás, en la cueva del Sidrón (Asturias), unos Neandertales desesperados sufren en silencio uno de esos duros inviernos del paleolítico. El frío y las enfermedades les diezman, pero no tanto. En la profundidad de su cueva, devoran castañas mohosas y mascan corteza de sauce. En realidad, se están medicando, o al menos así lo afirman los autores de un estudio del Museo Nacional de Ciencias Naturales y el Instituto de Biología Evolutiva en un artículo aparecido en la prestigiosa revista científica Nature, que han descubierto restos de el moho Penicillum y componentes de la corteza de sauce (ácido salicílico) en el sarro de sus dentaduras fosilizadas. Nada menos que antibióticos y aspirina.
De entonces a hoy, se puede decir que la industria farmacéutica ha cambiado un tanto, sobre todo en lo que atañe al descubrimiento de nuevos fármacos, bastante más allá de eliminar los riesgos del ensayo o error en seres humanos. En términos de la industria, un fármaco es una molécula que interacciona con una entidad funcional del organismo, alterando su función para compensar algún déficit o exceso que produce una situación patológica. Esta entidad puede ser una proteína, un segmento de ADN, o una estructura o superestructura de variable complejidad. A esta entidad, los sabuesos de I+D en los departamentos de descubrimiento de fármacos del sector, la denominan diana. Los fármacos conocidos actúan sobre dianas conocidas, pero el hallazgo de nuevas dianas para una enfermedad, que mejoren la eficacia de las anteriores o no posean algunos de sus indeseables efectos secundarios, es de incalculable valor para el negocio, y una quimera largamente perseguida por la industria. Pero esta diana, que ha podido ser identificada a partir de la experiencia médica, la bioinformática o el puro azar, necesita ser validada. Para ello, necesita de una colección de moléculas que interaccionen con ella. A nivel experimental, existen numerosas metodologías que permiten detectar esas interacciones, y abundantes colecciones de moléculas con las que contar para ello, pero se trata muchas veces de un proceso largo y laborioso que llega a requerir millones de experimentos para una única diana, seguidos por etapas de confirmación de actividad y eliminación de positivos falsos. Y aún así no es suficiente, necesitamos además un modelo experimental en células, tejidos u organismos que nos permita evaluar la respuesta patológica, un modelo que nos acerque a la enfermedad y sobre el que estas moléculas activas ya en nuestra diana deberán así mismo ser activas. Puede decirse que se trata de un taburete de tres patas, tres interacciones necesarias. Por ejemplo, una de las causas de la diabetes tipo II, es la deficiente liberación de insulina por las células beta del páncreas. En esta liberación, hay muchas proteínas implicadas, para validar a cualquiera de ellas como diana, necesitamos encontrar compuestos que interaccionen eficientemente con la proteína y que a la vez favorezcan la liberación de insulina en un modelo experimental con esa misma célula beta.
Puede decirse entonces, que en esta etapa temprana del descubrimiento de fármacos, las tres actividades más importantes son la identificación de nuevas dianas, selección moléculas con actividad en tales dianas y validación de estas moléculas sobre modelos experimentales patológicos.
¿Dónde puede ser de utilidad la analítica predictiva en este contexto? Bueno, en la llamada “Big Pharma”, cada experimento se almacena en vastas bases de datos que pueden incluir centenares de millones de interacciones de millones de moléculas en millones de experimentos. Cada una de estas interacciones puede llevar anotaciones alusivas a las propiedades de la molécula (masa, polaridad, solubilidad y muchos otros descriptores químicos más complejos), el experimento (tecnología, variables manejadas, resultado, etc) y/o la biología (sobre qué entidad, qué proteína, célula, a qué tejido u órgano pertenece, en qué organismo se presenta, en qué sistemas se integra, qué genes la expresan y qué mutaciones presentan, y aún más). Todas estas variables pueden ser engarzadas de modo conveniente para construir bases de datos y tablas sobre las que configurar diversos procedimientos de Machine Learning. Este tipo de información no sólo se halla, inaccesible, en los protegidos servidores de la industria farmacéutica, sino que, gracias a diversas iniciativas públicas, aparece en diversos repositorios desde los cuales pueden hacerse consultas directas a través de interfaces gráficas o bien descargarse en una plétora de formatos, desde archivos de texto a bases de datos integradas. Cualquier usuario puede acceder libremente, bajo previo registro, a las webs del ChEMBL (Chemistry European Molecular Biology Lab), PubChem, Open Targets, Uniprot, Reactome, Wikipathways, DrugBank, bindingDB, y muchas otras, para generar sus propias bases de datos o tablas de aprendizaje. A menudo, dependiendo del fin perseguido, una integración de elementos extraídos de varias fuentes es lo más recomendable.
Tal vez el uso de estrategias de Machine Learning en descubrimiento temprano haya tenido su eje en la predicción de actividad de moléculas. Ésta puede ser de vital importancia en el abaratamiento de costes y reducción de plazos de experimentación, puesto que permite contar con colecciones de moléculas más pequeñas, con mayores probabilidades de ser activas. A lo largo de la última década el uso de redes neuronales y Deep Learning se ha extendido al estudio de la interacción descrita y prevista entre una molécula y su diana. Aunque esta aproximación simplemente utiliza descriptores químicos, en los últimos años la utilización de árboles de decisión, random forests, algoritmos bayesianos y SVMs se ha popularizado en la generación de modelos de aprendizaje que utilizan todo tipo de descriptores, alcanzando actividades como la identificación de dianas nuevas y validación virtual de las mismas, mediante modelos de aprendizaje supervisado y no supervisado. Ejemplos de estas actividades están al alcance de cualquier científico de datos, como puede comprobarse en páginas como https://doctortarget.com/, nutrida de numerosos ejemplos de aplicaciones con abundante material gráfico, aunque también algunas compañías como Mind The Byte, han desarrollado plataformas de alto rendimiento que utilizan computación en la nube sobre bases de datos experimentales públicas o dando servicios a compañías privadas. En todo el planeta, se dan además las condiciones para la creación de sociedades mixtas entre los gigantes farmacéuticos y startups o consolidadas biotecnológicas apoyadas por potentes inversores a partir de una capacidad, un esquema, una tecnología o una idea. Así, IBM Watson desarrolla su capacidad de procesamiento del lenguaje natural para predecir actividad o identificar dianas basándose en las estructuras semánticas y sintácticas de todo lo relevante que se ha publicado en biomedicina. Ya ha suscrito un importante acuerdo de cooperación con Pfizer. Roche colabora con GNS Healthcare para utilizar su potente plataforma de Machine Learning en la selección de mejores candidatos farmacológicos. Excientia es otra biotecnológica con capacidad para identificar combinaciones de dianas terapéuticas que funcionen sinérgicamente, potenciando los efectos de moléculas que actúen sobre ellas. Extientia ya ha firmado desarrollos con Sanofi y GlaxoSmithKline. A su vez, esta última farmacéutica mantiene un contrato con InSilico Medicine para identificación de nuevas dianas biológicas y sistemas en los que participan, mediante la explotación de su potente plataforma de análisis predictivo que integra la genómica con las interacciones moleculares, con el objetivo de desarrollar tanto fármacos como vacunas.
Todo está en marcha. Sin duda, los próximos años asistiremos a sorprendentes logros mientras la analítica predictiva y la inteligencia artificial inundan los programas de I+D en empresas farmacéuticas de toda talla. Sólo el tiempo nos dirá si esta irrupción se traduce en nuevos fármacos de mejorada eficacia. Por el momento, los primeros resultados empiezan a asomar con fuerza, aunque aún queda un largo camino para que estos descubrimientos muestren su eficacia demostrando mejores y más cortas progresiones de potenciales medicamentos en las fases de desarrollo clínico.
Sergio Senar Sancho / Alumno Máster Data Science MBIT School Promoción Octubre 2016