“Todos los algoritmos empleados para predecir qué película verás o qué comida pedirás se pueden utilizar en medicina”. Dr. Eric Schadt, fundador y director del Icahn Institute for Genomics and Multiscale Biology del hospital Monte Sinaí de Nueva York.
Una de las principales características de la actividad científica actual es la aproximación multidisciplinar a los problemas. La tecnología, junto con la aplicación de métodos de ciencia de datos (eso que solemos ocultar en ese cajón de sastre llamado big data), nos permiten asistir a un nuevo Renacimiento, en el que el geólogo, el físico, el geógrafo, el historiador, el economista y el médico comparten aproximaciones comunes a problemas de muy distinta naturaleza. En la actualidad, los equipos que luchan contra las enfermedades como el cáncer o la diabetes necesitan de las tres características fundamentales que se requieren en un científico de datos: altas capacidades en matemáticas y estadística, habilidades avanzadas en programación y conocimiento de la disciplina. Evidentemente, nadie conoce mejor que un médico cómo abordar un problema de salud, pero cuando nos enfrentamos a alguno de salud pública son imprescindibles las dos características anteriores.
Diez días antes de que la OMS activara las alarmas sobre el riesgo de propagación del virus, la empresa canadiense de inteligencia artificial BlueDot emitió un aviso a sus clientes para que evitasen Wuhan
Como ocurrió (y sigue ocurriendo) con la crisis del virus Zika, hace cuatro años, los modelos predictivos elaborados por científicos de datos están en el frente de la lucha contra el coronavirus. La enorme diferencia desde entonces proviene precisamente del tiempo transcurrido, una eternidad en términos de capacidad de computación y de información generada. Pensamos que, desde entonces, se ha producido el 95% de toda la información de la historia. Hemos pasado de producir 20 zettabytes anuales de información entonces a más de 50 en la actualidad. Para hacernos una idea, un ordenador que compremos hoy tiene un disco duro de aproximadamente un terabyte, o mil “gigas”; un solo zettabyte equivale a mil millones de discos duros de ese tipo.
Y, aunque sólo sea en parte, esa información se ha almacenado y analizado, y ha permitido entrenar a sistemas de aprendizaje automático que han alimentado, a su vez, otros de inteligencia artificial. Diez días antes de que la OMS activara las alarmas sobre el riesgo de propagación del virus, la empresa canadiense de inteligencia artificial BlueDot emitió un aviso a sus clientes para que evitasen Wuhan, la ciudad cero. Empleando algoritmos de procesamiento de lenguaje natural, BlueDot rastrea más de 100.000 informes en 65 lenguas distintas cada día, además de múltiples fuentes alternativas, tratando de identificar posibles alertas sanitarias.
Combinando los análisis con las rutas aéreas comerciales, el algoritmo establece un modelo de propagación del virus para establecer, de ese modo, cuáles son los trayectos y lugares de contagio más probables
La principal característica de esos algoritmos es que, por ejemplo, son capaces de distinguir cuándo las personas estamos hablando del virus sin estar infectados de cuando lo hacemos tratando de buscar un remedio para los síntomas, indicando una potencial infección. Combinando los análisis con las rutas aéreas comerciales, el algoritmo establece un modelo de propagación del virus para establecer, de ese modo, cuáles son los trayectos y lugares de contagio más probables. Las enseñanzas del Zika son aquí fundamentales, pues su historia es mucho más rica que la del COVID19; así, se ha entrenado a redes neuronales para predecir su riesgo en tiempo real, y ese conocimiento se está ya empleando en la gestión del coronavirus. Tanto el Centro de Control de Enfermedades de los EEUU como la Organización Mundial de la Salud están aplicando técnicas de ciencia de datos para combatir la crisis actual.
Pero la ciencia de datos y sus distintos métodos no sólo permiten la anticipación de patrones de propagación. Insilico (contracción de in silico, en silicio, expresión creada para definir los desarrollos que nacen en simulaciones de ordenador, en simpatía con las expresiones in vivo o in vitro) es una start-up norteamericana que está desarrollando la tecnología para determinar qué moléculas o combinación de ellas combatirán mejor al coronavirus. La identificación y producción de nuevos medicamentos precisos, efectivos y con menos contraindicaciones es uno de los campos de más éxito de la ciencia de datos, cuyos métodos, apoyados por la tecnología, permiten acortar los tiempos de desarrollo a fracciones de los anteriores, algo fundamental en situaciones como la actual. Ese ha sido el caso del descubrimiento de Halicin, el antibiótico así llamado en honor a HAL, la inteligencia de “2001, una odisea del espacio”, y que ha sido descubierto mediante técnicas de inteligencia artificial para combatir bacterias ultrarresistentes. La Facultad de Medicina de Harvard o la Universidad de Southampton son otras instituciones que están empleando este tipo de algoritmos para ayudar en la asignación más eficiente de los recursos en el combate de la enfermedad.
Hay muchas dudas sobre el origen de COVID19, su propagación y el número real de afectados dentro de China. De lo que no hay ninguna, como explicamos en Alquimia, es que la ciencia de datos es imprescindible en la investigación de la enfermedad. Los desarrollos de los principales centros de investigación del mundo y de las más importantes tecnológicas así lo indican.