Big Data y Machine Learning: salvando vidas

Cuando leo últimamente sobre Big Data, al igual que me pasa cuando leo sobre Blockchain, pienso que es un tema del cual todo el mundo ha oído hablar, tiene opinión, hay mucho mito, y al final, como en el caso de los Reyes Magos, "el Big Data son los padres".  Así pues, podemos encontrar sin demasiada dificultad artículos y posts en los que se ensalzan las bondades de esta tecnología en diferentes campos, incluida la salud. 

Por otro lado si hablamos de Big Data y salud, la primera cuestión que nos asalta (conceptos explorados por cierto en algunos posts en este mismo blog) es cómo agregar los datos que proceden de wearables para construir el repositorio de Big Data. 

La realidad, que es mucho más tozuda de lo que queremos admitir, ya nos indica que tenemos unos estupendos repositorios en los que desde hace décadas venimos alimentando con multitud de datos de salud y estilo de vida. 

Me refiero a los ubicuos -y a menudo denostados- sistemas de información sanitarios, la Historia Clínica Electrónica (HCE). Cumplen todos los requisitos de Big Data y las 4 Vs, y en función del grado de detalle de datos como los resultados de análisis clínicos (aún hoy día, algunas integraciones con HIS se limitan a capturar los resultados como documentos PDF, mientras que otras -las mejores- tienen la integración a nivel de dato) podremos extraer información más significativa o no. Además, en especialidades como Atención Primaria, es común que en el proceso de historiado se realice un inventario de hábitos y estilo de vida, lo cual enriquece aún más el repositorio.

Y es para nota si además estamos en un contexto en que existe un nexo de unión entre los diferentes niveles asistenciales para disponer de una visión única de la HC del paciente. A menudo se olvida que el paciente no aparece por un hospital porque sí, si no que habitualmente viene derivado de Urgencias o de Atención Primaria.

Bien, tenemos un océano de datos y es relativamente fácil ahogarnos en él

Puede que nos venza la emoción y que, al no saber qué buscar, lancemos un algoritmo de data mining para que nos descubra pautas sobre las que podamos trabajar posteriormente, o bien, si tenemos una idea clara de lo que queremos buscar, lanzar algoritmos de machine learning.

Definiendo un número finito de variables de búsqueda dentro de un universo dado, y previa disociación (anonimización) de los mismos para cumplir la normativa de protección de datos, ya podemos empezar a usar nuestro Big Data.

Hasta ahora, he hecho un ejercicio más o menos teórico del qué y del cómo. Tal vez sea conveniente hablar ya de realidades.

El 13 de septiembre de 2016 fui invitado por IBM Research Zurich a un evento llamado "Think Discovery for Life Sciences and Healthcare - Transforming through Data", un evento muy exclusivo en el que se hablaron de aplicaciones reales del uso de IBM Watson en el sector salud, y en el que se habló, entre otras cosas, de modelar conocimiento... ¿os suena?

Bien, una de las ponentes era la profesora Varda Shalev, MD MPH, CEO del Instituto de Investigación e Innovación Maccabitech, vinculado al HMO Maccabi, de Israel. Además de ello, es médico de familia en activo. Debo deciros que las ponencias fueron de gran nivel, pero la de la profesora Shalev -The community care of the future- me impactó de un modo que no os podéis imaginar.
Sketchnote de la charla "The community care of the future", por Varda Shalev / Maccabitech
IBM Research / www.seeheardraw.com
Entre otras cosas, nos explicó el problema que tenían para detectar el cáncer colorrectal de intervalo, es decir, el que aparecía entre dos colonoscopias separadas entre sí por un intervalo de años. Y nos contó que extrajeron un universo de 606.000 pacientes, definiendo 20 variables concretas, basándose en la evidencia de que forzosamente tenía que haber en pacientes con pólipos una caída en la cuenta del hemograma, y aplicaron un algoritmo de machine learning.

¿El resultado? Espectacular, lo podéis leer en este paper. Crearon un algoritmo de detección de riesgo (predicción de que un paciente dado pueda desarrollar un cáncer colorrectal en los próximos dos años) en base a los resultados de un hemograma; a los pacientes a los que les aparece una alerta se les realiza una colonoscopia: en el 80% de los casos aparecen pólipos, con un 0,5% de falsos positivos. El resultado en salud es que en Israel la mortalidad debida a cáncer colorrectal ha ido cayendo en los últimos años

Esto demuestra más allá de cualquier duda que el uso de los datos almacenados dentro de una HCE, tratados como Big Data y usando algoritmos data mining / machine learning pueden salvar vidas.

Referencias