Perdidos en Pandora: Big Data y Machine Learning: salvando vidas

Cuando leo últimamente sobre Big Data, al igual que me pasa cuando leo sobre Blockchain, pienso que es un tema del cual todo el mundo ha oído hablar, tiene opinión, hay mucho mito, y al final, como en el caso de los Reyes Magos, "el Big Data son los padres". Así pues, podemos encontrar sin demasiada dificultad artículos y posts en los que se ensalzan las bondades de esta tecnología en diferentes campos, incluida la salud.

Por otro lado si hablamos de Big Data y salud, la primera cuestión que nos asalta (conceptos explorados por cierto en algunos posts en este mismo blog) es cómo agregar los datos que proceden de wearables para construir el repositorio de Big Data.

La realidad, que es mucho más tozuda de lo que queremos admitir, ya nos indica que tenemos unos estupendos repositorios en los que desde hace décadas venimos alimentando con multitud de datos de salud y estilo de vida.

Me refiero a los ubicuos -y a menudo denostados- sistemas de información sanitarios, la Historia Clínica Electrónica (HCE). Cumplen todos los requisitos de Big Data y las 4 Vs, y en función del grado de detalle de datos como los resultados de análisis clínicos (aún hoy día, algunas integraciones con HIS se limitan a capturar los resultados como documentos PDF, mientras que otras -las mejores- tienen la integración a nivel de dato) podremos extraer información más significativa o no. Además, en especialidades como Atención Primaria, es común que en el proceso de historiado se realice un inventario de hábitos y estilo de vida, lo cual enriquece aún más el repositorio.

Y es para nota si además estamos en un contexto en que existe un nexo de unión entre los diferentes niveles asistenciales para disponer de una visión única de la HC del paciente. A menudo se olvida que el paciente no aparece por un hospital porque sí, si no que habitualmente viene derivado de Urgencias o de Atención Primaria.

Bien, tenemos un océano de datos y es relativamente fácil ahogarnos en él.

Puede que nos venza la emoción y que, al no saber qué buscar, lancemos un algoritmo de data mining para que nos descubra pautas sobre las que podamos trabajar posteriormente, o bien, si tenemos una idea clara de lo que queremos buscar, lanzar algoritmos de machine learning.

Definiendo un número finito de variables de búsqueda dentro de un universo dado, y previa disociación (anonimización) de los mismos para cumplir la normativa de protección de datos, ya podemos empezar a usar nuestro Big Data.

Hasta ahora, he hecho un ejercicio más o menos teórico del qué y del cómo. Tal vez sea conveniente hablar ya de realidades.

El 13 de septiembre de 2016 fui invitado por IBM Research Zurich a un evento llamado "Think Discovery for Life Sciences and Healthcare - Transforming through Data", un evento muy exclusivo en el que se hablaron de aplicaciones reales del uso de IBM Watson en el sector salud, y en el que se habló, entre otras cosas, de modelar conocimiento... ¿os suena?

Bien, una de las ponentes era la profesora Varda Shalev, MD MPH, CEO del Instituto de Investigación e Innovación Maccabitech, vinculado al HMO Maccabi, de Israel. Además de ello, es médico de familia en activo. Debo deciros que las ponencias fueron de gran nivel, pero la de la profesora Shalev -The community care of the future- me impactó de un modo que no os podéis imaginar.

Sketchnote de la charla "The community care of the future", por Varda Shalev / Maccabitech
IBM Research / www.seeheardraw.com

Entre otras cosas, nos explicó el problema que tenían para detectar el cáncer colorrectal de intervalo, es decir, el que aparecía entre dos colonoscopias separadas entre sí por un intervalo de años. Y nos contó que extrajeron un universo de 606.000 pacientes, definiendo 20 variables concretas, basándose en la evidencia de que forzosamente tenía que haber en pacientes con pólipos una caída en la cuenta del hemograma, y aplicaron un algoritmo de machine learning.

¿El resultado? Espectacular, lo podéis leer en este paper. Crearon un algoritmo de detección de riesgo (predicción de que un paciente dado pueda desarrollar un cáncer colorrectal en los próximos dos años) en base a los resultados de un hemograma; a los pacientes a los que les aparece una alerta se les realiza una colonoscopia: en el 80% de los casos aparecen pólipos, con un 0,5% de falsos positivos. El resultado en salud es que en Israel la mortalidad debida a cáncer colorrectal ha ido cayendo en los últimos años.

Esto demuestra más allá de cualquier duda que el uso de los datos almacenados dentro de una HCE, tratados como Big Data y usando algoritmos data mining / machine learning pueden salvar vidas.

Referencias

"Development and validation of a predictive model for detection of colorectal cancer in primary care by analysis of complete blood counts: a binational retrospective study", por Yaron Kinar, Nir Kalkstein, Pinchas Akiva, Bernard Levin, Elizabeth E Half, Inbal Goldshtein, Gabriel Chodick, Varda Shalev, Journal of the American Medical Informatics Association, Volume 23, Issue 5, 1 September 2016, Pages 879–890, 15/02/2016
"9 Examples of Big Data Analytics in Healthcare That Can Save People", por Mona Lebied, Business Intelligence, 24/05/2017, visto el 5/11/2017
"Painful issues in pain prediction", por L. Hu y G. D. Ianetti, visto el 5/11/2017
"A Tool for Classifying Individuals with Chronic Back Pain: Using Multivariate Pattern Analysis with Functional Magnetic Resonance Imaging Data", por Daniel Callan , Lloyd Mills, Connie Nott, Robert England, Shaun England, PLOS One, 6/06/2014
"VA, DOE Launch Healthcare Big Data, Machine Learning Project", por Jennifer Bresnick, HealthIT Analytics, 4/05/2017, visto el 5/11/2017
"Predicting the Future — Big Data, Machine Learning, and Clinical Medicine", por Ziad Obermeyer, MD, Ezekiel J. Emanuel, MD, PhD, NEJM Catalyst, 10/10/2016, visto el 5/11/2017
"Disease Prediction by Machine Learning Over Big Data From Healthcare Communities", por Min Chen, Yixue Hao, Kai Hwang, Lu Wang, Lin Wang, IEEE Xplore, 26/04/2017
"Mining electronic health records: towards better research applications and clinical care.", por Jensen PB, Jensen LJ, Brunak S., Nature Reviews Genetics, 2/05/2012
"The Electronic Health Record for Translational Research", por Luke V. Rasmussen, Journal of Cardiovascular Translational Research, 7/08/2014
"”Big Data” and the Electronic Health Record", por M. K. Ross, Wei Wei, L. Ohno-Machado, Yearbook of Medical Informatics, 15/08/2014
"Text Mining and Big Data Analytics for Retrospective Analysis of Clinical Texts from Outpatient Care", por Svetla Boytcheva, Galia Angelova, Zhivko Angelov, Dimitar Tcharaktchiev, The Journal of Institute of Information and Communication Technologies of Bulgarian Academy of Sciences, 26/11/2015
"Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records", por Riccardo Miotto, Li Li, Brian A. Kidd, Joel T. Dudley, Nature, 17/05/2016
"Modeling Disease Severity in Multiple Sclerosis Using Electronic Health Records", por Zongqi Xia, Elizabeth Secor, Lori B. Chibnik, Riley M. Bove, Suchun Cheng, Tanuja Chitnis, Andrew Cagan, Vivian S. Gainer, Pei J. Chen, Katherine P. Liao, Stanley Y. Shaw, Ashwin N. Ananthakrishnan, Peter Szolovits, Howard L. Weiner, Elizabeth W. Karlson, Shawn N. Murphy, Guergana K. Savova, Tianxi Cai, Susanne E. Churchill, Robert M. Plenge, Isaac S. Kohane, Philip L. De Jager, PLOS One, 11/11/2013
"The ‘big data’ revolution in healthcare", por Peter Groves, Basel Kayyali, David Knott, Steve Van Kuiken, McKinseys&Company, enero de 2013, visto el 5/11/2017
"Decisions Through Data: Analytics in Healthcare", por Mary J. Wills, Journal Of Healthcare Management 59:4 Julio/Agosto 2014
"Automatic recognition of gait-related health problems in the elderly using machine learning", por Bogdan Pogorelc, Zoran Bosnić, Matjaž Gams, Multimedia Tools and Applications, 12/11/2011
"Multi-disciplinary patient-centered model for the expedited provision of costly therapies in community settings: the case of new medication for hepatitis C", por Nitzan Avisar, Yael Heller, Clara Weil, Aviva Ben-Baruch, Shani Potesman-Yona, Ran Oren, Gabriel Chodick, Varda Shalev, Nachman Ash, Israel Journal of Health Policy Research, septiembre de 2017

Páginas

Big Data y Machine Learning: salvando vidas

Referencias