¿Big Data o un lío de datos?


Entrada publicada originalmente en inglés en el blog de HIMSS Europe como "Big mess or big data?" el 08/11/2016. Publicado con permiso de HIMSS Europe.

¿Hay alguien que no haya oído hablar sobre big data? Porque, por lo que parece, cada vez es una parte más importante de cualquier aspecto de nuestras vidas, incluyendo el sector salud, por supuesto.

Pero, ¿el sector salud está preparado para utilizar big data? Hay algunos detalles sobre los cuales tendremos que meditar. En primer lugar, deberíamos saber que estamos tratando información de pacientes cuyos datos proceden de orígenes muy variados. Por poner un ejemplo, se considera que los datos que alimentan un repositorio big data son un 20% estructurados y un 80% no estructurados, lo que significa que nos encontramos con una dificultad añadida para gestionarlos.

Así pues, vamos a hablar sobre las cuatro "V" que definen big data:
  • Volumen, porque estamos tratando cantidades enormes de datos
  • Velocidad, porque estamos tratando datos que se generan muy rápidamente
  • Variedad, porque estamos tratando una gran variedad de datos
  • Veracidad, porque necesitamos un nivel adecuado de confianza sobre los datos

¿Qué pasa con la calidad? Cuando estamos tomando decisiones basadas en tecnología big data, debemos asegurar la calidad de los datos almacenados. ¿Cómo podemos asegurar la calidad de los datos? ¿Podemos imaginar controlar la calidad en el momento de la adquisición de estos datos?

Pensemos sobre los datos generados por wearables. ¿Podríamos asegurar que proceden de una fuente fiable? O puede que la metadata no estructurada que a menudo se registra adicionalmente resultaría ser más un lío de datos que big data.

Almacenamos una cantidad de información enorme. ¿Tenemos alguna idea de qué datos son los relevantes? ¿Tal vez podríamos utilizar algoritmos de data mining para descubrir pautas que podamos usar y re-usar posteriormente?

En España decimos “Los árboles no nos dejan ver el bosque”, que podríamos adaptar fácilmente a "Los datos no nos dejan ver el conocimiento". Porque necesitamos conocimiento, no datos brutos, para poder tomar decisiones. Necesitamos un nivel superior, más allá del concepto big data, para mejorar la integridad y calidad de los datos.

Tengo suficientes razones para decir que "Big data, y quiero resaltar, el big data como lo conocemos hoy, está poco y mal utilizado. Punto".

Datos VS Conocimiento. Bienvenidos al mundo de las ontologías. 

En el siglo XXI no deberíamos hablar de datos, deberíamos hablar de conocimiento. Deberíamos modelar los datos de modo que pudiéramos representar el conocimiento. ¿Cómo lo podríamos hacer?

Os voy a introducir en el concepto ontología. Las  ontologías son un método semántico para modelar dominios de conocimiento, estableciendo relaciones entre las diferentes entidades así como estableciendo taxonomías. Las ontologías son la base de cognitive computing, más allá de los conceptos HADOOP o big data. Los datos están estructurados en una red n-dimensional donde cada elemento del dato está vinculado a n-atributos diferentes y sus clases. Además, las ontologías permiten gestionar de manera eficiente el aseguramiento de la integridad entre diferentes declaraciones de datos, ya que se pueden aplicar diferentes reglas de integridad.

Cuando hablamos sobre reglas, podemos usar ejemplos simples tales como "esta persona es una mujer, no es un hombre"; de este modo podríamos evitar registros de historia clínica tales como "paciente hombre de 80 años, con 9 embarazos y seis nacidos vivos" (extraido de una historia clínica real).

Otro ejemplo de declaración puede ser "una botella de Chardonnay blanco de Australia va bien con el pescado".

Esta declaración revela algunos atributos de los datos:
  • Hecho de uva (Chardonnay)
  • Tiene un país de origen (Australia)
  • Tiene un color (blanco)
  • Tiene un contenedor (botella)
  • Tiene un gusto (moderado)
Del vino probablemente podemos tener aún más información (por ejemplo, marca, azúcar y así sucesivamente) y lo podemos vincular con otras clases como pudiera ser comida. Como podemos ver, las ontologías pueden definir todos los atributos dentro de un dominio de conocimiento específico.

Ontologías y Sanidad

¿Por qué no hablamos de ontologías en sanidad y patologías? Consideremos la neumonía, por ejemplo. La ontología se podría representar (epidemiología, tratamiento, síntomas, y más), así:

Fuente: Florida Institute for Human & Machine cognition (IHMC)
Pero, ¿qué pasaría si representamos esta patología en un paciente?

Uno de los mejores ejemplos de cómo representar una patología en un paciente concreto utilizando ontologías lo podemos encontrar en “Infectious News”. El día 13 de septiembre de 2016, la Dra. Meghan May escribió sobre los problemas de salud que afectaron a Hillary Clinton el 11 de septiembre de 2016. La Dra. May supuso que Clinton tenía neumonía. Desarrolló una entrada de historia clínica (supuesta) de Clinton (que podéis leer en el link anterior) y la modeló como una ontología.

Fuente: Infection News. Dr. Meghan May "After Careful Review, I suspect Hillary Clinton actually has... Pneumonia" 13/09/2016


Conclusión

Como se pueden ver en los ejemplos anteriores, las ontologías son un método perfecto para trabajar con conocimiento. Recordad: si queréis cumplir con normas como EN/ISO13606, o queréis trabajar con sistemas cognitive computing como IBM Watson, no tenéis otra elección que usar datos estructurados y modelados como conocimiento.

Debéis trabajar con ontologías. Un método sencillo para organizar y asegurar la calidad de los datos recogidos.

Este es el futuro.

La pregunta es: ¿estamos preparados para trabajar con el increíble potencial que nos ofrecen las ontologías en el sector salud?

Quiero agradecer la ayuda y contribución inestimable a la redacción de este post de mi colega Inma Roig