Ciencia

¿Correlación implica causalidad? | Albert Mesa Rey

Quizás amable lector esta pregunta te resulte filosófica, sorprendente y hasta un poco confusa. No es de extrañar, pues no serías el único. En bastantes tertulias entre amigos, ha sido con frecuencia tema recurrente de controversia. Te confieso que responderla de forma categórica ni es fácil ni es posible. La respuesta correcta es: “DEPENDE”. ¿y de que depende? Voy a tratar de explicarlo a lo largo de este artículo.

Muchas veces, en los medios tertulianos políticos suelen acudir a esta relación para apoyar y/o justificar opiniones o acciones político-sociales interesadas, no siempre confesables, y asignar en base a esto relaciones causa-efecto que en muchas ocasiones son más que discutibles. ¡Que creíbles son las falacias cuando se adornan con muchos números!, pero no por ello dejan de ser falacias. ¡Numeradas, eso sí! pero falacias en el fondo y en la forma. Mi opinión como siempre es que todo lo que tocan los políticos acaba enmarronado.

Pero no seré yo quien reniegue de estas valiosas pruebas estadísticas, ya que bien escogidas las variables a correlacionar sus resultados pueden ser valiosos, tanto al establecer una relación de causalidad como para refutarla. Así es la Estadística y ese es su propósito, pero tanto en uno como en otro caso, la cosa no debería quedar ahí y habría que ver si hay otras circunstancias que afectan a esta correlación.

Y quizás para ponernos en materia valdría la pena que definiéramos el significado de ambas palabras. Luego pondré algunos ejemplos inventados para acabar de ilustrar el tema que nos ocupa.

¿Qué es la causalidad?

Aunque no hay una definición única, se podría decir que: La causalidad es la «relación necesaria existente entre causa y efecto”. Se puede hablar de esa relación entre acontecimientos, procesos, regularidad de los fenómenos y la producción de algo.

¿Qué es la correlación?

Permíteme que a partir de este punto emplee un lenguaje algo “estadístico”. No creas que es por pedantería, es porque el lenguaje de esta hermosa disciplina matemática es conciso y libre de todos los sesgos semánticos. Es decir: “al pan, pan y al vino, vino”, pero Intentaré que sea claro, conciso y si además consigo que sea ameno ya será un gran triunfo. ¡Vamos a ello!

Las pruebas de correlación son unas pruebas estadísticas que examinan si hay relación entre dos variables que aparentemente se “mueven” conjuntamente. Hay que decir en este punto, que la observación de dos variables que se mueven conjuntamente no significa necesariamente que la variación de una sea causa de la otra. Por eso solemos decir que: “la correlación no implica necesariamente causalidad”, así como una «no correlación» no significaría forzosamente «no causalidad».

Sin embargo una correlación fuerte sí puede indicar causalidad, pero también sería probable que existieran otras explicaciones. Por regla general, los hechos de la vida raramente son debidos una sola causa. Lo normal es que sean multicausales, con lo que cada causa afectaría con su propio peso en mayor o menor grado.

Se podría decir que una relación fuerte en uno u otro sentido puede indicar causalidad, pero también que pueda ser debida por el azar o por que la muestra que analizamos sea insuficiente o no aleatoriamente seleccionada, etc., pues podría darse el caso de una tercera variable al acecho o una relación subyacente no detectada o ignorada, haga que la relación parezca más fuerte (o más débil) de lo que realmente es.

¡Pongamos un ejemplo inventado para intentar clarificarlo!:

Imaginemos que estamos analizando datos de salud (lo siento lector, pero es el campo de aplicación de la Estadística en que me he movido y que conozco mejor) y observamos una correlación positiva y estadísticamente significativa entre el hacer ejercicio y casos de cáncer de piel y postulamos que: las personas que hacen ejercicio tienden a sufrir cáncer de piel. Esa sería la hipótesis de trabajo que pretendemos correlacionar. Como siempre en Estadística, partimos de una “Hipótesis Nula (H_o)” en la que digo que las variables son independientes y no están correlacionadas y una “Hipótesis Alternativa (H₁)” en la que pretendo demostrar que sí están correlacionadas y procedo.

Supongamos que la correlación parece en principio significativa, fiable y es observable en múltiples poblaciones de pacientes. Si no hacemos más indagaciones, podría llegarse a la conclusión de que ¡el ejercicio causa cáncer!

Si nos basásemos solamente en estos resultados, y si ya nos venimos arriba, podríamos desarrollar una teoría plausible de que “el estrés del ejercicio causa que el cuerpo pierda parte de su capacidad para protegerse del daño solar”.

Pero en realidad, esta correlación podría estar presente en el conjunto de datos, porque las personas que viven en lugares con muchas horas de insolación durante todo el año son significativamente más activas en su vida diaria que las personas que viven en lugares con menos luz. Esto se reflejaría en los datos como un incremento del ejercicio.

Al mismo tiempo, mayor exposición diaria a la luz solar significa que hay más casos de cáncer de piel. Aquí vemos que ambas variables (la tasa de ejercicio y la de cáncer de piel) han sido afectadas por una tercera variable (la exposición a la luz solar) que no solamente afectaría a los deportistas y que no tenía una relación causal en las variables de partida.

Es posible encontrar una correlación fiable y estadísticamente significativa entre dos variables que en realidad no tienen ninguna relación causal y de hecho estas correlaciones son comunes. A menudo como en el ejemplo anterior, vemos que se debe a que ambas variables están asociadas a una variable causal que tiende a darse junto a los datos que estamos midiendo.

Sin embargo, ¿En alguna ocasión podemos establecer la Causalidad? Y la respuesta es ¡Sí, podemos establecer la Causalidad! y ¿Cómo exploramos la Causalidad? ¡Con un tipo de estudio adecuado!

Veámoslo brevemente con otros ejemplos donde esa relación de causalidad es más evidente y plausible:

Ejemplo 1.- Hay una relación probada causa-efecto entre el hábito de fumar y la posibilidad de padecer cáncer de pulmón. Sin embargo, ¿es la única? Todos sabemos que no es así. La cantidad de tabaco, los años de exposición, el tipo de tabaco, las características fisiológicas personales, etc. Influyen, pero no se nos escapa que a una mayor exposición hay un mayor riesgo. Vemos una correlación directa y positiva. Tendríamos un buen punto de partida para estudios multifactoriales y tener un cuadro más completo.

Ejemplo 2.- Las medidas de higiene tales como el acceso a agua potable han tenido un impacto positivo en la disminución de la incidencia y prevalencia de enfermedades infecciosas tales como: el cólera o el tifus en poblaciones del África subsahariana. ¿Es la única? No evidentemente. Otros factores como el aumento de la calidad de vida y alimentación, cambios a hábitos más saludables y campañas de vacunación por ejemplo han contribuido decisivamente. Sin embargo, vemos una correlación directa, negativa y evidente (negativa el sentido estadístico de “disminución”, aclaro). Tendríamos un buen punto de partida para estudios multifactoriales que nos permitirían tener un cuadro de conocimiento más completo para evaluar y ejercer actuaciones futuras más efectivas.

Discusión:

Es fundamental para el conocimiento de datos poder distinguir entre aquello que ofrece una evidencia causal y lo que no. Como ya hemos dicho anteriormente, en el mundo real la determinación de causalidad nunca es perfecta. Sin embargo, hay variedad de técnicas experimentales, estadísticas y de diseño de estudios que sirven para encontrar evidencias de relaciones causales como, por ejemplo: la aleatorización, los experimentos controlados y los módulos predictivos multivariantes.

Más allá de las limitaciones intrínsecas de las pruebas de correlación, (hemos de tener en cuenta que una prueba de correlación no puede manejar más de dos variables) es importante entender que la evidencia de causalidad no procede de pruebas estadísticas individuales, sino de un diseño experimental cuidadoso. Por ejemplo, el Análisis Multivariante de la Varianza también llamado “MANOVA” proporciona un análisis de regresión y un análisis de varianza para variables dependientes múltiples. Esta sería en mi opinión, la forma correcta y metodológicamente seria de aproximarnos desde una Correlación a la Causalidad.

Quisiera por último matizar, que por deformación profesional, y a pesar de que los ejemplos que he utilizado, todos se han referido a temas de salud, estas pruebas de correlación y toda la Estadística en general, tiene aplicación en todos los campos del saber que precisen ser cuantificados para obtener conocimiento.

Llego ya al final de este artículo. Si he logrado interesarte (aunque solo sea en parte) y también un poco con los tres objetivos que me había marcado al principio de este artículo (ser claro, conciso y un poco ameno) estaré contento y satisfecho. Esta vez, muchas gracias por leerme.