Saltar al contenido principal

Causal ML: qué es y cuál es su importancia

Actualmente la inteligencia artificial está en boca de todos. Cada vez son más los procesos que de alguna manera incluyen algún modelo de Machine Learning o de Deep Learning para conseguir un impacto positivo sobre sus procesos de negocio. Todos ellos son entrenados sobre datos para obtener las relaciones y dar una predicción sobre estos. Sin embargo, esto pone de relieve el problema de que correlación no implica causa. Por ejemplo, podemos intentar comparar el número de doctores egresados por año en Ciencias de la Computación con el total de beneficios generado por máquinas arcade.

picture about causal ml examples

Figura 1: Spurious correlations

Como vemos en la imagen, ambos muestran una gran correlación. Un modelo en este caso podría extraer la correlación de ambas variables, pero tenemos una correlación espuria. Puesto que el modelo no entiende las causas detrás de las relaciones entre los datos, hace necesario que entendamos la pregunta del porqué de estas relaciones. Y es aquí donde nace una ciencia poco conocida, aunque también cada vez más en auge, como es la inferencia causal.

Inferencia causal

La inferencia causal es un tema fascinante y útil en muchos campos. Consiste en el proceso de identificar y entender las relaciones causa-efecto entre variables. En muchas áreas de investigación, incluyendo la epidemiología, la economía, la ciencia política y la psicología, la inferencia causal es crucial para entender los efectos de las intervenciones, políticas o programas. La inferencia causal también ayuda a predecir el resultado de cambios en las variables, lo que puede ser especialmente útil en el diseño de experimentos y en la toma de decisiones.

La inferencia causal es el proceso donde las causas son inferidas de los datos y sobre cualquier tipo de datos siempre que haya suficientes, por lo que causalidad tiene que ver con las intervenciones, con el hacer. Mientras, la estadística estándar trata de correlaciones, pero pueden llevar a suposiciones erróneas que lleven a cosas mucho peores. Si comenzamos a formalizar la utilización de la causalidad, se trata de inferir un tratamiento o una política T de un resultado Y.

Pero esto es mejor verlo con un ejemplo.

Dormir con zapatos causa dolor de cabeza.

picture about causal ml explanation

Si buscamos una razón o una causa a este comportamiento podría ser que hubiéramos bebido la noche anterior.

picture about causal ml explanation end

Esa razón es lo que se denomina variable de confusión o en inglés confounding. Esta variable está relacionada tanto con la variable de entrada como con la variable de salida en un modelo y puede distorsionar la relación causal entre ellas. En otras palabras, el confounding es una variable que afecta tanto a la variable de entrada como a la variable de salida y puede dar lugar a una aparente relación causal que en realidad es espuria. Finalmente, la asociación total sería:

picture about causal ml total association

Formalmente, T causa Y si un cambio en T provoca un cambio en Y, y mantiene todo lo demás constante. Entonces, el efecto causal es la magnitud por la cual Y cambia al cambiar una unidad en T:

picture about causal ml equation

Causal ML

Hasta ahora solo hemos explicado en qué consiste la causalidad, pero te estarás preguntado: «¿Cómo demonios puedo aplicar las causas sobre mi modelo de ML?». Para ello surge el Causal ML, un área emergente de investigación que busca mejorar la capacidad de los modelos de aprendizaje automático para capturar relaciones causales en los datos. La inferencia causal en el aprendizaje automático se basa en la idea de que, a menudo, las correlaciones entre variables no son suficientes para establecer relaciones causales, ya que pueden existir otras variables que influyen en ambas.

Los modelos de aprendizaje automático suelen basarse en el aprendizaje por correlación, es decir, en la capacidad de encontrar patrones en los datos para hacer predicciones. Sin embargo, esta capacidad puede limitarse en situaciones donde se requiere una comprensión más profunda de las relaciones causales subyacentes. La inferencia causal en el aprendizaje automático busca abordar esta limitación mediante el uso de técnicas y algoritmos que tienen en cuenta las relaciones causales entre las variables.

El objetivo de la inferencia causal en el aprendizaje automático es mejorar la precisión y la interpretación de los modelos, lo que puede tener implicaciones importantes en áreas como la salud, la economía, la política y la justicia. Por ejemplo, los modelos de inferencia causal pueden utilizarse para entender los efectos de las intervenciones y las políticas, para controlar los sesgos en los datos y para proporcionar una mayor transparencia y explicabilidad en las decisiones automatizadas.

En resumen, la inferencia causal en el aprendizaje automático es un área de investigación importante que busca mejorar la capacidad de los modelos de aprendizaje automático para capturar relaciones causales en los datos. Esta capacidad puede tener implicaciones importantes en una amplia variedad de campos, y se espera que la inferencia causal en el aprendizaje automático continúe siendo un área activa de investigación en el futuro.

Para qué te puede servir Causal ML

Ahora que ya hemos presentado Causal ML, es importante saber para qué podemos utilizar esta tecnología.

Causal ML trata de identificar las causas que subyacen en los datos, por lo que puede ser una técnica para aumentar la personalización sobre nuestros usuarios. Por otra parte, al entender el motivo de la utilización de un producto podemos dirigir aún mejor este hacia los diferentes individuos.

Así, algunos casos de uso interesantes pueden ser:

  • Mejora de toma de decisiones en marketing: la inferencia causal puede utilizarse para evaluar el impacto de las campañas de marketing en la adquisición de clientes o en la lealtad de los clientes existentes. De este modo, al comprender la relación causal entre las acciones de marketing y los resultados comerciales, se optimizan las estrategias y mejora el retorno de inversión.
  • Optimización de procesos operativos: puede aplicarse en procesos operativos como la fabricación o la logística. Al entender las relaciones causales entre las variables clave, se pueden identificar cuellos de botella y áreas de mejora en los procesos, lo que lleva a mejoras significativas en la eficiencia y la calidad.
  • Prevención de fraude: al analizar las relaciones causales entre las variables clave, se pueden identificar patrones sospechosos que indiquen fraudes o actividades ilegales.

Si te han atraído las ventajas de Causal ML, trabajamos contigo para que le saques todo su potencial.

imagen para clicar y contactar con plain concepts

 

Autor
Eduardo Matallanas
Senior Director of Engineering, Head of AI