{ "nbformat": 4, "nbformat_minor": 0, "metadata": { "colab": { "provenance": [], "collapsed_sections": [ "ilL2mEM9TRzv" ] }, "kernelspec": { "name": "python3", "display_name": "Python 3" }, "language_info": { "name": "python" } }, "cells": [ { "cell_type": "markdown", "source": [ "# Objetivo y código preeliminar" ], "metadata": { "id": "HYOb5gt8LEn8" } }, { "cell_type": "code", "source": [ "#Importamos las librerias necesarias.\n", "import pandas as pd\n", "import numpy as np\n", "from sklearn.model_selection import train_test_split\n", "from sklearn.ensemble import GradientBoostingRegressor\n", "import statsmodels.formula.api as smf\n", "import seaborn as sns\n", "import matplotlib.pyplot as plt\n", "from toolz import curry" ], "metadata": { "id": "nN8ompJL0E2N" }, "execution_count": 1, "outputs": [] }, { "cell_type": "code", "execution_count": 2, "metadata": { "id": "m_pAksZczGzP" }, "outputs": [], "source": [ "#Cargamos los datos\n", "\n", "#Direccion del repositorio de github donde se encuentran los datos, en formato csv\n", "url = 'https://raw.githubusercontent.com/matheusfacure/python-causality-handbook/master/causal-inference-for-the-brave-and-true/data/ice_cream_sales_rnd.csv'\n", "prices_rnd = pd.read_csv(url)\n", "\n", "#### En caso ande mal lo del git\n", "# from google.colab import files\n", "# uploaded = files.upload()\n", "# df2 = pd.read_csv(io.BytesIO(uploaded['ice_cream_sales.csv']))\n", "####" ] }, { "cell_type": "code", "source": [ "prices_rnd.head()" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 206 }, "id": "BjQ-SjKJ0Oeg", "outputId": "97317cf3-b3d7-4499-e1a9-03e201936fdb" }, "execution_count": 37, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " temp weekday cost price sales\n", "0 25.8 1 0.3 7 230\n", "1 22.7 3 0.5 4 190\n", "2 33.7 7 1.0 5 237\n", "3 23.0 4 0.5 5 193\n", "4 24.4 1 1.0 3 252" ], "text/html": [ "\n", "
\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
tempweekdaycostpricesales
025.810.37230
122.730.54190
233.771.05237
323.040.55193
424.411.03252
\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", "
\n", " " ] }, "metadata": {}, "execution_count": 37 } ] }, { "cell_type": "markdown", "source": [ "## Objetivo\n", "\n", "Nuestra meta es agrupar a los días en función de cómo reaccionan al tratamiento, es decir cuándo cobrar más y cuándo cobrar menos, en función de las características específicas del día(dia de la semana, costo, temperatura)\n", "\n", "## Problema\n", "\n", "* X → cost, temp, weekday\n", "* Y → Ventas\n", "* T → price\n" ], "metadata": { "id": "xlVvxgGs4OWV" } }, { "cell_type": "code", "source": [ "#Dividimos el conjunto de datos en train y test.\n", "\n", "np.random.seed(123) #Fijamos la semilla.\n", "\n", "train, test = train_test_split(prices_rnd) #Dividimos.\n" ], "metadata": { "id": "zrzDO0TZ4QIE" }, "execution_count": 38, "outputs": [] }, { "cell_type": "markdown", "source": [ "# Estimando ATE" ], "metadata": { "id": "fkIFpROQ7wHc" } }, { "cell_type": "markdown", "source": [ "**Recordar el modelo tenia la siguiente forma:**\n", "\n", "\n", "$sales_i = β_0 + β_1price_i + \\beta_2X_i + e_i$\n" ], "metadata": { "id": "gpA31WRX8emI" } }, { "cell_type": "code", "source": [ "\n", "#C(weekday) lo que hace es crear una columna por cada dia de la semana, y pone 1 si pertenece y 0 si no.\n", "#Quedan 6 columnas porque el septimo se infiere de el valor de los otros (Ya que si son todos 0, es porque es el otro dia)\n", "m1 = smf.ols(\"sales ~ price + temp+C(weekday)+cost\", data=train).fit()\n", "m1.summary().tables[1]" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 254 }, "id": "XchCYjY78iCS", "outputId": "db886bc1-70be-448e-9084-90ab6075b4da" }, "execution_count": 39, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "" ], "text/html": [ "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "
coef std err t P>|t| [0.025 0.975]
Intercept 186.7113 1.770 105.499 0.000 183.241 190.181
C(weekday)[T.2] -25.0512 0.924 -27.114 0.000 -26.863 -23.240
C(weekday)[T.3] -24.5834 0.901 -27.282 0.000 -26.350 -22.817
C(weekday)[T.4] -24.3807 0.897 -27.195 0.000 -26.138 -22.623
C(weekday)[T.5] -24.9036 0.894 -27.850 0.000 -26.657 -23.150
C(weekday)[T.6] -24.0921 0.903 -26.693 0.000 -25.862 -22.323
C(weekday)[T.7] -0.8635 0.888 -0.972 0.331 -2.605 0.878
price -2.7515 0.106 -25.970 0.000 -2.959 -2.544
temp 1.9848 0.060 33.117 0.000 1.867 2.102
cost 4.4718 0.528 8.462 0.000 3.436 5.508
" ] }, "metadata": {}, "execution_count": 39 } ] }, { "cell_type": "markdown", "source": [ "Para el modelo este, la elasticidad es predecida es $\\widehat{\\frac{𝛿sales_i}{𝛿price_i}}$ = $\\hat{β_1}$ que en este va a ser -2.7515. Que esto quiere decir que por cada real que aumentemos se van a vender aproximadamente 3 unidades menos.\n", "Estamos estimando el Avarage Treatment Effect, es decir no es sensible al dia, por lo que si lo queremos es saber en qué días la gente es menos sensible a los precios de los helados, este no es un buen modelo.\n", "\n", "**Recordar**: Nuestro objetivo es particionar a los clientes de forma que podamos personalizar y optimizar nuestro tratamiento (precio) para cada partición individual. Si todas las predicciones son iguales, no podemos hacer ninguna partición" ], "metadata": { "id": "v4HG0nrSNts5" } }, { "cell_type": "markdown", "source": [ "# Estimando CATE" ], "metadata": { "id": "T6wWOPfF0B4l" } }, { "cell_type": "markdown", "source": [ "## Elasticidad en función de la temperatura\n", "\n", "Queremos investigar como varia la elasticidad para distintas temperaturas. Lo que estamos diciendo efectivamente aquí es que la gente es más o menos sensible a las subidas de precios dependiendo de la temperatura.\n", "\n", "**Planteemos el siguiente modelo**\n", "\n", "$sales_i = β_0 + β_1price_i + \\beta_2X_i + \\beta_3temp_iprice_i + e_i$\n" ], "metadata": { "id": "fv-Z-qpz0FGB" } }, { "cell_type": "code", "source": [ "m2 = smf.ols(\"sales ~ price*temp + C(weekday) + cost\", data=train).fit()\n", "m2.summary().tables[1]" ], "metadata": { "id": "0f-2YRedST2w", "colab": { "base_uri": "https://localhost:8080/", "height": 275 }, "outputId": "a75fb1fa-1a5a-42b9-e2d1-5eeb69f02714" }, "execution_count": 40, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "" ], "text/html": [ "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "
coef std err t P>|t| [0.025 0.975]
Intercept 192.4767 4.371 44.037 0.000 183.907 201.046
C(weekday)[T.2] -25.0805 0.924 -27.143 0.000 -26.892 -23.269
C(weekday)[T.3] -24.5871 0.901 -27.290 0.000 -26.354 -22.821
C(weekday)[T.4] -24.4225 0.897 -27.231 0.000 -26.181 -22.664
C(weekday)[T.5] -24.8953 0.894 -27.844 0.000 -26.648 -23.142
C(weekday)[T.6] -24.1269 0.903 -26.726 0.000 -25.897 -22.357
C(weekday)[T.7] -0.8581 0.888 -0.966 0.334 -2.599 0.883
price -3.6299 0.618 -5.873 0.000 -4.842 -2.418
temp 1.7459 0.176 9.912 0.000 1.401 2.091
price:temp 0.0366 0.025 1.443 0.149 -0.013 0.086
cost 4.4558 0.529 8.431 0.000 3.420 5.492
" ] }, "metadata": {}, "execution_count": 40 } ] }, { "cell_type": "markdown", "source": [ " Una vez estimado el modelo, queda que la elasticidad predecidad es $\\widehat{\\frac{𝛿sales_i}{𝛿price_i}}$ = $\\hat{β_1} + \\hat{β_3}temp_i$, por lo que para estos datos nos queda $\\hat{β_3} = 0.0366$ y $\\hat{β_1} = -3.6299$. Esto significa que, en promedio, a medida que aumentamos el precio, las ventas bajan, lo que tiene sentido. También significa que, por cada grado adicional de temperatura, la gente es menos sensible a los aumentos de precio de los helados (aunque no mucho). Por ejemplo para $25°C$ por cada real mas que cobremos, nuestras ventas van a bajar por 2.7 unidades ($-3.6299+ (0.0366*25)$ pero si hay $35°C$, por cada real que agreguemos, las ventas van a bajar 2.3 unidades (-3.6 + (0.03*35). \n", "\n", "Es hasta intuitivo, como los días son cada vez más calurosos, la gente está dispuesta a pagar más por un helado.\n" ], "metadata": { "id": "BjF_gdld4r3E" } }, { "cell_type": "markdown", "source": [ "## Elasticidad en función de todos los párametros\n", "\n", "Queremos investigar como varia la elasticidad en función de todos los párametros.\n", "\n", "**Planteemos el siguiente modelo**\n", "\n", "$sales_i = β_0 + β_1price_i + \\beta_2X_i + \\beta_3X_iprice_i + e_i$\n" ], "metadata": { "id": "ylk_hTrA-Q6P" } }, { "cell_type": "code", "source": [ "m3 = smf.ols(\"sales ~ price*cost + price*C(weekday) + price*temp\", data=train).fit()" ], "metadata": { "id": "VBPkq4pUAmG7" }, "execution_count": 41, "outputs": [] }, { "cell_type": "markdown", "source": [ "Por último, veamos cómo hacer realmente esas predicciones de elasticidad. Una forma es extraer los parámetros de elasticidad del modelo y utilizar la fórmula anterior(Como hicimos antes). Sin embargo, recurriremos a una aproximación más general. Como la elasticidad no es más que la derivada del resultado sobre el tratamiento, podemos utilizar la definición de la derivada. \n", "\n", "$$\\frac{δy}{δt} = \\frac{y(t+ϵ) - y(t)}{(t+ϵ) - ϵ}, ~~ \\epsilon → 0$$\n", "\n", "Podemos aproximar esta definición sustituyendo $\\epsilon$ por 1.\n", "\n", "$$\\frac{δy}{δt} ≈ \\hat{y}(t+1) - \\hat{y}(t)$$\n", "\n", "donde $\\hat{y}$ viene dada por las predicciones de nuestro modelo. Es decir, hacemos dos predicciones con el modelo: una pasando los datos originales y otra pasando los datos originales pero con el tratamiento incrementado en una unidad. La diferencia entre esas predicciones es la predicción del CATE.\n", "\n", "*Nota: Esto lo hacemos ya que llegamos al CATE y queremos trabajar con el resultado*\n" ], "metadata": { "id": "iGmvtbxPDvSU" } }, { "cell_type": "code", "source": [ "#Funcion para predecir el CATE de cada individuo de un dataset(Utilizando el 3 modelo)\n", "def pred_elasticity(m, df, t=\"price\"):\n", " return df.assign(**{\n", " \"pred_elast\": m.predict(df.assign(**{t:df[t]+1})) - m.predict(df)\n", " })\n", "\n", "pred_elast = pred_elasticity(m3, test)\n", "\n", "np.random.seed(1)\n", "pred_elast.sample(5)" ], "metadata": { "id": "swOCHwyfA1kV", "colab": { "base_uri": "https://localhost:8080/", "height": 206 }, "outputId": "951d2339-f418-41af-f698-a01a836c8f09" }, "execution_count": 42, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " temp weekday cost price sales pred_elast\n", "4764 31.1 6 1.0 3 212 1.144309\n", "4324 24.8 7 0.5 10 182 -9.994303\n", "4536 25.0 2 1.5 6 205 0.279273\n", "3466 26.0 3 1.5 3 205 0.308320\n", "115 19.3 3 0.3 9 177 -0.349745" ], "text/html": [ "\n", "
\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
tempweekdaycostpricesalespred_elast
476431.161.032121.144309
432424.870.510182-9.994303
453625.021.562050.279273
346626.031.532050.308320
11519.330.39177-0.349745
\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", "
\n", " " ] }, "metadata": {}, "execution_count": 42 } ] }, { "cell_type": "markdown", "source": [ "Observar en que las predicciones son números que van desde -10 hasta 1 (aprox). Estas **NO** son predicciones de la columna de ventas, que es del orden de las centenas. Más bien, es una predicción de cuánto cambiarían las ventas si aumentáramos el precio en una unidad.\n", "\n", "¿Hay resultados raros no? Por ejemplo el dia 4764 nos dice que si aumentamos el precio vamos a vender más, esto no tiene mucho sentido. Esto se trata de un error del modelo, que obvio puede pasar, el modelo es bastante sencillo. De todas formas recordar que nuestra meta es agrupar a los días en función de cómo reaccionan al cambio de precio. Por lo que para nuestro objetivo principal, basta con que las predicciones de elasticidad ordenen las unidades en función de su sensibilidad. En otras palabras, aunque las predicciones de elasticidad positiva como 1.1, o 0.5 no tengan mucho sentido, lo único que necesitamos es que el ordenamiento sea correcto. " ], "metadata": { "id": "XXpLGq-7JnhO" } }, { "cell_type": "code", "source": [ "pred_elast = pred_elast[pred_elast[\"pred_elast\"] < 0]\n", "pred_elast" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 424 }, "id": "kJ8uctCqbnMj", "outputId": "7e039c94-b7dc-49ee-bafc-219f10a46017" }, "execution_count": 43, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " temp weekday cost price sales pred_elast\n", "2648 18.6 7 0.5 10 185 -10.301045\n", "4557 23.7 3 0.3 8 192 -0.132057\n", "92 23.7 1 0.5 8 207 -9.953698\n", "31 21.5 1 1.0 6 243 -9.926465\n", "1880 25.5 5 0.5 5 190 -0.063437\n", "... ... ... ... ... ... ...\n", "3602 21.6 1 1.0 10 170 -9.921517\n", "1576 17.0 2 0.5 7 169 -0.388679\n", "1949 18.7 1 0.3 4 247 -10.255502\n", "4548 23.5 7 0.5 7 236 -10.058620\n", "2502 19.7 3 1.0 7 180 -0.139448\n", "\n", "[629 rows x 6 columns]" ], "text/html": [ "\n", "
\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
tempweekdaycostpricesalespred_elast
264818.670.510185-10.301045
455723.730.38192-0.132057
9223.710.58207-9.953698
3121.511.06243-9.926465
188025.550.55190-0.063437
.....................
360221.611.010170-9.921517
157617.020.57169-0.388679
194918.710.34247-10.255502
454823.570.57236-10.058620
250219.731.07180-0.139448
\n", "

629 rows × 6 columns

\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", "
\n", " " ] }, "metadata": {}, "execution_count": 43 } ] }, { "cell_type": "code", "source": [ "bands_df = pred_elast.assign(\n", " elast_band = pd.qcut(pred_elast[\"pred_elast\"], 2), # create two groups based on elasticity predictions \n", ")\n", "bands_df.sample(5)" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 206 }, "id": "JgXmvnzuUPcP", "outputId": "b526d030-264d-4c49-c437-aacb04a9b4cc" }, "execution_count": 44, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " temp weekday cost price sales pred_elast \\\n", "92 23.7 1 0.5 8 207 -9.953698 \n", "4945 23.6 2 0.5 5 192 -0.062146 \n", "1103 25.6 7 0.3 7 238 -10.009154 \n", "3836 21.1 1 1.0 5 243 -9.946255 \n", "1441 26.7 5 0.3 9 201 -0.058499 \n", "\n", " elast_band \n", "92 (-10.597999999999999, -9.55] \n", "4945 (-9.55, -0.000919] \n", "1103 (-10.597999999999999, -9.55] \n", "3836 (-10.597999999999999, -9.55] \n", "1441 (-9.55, -0.000919] " ], "text/html": [ "\n", "
\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
tempweekdaycostpricesalespred_elastelast_band
9223.710.58207-9.953698(-10.597999999999999, -9.55]
494523.620.55192-0.062146(-9.55, -0.000919]
110325.670.37238-10.009154(-10.597999999999999, -9.55]
383621.111.05243-9.946255(-10.597999999999999, -9.55]
144126.750.39201-0.058499(-9.55, -0.000919]
\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", "
\n", " " ] }, "metadata": {}, "execution_count": 44 } ] }, { "cell_type": "code", "source": [ "\n", "g = sns.FacetGrid(bands_df, col=\"elast_band\")\n", "g.map_dataframe(sns.regplot, x=\"price\", y=\"sales\")\n", "g.set_titles(col_template=\"Elast. Band {col_name}\");\n" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 225 }, "id": "XyWl1Oi8V-OX", "outputId": "432d7d9e-26a8-4862-8895-74a1c964f306" }, "execution_count": 45, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "
" ], "image/png": "\n" }, "metadata": { "needs_background": "light" } } ] }, { "cell_type": "markdown", "source": [ "# Evaluando los Modelos Causales\n" ], "metadata": { "id": "fwxfvajulYC6" } }, { "cell_type": "markdown", "source": [ "**Warning!!**\n", "\n", "El autor del libro utilizo los datos random de los precios para todo lo anterior. Por lo tal vez es medio confuso, pero ahora vamos a utilizar los no random para entrenar y los random para validar." ], "metadata": { "id": "_rb8M-aUoFvs" } }, { "cell_type": "code", "source": [ "url = 'https://raw.githubusercontent.com/matheusfacure/python-causality-handbook/master/causal-inference-for-the-brave-and-true/data/ice_cream_sales.csv' #Cargo los datos normales\n", "prices = pd.read_csv(url) " ], "metadata": { "id": "7uz6qu5VnDI9" }, "execution_count": 12, "outputs": [] }, { "cell_type": "markdown", "source": [ "Para tener algo que comparar, vamos a entrenar dos modelos. El primero es con el que ya trabajamos:\n", "\n", "$$sales_i = β_0 + β_1price_i + \\beta_2X_i + \\beta_3X_iprice_i + e_i$$\n", "\n", "El segundo modelo será totalmente no paramétrico. Sera un algoritmo de aprendizaje automático de predicción:\n", "\n", "$$sales_i = G(X_i, price_i) + e_i$$\n", "\n", "\n", "El autor decidio utilizar Graadient Boost Regression. \n", "Recomiendo serie de videos de Youtube del canal StatQuest ([link](https://www.youtube.com/watch?v=3CC4N4z3GJc&t=1s))" ], "metadata": { "id": "NnB4n0yjo8gE" } }, { "cell_type": "code", "source": [ "#Modelo 1\n", "m1 = smf.ols(\"sales ~ price*cost + price*C(weekday) + price*temp\", data=prices).fit()\n", "\n", "#Modelo 2\n", "X = [\"temp\", \"weekday\", \"cost\", \"price\"] #Aca X va a ser las variables de antes y el precio\n", "y = \"sales\" \n", "m2 = GradientBoostingRegressor()\n", "m2.fit(prices[X], prices[y]);" ], "metadata": { "id": "xbfDKOBFpQB6" }, "execution_count": 13, "outputs": [] }, { "cell_type": "markdown", "source": [ "Para asegurarnos de que el modelo no está sobreajustado, podemos comprobarlo con los datos que hemos utilizado para entrenarlo y con los nuevos datos no vistos. Obvio que va a haber una baja en la performance porque la \"naturaleza\" de los datos es distinta, la del train son datos reales mientras que los otros son aleatorios.\n", "\n", "Recordar que para obtener la prediccion de la elasticidad usabamos la aproximacion numerica de la derivada:\n", "\n", "$$\\frac{δy(t)}{δt} ≈ \\frac{y(t+h) - y(t)}{h}$$" ], "metadata": { "id": "bMZ50ScRs0Pj" } }, { "cell_type": "code", "source": [ "print(\"Train Score:\", m2.score(prices[X], prices[y]))\n", "print(\"Test Score:\", m2.score(prices_rnd[X], prices_rnd[y]))" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "tbaQcVJKra7q", "outputId": "112d666c-e9ad-4c11-af21-5fc8ac3a43b0" }, "execution_count": 14, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Train Score: 0.9251704824568053\n", "Test Score: 0.7711031039505963\n" ] } ] }, { "cell_type": "markdown", "source": [ "Por ultimo creemos un tercer modelo, que en realid es para usar de referencia, este tercer modelo es un modelo \"random\" que la idea de este modelo es que devuelva numeros random como predicciones. Este modelo va a ser:\n", "$$ y_i \\sim Unif(0, 1) $$\n", "Evidentemente, no es muy útil, pero servirá de referencia. Pero si el modelo random tiene una buena performance es que probablemente el metodo de evaluacion este mal." ], "metadata": { "id": "D53dnFURwTHc" } }, { "cell_type": "code", "source": [ "def predict_elast(model, price_df, h=0.01):\n", " return (model.predict(price_df.assign(price=price_df[\"price\"]+h))\n", " - model.predict(price_df)) / h\n", "\n", "np.random.seed(123)\n", "prices_rnd_pred = prices_rnd.assign(**{\n", " \"elast_m_pred\": predict_elast(m1, prices_rnd), ## elasticity model\n", " \"pred_m_pred\": m2.predict(prices_rnd[X]), ## predictive model\n", " \"rand_m_pred\": np.random.uniform(size=prices_rnd.shape[0]), ## random model\n", "})\n", "\n", "prices_rnd_pred.head()" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 206 }, "id": "fhGvcFA7wp9H", "outputId": "6267d198-2319-4e36-ffa4-a73b9bf12c00" }, "execution_count": 15, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " temp weekday cost price sales elast_m_pred pred_m_pred rand_m_pred\n", "0 25.8 1 0.3 7 230 -13.096964 224.067406 0.696469\n", "1 22.7 3 0.5 4 190 1.054695 189.889147 0.286139\n", "2 33.7 7 1.0 5 237 -17.362642 237.255157 0.226851\n", "3 23.0 4 0.5 5 193 0.564985 186.688619 0.551315\n", "4 24.4 1 1.0 3 252 -13.717946 250.342203 0.719469" ], "text/html": [ "\n", "
\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
tempweekdaycostpricesaleselast_m_predpred_m_predrand_m_pred
025.810.37230-13.096964224.0674060.696469
122.730.541901.054695189.8891470.286139
233.771.05237-17.362642237.2551570.226851
323.040.551930.564985186.6886190.551315
424.411.03252-13.717946250.3422030.719469
\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", "
\n", " " ] }, "metadata": {}, "execution_count": 15 } ] }, { "cell_type": "markdown", "source": [ "## La elasticidad por bandas\n", "\n", "Nuestro objetivo siempre fue segmentar en bandas la poblacion respecto a su sensibilidad al tratamiento. Dado que lo que predejimos fue la elasticidad podemos ordenar las unidades por esa predicción y esperar que también las ordene por la elasticidad real. Lamentablemente, no podemos evaluar esa ordenación a nivel de unidad. \n", "\n", "Lo que si podemos es estimar el ATE para un grupo de unidades. Recordar que el ATE para un tratamiento continuo es $E[y'(t)]$ y que podiamos estimarlo con el modelo lineal\n", "$$y_i = \\beta_0 + \\beta_1t_i + e_i$$ donde nos va aquedar que $y'(t) = \\beta_1$. Utilizando la teoria detras de los modelos lineales(No lo vamos a demostrar), tenemos que:\n", " $$\\hat{\\beta_1} = \\frac{∑(t_i - \\bar{t})(y_i - \\bar{y})}{\\sum(t_i - \\bar{t})^2}$$\n", " Utilizamos este resultado para calcular los ATE para cada banda que formemos." ], "metadata": { "id": "8MqN6rjqEZ9m" } }, { "cell_type": "code", "source": [ "#Funciones para hacer los calculos ...\n", "@curry\n", "def elast(data, y, t):\n", " # line coeficient for the one variable linear regression \n", " return (np.sum((data[t] - data[t].mean())*(data[y] - data[y].mean())) /\n", " np.sum((data[t] - data[t].mean())**2))\n", " \n", "def elast_by_band(df, pred, y, t, bands=10):\n", " return (df\n", " .assign(**{f\"{pred}_band\":pd.qcut(df[pred], q=bands)}) # makes quantile partitions\n", " .groupby(f\"{pred}_band\")\n", " .apply(elast(y=y, t=t))) # estimate the elasticity on each partition" ], "metadata": { "id": "YydrgiJG2OVZ" }, "execution_count": 16, "outputs": [] }, { "cell_type": "code", "source": [ "fig, axs = plt.subplots(1, 3, sharey=True, figsize=(10, 4))\n", "for m, ax in zip([\"elast_m_pred\", \"pred_m_pred\", \"rand_m_pred\"], axs):\n", " #No logre graficarlo pero el eje Y es el ATE dentro de cada grupo\n", " elast_by_band(prices_rnd_pred, m, \"sales\", \"price\").plot.bar(ax=ax) \n", " " ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 437 }, "id": "jOO9MUoh2guf", "outputId": "6475c00f-9153-4629-9164-d4b16340461e" }, "execution_count": 17, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "
" ], "image/png": "\n" }, "metadata": { "needs_background": "light" } } ] }, { "cell_type": "markdown", "source": [ "\n", "\n", "\n", "1. Modelo Aleatorio: Tiene aproximadamente la misma elasticidad estimada en cada una de sus particiones. Con el grafico vemos que no nos ayudará mucho con la personalización, ya que no puede distinguir entre los días de alta y baja elasticidad del precio.\n", "2. Modelo predictivo. Consigue construir grupos donde la elasticidad es alta y otros donde la elasticidad es baja. Eso es exactamente lo que necesitamos.\n", "3. El modelo causal parece un poco raro. Identifica grupos de elasticidad realmente negativa, donde negativa significa en realidad alta sensibilidad al precio (las ventas disminuirán mucho cuando aumentemos los precios). Detectar esos días de alta sensibilidad al precio es muy útil para nosotros. Si sabemos cuándo son, tendremos cuidado de no seguir aumentando los precios en ese tipo de días. El modelo causal también identifica algunas regiones menos sensibles, por lo que puede distinguir con éxito las elasticidades positivas de las negativas. Pero el orden en el que aparece no es muy bueno, primero estan los de elasticidad negativa, despues aparecen los de elasticidad positiva y por ultimo los inelasticos.\n", "\n", "*RECAP: Lo que hicimos fue primero estimar la elasticidad de cada dia, ordenamos los dias segun su elasticida y creamos 10 grupos con la misma cantidad de dias. Luego para cada grupo calculamos su correspondiente ATE*\n", "\n", "Entonces, ¿qué debemos decidir? ¿Cuál es más útil? ¿El modelo predictivo o el causal? El modelo predictivo está mejor ordenado, pero el modelo causal puede identificar mejor los extremos\n" ], "metadata": { "id": "tSd69X4fAhpp" } }, { "cell_type": "markdown", "source": [ "# Curva de elasticidad acumulada\n", "\n", "El primer paso consiste en ordenar los grupos en función de que tan sensibles son (Que tanto afecta las ventas en el cambio del precio). Es decir, tomamos el grupo más sensible y lo colocamos en primer lugar, el segundo grupo más sensible en segundo lugar y así sucesivamente\n", "\n", "Una vez que tenemos los grupos ordenados, podemos construir lo que llamaremos la Curva de Elasticidad Acumulada. \n", "\n", "*Nota: La elasticidad de cada grupo en realidad es el ATE*\n", "\n", "Calculamos a la estalicidad acumulada como el ATE estimado hasta la unidad k (Recordar que previamente ordenamos a las unidades en funcion de su elasticidad)\n", "\n", "$$\\widehat{y'(t)_k} = \\hat{\\beta}_{1k} = \\frac{\\sum_{k}^{i}(t_i - \\bar{t})(y_i - \\bar{y})}{\\sum_{k}^{i}(t_i - \\bar{t})^2}$$" ], "metadata": { "id": "mZhzNrTxD-bc" } }, { "cell_type": "code", "source": [ "'''\n", "min_periods: Hasta donde va el primer grupo\n", "steps: tamanio de todos los grupos salvo el primero y el ultimo. El ultimo es de tamanio size - size // step(// es la division natural)\n", "prediction: nombre de la columna de donde la estan las predicciones de la elasticidad\n", "'''\n", "def cumulative_elast_curve(dataset, prediction, y, t, min_periods, steps):\n", " size = dataset.shape[0]\n", " # orders the dataset by the `prediction` column\n", " ordered_df = dataset.sort_values(prediction, ascending=False).reset_index(drop=True)\n", " \n", " # Define hasta que individuo va cada grupo,\n", " n_rows = list(range(min_periods, size, size // steps)) + [size]\n", "\n", " # cumulative computes the elasticity. First for the top min_periods units.\n", " # then for the top (min_periods + step*1), then (min_periods + step*2) and so on\n", " return np.array([elast(ordered_df.head(rows), y, t) for rows in n_rows])\n" ], "metadata": { "id": "hso2bVz_DcBn" }, "execution_count": 18, "outputs": [] }, { "cell_type": "markdown", "source": [ "En general tomamos al primer conjunto mas grande ya que si no el ATE podría tener bastante ruido(Por trabajar con menos individuos)" ], "metadata": { "id": "cqRA4JkVR8q9" } }, { "cell_type": "code", "source": [ "plt.figure(figsize=(10,6))\n", "\n", "for m in [\"elast_m_pred\", \"pred_m_pred\", \"rand_m_pred\"]:\n", " cumu_elast = cumulative_elast_curve(prices_rnd_pred, m, \"sales\", \"price\", min_periods=100, steps=100)\n", " x = np.array(range(len(cumu_elast)))\n", " plt.plot(x/x.max(), cumu_elast, label=m)\n", "\n", "plt.hlines(elast(prices_rnd_pred, \"sales\", \"price\"), 0, 1, linestyles=\"--\", color=\"black\", label=\"Avg. Elast.\")\n", "plt.xlabel(\"% of Top Elast. Days\")\n", "plt.ylabel(\"Cumulative Elasticity\")\n", "plt.title(\"Cumulative Elasticity Curve\")\n", "plt.legend();\n" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 404 }, "id": "8GhCuJOeFvZx", "outputId": "0cc4ee05-e660-4022-e4e2-020b3d8a133e" }, "execution_count": 20, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "
" ], "image/png": "\n" }, "metadata": { "needs_background": "light" } } ] }, { "cell_type": "code", "source": [ "prices_rnd_pred[\"abs\"] = -abs(prices_rnd_pred[\"elast_m_pred\"])\n" ], "metadata": { "id": "s259vrvYY9dR" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "## ¿Cómo interpretar la gráfica?\n", "\n", "El eje X representa el porcentaje de los días que fueron tomados, es decir, cuando X = 0.4 vemos el ATE para el 40% de los dias con más elasticidad, en el grafico vemos que el 40% de los dias con mas sensibilidad tienen un ATE cercano a -1.\n", "\n", "Una curva ideal comenzaría entonces muy arriba en el eje Y y descendería muy lentamente hasta la elasticidad media, lo que representa que podemos tratar un alto porcentaje de unidades manteniendo una elasticidad superior a la media. (Esto a mi me genera duda ya que seria en un mundo donde queremos elasticidad positiva, aumentar el tratamiento aumenta el resultado).\n", "\n", "El modelo aleatorio, se comporta como esperaría del aleatorio, oscila cerca del ATE total nunca despegandose mucho. Recordar como para el aleatorio lo que hacemos es practicamente ir agarrando dias al azar y calcularle el ATE, por lo que tiene todo el sentido que se parezca al ATE total.\n", "\n", "El modelo causal, si bien no tiene un comportamiento ideal, nos puede llegar a servir ya que arranca ascendiendo rapido y luego desciende subitamene para convergir en el ATE estimado, podemos identificar que para X = 75% de la población tenemos una elasticidad de 0. Si dejamos fuera el restante 25% dias(Que probablemente sean el grupo de dias que detectamos que tenian una elasticidad muy negativa) tenemos una gran cantidad de dias que en promedio no son muy sensible al cambio de precio.\n", "\n", "El modelo predictivo no nos sirve mucho porque si bien arranca arriba se va rapidisimo abajo, y ademas converge relativamente rapido al ATE( X = 50%)\n" ], "metadata": { "id": "ilL2mEM9TRzv" } }, { "cell_type": "markdown", "source": [], "metadata": { "id": "oOrHfeHwp4hl" } }, { "cell_type": "markdown", "source": [ "## Curva de ganancia acumulada " ], "metadata": { "id": "s_-WJ1zaqIhN" } }, { "cell_type": "markdown", "source": [ "Defininamos a la curva de gananancia acumulada como la elasticidad acumulada multiplicada por el tamaño proporcional del grupo. Por ejemplo, si la elasticidad acumulada es, digamos, de -0,5 al 40%, terminaremos con que la curva es -0,2 (-0,5 * 0,4) en ese punto. \n", "\n", "Tomemos como referencia una curva teorica donde cada grupo tiene que la elasticidad dentro del grupo es igual a la elasticidad total, esta va a ser una recta de 0 a ATE\n", "\n", "Todas las curvas empezarán y terminarán en el mismo punto. Sin embargo, cuanto mejor sea el modelo a la hora de ordenar la elasticidad, más se apartará la curva de la línea aleatoria en los puntos comprendidos entre el cero y el uno. \n", "\n", "Calculamos la curva con:\n", "\n", "$$\\widehat{F(t)}_k = \\hat{\\beta}_{1k}*\\frac{k}{N} = \\frac{\\sum_{k}^{i}(t_i - \\bar{t})(y_i - \\bar{y})}{\\sum_{k}^{i}(t_i - \\bar{t})^2}*\\frac{k}{N}$$" ], "metadata": { "id": "NpoRuDDqqNMF" } }, { "cell_type": "code", "source": [ "def cumulative_gain(dataset, prediction, y, t, min_periods=30, steps=100):\n", " size = dataset.shape[0]\n", " ordered_df = dataset.sort_values(prediction, ascending=False).reset_index(drop=True)\n", " n_rows = list(range(min_periods, size, size // steps)) + [size]\n", " \n", " ## add (rows/size) as a normalizer. \n", " return np.array([elast(ordered_df.head(rows), y, t) * (rows/size) for rows in n_rows])" ], "metadata": { "id": "OotsKgABvcX8" }, "execution_count": 22, "outputs": [] }, { "cell_type": "code", "source": [ "for m in [\"elast_m_pred\", \"pred_m_pred\", \"rand_m_pred\"]:\n", " cumu_gain = cumulative_gain(prices_rnd_pred, m, \"sales\", \"price\", min_periods=50, steps=100)\n", " x = np.array(range(len(cumu_gain)))\n", " plt.plot(x/x.max(), cumu_gain, label=m)\n", " \n", "plt.plot([0, 1], [0, elast(prices_rnd_pred, \"sales\", \"price\")], linestyle=\"--\", label=\"Random Model\", color=\"black\")\n", "\n", "plt.xlabel(\"% of Top Elast. Days\")\n", "plt.ylabel(\"Cumulative Gain\")\n", "plt.title(\"Cumulative Gain\")\n", "plt.legend();" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 295 }, "id": "lwMZNU7Bvacz", "outputId": "8852707b-309e-49dc-82c6-4348351ac14a" }, "execution_count": 23, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "
" ], "image/png": "\n" }, "metadata": { "needs_background": "light" } } ] }, { "cell_type": "markdown", "source": [ "Ahora está muy claro que el modelo causal (elast_m) es mucho mejor que los otros dos. Se desvía mucho más de la línea aleatoria que tanto rand_m como pred_m. Además, se puede observar cómo el modelo aleatorio real sigue muy de cerca el modelo aleatorio teórico." ], "metadata": { "id": "FXJoUNW8wb8t" } }, { "cell_type": "markdown", "source": [ "# ¿Que pasa con la varianza?" ], "metadata": { "id": "MVG4rgAH0VSI" } }, { "cell_type": "markdown", "source": [ "No es correcto no tener en cuenta la varianza cuando se trata de las curvas de elasticidad. Especialmente porque todas ellas utilizan la teoría de la regresión lineal, por lo que añadir un intervalo de confianza en torno a ellas debería ser bastante fácil. Para ello, primero crearemos una función que devuelva el Intervalo de Confianza de un parámetro de regresión lineal. Mediante teoria de modelo lineal que no vamos a explicar....\n", "\n", "$$s_{\\hat{\\beta}_1} = \\sqrt{\\frac{\\sum_i\\hat{\\epsilon}_i^2}{(n-2)\\sum_i(t_i - \\bar{t})^2}}$$\n", "\n", "El intervalo de confianza del 95% queda:\n", "\n", "$$[\\hat{\\beta_1} - 1.96*s_{\\hat{\\beta}_1}, \\hat{\\beta_1} + 1.96*s_{\\hat{\\beta}_1}]$$" ], "metadata": { "id": "asZWO8np0lR3" } }, { "cell_type": "code", "source": [ "def elast_ci(df, y, t, z=1.96):\n", " n = df.shape[0] #Tamanio de muestra\n", " t_bar = df[t].mean() #precio promedio\n", " beta1 = elast(df, y, t) #ATE estimado (beta1)\n", " beta0 = df[y].mean() - beta1 * t_bar #Nunca la vimos pero esta es la forma de estimar beta0\n", " e = df[y] - (beta0 + beta1*df[t]) #El epsilon se consigue despejando en el modelo lineal con el beta1 estimado\n", " se = np.sqrt(((1/(n-2))*np.sum(e**2))/np.sum((df[t]-t_bar)**2))\n", " return np.array([beta1 - z*se, beta1 + z*se])\n", "\n", "def cumulative_elast_curve_ci(dataset, prediction, y, t, min_periods=30, steps=100):\n", " size = dataset.shape[0]\n", " ordered_df = dataset.sort_values(prediction, ascending=False).reset_index(drop=True)\n", " n_rows = list(range(min_periods, size, size // steps)) + [size]\n", " \n", " # just replacing a call to `elast` by a call to `elast_ci`\n", " return np.array([elast_ci(ordered_df.head(rows), y, t) for rows in n_rows])" ], "metadata": { "id": "rZAc6F2H254J" }, "execution_count": 31, "outputs": [] }, { "cell_type": "code", "source": [ "plt.figure(figsize=(10,6))\n", "\n", "cumu_gain_ci = cumulative_elast_curve_ci(prices_rnd_pred, \"elast_m_pred\", \"sales\", \"price\", min_periods=50, steps=200)\n", "x = np.array(range(len(cumu_gain_ci)))\n", "plt.plot(x/x.max(), cumu_gain_ci, color=\"C0\")\n", "\n", "plt.hlines(elast(prices_rnd_pred, \"sales\", \"price\"), 0, 1, linestyles=\"--\", color=\"black\", label=\"Avg. Elast.\")\n", "\n", "plt.xlabel(\"% of Top Elast. Days\")\n", "plt.ylabel(\"Cumulative Elasticity\")\n", "plt.title(\"Cumulative Elasticity for elast_m_pred with 95% CI\")\n", "plt.legend();" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 404 }, "id": "-YtZIQsz3C7W", "outputId": "eb28c8da-0f4e-43fc-cba7-73a124b62ddf" }, "execution_count": 33, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "
" ], "image/png": "\n" }, "metadata": { "needs_background": "light" } } ] }, { "cell_type": "markdown", "source": [ "Observar como el IC es cada vez más pequeño a medida que acumulamos más datos. Esto se debe a que el tamaño de la muestra aumenta." ], "metadata": { "id": "LnIVyVtO6fHw" } }, { "cell_type": "code", "source": [ "def cumulative_gain_ci(dataset, prediction, y, t, min_periods=30, steps=100):\n", " size = dataset.shape[0]\n", " ordered_df = dataset.sort_values(prediction, ascending=False).reset_index(drop=True)\n", " n_rows = list(range(min_periods, size, size // steps)) + [size]\n", " return np.array([elast_ci(ordered_df.head(rows), y, t) * (rows/size) for rows in n_rows])" ], "metadata": { "id": "2tuLJ4RB6z7T" }, "execution_count": 34, "outputs": [] }, { "cell_type": "code", "source": [ "plt.figure(figsize=(10,6))\n", "\n", "cumu_gain = cumulative_gain_ci(prices_rnd_pred, \"elast_m_pred\", \"sales\", \"price\", min_periods=50, steps=200)\n", "x = np.array(range(len(cumu_gain)))\n", "plt.plot(x/x.max(), cumu_gain, color=\"C0\")\n", "\n", "plt.plot([0, 1], [0, elast(prices_rnd_pred, \"sales\", \"price\")], linestyle=\"--\", label=\"Random Model\", color=\"black\")\n", "\n", "plt.xlabel(\"% of Top Elast. Days\")\n", "plt.ylabel(\"Cumulative Gain\")\n", "plt.title(\"Cumulative Gain for elast_m_pred with 95% CI\")\n", "plt.legend();" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 404 }, "id": "WmDf2AC_658W", "outputId": "3c7312e7-a07d-4c9f-e15f-16645be1d2b1" }, "execution_count": 35, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "
" ], "image/png": "\n" }, "metadata": { "needs_background": "light" } } ] }, { "cell_type": "markdown", "source": [ "Aca el intervalo de confianza es pequeño al principio aunque el grupo sea pequeño tambien, esto pasa porque el $\\frac{k}{N}$ (que no depende de $\\hat{\\beta_1}$) achica todo." ], "metadata": { "id": "KV0l_SML7Zw-" } }, { "cell_type": "markdown", "source": [ "# Referencias y material recomendado" ], "metadata": { "id": "o2Mva_vw8Dh8" } }, { "cell_type": "markdown", "source": [ "\n", "\n", "* [Causal Inference for The Brave and True](https://matheusfacure.github.io/python-causality-handbook/landing-page.html), de la parte dos de este libro salio todo el material, en especial parte 18 y 19\n", "* [Causal Inference in the Wild: Elasticity Pricing](https://towardsdatascience.com/causal-inference-example-elasticity-de4a3e2e621b) Trata un tema parecido, lamentablemente no me dio el tiempo de leerlo mucho.\n", "\n", "* [Documentacion de statsmodel](https://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLS.html) No entre en mucho detalle de como funciona pero la documentacion esta bastante completa\n", "\n", "\n", "* [Modelos lineales](https://hastie.su.domains/ISLR2/ISLRv2_website.pdf) An Introduction to Statistical\n", "Learning capitulo 3. Material de regresion lineal hay de sobra pero si algo no se entendio este libro que es gratis tiene un capitulo dedicado a regresion lineal.\n", "\n", "* [Libreria DoWhy](https://www.kaggle.com/code/adamwurdits/causal-inference-with-dowhy-a-practical-guide) Cuando estaba decidiendo el tema dar vi este post sobre una libreria en python que parece interesante\n", "\n", "\n" ], "metadata": { "id": "eOogq23F8EYR" } } ] }