CP01: Equity Duration

“The revenues and earnings for the majority of businesses over the next year or so will be extremely poor, and in some cases disastrous, but for companies with strong balance sheets, dominant market positions, and which do not need access to capital, the virus will likely only disrupt the next 12 to 24 months of cash flows. In a discounted cash flow valuation of a company, the loss or disruption of the first, and possibly second, year of cash flows, does not generally destroy more than 5% to 10% of the value of the business”. William A. Ackman, Letter to the Shareholders of Pershing Square Holdings, Ltd. April 6, 2020.

1 Introducción

Frank J. Fabozzi et al. (Fabozzi et al. 2014) en su libro “The Basics of Financial Econometrics: Tools, Concepts, and Asset Management Applications” propone en el capítulo 3 una aplicación empírica del modelo de regresión múltiple en finanzas, el objetivo es estimar la duración de un activo de renta variables.

El concepto de “duración de capital” (equity duration) extiende la idea tradicional de duración, comúnmente aplicada a bonos, al ámbito de las inversiones en acciones. La duración de un bono mide su sensibilidad a los cambios en los tipos de interés, es decir, cuánto cambiará el precio del bono ante una variación en los tipos. De manera similar, la duración del capital busca medir cuánto podría cambiar el valor de una acción o de una cartera de acciones debido a cambios en las tipos de interés.

En el contexto de las acciones, la duración del capital se relaciona con el valor presente de los flujos de efectivo futuros esperados, como dividendos y el precio de venta final esperado de la acción. Una “alta duración de capital” indica que el valor de la acción es más sensible a los cambios en los tipos de interés. Esto se debe a que los flujos de efectivo futuros, descontados a su valor presente, valen menos cuando las tipos de interés aumentan (y viceversa).

El cálculo de la duración del capital es más complejo que el de la duración de los bonos debido a la naturaleza incierta de los flujos de efectivo futuros en las acciones, que dependen de muchos factores, incluyendo el crecimiento de la empresa, las políticas de dividendos, y las condiciones del mercado. Sin embargo, se pueden aplicar modelos de descuento de dividendos o de flujos de efectivo para estimar la duración del capital, asumiendo ciertas tasas de crecimiento y otros parámetros.

La duración del capital es una herramienta útil para los inversores que desean evaluar el riesgo del tipo de interés asociado con sus inversiones en acciones. Por ejemplo, en un entorno de tipos de interés crecientes, las acciones con duraciones de capital más altas podrían ver sus precios más afectados negativamente en comparación con aquellas de duraciones más bajas. Esta medida ofrece una perspectiva adicional en la gestión de carteras, complementando otras métricas de riesgo y rendimiento.

Referencias al concepto de “equity duration” se encuentran en (Leibowitz et al. 1989), (Dechow, Sloan, and Soliman 2004), (Fullana and Toscano 2014) y (Dechow et al. 2021).

2 Datos

La duración se puede estimar utilizando un modelo de valoración o empíricamente estimando a partir de rendimientos históricos, la sensibilidad del valor del activo a los cambios en las tasas de interés. Cuando la duración se mide de esta última manera, se la denomina duración empírica. Dado que se estima mediante análisis de regresión, a veces se la denomina duración basada en regresión. La variable dependiente en el modelo de regresión es el cambio porcentual en el valor del activo (rentabilidad). No se utilizarán activos individuales, más bien utilizaremos sectores del mercado financiero y nos referiremos a ellos como activos. Efectivamente, estos sectores pueden verse como carteras que se componen de los componentes del índice que representan el sector.

Los activos (Figura 1) cuya duración estimaremos son (1) el sector de servicios eléctricos del índice S&P 500 (^SP500-551010), (2) el sector de bancos comerciales del índice S&P 500 (^SP500-4010)y (3) Realty Income REIT (O). 1 Para cada uno de estos índices, la variable dependiente es el rendimiento mensual del valor del índice. El período muestral es de enero de 2010 a diciembre de 2023 (168 observaciones) y los precios mensuales se dan en las tres primeras columnas de la Figura 2.

Figura 1.- Precios de los activos (2010-2023)

Figura 2.- Datos de los activos

Comencemos con solo una variable independiente, un tipo de interés. Utilizaremos el cambio mensual en el rendimiento de los bonos Tesoro de los EE. UU. a 10 años como la variable del tipo de interés relevante. La variable a utilizar será la diferencia porcentual entre dos meses. Entonces, si en un mes el valor del índice de rendimiento del Tesoro es 2,50% y en el siguiente mes es 2,80%, el valor para la observación es 0,30%. En finanzas, un punto básico es igual a 0,0001 o 0,01% de modo que 0.30% es igual a 30 puntos básicos. Un cambio de 100 puntos básicos en las tasas de interés es 1%.

El modelo inicial es un modelo de regresión lineal simple:

y_t = \beta_0 + \beta_1x_{1t} + u_t

donde

y_t = \text{el retorno mensual de un índice o activo} x_{1t} = \text{el cambio mensual en el rendimiento del Bono a 10 años del Tesoro}

El coeficiente de regresión estimado \hat\beta_1 es la duración empírica. Para entender por qué, si sustituimos 100 puntos básicos en la ecuación anterior por el cambio mensual en el rendimiento del bono del Tesoro, el coeficiente de regresión \beta_1 nos dice que el cambio estimado en el rendimiento mensual de un índice será \beta_1. Ésta es precisamente la definición de duración empírica: el cambio aproximado en el valor de un activo para un cambio de 100 puntos básicos en los tipos de interés.

El coeficiente de regresión estimado y otros valores de diagnóstico se presentan en la Figura 3. Observar que se informan valores negativos para la duración empírica estimada. Sin embargo, en la práctica la duración se considera un valor positivo. Veamos los resultados de los tres activos.

Figura 3.- Resultados Modelo de regresión lineal simple

Para el sector de servicios eléctricos, el coeficiente de regresión estimado para \beta_1 es –5,082, lo que sugiere que para un cambio de 100 puntos básicos en los rendimientos de los bonos del Tesoro, el cambio porcentual en el valor de las acciones que componen este sector será aproximadamente del 5,08%. Además, como se esperaba, el cambio será en dirección opuesta al cambio en las tasas de interés: cuando las tasas de interés aumentan (disminuyen), el valor de este sector disminuye (aumenta). El coeficiente de regresión es estadísticamente significativo al nivel del 1%, como puede verse en el estadístico t y el valor p. El R^2 de esta regresión es del 7,8%. Así, aunque estadísticamente significativa, esta regresión sólo explica el 7,8% de la variación, lo que sugiere que existen otras variables que no han sido consideradas. Pasando al sector de la banca comercial, el coeficiente de regresión estimado es positivo y estadísticamente significativo a cualquier nivel razonable de significación. La regresión explica el 12,2% de la variación en el movimiento de las acciones de este sector. Por último, O REIT es muy significativo desde el punto de vista estadístico y explica el 10,38% del movimiento de este REIT.

3 Modelo de regresión lineal múltiple

Ahora pasemos a agregar otra variable independiente, lo que supone pasar del caso simple (univariante) al caso de regresión lineal múltiple. La nueva variable independiente que agregaremos es la rentabilidad del Standard & Poor’s 500 (en adelante S&P500).

Entonces, en este caso tenemos k = 2. La regresión lineal múltiple a estimar es y_t = \beta_0 + \beta_1x_{1t} + \beta_2x_{2t} + u_t

donde y_t = el rendimiento mensual de un índice o acción.

x_{1t} = el cambio mensual en el rendimiento del bono a 10 años Tesoro.

x_{2t} = el rendimiento mensual del S&P500.

En una regresión lineal simple que incluya sólo x_2 e y, el coeficiente de regresión estimado \beta_2 sería la beta del activo. En el modelo de regresión lineal múltiple anterior, \beta_2 es la beta del activo que tiene en cuenta los cambios en el rendimiento del bono del Tesoro.

Figura 4.- Resultado Modelo de Regresión Lineal Múltiple

Los resultados de la regresión, incluidas los estadísticos de diagnóstico, se muestran en la Figura 4.

Si analizamos primero la variable independiente tipo de interés, llegamos a la misma conclusión en cuanto a su importancia para los tres activos que en el caso de regresión simple. Tenga en cuenta también que el valor estimado de los coeficientes de regresión no es muy diferente que en el caso de regresión simple. En cuanto a ls nueva variable independiente, S&P500, vemos que es estadísticamente significativa al nivel de significación del 1% para los tres activos. El R^2 para el sector de servicios eléctricos aumentó de alrededor del 7% en el modelo simple al 28% en el caso de regresión lineal múltiple. El aumento fue obviamente más dramático para el sector de la banca comercial, ya que el R^2 aumentó del 12% al 64%.

A continuación analizamos la regresión del REIT O. Usando solo una variable independiente, tenemos R^2 = 10,38%. Si incluimos la variable independiente adicional obtenemos el R^2 mejorado de 36,89%. Para la regresión aumentada, calculamos con n = 167 y k = 3 el R^2 ajustado:

\begin{gathered} R_a^2 = {{\bar R}^2} = 1 - \left[ {\left( {\frac{{T - 1}}{{T - k}}} \right) \times \left( {1 - {R^2}} \right)} \right]= \\ =1 - \left[ {\left( {\frac{{167 - 1}}{{163 - 2}}} \right) \times \left( {1 - {0,3689}} \right)} \right]=0,361 \end{gathered}

Apliquemos la prueba F al REIT O para ver si la adición de la nueva variable independiente que aumenta el R^2 del 10,38% al 36,89% es estadísticamente significativa:

F_1=\dfrac{R^2_m-R^2_s}{\frac{1-R^2_m}{T-k}}=\frac{0,3689-0,1038}{\frac{1-0,3689}{167-3}}=68,89

Este valor es muy significativo con un valor p de prácticamente cero. Por tanto, la inclusión de la variable adicional es estadísticamente razonable.

4 Ejercicios Prácticos

Con los datos disponibles en el fichero ‘datos_cp_01.csv’ que contiene las variables: el sector de servicios eléctricos del índice S&P 500 (^SP500-551010), el sector de bancos comerciales del índice S&P 500 (^SP500-4010), Realty Income REIT (O), el bono a 10 años y el S&P500, se deben resolver las siguientes cuestiones.

I. Graficar los datos originales, y calcular la matriz de correlación. ¿Tiene sentido la matriz de correlación? ¿Son los datos estacionarios?

  1. Generar las variables de rendimientos logarítmicos y de incremento de los tipos de interés. Graficar los datos transformados, y calcular la matriz de correlación. ¿Tiene sentido la matriz de correlación? ¿Son los datos estacionarios?

  2. Estimar los modelos de regresión simple de las tres activos sobre el incremento de los tipos de interés. Interpretar la estimación de la duración.

  3. Estimar los modelos de regresión multiple de las tres activos sobre el incremento de los tipos de interés y el S%P500. Interpretar la estimación de la duración.

V. Verificar los resultados del modelo de regresión para el modelo del índice de la banca.

5 Nota técnica: Modelo de Regresión

En este tema se va a trabajar con el modelo de regresión lineal múltiple con series temporales.

Es esencial que la serie temporal sea estacionaria, lo que significa que sus propiedades estadísticas (como la media y la varianza) son constantes a lo largo del tiempo. Las series no estacionarias pueden requerir transformaciones, como diferenciación o logaritmos, para hacerlas estacionarias antes de proceder con la regresión.

En el contexto de la regresión lineal múltiple, el modelo se puede escribir como:

{y_t} = {\beta _1} + {\beta _2} \cdot {x_{2t}} + \cdots + {\beta _k} \cdot {x_{kt}} + {u_t}

t = 1 \cdots T

donde:

  • y_t es el valor observado de la variable dependiente en el instante t.
  • x_{it} es el valor de la i-ésima variable independiente para el instante t.
  • beta_i es el coeficiente desconocido de la j-ésima variable independiente que se desea estimar.
  • u_t es el término de error para la t-ésima observación que captura todos los factores no incluidos en el modelo.

En forma matricial el modelo multiple se expresa como:

\underbrace y_{T \times 1} = \underbrace X_{T \times k}\underbrace \beta _{k \times 1} + \underbrace u_{T \times 1}

5.1 Modelo de Regresión: Hipótesis

La regresión lineal múltiple es un método estadístico/econométrico que modeliza la relación entre una variable dependiente (y) y dos o más variables independientes (X). Este modelo asume ciertas hipótesis que son fundamentales para la validez de la estimación y de los tests de hipótesis asociados. Estas hipótesis son:

  1. Linealidad: La relación entre las variables independientes y la variable dependiente es lineal. Esto significa que el cambio en la variable dependiente es una combinación lineal de las variables independientes.

  2. Independencia: Los errores (residuos), que representan las desviaciones de los puntos de datos reales con respecto a la línea de regresión estimada, son independientes entre sí. No debe haber autocorrelación entre los residuos.

  3. Homocedasticidad: La varianza de los errores es constante para todas las observaciones. Esto significa que los errores tienen la misma varianza (homocedasticidad) en lugar de una varianza que cambia a lo largo de las observaciones (heterocedasticidad).

  4. Normalidad de los errores: Los errores se distribuyen normalmente para cualquier conjunto fijo de variables independientes. Esta suposición permite realizar pruebas de hipótesis y construir intervalos de confianza.

  5. Ausencia de multicolinealidad: Las variables independientes no deben estar demasiado correlacionadas entre sí. Si hay multicolinealidad, puede ser difícil estimar la relación entre cada variable independiente y la variable dependiente de manera precisa.

  6. No endogeneidad de los regresores: Los regresores (variables independientes) deben ser exógenos, es decir, deben ser correlacionados con el término de error sólo a través de la variable dependiente. En otras palabras, no debe haber una causa omitida que afecte tanto a la variable dependiente como a una o más de las variables independientes.

Estas hipótesis que son esenciales para la estimación de los coeficientes del modelo de regresión lineal múltiple utilizando el método de mínimos cuadrados ordinarios (MCO) y para asegurar que las inferencias basadas en el modelo sean válidas, pueden expresarse matemáticamente de la siguiente manera:

  1. El modelo es correcto:

    1. Es lineal

    2. Estas las variables adecuadas.

    3. No falta ninguna ni sobra.

  2. La variable X no es aleatoria y no son combinación lineal.

  3. Los errores tiene media cero: E(u_t)=0

  4. Ausencia de Heteroscesdasticidad: E(u^2_t)=\sigma^2_u \forall t

  5. Ausencia de Autocorrelación (solamente Series Temporales): E(u_t , u_s)=0 \forall t\neq s

  6. Normalidad de los errores: u_t \sim N(0, \sigma^2_u)

  7. Las hipótesis en forma matricial:

\begin{gathered} E(u) = 0 \\ Var(u) = {\sigma _u}^2 \cdot {I_T} \\ {u_t} \sim N(0;{\sigma _u}^2) \Leftrightarrow u \sim N(0;{\sigma _u}^2 \cdot {I_T}) \\ \end{gathered}

5.2 Modelo de Regresión: Estimación

La estimación por el Método de Mínimos Cuadrados Ordinarios (MCO) es una técnica econométrica utilizada para encontrar los parámetros del modelo de regresión lineal que minimizan la suma de los cuadrados de los residuos, es decir, las diferencias entre los valores observados y los valores ajustados por el modelo.

{y_t} = {\beta _1} + {\beta _2} \cdot {x_{2t}} + \cdots + {\beta _k} \cdot {x_{kt}} + {u_t}

El objetivo del MCO es estimar los valores de \beta_i que minimizan la suma de los cuadrados de los residuos \sum_{t=1}^{T} u_t^2, donde T es el número de observaciones. Esto se puede expresar como el problema de optimización:

\min_{\beta_1, \beta_2, ..., \beta_k} \sum_{t=1}^{T} (y_t - \beta_1 - \beta_2 x_{2t} - \beta_3 x_{3t} - ... - \beta_k x_{kt})^2

La solución a este problema de optimización se obtiene tomando las derivadas parciales de la suma de los cuadrados de los residuos con respecto a cada \beta_i y resolviéndolas para igualar a cero, lo que da lugar a un conjunto de ecuaciones normales. El sistema de ecuaciones normales puede ser resuelto para obtener las estimaciones de MCO de los parámetros \beta_j.

La solución a las ecuaciones normales se puede expresar en forma matricial como:

\hat{\beta} = (X'X)^{-1}X'y

donde:

  • X es la matriz que incluye una columna de unos para el término constante \beta_1 y las columnas de los valores de las variables independientes.
  • y es el vector de los valores observados de la variable dependiente.
  • \hat{\beta} es el vector de las estimaciones de MCO de los parámetros.

Las estimaciones de MCO tienen propiedades deseables bajo las hipótesis del modelo de regresión lineal clásico: son lineales, insesgadas y eficientes/óptimos (tienen la menor varianza posible entre todos los estimadores lineales insesgados). Se dice que son ELIO (estimador lineal insesgado óptimo).

Las estimaciones de MCO también se utilizan para realizar inferencias estadísticas sobre los parámetros del modelo, como pruebas de hipótesis y construcción de intervalos de confianza, asumiendo que los residuos siguen una distribución normal.

El procedimiento de estimación en forma matricial es:

\begin{gathered} {\text{Residuos: }}\hat u = y - \hat y = y - X\hat \beta \\ {\text{Suma Residual (SR):}} \\ SR = SCR = \sum\limits_1^T {{{\hat u}_t}^2} = \hat u'\hat u = y'y - 2y'X\hat \beta + \hat \beta 'X'X\hat \beta \\ \end{gathered} \begin{gathered} {\text{Ecuaciones Normales:}} \\ (X'X)\hat \beta = X'y \\ {\text{Estimador MCO:}} \\ \hat \beta = {(X'X)^{ - 1}}X'y \\ {{\hat \sigma }^2}_u = \frac{{SCR}}{{T - k}} \\ Var(\hat \beta ) = {{\hat \sigma }^2}_u{(X'X)^{ - 1}} \\ \end{gathered}

Si se estima el modelo con Python y statsmodel (OLS), se obtiene los siguientes resultados:

Figura 5.- Resultado Estimación MCO en python-Statsmodels

5.3 Modelo de Regresión: Medidas de Ajuste

La estimación de la varianza de los errores es un paso fundamental en el análisis de regresión, ya que está directamente relacionada con la precisión del modelo.

5.3.1 Estimación de la Varianza de los Errores

En un modelo de regresión, la varianza de los errores (a menudo referida como varianza residual o varianza del término de error) se estima como la varianza de los residuos. Los residuos son las diferencias entre los valores observados de la variable dependiente y los valores estimados por el modelo de regresión. La varianza de los errores se calcula con la fórmula:

\begin{gathered} {{\hat \sigma }^2}_u = \frac{{SCR}}{{T - k}} \\ \end{gathered}

donde:

  • SCR es la suma de los cuadrados de los errores (suma de los cuadrados de los residuos).
  • T es el número de observaciones. {\color{red} (1)}
  • k es el número de variables independientes.
  • T - k son los grados de libertad del modelo. {\color{red} (2)}

La raíz cuadrada de la varianza de los errores estimada, \hat{\sigma_u}, se conoce como el error estándar de la regresión (SER) y proporciona una medida de la dispersión de los datos alrededor de la línea de regresión ajustada.

\begin{gathered} SER = \sqrt {{{\hat \sigma }^2}_u} = \sqrt {\frac{{SCR}}{{T - k}}} = \sqrt {\frac{{\sum {\hat u_i^2} }}{{T - k}}} \\ \end{gathered}

5.3.2 Coeficiente de Determinación R^2

El R^2, conocido como coeficiente de determinación, es una medida de la bondad de ajuste de un modelo de regresión lineal. Indica la proporción de la variabilidad en la variable dependiente que puede ser explicada por el modelo, que es explicada por la variabilidad de las variables independientes. Se calcula como:

\begin{gathered} SCT = SCE + SCR \\ SCT = \sum\limits_1^T {{y^2}_t} - T{{\bar y}^2} = y'y - T{{\bar y}^2} \\ SCE = \sum\limits_1^T {{{\hat y}^2}_t} - T{{\bar y}^2} = \hat \beta 'X'y - T{{\bar y}^2} \\ SCR = \sum\limits_1^T {{{\hat u}^2}_t} = y'y - \hat \beta 'X'y \\ {R^2} = \frac{{SCE}}{{SCT}} = 1 - \frac{{SCR}}{{SCT}} {\color{red} (8)} \\ \end{gathered}

donde:

  • SCR es la suma de los cuadrados de los errores.
  • SCT es la suma total de los cuadrados, que mide la variabilidad total de la variable dependiente.

El R^2 varía entre 0 y 1, donde un valor de 1 indica que el modelo explica toda la variabilidad de los datos, y un valor de 0 indica que el modelo no explica ninguna variabilidad.

5.3.3 Coeficiente de Determinación Ajustado R^2 Ajustado

El R^2 ajustado es una versión modificada del R^2 que tiene en cuenta el número de variables independientes en el modelo. Esto es importante porque el R^2 puede aumentar simplemente al añadir más variables al modelo, independientemente de si estas variables mejoran realmente el modelo. El R^2 ajustado se calcula como:

\begin{gathered} R_a^2 = {{\bar R}^2} = 1 - \left[ {\left( {\frac{{T - 1}}{{T - k}}} \right) \times \left( {1 - {R^2}} \right)} \right] {\color{red} (9)} \\ R_a^2 \leqslant {R^2} \\ \end{gathered}

El R^2 ajustado puede disminuir si incluimos variables que no mejoran significativamente el modelo, lo que proporciona un indicador más fiable del ajuste del modelo cuando se comparan modelos con un número diferente de regresores.

Ambas medidas, el R^2 y el R^2 ajustado, son útiles para evaluar cómo de bien los datos se ajustan al modelo de regresión, pero el R^2 ajustado proporciona una comparación más justa entre modelos con diferentes números de variables independientes.

5.4 Modelo de Regresión: Inferencia

5.4.1 Estimador de la varianza de los estimadores

La desviación típica de los estimadores, también conocida como el error estándar de los estimadores, es una medida de la dispersión o variabilidad de una estimación estadística. En el contexto de la regresión lineal, cada coeficiente estimado \hat{\beta}_i ) tiene su propio error estándar, denotado generalmente como SE(\hat{\beta}_i) o dt(\hat{\beta}_i). La importancia de la desviación típica de los estimadores radica en varios puntos clave:

  1. Medida de Precisión: El error estándar proporciona una medida de la precisión de la estimación del coeficiente. Un error estándar pequeño en relación con el valor estimado del coeficiente sugiere que la estimación es relativamente precisa.

  2. Construcción de Intervalos de Confianza: El error estándar es esencial para construir intervalos de confianza alrededor de los estimadores. Un intervalo de confianza comunica el rango dentro del cual se espera que se encuentre el verdadero valor del parámetro con un cierto nivel de confianza (por ejemplo, el 95%).

  3. Pruebas de Hipótesis: El error estándar es utilizado en pruebas de hipótesis, como la prueba t de Student para los coeficientes de regresión. Estas pruebas evalúan si los coeficientes son significativamente diferentes de cero (o de otro valor teórico), lo que indica si hay evidencia suficiente para afirmar que una variable independiente tiene un efecto sobre la variable dependiente.

  4. Comparación de Coeficientes: Los errores estándar permiten comparar la importancia relativa de los coeficientes en el modelo. Por ejemplo, si dos variables tienen un efecto similar pero una tiene un error estándar mucho más grande, hay menos seguridad sobre la estimación de esa variable.

  5. Evaluación del Modelo: Errores estándar grandes pueden indicar problemas con los datos o el modelo, como alta colinealidad entre las variables independientes, violaciones de las suposiciones del modelo de regresión, o la presencia de outliers.

  6. Escalaridad: El error estándar permite que las estimaciones sean escalables. Esto significa que el error estándar se ajusta de acuerdo con el tamaño de la muestra, proporcionando una medida de la variabilidad que no depende del número de observaciones.

El error estándar de un estimador se calcula utilizando la variabilidad de los términos de error (residuos) del modelo y la cantidad de información disponible, la cual está relacionada con el número de observaciones y la variabilidad de las variables independientes.

En el contexto de un modelo de regresión lineal, el error estándar de los coeficientes estimados se calcula a partir de la raíz cuadrada de los elementos diagonales de la matriz de varianzas y covarianzas de los estimadores. Esta matriz a su vez se deriva de la suma de cuadrados de los residuos (SCR) y de la matriz X.

La fórmula general para calcular el error estándar de un coeficiente estimado \hat{\beta}_i ) es:

SE(\hat{\beta}_j) = \sqrt{\frac{SCR}{T - k} \cdot (X'X)^{-1}_{jj}} {\color{red} (4)}

donde:

  • (X'X)^{-1}_{ii} es el elemento i,i de la inversa de la matriz X'X (es decir, el elemento de la diagonal que corresponde al coeficiente \hat{\beta}_i.

El término \frac{SCR}{T - k} es la estimación de la varianza de los residuos \hat\sigma^2_u.

5.4.2 Inferencia y Distribución de los Estimadores

La inferencia en el modelo de regresión se refiere al proceso de hacer afirmaciones o sacar conclusiones sobre la población a partir de los resultados obtenidos en la muestra. En el contexto de la regresión lineal, la inferencia suele centrarse en los coeficientes estimados del modelo y su significación estadística.

Los estimadores siguen un distribución normal cunado la varianza del error es conocido y una distribución t cuando es desconocida:

\begin{gathered} \hat \beta \sim N(\beta ;{\sigma _u}^2{(X'X)^{ - 1}}) \\ t = \frac{{\hat \beta - \beta }}{{dt(\hat \beta )}} \sim {t_{T - k}} \\ \end{gathered}

5.4.3 Test Individual de un Coeficiente (Prueba t de Student)

La prueba t se utiliza para evaluar la significación individual de cada coeficiente estimado en el modelo de regresión. El objetivo es probar si hay suficiente evidencia para afirmar que un coeficiente particular difiere de cero en la población.

La hipótesis nula H_0 para esta prueba es que el coeficiente \beta_i es igual a cero (no tiene efecto), y la hipótesis alternativa H_1 es que \beta_i no es igual a cero (tiene un efecto significativo). El estadístico t se calcula como:

t = \frac{\hat{\beta}_i - 0}{SE(\hat{\beta}_i)}

donde \hat{\beta}_i es el coeficiente estimado y SE(\hat{\beta}_i) ) es el error estándar de \hat{\beta}_i. Esta estadística se compara con un valor crítico de la distribución t con T - k grados de libertad.

\begin{gathered} {H_0} \equiv \beta = 0 \\ {H_1} \equiv \beta \ne 0 \\ t = \frac{{\hat \beta - \overbrace \beta ^{ = 0}}}{{SE(\hat \beta )}} \sim {t_{T - k}} \to t = \frac{{\hat \beta }}{{SE(\hat \beta )}} \sim {t_{T - k}} {\color{red} (5)} \\ \end{gathered}

5.4.4 Test de Significación Global de la Regresión(Prueba F)

El test de significación global o prueba F del modelo se utiliza para probar la hipótesis de que todos los coeficientes del modelo, excepto el término constante, son iguales a cero. Esto equivale a probar si el modelo tiene algún poder explicativo más allá de la media de la variable dependiente.

La hipótesis nula H_0 para la prueba F es que todos los coeficientes son cero (el modelo no es útil), mientras que la hipótesis alternativa H_1 es que al menos uno de los coeficientes no es cero (el modelo es útil). La estadística F se calcula como:

F = \frac{(SST - SSE) / k}{SSE / (T - k)}

El estadístico F se compara con un valor crítico de la distribución F con k y T - k grados de libertad.

\begin{gathered} {H_0} \equiv {\beta _2} = {\beta _3} = \cdots = {\beta _k} = 0\,\,\,\,No\,\,se\,\,incluye\,\,la\,\,{\text{constante}} \\ {H_1} \equiv {\beta _i} \ne 0 \\ F = \frac{{\frac{{SCE}}{q}}}{{\frac{{SCR}}{{T - k}}}} = \frac{{\frac{{{R^2}}}{q}}}{{\frac{{1 - {R^2}}}{{T - k}}}} \sim {F_{q,T - k}} {\color{red} (10) (11)} \\ \end{gathered}

5.4.5 Valor p

El valor p asociado con cada prueba (tanto la prueba t como la prueba F) indica la probabilidad de obtener un resultado al menos tan extremo como el observado, asumiendo que la hipótesis nula es verdadera. Un valor p bajo sugiere que es poco probable que el resultado observado ocurra bajo la hipótesis nula, por lo tanto, proporciona evidencia en contra de la hipótesis nula.

El valor-p es el menor nivel de significación para el cual la hipótesis nula puede ser rechazada:

\begin{gathered} pValor > \alpha \Rightarrow {H_0} \\ pValor < \alpha \Rightarrow {H_1} \\ {\color{red} (6)} \end{gathered}

5.4.6 Contraste de Hipótesis Conjunta

  • Se enumeran las q hipótesis.

  • Se estiman dos modelos:

    • Modelo con restricciones, bajo la hipótesis que se cumplen las restricciones.

    • Modelo sin restricciones.

  • Se obtienen la Suma de Cuadrados De los Residuos (SCR) de los dos modelos.

  • Se calcula el estadístico F (test de 1 Cola):

    \begin{gathered} F = \frac{{\frac{{SC{R_R} - SC{R_S}}}{q}}}{{\frac{{SC{R_S}}}{{T - k}}}} \sim {F_{q,T - k}} \\ F > Tablas\,\,{F_{q,T - k}} \to {H_1} \\ F < Tablas\,\,{F_{q,T - k}} \to {H_0} \\ \end{gathered}

De forma alternativa se puede calcular como:

F = \frac{{\frac{{R_S^2 - R_R^2}}{q}}}{{\frac{{\left( {1 - R_S^2} \right)}}{{T - {k_S}}}}} \sim {F_{q,T - k}}

5.4.7 Intervalos de Confianza de los Coeficientes \beta

Los intervalos de confianza para los coeficientes estimados ofrecen un rango dentro del cual podemos estar “confiados” de que se encuentra el verdadero valor del parámetro poblacional. Un intervalo de confianza típico para un coeficiente se calcula como:

IC(\hat{\beta}_i) = \hat{\beta}_i \pm t^* \cdot SE(\hat{\beta}_i)

donde t^* es el valor crítico de la distribución t para el nivel de confianza deseado (por ejemplo, 1.96 para un 95% de confianza si la muestra es grande).

\begin{gathered} \hat \beta \pm t_{_{T - k}}^{1 - \frac{\alpha }{2}} \cdot dt(\hat \beta ) \\ \hat \beta - t_{_{T - k}}^{1 - \frac{\alpha }{2}} \cdot dt(\hat \beta ) \leqslant \beta \leqslant \hat \beta + t_{_{T - k}}^{1 - \frac{\alpha }{2}} \cdot dt(\hat \beta ) {\color{red} (7)} \\ \end{gathered}

5.5 Validación del modelo

Validar un modelo de regresión es fundamental para asegurarse de que el modelo es fiable y puede generalizarse más allá de los datos de muestra utilizados para crearlo. Existen varios contrastes y técnicas para validar modelos de regresión:

Figura 6.- Validacion del modelo I

Figura 7.- Validacionde modelo II

5.5.1 Análisis de Residuos

Los residuos (errores de predicción) del modelo deben ser aproximadamente normales, homocedásticos y no correlacionados. Para validar esto, se utilizan los siguientes pruebas:

5.5.2 Autocorrelación

5.5.2.1 ACF (Función de Autocorrelación) y PACF (Función de Autocorrelación Parcial)

  • ACF: Mide la correlación entre observaciones de una serie temporal separadas por diferentes intervalos de tiempo (lags o retardos). Se utiliza para identificar la presencia de autocorrelación.

Para interpretar la ACF:

  • Observa la gráfica de barras (también conocidas como correlograma). Cada barra representa la autocorrelación para un retardo específico.

  • Si las barras se encuentran dentro de las bandas de confianza (usualmente establecidas en ±1.96/√n, donde n es el tamaño de la muestra), entonces no se consideran estadísticamente significativas, indicando ausencia de autocorrelación en ese retardo.

  • Si varias barras consecutivas están fuera de las bandas de confianza, especialmente para los primeros retardos, sugiere que existe autocorrelación en la serie temporal.

  • La autocorrelación significativa en los primeros retardos puede indicar un modelo AR (Autoregresivo) en los datos.

  • PACF: Mide la correlación entre observaciones de una serie temporal que están separadas por un número específico de intervalos de tiempo, controlando los valores de las demás lretardos intermedias. Ayuda a identificar el orden de los modelos AR (autoregresivos).

La interpretación de la PACF es similar a la de la ACF, pero con un enfoque en los lags individuales:

  • Al igual que con la ACF, cada barra representa la autocorrelación parcial para un retardo específico y las barras fuera de las bandas de confianza indican correlaciones significativas.
  • La PACF es útil para identificar el orden de un modelo AR. Por ejemplo, si la PACF muestra autocorrelaciones parciales significativas en los primeros retardos y luego corta a cero, puede sugerir que ese es el orden adecuado para un modelo AR.
  • Si la PACF tiene un corte abrupto después del primer retardo y las autocorrelaciones parciales son insignificantes para retardos más altos, esto puede indicar un proceso MA (Media Móvil).

5.5.2.2 Test de Ljung-Box

El test de Ljung-Box es una prueba estadística que se utiliza para verificar si hay autocorrelación significativa en los residuos de un modelo de regresión o una serie temporal a varios retardos. Es una versión modificada del test Q de Box-Pierce y se considera que tiene un mejor comportamiento en muestras finitas.

Las hipótesis nula y alternativa del test de Ljung-Box son las siguientes:

  • Hipótesis nula (H0): Los datos son independientes, es decir, no hay autocorrelación en los residuos a ningún retardo dentro de los retardos contrastados. Formalmente, H0: ρ₁ = ρ₂ = ... = ρₘ = 0, donde \rho_i es el coeficiente de autocorrelación en el retado i.

  • Hipótesis alternativa (H1): Los datos no son independientes; hay autocorrelación en al menos uno de los retardos contrastados.

El estadístico de Ljung-Box se calcula utilizando la suma de las autocorrelaciones al cuadrado de los residuos, ponderadas por el número de observaciones y el número de lags. El estadístico Q de Ljung-Box se define como:

Q^* = T(T+2)\sum_{k=1}^{m}\frac{\hat{\rho}_k^2}{T-k}

donde:

  • T es el número de observaciones.
  • m es el número de retardos incluidos en la prueba.
  • \hat{\rho}_k es la autocorrelación muestral en el retardo k.

Si el valor p asociado con el estadístico Q^* es bajo (por ejemplo, menor que el nivel de significación α = 0.05), se rechaza la hipótesis nula de independencia y se concluye que hay evidencia de autocorrelación en los datos a uno o más lags dentro de los retardos testeados.

Si el valor p es alto, no se rechaza la hipótesis nula, lo que indica que no hay suficiente evidencia para afirmar la presencia de autocorrelación en los datos.

5.5.2.3 Test de Durbin-Watson

El Test de Durbin-Watson evalúa la autocorrelación de primer orden en los residuos de un modelo de regresión. Un valor cercano a 2 sugiere ausencia de autocorrelación; valores menores que 2 indican autocorrelación positiva, y valores mayores que 2 indican autocorrelación negativa.

5.5.2.4 Test de Breusch-Godfrey (también conocido como Test LM de Autocorrelación Serial)

EL test de Breusch-Godfrey, también conocido como test LM (Lagrange Multiplier) para autocorrelación serial, es un procedimiento estadístico utilizado para detectar la presencia de autocorrelación en los residuos de un modelo de regresión. A diferencia del test de Durbin-Watson, el test de Breusch-Godfrey es capaz de identificar autocorrelaciones de orden superior y es aplicable incluso en modelos con variables retardadas o cuando el test de Durbin-Watson es inadecuado.

Las hipótesis son:

  • Hipótesis nula (H0): No existe autocorrelación serial de los residuos hasta el orden p. Es decir, no hay autocorrelación en los residuos en los primeros p retardos.
  • Hipótesis alternativa (H1): Existe autocorrelación serial de los residuos hasta el orden p.

El procedimiento del test de Breusch-Godfrey implica estimar una versión auxiliar del modelo de regresión original donde los residuos estimados \hat{u}_t se regresan en una serie de sus propios valores rezagados hasta el p-ésimo lag:

\hat{u}_t = \alpha_0 + \alpha_1 \hat{u}_{t-1} + \alpha_2 \hat{u}_{t-2} + ... + \alpha_p \hat{u}_{t-p} + \text{otros términos} + v_t

Donde \hat{u}_{t-1}, ..., \hat{u}_{t-p} son los residuos retardados y v_tes el término de error del modelo auxiliar.

El test de Breusch-Godfrey utiliza el estadístico LM que se basa en el valor de R^2 del modelo auxiliar:

LM = n \cdot R^2

Este estadístico sigue aproximadamente una distribución chi-cuadrada \chi^2 con p grados de libertad bajo la hipótesis nula. Si el valor calculado de LM es mayor que el valor crítico de la distribución \chi^2para un nivel de significación dado (por ejemplo, 0.05), se rechaza la hipótesis nula, indicando la presencia de autocorrelación serial en los residuos.

EL rechazo de H0 sugiere que los residuos están autocorrelacionados, lo que podría indicar que el modelo está mal especificado, falta alguna variable explicativa importante, o que se requiere una estructura de errores más compleja.

El No rechazo de H0 indica que no hay evidencia suficiente para afirmar la existencia de autocorrelación en los residuos, y por tanto, el modelo no sufre de este problema específico.

Es importante tener en cuenta que la presencia de autocorrelación en los residuos de un modelo de regresión puede llevar a estimaciones ineficientes y a inferencias estadísticas incorrectas, por lo que detectar y corregir la autocorrelación es un paso crucial en el análisis de regresión. Para abordar este problema, hay varias técnicas, dos de las cuales son la estimación de errores estándar robustos de Newey-West y la modelización ARIMA.

5.5.2.5 Estimación de Newey-West

La estimación de Newey-West ajusta los errores estándar en presencia de autocorrelación y posiblemente heterocedasticidad. La metodología Newey-West es especialmente útil en el contexto de modelos de regresión lineal con datos de series temporales o datos de panel.

Los errores estándar robustos de Newey-West toman en cuenta la autocorrelación calculando una matriz de covarianza de los errores que es consistente en presencia de autocorrelación y/o heterocedasticidad. Esto se hace generalizando la corrección de heterocedasticidad-consistente (HAC) para incluir también la autocorrelación hasta un cierto número de lags.

5.5.2.6 Modelos ARIMA

Los modelos ARIMA (AutoRegressive Integrated Moving Average) son una clase de modelos que pueden capturar y modelar explícitamente la autocorrelación en los datos de series temporales.

En un modelo ARIMA, la componente AR captura la autocorrelación al regresar la variable dependiente en sus propios valores pasados. La componente I se refiere a la integración, que involucra diferenciar la serie para lograr estacionariedad. La componente MA utiliza promedios móviles de términos de error pasados para modelar shocks aleatorios en la serie.

Para ajustar un modelo ARIMA, primero se debe determinar el orden de los componentes AR y MA, que se puede hacer examinando la ACF y PACF de los datos. Luego, se estiman los parámetros del modelo seleccionado, lo que resulta en un modelo que tiene en cuenta la estructura de autocorrelación de los datos.

Al modelar explícitamente la autocorrelación en la estructura del modelo ARIMA, se elimina de los residuos, suponiendo que el modelo está bien especificado. Esto resulta en residuos que son, idealmente, ruido blanco.

Ambas técnicas tienen diferentes aplicaciones y ventajas. La estimación de Newey-West es una corrección de errores estándar que no altera los coeficientes estimados del modelo, mientras que los modelos ARIMA cambian la especificación del modelo para incorporar directamente la autocorrelación en el proceso de modelado. La elección entre estas técnicas depende del contexto del análisis, la naturaleza de los datos y los objetivos del modelado.

5.5.3 Heterocedasticidad

Las pruebas de Breusch-Pagan, White y ARCH son métodos estadísticos utilizados para detectar la presencia de heterocedasticidad en un modelo de regresión. La heterocedasticidad ocurre cuando los errores (o residuos) del modelo tienen varianzas que no son constantes a lo largo de las observaciones.

5.5.3.1 Test de Breusch-Pagan

El test de Breusch-Pagan examina si la varianza de los errores de un modelo de regresión es dependiente de los valores de las variables independientes. Las hipótesis son:

  • Hipótesis nula (H0): Homocedasticidad (la varianza de los errores es constante).
  • Hipótesis alternativa (H1): Heterocedasticidad (la varianza de los errores cambia con las variables independientes).

El estadístico de prueba se calcula como: BP = T \times R^2

donde T es el número de observaciones y R^2 es el coeficiente de determinación del modelo de regresión de los residuos cuadrados sobre las variables independientes y sus cuadrados. Este estadístico sigue una distribución chi-cuadrada.

5.5.3.2 Test de White

El test de White es una prueba general para la heterocedasticidad que no asume una forma específica para la varianza de los errores. Las hipóteis son:

  • Hipótesis nula (H0): Homocedasticidad.
  • Hipótesis alternativa (H1): Heterocedasticidad.

El estadístico de White se calcula como:

W = T \times R^2

del modelo auxiliar, donde R^2 es obtenido al regresar los residuos cuadrados sobre todas las variables independientes, sus cuadrados y todas las interacciones posibles. Este estadístico también sigue una distribución chi-cuadrada.

5.5.3.3 Test ARCH (Autoregressive Conditional Heteroskedasticity)

El test ARCH, desarrollado por Engle (1982), se utiliza principalmente en el análisis de series de tiempo para modelos donde se sospecha que la varianza del término de error varía a través del tiempo. Las hipótesis son:

  • Hipótesis nula (H0): No hay efectos ARCH (homocedasticidad).
  • Hipótesis alternativa (H1): Hay efectos ARCH (heterocedasticidad condicional).

Para realizar el test ARCH, primero se ajusta un modelo de regresión y se obtienen los residuos. Luego, se regresan los residuos cuadrados en un número de sus propios lags. El estadístico de prueba se basa en: ARCH = T \times R^2

del modelo auxiliar, donde T es el número de observaciones y R^2 es el coeficiente de determinación de este modelo auxiliar. Este estadístico sigue una distribución chi-cuadrada.

Cada una de estas pruebas tiene sus propias fortalezas y limitaciones, y la elección de la prueba depende de las características de los datos y el modelo. Además, es importante recordar que la presencia de heterocedasticidad puede afectar la eficiencia de los estimadores de mínimos cuadrados ordinarios y puede llevar a inferencias estadísticas incorrectas si no se aborda adecuadamente.

La heterocedasticidad en los modelos de regresión incumple la suposición de varianza constante de los términos de error y puede llevar a errores estándar sesgados, afectando a la inferencia estadística. Hay varias formas de abordar la heterocedasticidad, dos de las cuales incluyen el uso de errores estándar robustos a la heterocedasticidad, como la estimación de Newey-West, y el modelado de la varianza condicional con modelos ARCH/GARCH.

5.5.3.4 Estimación de Newey-West

La estimación de Newey-West ajusta los errores estándar para corregir la heterocedasticidad y también la autocorrelación serial potencial. La corrección de Newey-West es particularmente útil en el contexto de modelos de regresión con datos de series temporales.

Los errores estándar de Newey-West se calculan usando una estimación modificada de la matriz de covarianza de los errores que es consistente en presencia de heterocedasticidad y autocorrelación hasta un cierto número de lags.

5.5.3.5 Modelos ARCH/GARCH

Los modelos ARCH (Autoregressive Conditional Heteroskedasticity) y GARCH (Generalized Autoregressive Conditional Heteroskedasticity) son utilizados para modelar y pronosticar la varianza condicional (heterocedasticidad) en series de tiempo financieras y económicas.

En un modelo ARCH, la varianza actual de los términos de error se modela como una función de los errores pasados. Se ajusta especialmente bien a datos financieros donde la volatilidad tiende a agruparse en el tiempo.

Un modelo GARCH extiende ARCH al incluir no solo los errores pasados sino también la varianza condicional pasada. Esto permite modelar series de tiempo donde los efectos de shocks pasados decaen gradualmente a lo largo del tiempo.

Tanto la estimación de Newey-West como los modelos ARCH/GARCH permiten realizar inferencias estadísticas más precisas en presencia de heterocedasticidad. Mientras que Newey-West se usa principalmente en el contexto de la regresión lineal, los modelos ARCH/GARCH se usan típicamente para modelar la volatilidad en series de tiempo financieras. Estos métodos no eliminan la heterocedasticidad de los datos, sino que ajustan el análisis para tenerla en cuenta adecuadamente.

5.5.4 Normalidad

Contrastar la normalidad de los residuos es un paso crucial en el análisis de regresión, ya que muchas pruebas e inferencias estadísticas asumen que los residuos siguen una distribución normal. Hay varias maneras de evaluar esta suposición:

5.5.4.1 Histograma de Residuos

Un histograma permite visualizar la distribución de los residuos. Si los residuos siguen aproximadamente una distribución normal, el histograma debería tener una forma de campana simétrica.

5.5.4.2 Test de Jarque-Bera

El test de Jarque-Bera es una prueba estadística basada en los coeficientes de asimetría y curtosis de los residuos que contrasta si los datos se desvían de una distribución normal. Las hipótesis son:

  • Hipótesis nula (H0): Los residuos están distribuidos normalmente.
  • Hipótesis alternativa (H1): Los residuos no están distribuidos normalmente.

El estadístico de Jarque-Bera se calcula como: JB = \frac{n}{6} \left( S^2 + \frac{1}{4}(K - 3)^2 \right) donde n es el número de observaciones, S es el coeficiente de asimetría, y K es la curtosis.

5.5.4.3 Residuos Estandarizados para detectar atípicos

Los residuos estandarizados se utilizan para identificar observaciones atípicas. Un residuo estandarizado se calcula dividiendo el residuo por su error estándar. Valores absolutos de residuos estandarizados mayores que 2 (o en prácticas más estrictas, mayores que 3) pueden considerarse atípicos.

La combinación de métodos gráficos y pruebas estadísticas ofrece una comprensión más completa de la distribución de los residuos.

5.5.5 Otras Pruebas de diagnosis de residuos

5.5.5.1 Test CUSUM

El test CUSUM (Sumas Acumulativas) es una técnica estadística utilizada para detectar cambios estructurales en la media de una serie de tiempo o en los parámetros de un modelo de regresión a lo largo del tiempo. Es especialmente útil para identificar el momento en que ocurre un cambio estructural, incluso si el momento exacto del cambio no es conocido de antemano.

El test CUSUM se basa en calcular y graficar las sumas acumulativas de las desviaciones de los residuos (o de alguna transformación de los datos) respecto a una media o estimación benchmark. La idea es que si la serie de tiempo o los residuos del modelo son consistentes a lo largo del tiempo, entonces la línea CUSUM debería fluctuar aleatoriamente alrededor de cero. Sin embargo, si hay un cambio estructural (por ejemplo, un cambio en la media), la línea CUSUM mostrará una desviación pronunciada y sistemática de cero. Las hipótesis son:

  • Hipótesis nula (H0): No hay cambio estructural en la serie de tiempo o en los parámetros del modelo a lo largo del periodo observado.
  • Hipótesis alternativa (H1): Hay al menos un cambio estructural en la serie de tiempo o en los parámetros del modelo en algún punto del tiempo.

La interpretación del test CUSUM se realiza a menudo visualmente mediante un gráfico de las sumas acumulativas S_t contra el tiempo t. Se buscan desviaciones sistemáticas de la línea base que sugieran un cambio estructural. En contextos más formales, se pueden utilizar líneas de control para determinar si las desviaciones observadas son estadísticamente significativas.

5.5.5.2 Prueba de Ramsey (RESET)

La prueba RESET (Regression Equation Specification Error Test) de Ramsey es un procedimiento estadístico utilizado para detectar errores de especificación en modelos de regresión lineal. Específicamente, esta prueba evalúa si un modelo de regresión ha omitido variables relevantes, si ha utilizado una forma funcional incorrecta, o si ha cometido errores en la selección de transformaciones de las variables independientes. Las hipótesis son:

  • Hipótesis nula (H0): El modelo está correctamente especificado. No hay errores de especificación en el modelo de regresión.
  • Hipótesis alternativa (H1): Existe un error de especificación en el modelo. Esto podría deberse a variables omitidas, forma funcional incorrecta, o transformaciones inadecuadas de las variables.

El estadístico de contraste utilizado en la prueba RESET es el estadístico F, que se calcula comparando el modelo original con el modelo ampliado.

Si el valor p asociado con el estadístico F es bajo (menor que el nivel de significancia, como 0.05), se rechaza la hipótesis nula, lo que sugiere que hay un error de especificación en el modelo de regresión.

Si el valor p es alto, no se rechaza la hipótesis nula, indicando que no hay evidencia suficiente para afirmar que hay un error de especificación en el modelo.

5.6 Multicolinealidad

La multicolinealidad se refiere a la situación en la que dos o más variables independientes en un modelo están altamente correlacionadas, lo que puede llevar a problemas en la estimación de los coeficientes del modelo, aumentando la varianza de los estimadores y haciendo difícil interpretar los efectos individuales de las variables independientes.

El Factor de Inflación de la Varianza (VIF, por sus siglas en inglés) es una medida que se utiliza para detectar la presencia y la intensidad de la multicolinealidad en un modelo de regresión lineal múltiple.

El VIF para una variable independiente se calcula como la inversa de la diferencia entre 1 y el R-cuadrado obtenido al regresar esa variable independiente contra todas las demás variables independientes en el modelo. Matemáticamente, para una variable X_i, el VIF se define como:

VIF_i = \frac{1}{1 - R_i^2}

donde:

  • R_i^2 es el coeficiente de determinación (R-cuadrado) del modelo de regresión donde X_ise regresa sobre todas las otras variables independientes.

  • VIF = 1: No hay multicolinealidad entre la variable independiente en cuestión y las otras.

  • 1 < VIF < 5: La multicolinealidad es moderada y generalmente no es motivo de gran preocupación.

  • VIF ≥ 5: Indica una multicolinealidad elevada que puede requerir atención. Algunos expertos pueden establecer un umbral más conservador (como VIF ≥ 10) antes de considerar que la multicolinealidad es problemática.

Un VIF elevado para una variable sugiere que esta está altamente correlacionada con otras variables independientes en el modelo, lo que puede:

  • Aumentar la varianza de los estimadores de coeficientes, haciéndolos menos fiables.
  • Dificultar la interpretación de los coeficientes de regresión debido a la dependencia entre las variables.
  • Llevar a coeficientes de regresión con signos inesperados o magnitudes no intuitivas.

Si se detecta multicolinealidad significativa (mediante VIF u otras pruebas), se pueden considerar varias estrategias para abordar el problema:

  • Eliminar variables: Considerar la eliminación de una o más variables independientes altamente correlacionadas.
  • Combinar variables: Crear un índice o una variable compuesta por variables altamente correlacionadas.
  • Análisis de componentes principales (PCA): Utilizar PCA para reducir la dimensionalidad de los datos preservando la mayor parte de la variabilidad.

6 Bibliografia

Dechow, Patricia M., Ryan D. Erhard, Ricahard G. Sloan, Soliman, and Mark T. 2021. “Implied Equity Duration: A Measure of Pandemic Shutdown Risk.” Journal of Accounting Research 59 (1): 243–81. https://doi.org/10.1111/1475-679x.12348.
Dechow, Patricia M., Richard G. Sloan, and Mark T. Soliman. 2004. “Implied Equity Duration: A New Measure of Equity Risk.” Review of Accounting Studies 9 (2/3): 197–228. https://doi.org/10.1023/b:rast.0000028186.44328.3f.
Fabozzi, Frank J, Sergio M Focardi, Svetlozar T Rachev, Bala G Arshanapalli, and Markus Hoechstoetter. 2014. The Basics of Financial Econometrics. Wiley.
Fullana, Olga, and David Toscano. 2014. “The Implied Equity Duration for the Spanish Listed Firms.” The Spanish Review of Financial Economics 12 (1): 33–39. https://doi.org/10.1016/j.srfe.2013.09.003.
Leibowitz, Martin L., Eric H. Sorensen, Robert D. Arnott, and H. Nicholas Hanson. 1989. “A Total Differential Approach to Equity Duration.” Financial Analysts Journal 45 (5): 30–37. http://www.jstor.org/stable/4479256.

Footnotes

  1. La fuente de datos es Yahoo Finance.↩︎