El Significado de la Regresión y Supuestos Básicos

    La regresión es una técnica estadística utilizada para analizar la relación entre dos o más variables. En la regresión, una variable (llamada la variable dependiente) se estima a partir de una o más variables predictoras (también llamadas variables independientes o variables explicativas). El objetivo de la regresión es encontrar la mejor relación matemática entre las variables, lo que nos permite predecir los valores de la variable dependiente a partir de los valores de las variables predictoras.

    Los supuestos básicos de la regresión son una serie de condiciones que deben cumplirse para que los resultados de la regresión sean confiables. Estos supuestos son:

  1. Linealidad: La relación entre las variables debe ser lineal. Esto significa que si graficamos los valores de las variables en un gráfico, deberíamos ver una línea recta.

  2. Homocedasticidad: La varianza de los errores de la regresión debe ser constante para todos los valores de las variables predictoras. Esto significa que la dispersión de los valores residuales en el gráfico de residuos vs. valores ajustados debe ser constante.

  3. Independencia de los errores: Los errores de la regresión deben ser independientes entre sí. Esto significa que los errores de una observación no deben estar correlacionados con los errores de otra observación.

  4. Normalidad de los errores: Los errores de la regresión deben seguir una distribución normal. Esto significa que si graficamos los valores residuales en un histograma, deberíamos ver una distribución en forma de campana.

  5. Ausencia de multicolinealidad: Si hay dos o más variables predictoras, éstas no deben estar altamente correlacionadas entre sí. Esto significa que no debe haber una relación lineal perfecta entre las variables predictoras.

    Si se viola alguno de estos supuestos básicos, los resultados de la regresión pueden ser incorrectos o sesgados. Por lo tanto, es importante verificar estos supuestos antes de utilizar la regresión en cualquier análisis estadístico.


Ejemplo:

    Supongamos que tenemos un conjunto de datos que consiste en pares ordenados de valores (x,y), donde x es el peso de una persona en kilogramos y y es su altura en metros. Queremos ajustar una recta de regresión a estos datos para ver si existe una relación lineal entre el peso y la altura.

La recta de regresión se puede expresar como:

y = b0 + b1*x

    Donde y es la variable dependiente (altura), x es la variable independiente (peso), b0 es el término constante de la recta y b1 es la pendiente de la recta.

Para encontrar los valores de b0 y b1, podemos utilizar la fórmula de la recta de regresión:

b1 = (n∑xy - ∑x∑y) / (n∑x^2 - (∑x)^2)

b0 = ȳ - b1*x̄

    Donde n es el número de observaciones, ∑xy es la suma de los productos de cada valor de x con su correspondiente valor de y, ∑x y ∑y son las sumas de los valores de x y y, respectivamente, ∑x^2 es la suma de los cuadrados de los valores de x, ȳ es la media de los valores de y y x̄ es la media de los valores de x.

    Una vez que tenemos los valores de b0 y b1, podemos usarlos para predecir el valor de y para cualquier valor dado de x. Por ejemplo, si queremos predecir la altura de una persona cuyo peso es de 70 kilogramos, podemos sustituir x=70 en la ecuación de la recta de regresión:

y = b0 + b1*x

y = 1.5 + 0.05*70

y = 5.5 metros

    Sin embargo, para asegurarnos de que los resultados sean confiables, debemos verificar algunos de los supuestos básicos de la regresión. Por ejemplo, podemos graficar los valores en un gráfico de dispersión para verificar la linealidad, y graficar los residuos en un gráfico de residuos vs. valores ajustados para verificar la homocedasticidad y la independencia de los errores. Además, podemos graficar un histograma de los valores residuales para verificar la normalidad de los errores.

Comentarios

Entradas populares de este blog

Durbin-Watson

Graficos de Dispersión para los Residuos

Diagrama de Dispersión