Analisis de correlación lineal simple

     El análisis de correlación lineal simple es una técnica estadística utilizada para medir la relación entre dos variables continuas. Se enfoca en determinar la fuerza y la dirección de una relación lineal entre dos variables, es decir, si hay una relación positiva (cuando una variable aumenta, la otra también aumenta) o una relación negativa (cuando una variable aumenta, la otra disminuye) entre las variables.

    La correlación lineal simple se basa en el coeficiente de correlación lineal (r), que mide la fuerza y la dirección de la relación lineal entre dos variables. El coeficiente de correlación lineal varía entre -1 y 1. Un valor de -1 indica una correlación lineal negativa perfecta, un valor de 1 indica una correlación lineal positiva perfecta y un valor de 0 indica que no hay correlación lineal entre las dos variables.

    El análisis de correlación lineal simple también incluye la interpretación del coeficiente de correlación lineal y la realización de pruebas de hipótesis para determinar si el coeficiente es significativamente diferente de cero. Además, es importante tener en cuenta que la correlación lineal no implica causalidad, es decir, una relación entre dos variables no significa necesariamente que una variable cause la otra.


Ejemplo:

Ejercicio 1: Se desea determinar si existe una correlación lineal entre la cantidad de horas de estudio y el puntaje obtenido en un examen. Se recolectan los siguientes datos:

Horas de estudio (x)Puntaje del examen (y)
260
480
690
8100

Resolver:

Paso 1: Calcular el coeficiente de correlación lineal (r) utilizando la siguiente fórmula:

r = ∑(x - x̄)(y - ȳ) / [(n - 1) * Sx * Sy]

se utiliza para calcular el coeficiente de correlación lineal (r) entre dos variables, en este caso, la cantidad de horas de estudio (x) y el puntaje del examen (y).

El cálculo se realiza utilizando los valores de cada variable en la muestra. Para cada valor de x, se le resta la media de la variable de horas de estudio (x̄), y para cada valor de y, se le resta la media de la variable de puntaje del examen (ȳ). Luego, se multiplican las diferencias resultantes para cada par de valores (x,y) y se suman.

Finalmente, se divide la suma de las diferencias multiplicadas por el número de grados de libertad (n - 1) y por el producto de las desviaciones estándar de ambas variables (Sx y Sy). El resultado de esta fórmula es el coeficiente de correlación lineal (r), que indica la fuerza y dirección de la relación entre las dos variables.

Donde:

  • x: valor de la variable de horas de estudio.
  • y: valor de la variable de puntaje del examen.
  • x̄: media de la variable de horas de estudio.
  • ȳ: media de la variable de puntaje del examen.
  • n: tamaño de la muestra.
  • Sx: desviación estándar de la variable de horas de estudio.
  • Sy: desviación estándar de la variable de puntaje del examen.

Primero, calculamos las medias y las desviaciones estándar de ambas variables:

VariableMediaDesviación estándar
Horas de estudio (x)52.581
Puntaje del examen (y)82.516.188

Sustituyendo los valores en la fórmula, se tiene:

r = [(2 - 5)(60 - 82.5) + (4 - 5)(80 - 82.5) + (6 - 5)(90 - 82.5) + (8 - 5)(100 - 82.5)] / [(4 - 1) * 2.581 * 16.188]
r = 0.997

Por lo tanto, hay una correlación lineal positiva muy fuerte entre las horas de estudio y el puntaje del examen.

Paso 2: Interpretar el coeficiente de correlación lineal (r).

El coeficiente de correlación lineal (r) está entre -1 y 1. Un valor de r cercano a 1 indica una correlación positiva fuerte entre las variables, lo que significa que a medida que aumenta la cantidad de horas de estudio, el puntaje del examen también aumenta.

Comentarios

Entradas populares de este blog

Durbin-Watson

Graficos de Dispersión para los Residuos

Diagrama de Dispersión