Analisis de correlación lineal simple
El análisis de correlación lineal simple es una técnica estadística utilizada para medir la relación entre dos variables continuas. Se enfoca en determinar la fuerza y la dirección de una relación lineal entre dos variables, es decir, si hay una relación positiva (cuando una variable aumenta, la otra también aumenta) o una relación negativa (cuando una variable aumenta, la otra disminuye) entre las variables.
La correlación lineal simple se basa en el coeficiente de correlación lineal (r), que mide la fuerza y la dirección de la relación lineal entre dos variables. El coeficiente de correlación lineal varía entre -1 y 1. Un valor de -1 indica una correlación lineal negativa perfecta, un valor de 1 indica una correlación lineal positiva perfecta y un valor de 0 indica que no hay correlación lineal entre las dos variables.
El análisis de correlación lineal simple también incluye la interpretación del coeficiente de correlación lineal y la realización de pruebas de hipótesis para determinar si el coeficiente es significativamente diferente de cero. Además, es importante tener en cuenta que la correlación lineal no implica causalidad, es decir, una relación entre dos variables no significa necesariamente que una variable cause la otra.
Ejemplo:
Ejercicio 1: Se desea determinar si existe una correlación lineal entre la cantidad de horas de estudio y el puntaje obtenido en un examen. Se recolectan los siguientes datos:
Horas de estudio (x) | Puntaje del examen (y) |
---|---|
2 | 60 |
4 | 80 |
6 | 90 |
8 | 100 |
Resolver:
Paso 1: Calcular el coeficiente de correlación lineal (r) utilizando la siguiente fórmula:
r = ∑(x - x̄)(y - ȳ) / [(n - 1) * Sx * Sy]
se utiliza para calcular el coeficiente de correlación lineal (r) entre dos variables, en este caso, la cantidad de horas de estudio (x) y el puntaje del examen (y).
El cálculo se realiza utilizando los valores de cada variable en la muestra. Para cada valor de x, se le resta la media de la variable de horas de estudio (x̄), y para cada valor de y, se le resta la media de la variable de puntaje del examen (ȳ). Luego, se multiplican las diferencias resultantes para cada par de valores (x,y) y se suman.
Finalmente, se divide la suma de las diferencias multiplicadas por el número de grados de libertad (n - 1) y por el producto de las desviaciones estándar de ambas variables (Sx y Sy). El resultado de esta fórmula es el coeficiente de correlación lineal (r), que indica la fuerza y dirección de la relación entre las dos variables.
Donde:
- x: valor de la variable de horas de estudio.
- y: valor de la variable de puntaje del examen.
- x̄: media de la variable de horas de estudio.
- ȳ: media de la variable de puntaje del examen.
- n: tamaño de la muestra.
- Sx: desviación estándar de la variable de horas de estudio.
- Sy: desviación estándar de la variable de puntaje del examen.
Primero, calculamos las medias y las desviaciones estándar de ambas variables:
Variable | Media | Desviación estándar |
---|---|---|
Horas de estudio (x) | 5 | 2.581 |
Puntaje del examen (y) | 82.5 | 16.188 |
Sustituyendo los valores en la fórmula, se tiene:
Por lo tanto, hay una correlación lineal positiva muy fuerte entre las horas de estudio y el puntaje del examen.
Paso 2: Interpretar el coeficiente de correlación lineal (r).
El coeficiente de correlación lineal (r) está entre -1 y 1. Un valor de r cercano a 1 indica una correlación positiva fuerte entre las variables, lo que significa que a medida que aumenta la cantidad de horas de estudio, el puntaje del examen también aumenta.
Comentarios
Publicar un comentario