Procesamiento de Datos, 2015-2

 2. Correlación  lineal simple

 

2.1.              Correlación, (r de Pearson). Es una medida de independencia estadística entre dos variables. En el sentido que la usaremos aquí, indica una relación lineal entre ellas.

2.2.              Representación. Se representa en diagramas de dispersión, como el que usted hará en SPSS.

2.3.              Cálculo para muestras:

 

 

 

 

 

donde:

 

 

 

 

 

 

Véase archivo MatLengCor.xls

2.4.              Características.

2.4.1.         Sus valores mínimo y máximo son -1 y +1, respectivamente.

2.4.2.         El valor de r es positivo cuando ambas variables se mueven juntas, en la misma dirección, es decir Y aumenta si X aumenta, o Y disminuye cuando X disminuye. Las observaciones se agrupan alrededor de una línea recta que va de abajo hacia arriba (panel del medio de la figura). Su valor es negativo cuando ambas variables se mueven en sentidos diferentes, es decir Y aumenta si X disminuye, o viceversa. Las observaciones se agrupan alrededor de una línea recta que va de arriba hacia abajo (panel inferior de la figura). Su valor es cero cuando no hay ninguna correlación entre las variables (panel superior de la figura). Las observaciones se dispersan uniformemente en el cuadrante. PanelTresCorrelaciones.jpg

2.4.3.         Es una medida de asociación simétrica, no causal.

2.4.4.         Mide la fuerza de la asociación. Entre mayor es, mayor es la asociación entre las variables. Cuando su valor se acerca a 1.000 ó -1.000, significa que ambas variables están muy altamente correlacionadas, positiva o negativamente. Si su valor se acerca a .000, significa que ambas variables están muy poco correlacionadas.

2.4.5.         Su valor no depende las unidades de medida de las variables.

2.4.6.         La correlación no implica causalidad.

 

2.5.              Instrucciones para SPSS

2.5.1.         Obtener r.

2.5.1.1.    Abrir archivo Matleng.sav; si no funciona, descomprima: Mateng.zip

2.5.1.2.    Analizar/Correlaciones/Bivariadas. Aparece la caja de diálogo Correlaciones bivariadas.

2.5.1.3.    En el panel izquierdo seleccionar “Matemati” y “lengua”. Con la flecha que une ambos paneles, mover esas variables al panel derecho. Verifique que están palomeados “Pearson” y “Bilateral”

2.5.1.4.     Oprima una vez la tecla izquierda del ratón sobre “Aceptar”. Grabe el resultado en PD con los nueve caracteres usuales.

2.5.2.         Diagrama de dispersión de r.

2.5.2.1.    Vaya a Gráficos/Cuadros de diálogos antiguos/dispersión/puntos/Dispersión simple/Definir. Aparece la caja de diálogo Diagrama de dispersión simple.

2.5.2.2.    En el panel izquierdo seleccionar “Matemati” y, con la flecha flecha que une ambos paneles, mover esa variable al eje X del panel derecho. Haga lo mismo para mover la variable “lengua” al eje Y. Aceptar. Aparece el diagrama  en la ventana de Resultado.

2.5.2.3.    Dentro del diagrama, oprima una vez la tecla derecha del ratón. En la ventana que aparece, seleccione Editar contenido/En otra ventana. Aparece la ventana Editor de Gráficos.

2.5.2.4.    Seleccionar Elementos/Línea de Ajuste total.

2.5.2.5.      Dentro del diagrama, seleccione cualquiera de los puntos o casos. Oprima una vez la tecla derecha del ratón. En la ventana que aparece, seleccione Mostrar etiquetas de datos.

2.5.2.6.    Vaya a Editar/copiar gráfico.

2.5.2.7.    Abra el accesorio de Windows Paint/Dibujo. Oprima Ctrl-V.  Grabe la gráfica, en PD, como “Ajusteyyyxxxxxx".

 

 2.5.3.         La lógica de la r de Pearson en la fórmula en Excel

Véase archivo MatLengCor.xls

 2.5.3.1.    El significado matemático de x e y. Una y otra son desviaciones con respecto de su media. Son positivas si son mayores a la media; negativas, si son menores a ella. Véanse las columnas D y E de MatLengCor.xls. En el caso 1, ambas son negativas. En el caso 2, ambas son   positivas. En el caso 3, x es negativa e y es positiva.

 2.5.3.2.     El significado matemático y expresión gráfica del producto xy. Véase la columna F de MatLengCor.xls. En el caso 1, el producto es positivo porque x e y tienen el mismo signo negativo. Tienen el mismo negativo porque ambas son menores a la media. Ambas variables se han movido juntas hacia valores inferiores a la media. En la gráfica de ejes desplazados hacia sus medias, el caso se sitúa en el tercer cuadrante (inferior izquierdo), en el cual ambas coordenadas son negativas. En el caso 2, el producto es positivo porque x e y tienen el mismo signo positivo. Tienen el mismo positivo porque ambas son mayores a la media. Ambas variables se han movido juntas hacia valores superiores a la media. En la gráfica de ejes desplazados hacia sus medias, el caso se sitúa en el primer cuadrante (superior derecho), en el cual ambas coordenadas son positivas. En el caso 3, el producto es negativo porque x e y tienen signos diferentes: x se movió hacia un valor inferior a la media mientras que y se movió hacia un valor superior a ella. Las variables no se movieron juntas. En la gráfica de ejes desplazados hacia sus medias, el caso se sitúa en el segundo cuadrante (superior izquierdo), en el cual las coordenadas son de signo diferente: la X es negativa mientras que la Y es positiva. Los casos 4 y 7 tienen la misma forma del caso 1, por lo cual están también en el tercer cuadrante. El caso 8 tiene la misma forma del caso 2, por lo cual está también en el primer cuadrante. Los casos 5 y 6 tienen la misma forma del caso 3. Están en el cuarto cuadrante (inferior derecho), en el cual las coordenadas son también de signo diferente: la X es positiva mientras que la Y es negativa. Vea la gráfica CorMatLengEjesDesplazados. Los casos de esta gráfica representan no sólo sus valores originales sino también sus desviaciones con respecto a sus medias.

 2.5.3.3.    El significado matemático  y expresión gráfica de la sumatoria Σxy

  Si los productos positivos son más que los negativos, la sumatoria será positiva. La mayoría de los casos estarán en el primer y el tercer cuadrantes.  Si los productos negativos son más que los positivos, la sumatoria será negativa. La mayoría de los casos estarán en el segundo y el cuarto   cuadrantes. Si los productos negativos son iguales o similares a los positivos, la sumatoria será mínima o nula. Los casos estarán repartidos en los 4 cuadrantes.  Véanse la columna F de de MatLengCor.xls y la gráfica CorMatLengEjesDesplazados.

 2.5.3.4.    El significado del cociente

 El valor máximo del dividendo es el valor del divisor. Por lo tanto, el cociente máximo de la fórmula es 1. Como ese cociente es la r de Pearson, el valor máximo de ésta es 1. Como el dividendo puede ser positivo o negativo, mientras que el divisor (por ser el producto de dos variables elevadas al                                         cuadrado) siempre es positivo, el signo de r depende del dividendo.

 

  2.5.4.         Intervalo de confianza para r de Pearson

 

Véase el archivo IcPearson.xls

 

2.5.4.1.    Fórmula:

 

 

2.5.4.2.    Observaciones:

2.5.4.2.1.                       El signo de la r es el signo que adopta G(r) antes de que se reste y sume a ella zσG.

2.5.4.2.2.                       Cuando el intervalo de confianza de r pasa por cero, la hipótesis nula no puede descartarse con el nivel de confianza con que se calculó el intervalo.

 

2.5.4.3.    Calcular intervalo de confianza de r:

Intervalo de confianza de r=.2951, NC=95%,n=1619

Acción

Símbolo

Resultado

 

En la columna r de se encuentra el renglón cuya cifra sea la más cercana a la r conocida (.295). En ese renglón se localiza la cifra en la columna de la derecha.

G(r)=

0.304

z para 95% de NC                                                                   

z=

1.96

Raíz cuadrada de (n-3)

√n-3

40.2

Dividir 1 entre √n-3

1/√n-3

0.025

Multiplicar z por

z(1/√n-3)

0.049

LI=G(r) - (z(1/√n-3))=0.304  - 0.049

G(r)LI=

0.255

LS=G(r) + (z(1/√n-3))= =0. 304 + 0.049

G(r)LS=

0.352

Encontrar G(r)LI, o una cifra cercana, en las columnas G(r) del cuadro G.

En la columna r de ese renglón están los dos primeros decimales de r(LI).

(r)LI=

.250

Encontrar G(r)LS, o una cifra cercana, en las columnas G(r) de E.

En la columna r de ese renglón están los dos primeros decimales de r(LS).

(r)LS=

.340

(r)LS - (r)LI

IC=

.250/.340

 

2.5.4.4.    Interpretación e inferencia. Podemos así inferir, con un nivel de confianza de 95%, que existe  asociación entre niveles de escolaridad y de ingreso, porque  el coeficiente r de Pearson no pasa por cero. Podemos descartar la hipótesis nula. Son aceptables las hipótesis de correlación que estén dentro del IC.

 

Iván Zavala Echavarría, 20 de febrero de 2015