Procesamiento de Datos, 2015-2

 3. Regresión lineal simple

3.1.              Datos

 

La regresión lineal usa datos de intervalo, y también datos ordinales. Un dato es de intervalo si se expresa en diferentes magnitudes, ordenadas de más a menos, o viceversa, definiendo las magnitudes de los intervalos entre los valores. Ejemplos: los datos de la variables v328 y v352a en Valorsel.sav. Un dato es ordinal si se expresa en diferentes magnitudes, ordenadas de más a menos, o viceversa, sin definir la magnitud de los intervalos entre los valores. Ejemplos: los datos de la variables v328a y v352b en esa base de datos.

 

3.2.              Qué es. La regresión lineal es una técnica para medir la forma de la relación entre dos tipos de variables -una dependiente y una o varias independientes-, de manera que el valor de una variable – la dependiente - es una función lineal de otra u otras variable(s) -la o las independiente(s). Cuando hay una variable independiente, la regresión lineal se llama simple. Cuando hay dos o más variables independientes, la regresión lineal se llama múltiple. La variable dependiente es aquella cuya varianza -o, dicho menos precisamente, conducta o movimiento- debe ser explicada por la regresión. Suele expresarse con la letra Y. La variable independiente es la que pretende explicar la varianza de Y. Suele expresarse con la letra X. También suele llamarse regresor. Se dice que Y se regresa en X.

 

3.3.              Supuestos. Son dos principales:

- X es un factor en la producción de Y. O, diçho menos precisamente, X es una causa de Y. Por lo tanto, la relación entre ambas no es simétrica sino causal.

- La distribución de Y es normal para cada valor de X.

 

3.4.              Los elementos fundamentales de la regresión lineal son la pendiente, la intersección y el error. La pendiente (b) indica el aumento en Y por el aumento de una unidad en X. Esto es, un incremento de una unidad en X da lugar a un cambio de b unidades en Y. Si b es positiva, Y aumenta conforme X aumenta. La recta va, en este caso, hacia arriba. Si b es negativa, Y disminuye conforme X aumenta. La recta va, en este caso, hacia abajo. Si b=0, Y es constante, y la recta es horizontal. La intersección (a) es el punto de intersección del eje Y con la recta de ajuste. El error (e) indica la diferencia entre la Y observada y la Y que habría  (llamada “ajustada”, para distinguirla de la media de Y) para cada caso si la relación fuera perfecta, es decir si Yi cayera sobre la línea recta. Otro nombre del error es residuo.

 

3.5.              Fórmulas (para muestras):

 

 

 

Cálculos de a y b:

 

 

 

 

 

 

donde

 

 

 

 

 

 

Intervalo de confianza de β:

 

 

 

donde

 

 

donde

 

donde

 

 

 

 

donde

 

 

3.6.              Fórmula desarrollada en Excel

Véase archivo MatLengFormulaRegresion.xls

 

3.7.          Instrucciones para SPSS, para versión 17 en español

 

3.7.1.       Obtener a y b:

3.7.1.1.    Abrir archivo Matleng.sav

3.7.1.2.    Analizar/Regresión/lineales. Aparece la caja de diálogo Regresión lineal.

3.7.1.3.    En el panel izquierdo seleccionar “Matemati”. Con la flecha que une ambos paneles, mover esa variable al panel derecho titulado “Independientes”.

3.7.1.4.    En el panel izquierdo seleccionar “lengua”. Con la flecha que une ambos paneles, mover esa variable al panel derecho titulado “Dependientes”. En “Estadísticos”, verifique que están palomeados “Estimaciones”, “Intervalos de confianza” al 95 % de Nivel de Confianza, y “Ajuste del modelo”. Continuar.

3.7.1.5.          Oprima una vez la tecla izquierda del ratón sobre “Aceptar. Grabe el resultado como MatLengRegresion, seguido de los 9 dígitos de costumbre.

 

3.7.2.               Hacer el diagrama de dispersión

7.7.2.1.    Vaya a Gráficos/Generador de gráficos. Se abre la caja Generador de gráficos.

7.7.2.2.    En la parte inferior de esa caja, seleccionar Dispersión/Puntos, y la primera figurita. Aparece, en la parte superior derecha, un borrador del Diagrama de Dispersión.

7.7.2.3.    Arrastre “lengua” al eje vertical y “matemati” al horizontal. Aparece el diagrama suscinto. Aceptar. Aparece, en la ventana de resultados, el Diagrama de Dispersión.

7.7.2.4.    Oprima una vez la tecla derecha del ratón. En la ventana que aparece, seleccionar Editar contenido/En otra ventana. Aparece la ventana del Editor de Gráficos.

7.7.2.5.    Seleccione Elementos/Línea de Ajuste total.

7.7.2.6.    Selecciones Editar/Copiar gráfico.

7.7.2.7.    Péguelo a Paint.  Después de verificar que la carpeta es PD, grabe la gráfica como AjusteRegresion.jpg seguido de los 9 dígitos de costumbre.

 

 

3.8.              Interpretación

 

Con un 95% de nivel de confianza, para n=8, no se puede rechazar la hipótesis nula porque el intervalo de confianza pasa por 0. Observe lo que sucede si n se cambia a  1,000.

 

3.9.              Analizar gráficas

MatLengRegresionLinealSimpleAnotada180506.bmp

RegresiónReal.bmp

RegresionEsperada.bmp

4.                  Regresión lineal múltiple

 

4.1.            Entrando en la infinita complejidad de la realidad social

La regresión lineal múltiple (en adelante, RLM) es la primera técnica que expresa, en términos estadísticos, la complejidad de las relaciones sociales. Excepto en la correlación parcial, hasta ahora hemos aprendido a conocer, usando varias técnicas, la relación entre dos variables de la realidad social. Las relaciones sociales nunca son tan sencillas. Nunca una sola variable produce sola otra variable. Por lo menos dos variables concurren para producir otra. Dicho menos precisamente, un hecho social nunca tiene una sola explicación. La realidad es multivariada.

 

4.2.            Solución de problemas de la regresión simple

 

La regresión lineal múltiple tiene sobre la simple por lo menos dos ventajas:

 

4.2.1.         El coeficiente de regresión simple puede estar sesgado en alguna medida por el efecto indirecto de un regresor omitido, siempre que éste se encuentre correlacionado con las otras variables. Incorporar el regresor omitido ayuda a evitar ese sesgo; o, dicho de otra manera, ayuda a la reducción del error estocástico, que consiste en la influencia que muchas variables omitidas tienen sobre Y.

 

4.2.2.         Otra ventaja que ofrece la regresión múltiple es la reducción de la varianza residual. Como vimos, la estimación es tanto más precisa cuanto menor es la  varianza residual.

 

4.3.            Supuestos

Al ser una extensión de la simple, la RLM (regresión lineal múltiple) tiene sus mismos supuestos.

 

4.4.            Dos o más variables independientes

Todas las diferencias entre regresión lineal simple y la RLM derivan de que ésta considera dos o más variables independientes. Hablaremos ahora, por lo tanto, no de X a secas sino de X1, X2, ... Xk.

 

4.5.            Elementos fundamentales

En la RLM ellos son  como, en la simple, la pendiente β (b para muestras) y la intersección α (a para muestras). Las fórmulas que siguen omiten, para mayor claridad el error. El parámetro β1 (b1 para muestras) indica el efecto en Y del aumento de X1 en una unidad, manteniendo X2 constante. Igualmente,  β2 (b2 para muestras) indica el efecto en Y del aumento de X2 en una unidad, manteniendo X1 constante. En general, en un modelo con k variables independientes, el coeficiente βi (bi para muestras) de Xi describe el cambio en la media de Y cuando hay un incremento de una unidad en Xi, controlando por las otras (k-1) variables. β1, β2, βk (b1, b2, bk para muestras) se llaman coeficientes de regresión parcial. El parámetro α (a para muestras) es la media condicional de Y cuando cada una de las variables independientes es 0.

 

4.6.            Fórmulas

 

4.6.1.         Para obtener la media, o E(Y), de la variable dependiente para poblaciones:

 

 

donde E(Y) es la media de la variable dependiente.

 

4.6.2.       Para obtener los dos coeficientes para muestras:

4.6.2.1.    Obtener b1 según la fórmula de la regresión simple.

4.6.2.2.    Obtener b1 y b2 según las fórmulas siguientes:

 

 

4.6.2.2.1.                     

  

 

4.6.2.2.2.                       

 

En la primera fórmula, se substituye b1 por el coeficiente de regresión simple. En la segunda fórmula, se resuelve la ecuación por b2.

 

4.7.          Instrucciones para SPSS

4.7.1.       Obtener a y bes:

4.7.1.1.    Abrir archivo Mx91Orden.sav, o descomprima: Mx91Orden.zip

4.7.1.2.    Analizar/Regresión/Lineales. Aparece la caja de diálogo Regresión lineal.

4.7.1.3.    En el panel izquierdo seleccionar “v116”y “v363”. Con la flecha que une ambos paneles, mover esas variables al panel derecho titulado “Independientes”.

4.7.1.4.    En el panel izquierdo seleccionar “v96”. Con la flecha que une ambos paneles, mover esa variable al panel derecho titulado “Dependientes”. En “Estadísticos”, verifique que están palomeados “Estimaciones”, “Intervalos de confianza” y Ajuste del modelo”.

4.7.1.5.    Oprima una vez la tecla izquierda del ratón sobre “Aceptar”. Grabe el resultado en la carpeta PD así: Archivo/Grabar como/ FelicidadTrabajoRLM, seguido de los 6 dígitos de costumbre (por ejemplo FelicidadTrabajoRLM160603).

 

4.7.2.         Hacer el plano de dispersión

4.7.2.1.     Datos/Seleccionar casos/Muestra aleatoria de casos/Ejemplo/10%/Continuar/Aceptar. 

4.7.2.2.     Gráficos/Cuadros de diálogo antiguos/Dispersión Puntos/Dispersión 3-D/Definir.

4.7.2.3.    Entre a la pestaña titulada “Fit” (ajuste). En “Method”, seleccione “Regression” (regresión). OK (aceptar).

4.7.2.4.    En el panel izquierdo seleccione “v96” y arrástrela al eje vertical del panel derecho. Haga lo mismo para mover la variables “v116” al eje horizontal, y repita esta operación para mover “v363” al eje que está entre el vertical y el horizontal. Oprima una vez la tecla izquierda del ratón sobre “Aceptar”. Aparece el diagrama  en la ventana de “Output” (resultado).

4.7.2.5.    Oprima una vez la tecla derecha del ratón. En la ventana que aparece, seleccionar SPSS Interactive Graph Object/Edit (editar objeto de gráfica de SPSS). Mueva la caja del controlador de ejes hacia el ángulo superior derecho de la pantalla.

4.7.2.6.    Oprima una vez la tecla izquierda del ratón sobre cualquier parte de con fondo blanco, fuera del plano de regresión. Se dibuja un cubo, con los casos flotando en un espacio tridimensional.

4.7.2.7.    Coloque el ratón sobre cualquier parte del plano de regresión donde estén los coeficientes. Oprima una vez la tecla izquierda del ratón. Aparecen varias opciones. Seleccione “Hide label” (oculte el letrero).

4.7.2.8.    Coloque el ratón sobre cualquier parte fuera del cubo. Oprima una vez la tecla derecha. Seleccione Export/Charts Only//JPEG File/

4.7.2.9.    Oprima una vez la tecla izquierda del ratón sobre el botón Browse. Verifique que el directorio que aparece es PD y que el tipo de gráfica es JEPG. Grabe la gráfica como FelicidadTrabajoRLM, seguido de los 6 dígitos de costumbre (por ejemplo FelicidadTrabajoRLM13603).

 

4.8.            Interpretación de los resultados principales de SPSS

 

Están en el cuadro titulado “Coefficients” (coeficientes). Los resultados que importan son las dos últimas cantidades en la columna titulada B, las cantidades respectivas para la columna titulada “Sig.” (que se refiere al nivel de probabilidad de la hipótesis nula, es decir que la variable independiente respectiva no tiene efecto en la variable dependiente), así como el último par de columnas titulados “95 % Confidence Interval for B” (95 % de IC para B). En el segundo renglón están los coeficientes para la variable v116, “Satisfacción con el trabajo”; en el tercero, los correspondientes a la variable v363, “Nivel de ingresos”.

 

Esos coeficientes se interpretan así:

 

B=.587, Sig= 0.000 y IC=.530/.643. El nivel de satisfacción con la vida (v96) se incrementa en .587 por cada incremento en una unidad del nivel de satisfacción con el trabajo (v116), manteniendo constante el nivel de ingresos (v363). El nivel de probabilidad de que no exista ese efecto es 0.000. El IC es 530/.643. Al no pasar por 0, podemos rechazar la hipótesis nula.

 

B=.008, Sig= 0.804 y IC= -.053/.068.  El nivel de satisfacción con la vida (v96) se incremente en .008 (es decir, casi nada) por cada incremento de una unidad del nivel de ingresos (v363), manteniendo constante el nivel de satisfacción con el trabajo (v116). El nivel de probabilidad de que no exista ese efecto es 0.804. El IC es -.053/.068. Al pasar por 0, no podemos rechazar la hipótesis nula, de que x2 no influye en Y.

 

4.9.            Interpretación del plano de dispersión

4.9.1.         Observe atentamente las dos caras más visibles del cubo: la frontal y la que está a su derecha.

4.9.2.         Observe que la cara derecha es la recta de ajuste de la B1, y que la de la izquierda es la recta de B2. Observe que la primera muestra una clara pendiente con respecto al eje X1, porque esta variable influye bastante en Y. Observe, finalmente, que la segunda es casi paralela con respecto al eje X2, porque esta variable casi no influye en Y.

 

               5                      Regresión logística

 

5.1               Contexto

 

La Regresión Logística (RL) es una extensión de la regresión. En Regresión Logística, la variable dependiente es nominal dicotómica, con valores 0 y 1.

 

5.2           Características distintivas.  Aunque es, en su mayor parte, similar a la regresión lineal, la regresión logística tiene las siguientes características distintivas:

5.2.1        La variable dependiente es dicotómica, con valores 0 y 1

5.2.2        Los valores de las variables independientes pueden ser cualesquiera.

5.2.3        En el diagrama de dispersión, los valores del eje y tiene un rango de 0-1.

 

5.3           El problema del modelo lineal

 

5.3.1        Descomprima: titanic2.zip

5.3.2        Diagrama de dispersión de Sobrevivientes en Edad

5.3.2.1     Archivo/Nuevo/Sintaxis

DATASET ACTIVATE Conjunto_de_datos1.

GRAPH

  /SCATTERPLOT(BIVAR)=Edad2 WITH Sobreviviente

  /MISSING=LISTWISE.

5.3.2.2     Opcional: guardar el archivo de sintaxis

5.3.2.3     Observe todos los casos agrupados en sólo dos valores, 0 y 1. No hay línea ni curva de ajuste.

 

5.3.3        Momios y razones de momios

5.3.3.1     Obtenga el cuadro de Sexo por Sobreviviente:

5.3.3.1.1   Archivo/Nuevo/Sintaxis

CROSSTABS

 /TABLES= Sexo BY Sobreviviente

  /FORMAT=AVALUE TABLES

 /CELLS=COUNT ROW

 /COUNT ROUND CELL.

5.3.3.1.2   Opcional: guardar el archivo de sintaxis.

5.3.3.2     Observe lo siguiente:

5.3.3.2.1   344/126=2.7301 son los momios de mujeres sobrevivientes a mujeres no sobrevivientes. Esto es lo mismo que dividir los porcentajes correspondientes: .7319/.2681=2.7299. Los momios se leen así, en este caso: los momios de sobrevivencia para las mujeres son de 2.71 a 1. Esta relación también se expresa así: 2.71: 1

5.3.3.2.2   367/1364=0.269 son los momios de hombres sobrevivientes a hombres no sobrevivientes. Esto es lo mismo que dividir los porcentajes correspondientes: .2180/.7880=0.269. Los momios se leen así, en este caso: los momios de sobrevivencia para los hombres son de 0.269 a 1. Esta relación también se expresa así:  0.269: 1

5.3.3.2.3   La razón de esos dos momios, de hombres a mujeres sobrevivientes  es: 0.269/2.7299=0.09855348.

5.3.3.3     Otro ejemplo de cuadro con sintaxis de SPSS, con el archivo chdage.sav:

CROSSTABS

  /TABLES=agrp Y CHD

  /FORMAT= AVALUE TABLES

  /CELLS= COUNT

  /COUNT ROUND CELL .

 

Los momios son formas de probabilidad.

 

 5.4               Logaritmos naturales de las razones de momios

Véase archivo  EdadYCardiopatiaResultadosSPSSCoeficienteExponenteLogOddRatio.xls

 

5.4.1          Ventajas y desventajas de de los coeficientes como logaritmos naturales[i] de razones de momios.

5.4.1.1     Ventajas

5.4.1.1.1                         Los logaritmos, a diferencia de las probabilidades, no tienen límites inferior o superior.

5.4.1.1.2                         Tienen un origen simétrico, 0.

5.4.1.1.3                         Pueden ser representados como una combinación lineal de variables.

5.4.1.1.4                         Por ello, son  más susceptibles de ser usados como variables dependientes.

5.4.1.2     Desventajas

La mayor, es que su interpretación no siempre es fácil.

5.4.1.3     “logit”. Así se llama al logaritmo natural de las razones de momios. Por eso esta regresión se llama “logística”.

 

5.5        Instrucciones para SPSS:

 

5.5.1     Descomprima el archivo chdage.zip

 

5.5.2     Obtener coeficiente

5.5.2.1  Analizar/Regresión/Logística binaria/Dependiente: CHD/Covariable: agrp /  Guardar: Probabilidades/Aceptar.

5.5.2.2  Grabe los resultados en PD como Cardiacosxxxyyyyyy

 

5.5.3     Obtener diagrama de dispersión

5.5.3.1  Archivo/Nuevo/Sintaxis

GRAPH

  /SCATTERPLOT(BIVAR)=agrp WITH CHD

  /MISSING=LISTWISE.

5.5.3.2     Editar contenido / En otra ventana/Elementos / Añadir una línea de Interpolación / LíneaSp /Aplicar/Cerrar/Edita/Copiar gráfico. Antes de copiarlo, verifique que la gráfica tiene una forma de S.

5.5.3.3     Paint/Pegar/ Grabe el diagrama en PD como: CardiacosLogisticaDiagramaDispersionxxxyyyyyy

 

 

5.6             Interpretación de los resultados  con logit de 5.5.2 (Obtener coeficiente).

5.6.1          Cuando X aumenta en una unidad, los valores predichos aumentan en b, expresada en logaritmos naturales de la razón de momios.

5.6.2          Exp(B) – Esto es la exponenciación del coeficiente de regresión, que se expresa, como vimos, en logaritmos naturales de la razón de momios.

5.6.3          . Este valor aparece en SPSS como resultado por defecto porque una razón de momios puede ser más fácil de interpretar que el coeficiente, el cual está en logaritmos naturales de la razón de momios.  Coeficiente=. 558; Exp(B)= 1.7471. Sig= El nivel de significación de la hipótesis nula.

 

5.7               Bibliografía optativa

5.7.1          Agresti, Alan. Categorical Data Analysis, third edition, John Wiley and Sons, New York, 710 p.

5.7.2          Hosmer, David W.; Lemeshow, Stanley. Applied Logistic Regression, Second edition, John Wiley and Sons, New York, 375 p.

 

Iván Zavala Echavarría

24 de abril de 2015


 

[i] Logaritmos de base= 2.718281828, llamada también  “constante de Euler”.