Análisis cuantitativo, 2017-1

4.  La inferencia estadística

 

4.1.              La inferencia estadística, o inducción estadística, es el procedimiento mediante el cual atribuimos a poblaciones cálculos obtenidos de muestras. Se pasa de lo particular a lo general. Tiene su fundamento matemático en el Teorema del Límite Central. Dos de sus aplicaciones primeras son los cálculos de intervalos de confianza y de tamaños de muestras obtenidas por el azar.

 

4.2.              La distribución normal. Se expresa en un tipo de curvas en forma de campana, cada una caracterizada por los valores de la media y de la desviación típica. Este tipo de curvas tiene la propiedad de que, para cada valor fijo de z (ver adelante), la probabilidad concentrada a la derecha de μ +zσ es la misma para todas las distribuciones normales. μ es la media de la variable en la población, y σ es su desviación típica. La distribución normal típica tiene μ=0 y σ=1. La forma exacta de una distribución normal particular es determinada por los valores de μ y de σ. El valor de la cifra z es el número de desviaciones típicas que cada variable tiene con respecto de la media. La regla empírica es una aplicación de la distribución normal típica.

 

4.3.              Teorema del límite central. Para muestras suficientemente grandes, a medida que aumenta n (el número de muestras), la distribución de las medias de muestras aleatorias extraídas de cualquier población, es aproximadamente normal. Incluso en una variable con una distribución muy poco normal, sus medias tienen una distribución casi normal. Entre mayor es la muestra, mayor es la normalidad de la distribución.

 

4.4.              Nivel de confianza

Es el coeficiente de confianza, llamado también valor P, expresado en porcentajes. Este coeficiente es la probabilidad de que un IC contenga el parámetro correspondiente si la estimación es calculada un gran número de veces (a partir, por lo tanto, de un gran número de muestras). Mide la credibilidad de la estimación. De manera menos precisa, indica que el investigador tiene confianza de acertar en un cierto porcentaje de veces. El valor P lo determina el propio investigador. Para obtener el nivel de confianza, se multiplica P por 100. Por ejemplo, si el coeficiente de confianza es .95, el nivel de confianza es 95%.

 

4.5.              Nivel de significación

Es la diferencia de 1 menos el coeficiente de confianza, o de 100 menos el nivel de confianza. De manera menos precisa, indica que el investigador se resigna a estar equivocado en un cierto porcentaje. No hay que confundir esta resignación al error con el margen de error (B) que veremos en el tema 4. Ese margen depende del intervalo de confianza, el cual depende, como vimos antes, del nivel de confianza y del tamaño de la muestra. Entre mayor es el nivel de confianza, siendo igual el tamaño de la muestra, mayor es el intervalo de confianza, y, por lo tanto, mayor el margen de error (es decir, menos precisa es la estimación). Por ejemplo, si el nivel de confianza del porcentaje de analfabetos lo aumentamos de 95% a 99%, manteniendo n=1837, el IC aumenta de 2% a 2.6%. Entre mayor es el tamaño de la muestra, manteniendo igual el nivel de confianza, menor es el margen de error (es decir, más precisa es la estimación). Por ejemplo, si mantenemos el nivel de confianza de la estimación mencionada en 95% y aumentamos n de 919 a 1837, el IC pasa de 2.8% a 2.0%, es decir disminuye en .8%.

 

He aquí los niveles de confianza más usados, con sus niveles de significación y sus valores z:

                               NdeC                     NdeSig                   %                            z__________

                               90%                       .10                          10%                       1.65

                               95%                       .05                          5%                          1.96

                               99%                       .01                          1%                          2.57

 

 

5.                      Pruebas de hipótesis

5.1.              Estimaciones y parámetros.

 

Hay que distinguir entre estimaciones y parámetros. Las primeras son medidas o cálculos a partir de muestras. Los segundos se calculan o se refieren a la población. Los intervalos de confianza son calculados a partir de muestras, pero se refieren a la población que, en el fondo, es la que interesa en cualquier investigación. Las estimaciones se escriben con letras latinas o con letras griegas con circunflejo o "sombrero". Por ejemplo, la desviación típica de la muestra puede indicarse con s o con σ con circunflejo, como en las fórmulas que están adelante; esa medida para poblaciones se representa con σ sin circunflejo.

 

 

5.2.              Hipótesis nulas y alternativas

El conjunto de valores del Intervalo de Confianza constituyen las hipótesis alternativas, las que implican que hay relación entre las variables analizadas. Los valores que no están en ese intervalo forman el conjunto de las hipótesis nulas. Este lenguaje es una secuela de los tiempos en que lo que se sometía a prueba, en estadística, era la ausencia de relaciones entre las variables, no la existencia de esas relaciones. Los hermanos Thomas y Ronald Wonnacott influyeron mucho en ese cambio de perspectiva, que ha clarificado mucho el proceso de probar hipótesis.

 

5.3.              Intervalo de confianza para la proporción de un parámetro

 

El intervalo de confianza (IC) es un intervalo de números dentro del cual se cree que está la proporción del parámetro. La fórmula es:

 

 

 

en donde

 

p= Proporción o porcentaje.

 

z= Score de probabilidad. Es una cifra usada es estadística, entre otras cosas, para medir la normalidad de una variable. Tiene muchos valores, como puede verse en cualquier cuadro de valores z. En este curso usaremos, principalmente, los tres que aparecen al final del tema anterior. Ésta es la fórmula:

 

 

 

 

donde:

n=tamaño de la muestra.

 

5.4.              Tamaño de muestras para estimar proporciones

 

Fórmula:

  

 

 

 

 

en donde:

z= score de probabilidad, y B=error máximo de un lado. B es la mitad del IC.

Observación : Este tamaño de muestra depende del score z y del error máximo de un lado, no del tamaño de la población.

 

Iván Zavala Echavarría, 9 de agosto de 2016