Estadística Aplicada a la Educación: 2012

ESTADÍSTICA APLICADA
A LA EDUCACIÓN

La Estadística inferencial: estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.

PRUEBA T DE STUDENT

La prueba t-Student fue desarrollada en 1899 por el químico inglés William Sealey Gosset (1876-1937), mientras trabajaba en técnicas de control de calidad para las destilerías Guiness en Dublín . Debido a que en la destilería, su puesto de trabajo no era inicialmente de estadístico y su dedicación debía estar exclusivamente encaminada a mejorar los costes de producción, publicó sus hallazgos anónimamente firmando sus artículos con el nombre de "Student".

Pruebas de Hipótesis

Una hipótesis estadística es una suposición hecha con respecto a la función de distribución de una variable aleatoria.

En la prueba de una hipótesis estadística, es costumbre declarar la hipótesis como verdadera si la probabilidad calculada excede el valor tabular llamado el nivel de significación y se declara falsa si la probabilidad calculada es menor que el valor tabular.

La prueba a realizar dependerá del tamaño de las muestras, de la homogeneidad de las varianzas y de la dependencia o no de las variables.

Si las muestras a probar involucran a más de 30 observaciones, se aplicará la prueba de Z, si las muestras a evaluar involucran un número de observaciones menor o igual que 30 se emplea la prueba de t de student. La fórmula de cálculo depende de si las varianzas son homogéneas o heterogéneas, si el número de observaciones es igual o diferente, o si son variables dependientes.

Se puede describir la prueba t de Student como aquella que se utiliza en un modelo en el que una variable explicativa (var. independiente) dicotómica intenta explicar una variable respuesta (var. dependiente) dicotómica. Es decir en la situación: dicotómica explica dicotómica.

La prueba t de Student como todos los estadísticos de contraste se basa en el cálculo de estadísticos descriptivos previos: el número de observaciones, la media y la desviación típica en cada grupo. A través de estos estadísticos previos se calcula el estadístico de contraste experimental. Con la ayuda de unas tablas se obtiene a partir de dicho estadístico el p-valor. Si p<0,05 se concluye que hay diferencia entre los dos tratamientos.

PARA APLICAR LA T DE STUDENT SE DEBE CUMPLIR QUE

En cada grupo la variable estudiada siga una distribución Normal y que la dispersión en ambos grupos sea homogénea (hipótesis de homocedasticidad=igualdad de varianzas).
Si no se verifica que se cumplen estas asunciones los resultados de la prueba t de Student no tienen ninguna validez.

TIPOS DE PRUEBA DE HIPÓTESIS

HIPOTESIS NULA= Ho

Es aquella que nos dice que no existen diferencias significativas entre los grupos

Una hipótesis nula es importante por varias razones:

ü Es una hipótesis que se acepta o se rechaza según el resultado de la investigación.

ü El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al azar.

ü No toda investigación precisa de formular hipótesis nula. Recordemos que la hipótesis nula es aquella por la cual indicamos que la información a obtener es contraria a la hipótesis de trabajo.

ü Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se enuncia que la causa determinada como origen del problema fluctúa, por tanto, debe rechazarse como tal.

HIPÓTESIS ALTERNATIVA= Ha

Es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos muestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro.

PRUEBA T DE STUDENT PARA DATOS RELACIONADOS

Consideraciones para su uso

El nivel de medición, en su uso debe ser de intervalo o posterior.

El diseño debe ser relacionado.

Se deben cumplir las premisas paramétricas

PRUEBA T PARA MUESTRAS INDEPENDIENTES

El procedimiento Prueba T para muestras independientes debe utilizarse para comparar las medias de dos grupos de casos, es decir, cuando la comparación se realice entre las medias de dos poblaciones independientes (los individuos de una de las poblaciones son distintos a los individuos de la otra) como por ejemplo en el caso de la comparación de las poblaciones de hombres y mujeres. Lo ideal es que para esta prueba los sujetos se asignen aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores.

Prueba T

Enunciado

En el L.B Departamento Libertador, la sección de 3^ro A del año escolar 2011-2012 fue sometida a prueba para determinar el nivel de conocimiento que los estudiantes tenían sobre la célula animal antes y después de ver un video ilustrativo sobre el tema. Los resultados se presentan a continuación.

Calificaciones
Estudiante	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
Antes de ver el video	12	15	14	13	17	15	16	18	14	13	12	07	17	16	15
Luego de ver el video	17	18	14	19	20	17	16	17	19	19	16	10	17	19	20

Variable Dependiente: Calificaciones obtenidas.

Variable Independiente: El video utilizado.

Tipo de Prueba T: Prueba T para muestras relacionadas.

Ho. No existe diferencia significativa entre las calificaciones obtenidas que presentaron los estudiantes antes y después de ver el video ilustrativo sobre la célula animal.

Ha. Sí existe diferencia significativa entre las calificaciones obtenidas que presentaron los estudiantes antes y después de ver el video ilustrativo sobre la célula animal.

	Diferencias relacionadas					t	gl	Sig. (bilateral)
	Media	Desviación típ.	Error típ. de la media	95% Intervalo de confianza para la diferencia
				Superior	Superior
Par 1 Tradicional - CTS	-2,933	2,314	,597	-4,215	-4,215	-4,911	14	,000

Análisis

P=0,000 0,000< 0,05

α= 0,05 P < α

Se rechaza Ho

Con un 95% de confiabilidad se estima que Sí existe diferencia significativa entre las calificaciones obtenidas que presentaron los estudiantes de 3^ro A del L.B Departamento Libertador, la sección 2011-2012 antes y después de ver el video ilustrativo sobre la célula animal.

Chi-cuadrado

El Test Chi-cuadrado Es muy usual la necesidad de hacer una comparación global de grupos de frecuencias. Para este problema el método es diferente, pues el test que se utiliza se denomina Chi-Cuadrado de Pearson, y con ese test lo que queremos determinar es si la frecuencia observada de un fenómeno es significativamente igual a la frecuencia teórica prevista, o sí, por el contrario, estas dos frecuencias acusan una diferencia significativa para, por ejemplo, un nivel de significación del 5%. Las posibles aplicaciones son muchas: elección de un cartel turístico publicitario presentado a grupos de clientes; comparar la rentabilidad de un proyecto hotelero en dos espacios turísticos; determinar las preferencias o gustos de los turistas por determinados espacios geográficos, o por determinados servicios hoteleros,

El método que se sigue es el siguiente:

1) Se designan las frecuencias observadas con letras minúsculas y con letras mayúsculas las frecuencias esperadas o teóricas.

2) Las frecuencias se presentan en cuadros o tablas con un cierto número de columnas y de filas.

PRUEBAS NO PARAMÉTRICAS:

Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre (distribution free). En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión

PRUEBA DE BONDAD DE AJUSTE, consiste en determinar si los datos de cierta muestra corresponden a cierta distribución poblacional. En este caso es necesario que los valores de la variable en la muestra y sobre la cual queremos realizar la inferencia esté dividida en clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, deberemos categorizar los datos asignado sus valores a diferentes clases o grupos

chi – cuadrado para una muestra se utiliza cuando:

Ø Cuando los datos puntualizan a las variables cualitativa (nominal u ordinal).

Ø Poblaciones pequeñas.

Ø Cuando se desconocen los parámetros media, moda,

Ø Cuando se quiere contrastar o comparar hipótesis.

Ø Investigaciones de tipo social - muestras pequeñas no representativas >5.

Ø Población > a 5 y < a 20

Su función es comparar dos o más de dos distribuciones de proporciones y determinar que la diferencia no se deba al azar (que las diferencia sea estadísticamente significativa)

La prueba de X2 se aplica en situaciones como estas:

a) Probar la bondad de ajuste de la distribución de una variable en la naturaleza a una distribución teórica.

b) Probar la independencia entre variables cualitativas.

Requisitos para poder aplicar la prueba de X2:

1. Trabajar con frecuencias. Si se trabaja con porcentajes hay que aplicar una corrección, para transformarlas en frecuencias absolutas.

2. Las clases deben ser mutuamente excluyentes, es decir, un individuo u observación debe caer solamente dentro de una de ellas.

3. Las clases deben ser exhaustivas, es decir, todos los individuos deben quedar incluidos en algunas de las clases.

4. Las variables deben ser discretas y cualitativas (Escalas Nominal y Ordinal).

5. Las sumas entre las frecuencias absolutas y observadas y las frecuencias absolutas esperadas (calculadas) deben ser igual a cero.

6. Se deben considerar también el tamaño de la muestra (n), pues a medida que esta disminuye, la eficiencia de X2 , como una medida de ajuste entre distribuciones de frecuencias, también disminuye. Se sugiere un valor mínimo de n ≤ 50.

7. Debe evitarse la presencia de frecuencias absolutas calculadas muy pequeñas en las casillas individuales. Si la frecuencia teórica es < que 1 la prueba Chi cuadrado no puede ser usada.

Enunciado

En un estudio realizado a 75 familias de Barquisimeto en el año 2012. Se consideraron las variables “Nivel de conocimiento sobre los métodos anticonceptivos” y el “Número de hijos” los resultados obtenidos se ubican en la siguiente tabla:

Nivel de conocimiento	Número de hijos
Nivel de conocimiento	1-3 hijos	3-5 hijos	Más de 6 hijos	Total
Poco	8	9	10	27
Mediano	13	7	8	28
Mucho	14	4	2	20
Total	35	18	22	75

Variable Independiente: Nivel de conocimiento sobre los métodos anticonceptivos.

Variable Dependiente: Número de hijos.

Tipo de análisis: Chi cuadrado, “Tabla de contingencia”

Ho. No existe asociación entre el nivel de conocimiento de la madre sobre los métodos anticonceptivos y el número de hijos de las familias de Barquisimeto encuestadas en el año 2012.

Ha. Sí existe asociación entre el nivel de conocimiento de la madre sobre los métodos anticonceptivos y el número de hijos de las familias de Barquisimeto encuestadas en el año 2012.

Tabla de contingencia nivel * hijos

Recuento

		hijos			Total
		1-3hijos	3-5hijos	>6hijos	1-3hijos
nivel	Poco	27	0	0	27
	Mediano	8	18	2	28
	Mucho	0	0	20	20
Total		35	18	22	75

Pruebas de chi-cuadrado

	Valor	gl	Sig. asintótica (bilateral)
Chi-cuadrado de Pearson	104,638(a)	4	,000
Razón de verosimilitudes	112,183	4	,000
Asociación lineal por lineal	61,141	1	,000
N de casos válidos	75

a 1 casillas (11,1%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 4,80.

Análisis

P=0,000 0,000 < 0,05

α= 0,05 P < α

Se rechaza Ho

Con un 95% de confiabilidad se estima que Sí existe asociación entre el nivel de conocimiento de la madre sobre los métodos anticonceptivos y el número de hijos de las familias de Barquisimeto encuestadas en el año 2012.

ANÁLISIS DE VARIANZA (ANOVA)

En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.

Las técnicas iníciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.

Existen tres clases conceptuales de estos modelos:

El Modelo de efectos fijos asume que los datos provienen de poblaciones normales las cuales podrían diferir únicamente en sus medias.
El Modelo de efectos aleatorios asume que los datos describen una jerarquía de diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía. Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo tres de muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento.
El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir donde están presentes ambos tipos de factores: fijos y aleatorios.

Supuestos Previos

El ANOVA parte de algunos supuestos que han de cumplirse:

Ø La variable dependiente debe medirse al menos a nivel de intervalo.

Ø Independencia de las observaciones.

Ø La distribución de los residuales debe ser normal.

Ø Homocedasticidad: homogeneidad de las varianzas.

La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal)

El número de grados de libertad (gl) puede separarse de forma similar y corresponde con la forma en que la distribución chi-cuadrado(χ² o Ji-cuadrada) describe la suma de cuadrados asociada.

ANÁLISIS DE LA VARIANZA (ANOVA)

ANOVA son siglas para el análisis de la Variación (ANalysis Of VAriance).

Un ANOVA segrega diversas fuentes de la variación vistas en resultados experimentales.

Conjunto de técnicas estadísticas para conocer el modo en que el valor medio de una variable es afectado por diferentes tipos de clasificaciones de los datos.

Con el análisis de la varianza se pueden ajustar las estimaciones del efecto de un tratamiento según otros factores como sexo, edad, gravedad, etc.

Es una técnica estadística que sirve para decidir/determinar si las diferencias que existen entre las medias de tres o más grupos (niveles de clasificación) son estadísticamente significativas.

Las técnicas de ANOVA se basan en la partición de la varianza para establecer si la varianza explicada por los grupos formados es suficientemente mayor que la varianza residual o no explicada.

El análisis de la varianza (ANOVA) es una técnica estadística de contraste de hipótesis.

Tradicionalmente estas técnicas, conjuntamente con las técnicas de regresión lineal múltiple, de las que prácticamente son una extensión natural, marcan el comienzo de las técnicas multivariantes.

Con estas técnicas se manejan simultáneamente más de dos variables, y la complejidad del aparato matemático se incrementa proporcionalmente con el número de variables en juego.

El análisis de la varianza de un factor es el modelo más simple: una única variable nominal independiente, con tres o más niveles, explica una variable dependiente continua.

Otra alternativa, que aparentemente es más lógica e intuitiva, consiste en comparar, en todas las posibles combinaciones de dos en dos, las medias de todos los subgrupos formados.

En el ANOVA se comparan medias, no varianzas: medias de los subgrupos o estratos originados por los factores de clasificación estudiados.

Un ANOVA entonces prueba si la variación asociada a una fuente explicada es grande concerniente a la variación inexplicada.

Si ese cociente (la estadística de F) es tan grande que la probabilidad que ocurrió por casualidad es baja (por ejemplo, P<=0.05), podemos concluir (en ese nivel de la probabilidad) que esa fuente de la variación tenía un efecto significativo

CONDICIONES GENERALES DE APLICACIÓN.

A- INDEPENDENCIA DE LOS ERRORES I

Los errores experimentales han de ser independientes Se consigue si los sujetos son asignados aleatoriamente. Es decir, se consigue esta condición si los elementos de los diversos grupos han sido elegidos por muestreo aleatorio

B- NORMALIDAD

Se supone que los errores experimentales se distribuyen normalmente. Lo que supone que cada una de las puntuaciones yi.i se distribuirá normalmente.

Para comprobarlo se puede aplicar un test de ajuste a la distribución normal como et de Kolmogov-Smirnov.

C- HOMOGENEIDAD DE VARIANZAS (HOMOSCEDASTICIDAD).

La varianza de los subgrupos ha de ser homogénea σ21 = σ22 = .....= σ2k ya que están debidas al error. Se comprobarán mediante los test de: Razón de varianzas (máx. /min), C de Cochran, Barlett-Box…

ANÁLISIS DE LA COVARIANZA (ANCOVA)

Método de análisis estadístico que es una extensión del análisis de la varianza, que permite ajustar los estimadores del efecto de un tratamiento según posibles covariables y factores.

Es una técnica estadística que combina ANOVA (pues compara medias entre grupos) y análisis de regresión (ajusta las comparaciones de las medias entres los grupos por variables continuas o covariables)

Análisis de Varianza (ANOVA)

El análisis de varianza, como técnica de lo que trata es: si se está estudiando la característica cuyos valores dependen de varias clases de efectos que operan simultáneamente, poder decidir si tales efectos son debido al azar o si realmente son diferentes.

· ¿Cómo funciona el análisis de varianza, en el modelo de clasificación simple? Esta técnica de lo que trata es de expresar una medida de la variación total de un conjunto de datos como una suma de términos, que se pueden atribuir a fuentes o causas específicas de variación; pues bien esta descomposición de la varianza total se denomina: Identidad fundamental. Ella junto a la formación del estadístico de prueba, se refleja en una tabla llamada “ Tabla de Análisis de Varianza”, que resume los principales aspectos teóricos prácticos de la técnica.

· 2 .s 2 se tiene que: Por lo tanto si todas las medias son iguales entonces: , mientras que si alguna es diferente, se puede concluir que De modo que una comparación de varianza puede conducir a una conclusión sobre la igualdad de medias poblacionales. El método que se utiliza es a través de los estimadores de s4. ¿Cómo podemos comparar medias y tomar decisiones a través de la varianza? Hay un corolario que plantea que: Si “k” poblaciones se unen y las varianzas de las “k” poblaciones son iguales a

· El análisis de varianza consiste en dividir la suma de cuadrado total en dos fuentes de variación y proceder al análisis de las mismas, estas son la variación dentro del grupo y la variación entre grupos. Como son variaciones la vamos a expresar como sumas de cuadrados, es decir: SC T = SC D + SC E __ __ __ __ (Y ij - Y) = (Y ij - Y i ) + (Y i – Y)

Enunciado

Se desea evaluar la eficacia (en escala del 1 al 4)de un determinado fármaco para reducir los niveles de ansiedad en pacientes diagnosticados con dicho trastorno. Para ello, se considera la asesoría médica que señala tanto los niveles, como los síntomas que determinan la ansiedad; estos son,Niveles: 1=Bajo nivel de ansiedad, 2=Nivel de ansiedad normal, 3=Nivel de ansiedad elevado, 4=Nivel de ansiedad muy alto y los Síntomas: dilatación de la pupila, sudoración, molestias estomacales, aceleración cardiaca y la piloerección. Ahora bien, para realizar la prueba se selecciona al azar un grupo de 100 pacientes que sufren este problema y se forman aleatoriamente cuatro grupos del mismo tamaño, esto con el fin de responder a ¿Cuál esla eficacia del fármaco para reducir el nivel de ansiedad? Es por ello que a cada grupo se le administra una dosis distinta del fármaco (5, 10, 20 y 30 miligramos respectivamente), al cabo de un tiempo, se lepregunta a cada paciente cuál es la escala conque miden el nivel de ansiedad y los resultados son los siguientes:

5 mg.	10 mg.	20 mg.	30 mg.
4	2	2	2
3	3	2	2
2	4	1	1
3	4	3	2
4	3	1	1
4	3	2	4
2	3	4	3
4	1	2	2
3	2	3	1
2	3	2	1
4	4	1	2
2	3	2	3
3	2	2	2
3	4	2	1
4	3	3	2
3	2	1	2
3	4	2	1
4	3	1	2
4	2	2	2
3	3	2	1
2	2	2	1
3	4	3	3
4	4	2	2
3	3	2	1
4	4	1	2

Solución

Variable Dependiente: Nivel de Ansiedad

Variable Independiente: Dosis del Fármaco

Hipótesis Nula (Ho):La eficacia del fármaco para reducir el nivel de ansiedad en lospacientes que la padecen,es igual para cuando se administra en dosis diferentes.

Hipótesis Alternativa (Ha): La eficacia del fármaco para reducir los niveles de ansiedad en los pacientes que la padecen, depende significativamente de cuando se administran dosis diferentes del tratamiento.

Tipo de Prueba a Aplicar: ANOVA de un factor.

Descriptivos
Ansiedad
	N	Media	Desviación típica	Error típico	Intervalo de confianza para la media al 95%		Mínimo	Máximo
	N	Media	Desviación típica	Error típico	Límite inferior	Límite superior	Mínimo	Máximo
5 miligramos	25	3,20	,764	,153	2,88	3,52	2	4
10 miligramos	25	3,00	,866	,173	2,64	3,36	1	4
20 miligramos	25	2,00	,764	,153	1,68	2,32	1	4
30 miligramos	25	1,84	,800	,160	1,51	2,17	1	4
Total	100	2,51	,990	,099	2,31	2,71	1	4

Prueba de homogeneidad de varianzas
Ansiedad
Estadístico de Levene	gl1	gl2	Sig.
,533	3	96	,661

ANOVA de un factor
Ansiedad
	Suma de cuadrados	gl	Media cuadrática	F	Sig.
Inter-grupos	35,630	3	11,877	18,581	,000
Intra-grupos	61,360	96	,639
Total	96,990	99

Pruebas post hoc

Comparaciones múltiples Variable dependiente: Ansiedad HSD de Tukey
(I) Dosis	(J) Dosis	Diferencia de medias (I-J)	Error típico	Sig.	Intervalo de confianza al 95%
					Intervalo de confianza al 95%
					Límite inferior	Límite superior
5 miligramos	10 miligramos	,200	,226	,813	-,39	,79
	20 miligramos	1,200*	,226	,000	,61	1,79
	30 miligramos	1,360*	,226	,000	,77	1,95
10 miligramos	5 miligramos	-,200	,226	,813	-,79	,39
	20 miligramos	1,000*	,226	,000	,41	1,59
	30 miligramos	1,160*	,226	,000	,57	1,75
20 miligramos	5 miligramos	-1,200*	,226	,000	-1,79	-,61
	10 miligramos	-1,000*	,226	,000	-1,59	-,41
	30 miligramos	,160	,226	,894	-,43	,75
30 miligramos	5 miligramos	-1,360*	,226	,000	-1,95	-,77
	10 miligramos	-1,160*	,226	,000	-1,75	-,57
	20 miligramos	-,160	,226	,894	-,75	,43

*. La diferencia de medias es significativa al nivel 0.05.

Subconjuntos homogéneos

Ansiedad
HSD de Tukey
Dosis	N	Subconjunto para alfa = 0.05
Dosis	N	1	2
30 miligramos	25	1,84
20 miligramos	25	2,00
10 miligramos	25		3,00
5 miligramos	25		3,20
Sig.		,894	,813
Se muestran las medias para los grupos en los subconjuntos homogéneos.
a. Usa el tamaño muestral de la media armónica = 25,000.

Cálculos:

Levenne Sig. = 0,661>α = 0,05

Las varianzas son Homogéneas

No Rechazo Ho para Homogeneidad

ANOVA: P = 0,000<α = 0,05 por lo que: Se Rechaza Ho

Conclusión: Se puede considerar bajo un nivel de confianza del 95% que la eficacia del fármaco para reducir el nivel de ansiedad en los pacientes que la padecen, depende significativamente de cuando se administran dosis diferentes del tratamiento; es decir, hay suficiente evidencia estadística para concluir que existe diferencia significativa entre las dosis del fármaco para reducir los niveles de ansiedad. En este caso, para verificar entre cuáles dosis está la diferencia, se aplicó la prueba de Tukey por tratarse de grupos que poseen el mismo tamaño muestral, donde se obtuvo que las dosis 30 miligramos y 20 miligramos marcan la diferencia significativa, en este caso son las dosis para que el tratamiento sea más efectivo.

Nota: El contraste no paramétrico de Kruskal-Wallis es el equivalente a un análisis de varianza de una sola vía, el cual se aplica generalmente para determinar si varias muestras independientes proceden de la misma población.

REGRESIÓN CORRELACIÓN

En múltiples ocasiones en la práctica cotidiana nos encontramos con situaciones en las que se requiere analizar la relación entre dos variables cuantitativas. Los dos objetivos fundamentales de este análisis serán, por un lado, determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, si los valores de una de las variables tienden a aumentar o disminuir, al aumentar los valores de la otra); y por otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra.

La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación. Sin embargo, el estudio de la correlación es insuficiente para obtener una respuesta al segundo punto: se limita a indicar la fuerza de la asociación mediante un único número, tratando las variables de modo simétrico, mientras que nosotros estaríamos interesados en moldear dicha relación y usar una de las variables para explicar la otra. Para tal propósito se recurrirá a la técnica de regresión y correlación, donde se analizará el caso más sencillo en el que se considera únicamente la relación entre dos variables.

La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios.Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.

Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.

"Y es una función de X"

Y = f(X)

Como Y depende de X,

Y es la variable dependiente, y

X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente. Es por ello, que de acuerdo a lo señalado porRábago y Otros (2007) que el estudio de la Regresión Lineal permite calcular los coeficientes de la ecuación lineal de una o más variables independientes que mejor predicen el valor de la variable dependiente. La regresión lineal, por lo tanto, consiste en obtener una función lineal de las variables independientes que permita explicar o predecir el valor de la dependiente. En el caso de considerar una sola variable independiente, se denomina Regresión Lineal Simple, si se trata de más de una variable independiente, se utiliza el modela de Regresión Múltiple.

Esto conduce al estudio de la regresión y la Correlación de las variables; pues la correlación se utiliza para establecer la fuerza de asociación entre las dos variables, de allí que esta asociación se exprese con un valor numérico comprendido entre 0,000 cuando no existe correlación y 1.00 cuando la correlación es perfecta.

Ahora bien, la escala adaptada por la mayoría de los autores para valorar la magnitud de la correlación es la siguiente:

*Valor de Referencia*	*Correlación*
*De 0,00 a 0,20*	*Muy baja*
*De 0,21 a 0,40*	*Baja*
*De 0,41 a 0,60*	*Moderada*
*De 0,61 a 0,80*	*Alta*
*De 0,81 a 1,00*	*Muy Alta*

Fuente: Ruiz (2002)

El análisis de correlación produce un número que resume el grado de correlación entre dos variables; y el análisis de regresión origina una ecuación matemática que describe dicha relación, determina la naturaleza de la relación (lineal, logarítmica, exponencial, entre otras) y permite hacer predicciones.

Bajo este mismo enfoque, Rábago y Otros (ob.cit.) resaltan que la regresión y la correlación son dos técnicas que involucran una forma de estimación que están estrechamente relacionadas entre sí. La ecuación matemática de regresión, describe la relación de las variables mediante una “recta ajustada” equidistante entre los puntos del diagrama de dispersión de las dos variables en estudio. Esta ecuación se puede utilizar para estimar o predecir los valores futuros que puede tener una variable cuando se conocen o suponen los valores de la otra.

En este sentido, en el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

Y = f (X)

"Y está regresando por X"

La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO o VARIABLE DE RESPUESTA.

La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y.

Uno de los aspectos más relevantes de la Estadística es el análisis de la relacióno dependencia entre variables. Frecuentemente resulta de interés conocer elefecto que una o varias variables pueden causar sobre otra, e incluso predeciren mayor o menor grado valores en una variable a partir de otra. Por ejemplo,supóngase que la altura de los padres influye significativamente en la de loshijos. Se podría estar interesado en estimar la altura media de los hijos cuyospadres presentan una determinada estatura.Los métodos de regresión estudian la construcción de modelos para explicaro representar la dependencia entre una variable respuesta o dependiente (Y) yla(s) variable(s) explicativa(s) o dependiente(s), X. En este Tema se abordaran contenidos para explicarel modelo de regresión lineal, que tiene lugar cuando la dependencia es de tipolineal, y se dará respuesta a dos cuestiones básicas:

¿Es significativo el efecto que una variable X causa sobre otra Y? ¿Essignificativa la dependencia lineal entre esas dos variables? y; de ser así, se utilizará el modelo de regresión lineal simple para explicary predecir la variable dependiente (Y) a partir de valores observados enla independiente (X).

ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEALSIMPLE

En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:

Y = a + b X + e

Donde:

a= es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y

b= es el coeficiente de regresión poblacional (pendiente de la línea recta)

e= es el error

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son fijos, medidos sin error.

2. La variable Y es aleatoria

3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)

4. Las variancias de las subpoblaciones Y son todas iguales.

5. Todas las medias de las subpoblaciones de Y están sobre la recta.

6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

El modelo de regresión lineal. La estructura del modelo de regresión lineal es la siguiente:Y = β0 + β1X + ε

En esta expresión se está admitiendo que todos los factores o causas queinfluyen en la variable respuesta Y pueden dividirse en dos grupos: el primerocontiene a una variable explicativa X y el segundo incluye un conjunto amplio defactores no controlados que se engloban bajo el nombre de perturbación o erroraleatorio, ε, que provoca que la dependencia entre las variables dependiente eindependiente no sea perfecta, sino que esté sujeta a incertidumbre. Por ejemplo,en el consumo de gasolina de un vehículo (Y ) influyen la velocidad (X) y unaserie de factores como el efecto conductor, el tipo de carretera, las condicionesambientales, entre otros, que quedarían englobados en el error.

Lo que en primer lugar sería deseable en un modelo de regresión es queestos errores aleatorios sean en media cero para cualquier valor x de X, es decir,

E[ε/X = x] = E[ε] = 0, y por lo tanto:

E[Y /X = x] = β0 + β1x + E[ε/X = x] = β0 + β1x

En dicha expresión se observa que:

• La media de Y, para un valor fijo x, varía linealmente con x.

• Para un valor x se predice un valor en Y dado por ˆy = E[Y /X = x] =β0 + β1x, por lo que el modelo de predicción puede expresarse tambiéncomoˆY = β0 + β1X.

• El parámetro β0 es la ordenada al origen del modelo (punto de corte conel eje Y) y β1 la pendiente, que puede interpretarse como el incremento dela variable dependiente por cada incremento en una unidad de la variableindependiente. Estos parámetros son desconocidos y habrá que estimarlosde cara a realizar predicciones.

Además de la hipótesis establecida sobre los errores de que en media han deser cero, se establecen las siguientes hipótesis:

i) La varianza de ε es constante para cualquier valor de x, es decir,V ar(ε/X = x) = σ2

ii) iii) La distribución de ε es normal, de media 0 y desviación σ.

iii) iv) Los errores asociados a los valores de Y son independientes unos de otros.

En consecuencia, la distribución de Y para x fijo es normal, con varianzaconstante σ2, y media que varía linealmente con x, dada por β0 +β1x. Ademáslos valores de Y son independientes entre sí.

Coeficiente de correlación de Pearson (r)

Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos características o variables que la forman, lo cual se observa en la nube de puntos del diagrama de dispersión, se puede precisar el grado de dicha dependencia. En otras palabras, si los puntos de la nube se presentan todos sobre la recta de regresión se dice que existe una dependencia funcional perfecta; por el contrario, si los puntos no están todos sobre la recta (pero sí con una tendencia a la linealidad) se dice que entre las variables hay una cierta correlación lineal y se procede a calcular el Coeficiente de Correlación.

Este coeficiente informa del grado de relación entre dos variables. Si la relación es lineal perfecta, r será 1 ó -1. El coeficiente r será positivo si la relación es positiva (al aumentarx aumenta y), y r será negativo en el caso contrario (si al aumentar x, disminuye y).En general, valores (absolutos) de r> 0,80 se consideran altos, aunque esto depende delnúmero de parejas de datos con las que se haya realizado el cálculo y del nivel de seguridadcon el que se quiera extraer las conclusiones.

Correlación de Pearson

Ho: r = 0 (no existe relación)

Ha: r = 0 (existe relación)

Para el estudio del coeficiente de correlación Pearson se hace necesario tomar en cuenta algunas características de este estadístico, tal y como se señala en el procesamiento estadístico de datos con SPSS de Rábago y Otros (ob.cit.):

a)El valor del coeficiente de correlación es muy sensible a la presencia de un valor extremo, como sucede con la desviación típica. En estos casos se recomienda realizar una transformación de datos que cambia la escala de medición y modera el efecto de valores extremas, como es el caso de la transformación logarítmica.

b) El coeficiente de correlación mide sólo la relación con una línea recta. Dos variables pueden tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña. Por tanto cuando se analicen las relaciones entre dos variables, primero se deben representar en forma gráfica y posteriormente calcular el coeficiente de correlación.

c)El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado de las variables a estudio, puesto que la relación existente entre X y Y puede cambiar fuera de dicho rango.

d) La correlación no implica necesariamente causalidad. La causalidad es un juicio de valor que requiere más información que un simple valor cuantitativo de un coeficiente de correlación.

e)Un coeficiente de correlación con valor reducido no indica necesariamente que no exista correlación, dado que las variables pueden presentar una relación no lineal.

f) La estimación de coeficiente de determinación (r2) muestra el porcentaje de la variabilidad de los datos que se explica por la asociación entre las dos variables.

Dentro de este apartado, señalan los autores antes citados que para que la prueba de hipótesis sobre la correlación entre las variables sea válida, se requiere que los datos cumplan ciertas condiciones como:

1. Las dos variables deben proceder de una muestra aleatoria de individuos.

2. Al menos una de las variables debe tener una distribución normal en la población de la cual procede la muestra. Si los datos no tienen una distribución normal, una o más variables se pueden transformar (transformación logarítmica).

3. Cuando las variables no tienen distribución normal o los datos están en escala ordinal, se calcula el coeficiente de correlación No paramétrico de Spearman que tiene el mismo significado que el coeficiente de Correlación de Pearson y se calcula utilizando el rango de las observaciones.

No hace falta entrar en el estudio del nivel de significación del coeficiente r, pero como indicación:para 11 parejas de datos, y si se admite un 5% de posibilidades de equivocación, con r>0,553 ya se puede decir que ambas series de datos no son independientes (parece que tienen algún tipo derelación). Si se tuvieran 50 parejas de datos, bastaría r>0,273 para sacar la misma conclusión(siempre considerando el valor absoluto de r)

Si se desea ser más estricto y sacar la conclusión de que las dos series no son independientes con un 99% de seguridad (sólo un 1% de posibilidad de error), con 11 parejasnecesitamos que r>0,684 y con 50 parejas r>0,354

Precauciones:

1. El estar seguros de que ambas series están relacionadas, no quiere decir que la relación sea tan estrecha como para estimar valores de y desconocidos a partir de valores de xconocidos; eso dependerá del error de estimación que se acepte.

2. La existencia de una correlación no indica relación causa-efecto.

Para mayor información y conocer ejemplos donde se puede aplicar este coeficiente visita: http://hidrologia.usal.es/practicas/correlacion/Correlacion_explicacion.pdf

Enunciado:

Se lleva a cabo un estudio en la Urb. Antonio José de Sucre, Sector los Próceres Guanare - Estado Portuguesa en el mes de Noviembre de 2011con relación al peso (Kg) de 10 Padres y del mayor de sus hijos Varones, luego de realizar durante una semana una serie de ejercicios Físicos, los datos fueron los siguientes:

X Padres (Kg)	98	88	100	125	90	93	101	73	132	77
Y Hijos Varones (Kg)	62	55	45	89	65	45	35	54	95	63

Variable dependiente: Peso (Kg) de los Hijos Varones Mayor

Variable Independiente: Peso (Kg) de los Padres

Ho= No existe correlación entre el peso del los padres y el peso de los hijos después de una semana de ejercicios Físicos.

Ha= Existe correlación entre el peso del los padres y el peso de los hijos después de una semana de ejercicios Físicos.

Conclusión:

Correlación de Pearson Sig=0,046 <α= 0, 05, por lo que se rechaza Ho.

Con un 95% de confiabilidad se determina que existe correlación entre el peso de los padres el peso de los hijos después de una semana de ejercicios Físicos. Donde la correlación de Pearson = 0,929 siendo perfecta positiva y muy alta.

Variables Entered/Removed^a
Model	Variables Entered	Variables Removed	Method
1	Padres^b	.	Enter
a. Dependent Variable: Hijos
b. All requested variables entered.

Model Summary
Model	R	R Square	Adjusted R Square	Std. Error of the Estimate
1	,640^a	,409	,335	15,452
a. Predictors: (Constant), Padres

ANOVA^a
Model		Sum of Squares	df	Mean Square	F	Sig.
1	Regression	1323,371	1	1323,371	5,542	,046^b
	Residual	1910,229	8	238,779
	Total	3233,600	9
a. Dependent Variable: Hijos
b. Predictors: (Constant), Padres

Coefficients^a
Model		Unstandardized Coefficients		Standardized Coefficients	t	Sig.
		B	Std. Error	Beta
1	(Constant)	-2,505	27,330		-,092	,929
	Padres	,648	,275	,640	2,354	,046
a. Dependent Variable: Hijos

Referencias

Cinemática. (sf) Regresión lineal. (Documento en línea). Disponible: http://www.sc.ehu.es/sbweb/fisica/cinematica/regresion/regresion.htm [Consulta: 2012, Octubre 10].

Cruz, A. (2009). Pruebas de Hipótesis para una muestra. (Documento en línea). Disponible: http://www.monografias.com/trabajos30/prueba-de-hipotesis/prueba-de-hipotesis.shtml [Consulta: 2012, Octubre 10].

Monge, J., y Pérez, A., (2010) Estadística No Paramétrica. (Documento en línea). Disponible: http://www.uoc.edu/in3/emath/docs/Chi_cuadrado.pdf [Consulta: 2012, Octubre 10].

Multimania (sf). La prueba más universal para la comparación de dos tratamientos. (Documento en línea). Disponible: http://usuarios.multimania.es/guillemat/t_student.htm [Consulta: 2012, Octubre 10].

Rábago, J. y Otros (2007) Procesamiento estadístico de datos con SPSSS. Universidad Pedagógica Experimental Libertador. UPEL – IPB. Barquisimeto, estado Lara.

Stad Center. (sf). ESTADISTICA INFERENCIAL. (Documento en línea). Disponible: http://www.stadcenterecuador.com/contenidos/estadistica-inferencial.html?start=2 [Consulta: 2012, Octubre 10].

Tripod (2012). Introducción a la inferencia estadística. (Documento en línea). Disponible: http://aathosc.tripod.com/introinfest.htm [Consulta: 2012, Octubre 10].

UCM. (2010). Población y Muestra. (Documento en línea). Disponible: www.ucm.es/info/genetica/Estadistica/estadistica_basica%202.htm [Consulta: 2012, Octubre 10].

Universidad de Valencia. (2011). SPSS. (Documento en línea). Disponible: http://www.uv.es/innovamide/spss/SPSS/SPSS_0701b.pdf [Consulta: 2012, Octubre 10].

Estadística Aplicada a la Educación

jueves, 25 de octubre de 2012

Datos personales