UNIDAD V
Regresión y correlación.
Introducción
En la práctica, con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que existe una relación inherente entre ellas. Por ejemplo, en un caso industrial se puede saber que el contenido de alquitrán en el producto de salida de un proceso químico esta relacionado con la temperatura con la queeste se lleva a cabo. Puede ser interesante desarrollar un método de predicción, esto es, un procedimiento para estimar el contenido de alquitrán para varios niveles de temperatura tomados de información experimental. El aspecto estadístico del problema consiste entonces en lograr la mejor estimación de la relación entre las variables.
Para este ejemplo y para la mayoría de las aplicaciones,existe una clara distinción entre las variables en cuanto a su papel dentro del proceso experimental. Muy a menudo se tiene una sola variable dependiente o respuesta Y, la cual no se controla en el experimento. Esta respuesta depende de una o más variables independientes o de regresión, como son x1, x2,…, xk, las cuales se miden con un error despreciable y en realidad, en la generalidad de los casosse controlan en el experimento. Así, las variables independientes no son aleatorias y por lo tanto no tienen propiedades distribucionales. En el ejemplo citado anteriormente, la temperatura es variable independiente o variable de regresión x y el contenido de alquitrán es la respuesta Y. la relación fija para un conjunto de datos experimentales se caracteriza por una ecuación de predicción querecibe el nombre de ecuación de regresión. En el caso de una sola Y y una sola x, la situación cambia a una regresión de Y a una de x. para k variables independientes, se habla en términos de una regresión de Y en x1, x2,…..xk. Un ingeniero químico, puede de hecho, estar interesado en la cantidad de hidrogeno que se pierde de las muestras de un metal en particular cuando se almacena. En este casopuede haber dos datos: el tiempo de almacenamiento x1 en horas y la temperatura de almacenamiento x2 en grados centígrados. La respuesta seria entonces al perdida de hidrogeno, Y, en partes por millón.
En este capítulo se tratara el tema de regresión lineal simple, y se presentara únicamente el caso de una sola variable de regresión.
El término de regresión lineal implica que µY|x estalinealmente relacionado con x por la ecuación de regresión lineal poblacional:
µY|x = ? + ?x
donde los coeficientes de regresión ? y ? son parámetros que deben estimarse a partir de los datos muestrales. Si a y b representan estas estimaciones respectivamente, se puede entonces estimar µY|x por y? de la regresión muestral o de la línea de regresión ajustada:
y? = a + bx,
donde lasestimaciones a y b representan la intercepción y pendiente de y, respectivamente. El símbolo y? se utiliza aquí para distinguir entre el valor estimado que da la alinea de regresión muestral y un valor experimental real observado y para algún valor de x.
Hasta este momento se ha supuesto que la variable de regresión independiente x es una variable física o científica, pero no una variable aleatoria.De hecho, en este contexto, x frecuentemente recibe el nombre de variable matemática, la cual, en el proceso de muestreo se mide con un error despreciable. En muchas aplicaciones de las técnicas de regresión es mas realista suponer que tanto X como Y son variables aleatorias y que las mediciones {(xi, yi); i=1, 2,…,n} son las observaciones de una población que tiene la función de densidad conjuntaf (x, y). Se considerara el problema de medir la relación entre las dos variables X y Y. por ejemplo, si X y Y representan la longitud y la circunferencia de una clase particular del hueso en el cuerpo de un adulto, se podría llevar a cabo un estudio antropológico para determinar si los valores grandes de X se asocian con los valores grandes de Y y viceversa. Por otro lado, si X representa la…