++
Hay que recordar que cuando el objetivo es predecir el valor de una característica a partir del conocimiento de otra, el método estadístico utilizado es el análisis de regresión. Este método también se denomina regresión lineal, regresión lineal simple o regresión por mínimos cuadrados. Una breve revisión de la historia de estos términos es interesante y arroja algo de luz sobre la naturaleza del análisis de regresión.
++
Los conceptos de correlación y regresión fueron desarrollados por Sir Francis Galton, primo de Charles Darwin, quien estudió tanto matemáticas como medicina a mediados del siglo XIX (Walker, 1931). Galton estaba interesado en la herencia y quería entender por qué una población permanece más o menos igual durante muchas generaciones con la descendencia “promedio” parecida a sus padres; es decir, por qué las generaciones sucesivas no se vuelven más diversas. Cultivando guisantes de olor y observando el tamaño medio de las semillas de las plantas parentales de diferentes tamaños, descubrió la regresión, que denominó la “tendencia del tipo media filial ideal al apartarse del tipo paterno, volviendo a lo que puede describirse de manera aproximada y quizás justamente como el tipo ancestral medio”. Este fenómeno se conoce más típicamente como regresión hacia la media. El término “correlación” fue utilizado por Galton en su trabajo sobre la herencia en términos de la “co-relación” entre características tales como la altura de padres e hijos. El matemático Karl Pearson pasó a desarrollar la teoría de la correlación y la regresión, y el coeficiente de correlación lleva su nombre por esta razón.
++
El término regresión lineal se refiere al hecho de que la correlación y la regresión miden solo una relación de línea recta o lineal entre dos variables. El término “regresión simple” significa que solo se usa una variable explicativa (independiente) para predecir un resultado. En la regresión múltiple, se incluye más de una variable independiente en la ecuación de predicción.
++
La regresión de mínimos cuadrados describe el método matemático para obtener la ecuación de regresión. Lo importante a recordar es que cuando el término “regresión” se usa solo, generalmente significa regresión lineal basada en el método de mínimos cuadrados. El concepto detrás de la regresión por mínimos cuadrados se describe en la siguiente sección y su aplicación se analiza en la sección siguiente.
+++
Método de mínimos cuadrados
++
Ya se ha mencionado varias veces en este capítulo la naturaleza lineal del patrón de puntos en un diagrama de dispersión. Por ejemplo, en la figura 8–2, se puede trazar una línea recta a través de los puntos que representan los valores del BMI y el porcentaje de grasa corporal para indicar la dirección de la relación. El método de mínimos cuadrados es una forma de determinar la ecuación de la línea que proporciona un buen ajuste a los puntos.
++
Para ejemplificar el método, considere la línea recta en la figura 8–6. La geometría elemental se puede utilizar para determinar la ecuación de cualquier línea recta. Si el punto donde la línea cruza o intercepta el eje Y se denota por a y la pendiente de la línea por b, entonces la ecuación es:
++
++
++
La pendiente de la línea mide la cantidad que Y cambia cada vez que X cambia en 1 unidad. Si la pendiente es positiva, Y aumenta a medida que aumenta X; si la pendiente es negativa, Y disminuye a medida que aumenta X; y viceversa. En el modelo de regresión, la pendiente en la población generalmente está simbolizada por β1, llamado coeficiente de regresión; y β0 denota la intersección con el eje vertical de la línea de regresión, es decir, β1 y β0 son los parámetros de población en la regresión. En la mayoría de las aplicaciones, los puntos no caen exactamente a lo largo de una línea recta. Por esta razón, el modelo de regresión contiene un término de error, e, que es la distancia a la que los valores reales de Y se alejan de la línea de regresión. Poniendo todo esto junto, la ecuación de regresión viene dada por:
++
++
Cuando se usa la ecuación de regresión para describir la relación en la muestra, a menudo se escribe como:
++
++
Donde Y′ es el símbolo del valor predicho de Y, basado en un valor observado X. Para un valor dado de X, por ejemplo X*, el valor predicho de Y* se encuentra extendiendo una línea horizontal desde la línea de regresión hasta el eje Y como en la figura 8–7. La diferencia entre el valor real de Y* y el valor predicho, e* = Y* − Y*′, se puede utilizar para juzgar qué tan bien se ajusta la línea a los puntos de datos. El método de mínimos cuadrados determina la línea que minimiza la suma de las diferencias verticales cuadradas entre los valores reales y pronosticados de la variable Y; es decir, β0 y β1 se determinan de modo que Σ(Y − Y′) se minimice. Por lo tanto, se encuentran las fórmulas para β0 y β1*, y en términos de las estimaciones muestrales b y a, estas fórmulas son:
++
++
+
++
+++
Cálculo de la ecuación de regresión
++
Suponga que se pretende ajustar una línea de regresión a los datos que se muestran en la figura 8–2. Este modelo podría usarse para predecir el porcentaje de grasa corporal si se conociera el BMI del sujeto.
++
Antes de calcular la ecuación de regresión para estos datos, se revisa el diagrama de dispersión de la figura 8–2 y se practica en “estimar” el valor del coeficiente de correlación del diagrama (aunque es difícil estimar el tamaño de r con precisión cuando el tamaño de la muestra es pequeño). La figura 8–2 es un diagrama de dispersión con la puntuación del BMI como variable explicativa X y el porcentaje de grasa corporal como variable de respuesta Y. De cálculos anteriores, se sabe que la correlación es 0.42.
++
Dado que se sabe que la correlación entre el BMI y el porcentaje de grasa corporal es positiva, se sabe que la pendiente de la línea de regresión también es positiva. Estos son los términos que se requieren para calcular la pendiente y la intersección de la línea de regresión:
++
++
++
++
En este ejemplo, se dice que el porcentaje de grasa corporal sufre una regresión en las puntuaciones de BMI, y la ecuación de regresión se escribe como Y′ = 5.15 + 0.97X, donde Y′ es el porcentaje de grasa corporal predicho y X es el BMI observado.
++
La figura 8–8 muestra la línea de regresión trazada a través de las observaciones. La ecuación de regresión tiene una intersección positiva de +5.15, por lo que teóricamente un paciente con un BMI cero tendría una sensibilidad a la insulina de 5.15, aunque, en el ejemplo presente, no es posible un BMI de cero. La pendiente de +0.97 indica que cada vez que el BMI aumenta en 1, el porcentaje de grasa corporal previsto aumenta en aproximadamente 0.97. Por ejemplo, a medida que el BMI aumenta de 20 a 30, el porcentaje de grasa corporal predicho aumenta de cerca de 24.55 a cerca de 34.25. En la siguiente sección se analiza si la relación entre el BMI y el porcentaje de grasa corporal es significativa.
++
+++
Supuestos e inferencias en regresión
++
En la sección anterior, se trabajó con una muestra de observaciones en lugar de la población de observaciones. Así como la media muestral es una estimación de la media poblacional μ, la línea de regresión determinada a partir de las fórmulas para a y b en la sección anterior es una estimación de la ecuación de regresión para la población subyacente.
++
Como en los capítulos 6 y 7, en los que se usaron pruebas estadísticas para determinar qué tan probable era que las diferencias observadas entre dos medias ocurrieran por casualidad, en el análisis de regresión deben realizarse pruebas estadísticas para determinar la probabilidad de cualquier relación observada entre las variables X e Y. Nuevamente, la pregunta se puede abordar de dos maneras: utilizando pruebas de hipótesis o formando intervalos de confianza. Sin embargo, antes de discutir estos enfoques, se analizarán brevemente los supuestos requeridos en el análisis de regresión.
++
Si se parte de una ecuación de regresión, las observaciones deben tener ciertas propiedades. Por lo tanto, para cada valor de la variable X, se asume que la variable Y tiene una distribución normal, y se asume que la media de la distribución es el valor predicho, Y′. Además, sin importar el valor de la variable X, se supone que la desviación estándar de Y es la misma. Estas suposiciones son como imaginar un gran número de distribuciones normales individuales de la variable Y, todas del mismo tamaño, una para cada valor de X. La suposición de esta variación igual en las Y’ en todo el rango de la X′ se llama homogeneidad u homocedasticidad. Es análogo al supuesto de varianzas iguales (varianzas homogéneas) en la prueba t para grupos independientes, como se revisa en el capítulo 6.
++
El supuesto de línea recta o lineal requiere que los valores medios de Y correspondientes a varios valores de X caigan en línea recta. Se supone que los valores de Y son independientes entre sí. Esta suposición no se cumple cuando se realizan mediciones repetidas en los mismos sujetos; es decir, la medida de un sujeto en un momento dado no es independiente de la medida de ese mismo sujeto en otro momento. Finalmente, al igual que con otros procedimientos estadísticos, se asume que las observaciones constituyen una muestra aleatoria de la población de interés.
++
La regresión es un procedimiento robusto y se puede utilizar en muchas situaciones en las que no se cumplen los supuestos, siempre que las mediciones sean bastante confiables y se utilice el modelo de regresión correcto (en el capítulo 10 se analizan otros modelos de regresión). El cumplimiento de los supuestos de regresión generalmente causa menos problemas en experimentos o ensayos clínicos que en estudios observacionales porque la confiabilidad de las mediciones tiende a ser mayor en los estudios experimentales. Sin embargo, se pueden utilizar procedimientos especiales cuando los supuestos se violan gravemente; y como en ANOVA, los investigadores deben buscar el consejo de un estadístico antes de usar la regresión si surgen dudas sobre su aplicabilidad.
+++
El error estándar de la estimación
++
Las líneas de regresión, como otras estadísticas, pueden variar. Después de todo, la ecuación de regresión calculada para cualquier muestra de observaciones es solo una estimación de la verdadera ecuación de regresión de la población. Si se eligen otras muestras de la población y se calcula una ecuación de regresión para cada muestra, estas ecuaciones variarán de una muestra a otra con respecto tanto a sus pendientes como a sus intersecciones. Una estimación de esta variación se simboliza SY·X (y se lee S de y dado x) y se denomina error estándar de regresión o error estándar de la estimación. Se basa en las desviaciones cuadradas de las Y′ pronosticadas con respecto a las Y′ reales, y se encuentra de la siguiente manera:
++
++
El cálculo de esta fórmula es bastante tedioso; y aunque existen formas computacionales más fáciles de usar, asumimos que usará un programa de computadora para calcular el error estándar de la estimación. Al probar tanto la pendiente como la intersección, se puede usar una prueba t, y el error estándar de la estimación es parte de la fórmula. También se utiliza para determinar los límites de confianza. Para presentar estas fórmulas y la lógica involucrada en probar la pendiente y la intersección, se ejemplifica la prueba de hipótesis para la intersección y el cálculo de un intervalo de confianza para la pendiente, usando la ecuación de regresión del BMI - porcentaje de grasa corporal.
+++
Inferencia sobre la intersección
++
Para probar la hipótesis de que la intersección se aleja significativamente de cero, se echa mano del siguiente procedimiento:
++
Paso 1: H0: β0 = 0 (La intersección es cero)
Paso 2: debido a que la hipótesis nula es una prueba de si la intersección es cero, la razón t puede usarse si se cumplen los supuestos. La razón t usa el error estándar de la estimación para calcular el error estándar de la intersección (el denominador de la razón t):
Paso 3: se utiliza α igual a 0.05.
Paso 4: los grados de libertad son n − 2 = 111 − 2 = 109. El valor de la distribución t con 109 grados de libertad que divide el área en el 95 % central y el 5 % superior e inferior combinado es aproximadamente 1.98 (del cuadro A–3). Por lo tanto, se rechaza la hipótesis nula de una intersección igual a cero si (el valor absoluto de) el valor observado de t es > 1.98.
Paso 5: al seguir el procedimiento; se usa una hoja de cálculo (Microsoft Excel) para encontrar SY·X = 7.98 y = 1577.02
Paso 6: el valor absoluto de la t observada es 1.06, que no es > 1.98. Por lo tanto, no se rechaza la hipótesis nula de una intersección igual a cero. Concluimos que la evidencia es insuficiente para mostrar que la intersección es significativamente diferente de cero para la regresión del porcentaje de grasa corporal sobre el BMI.
++
Como ya se sabe, también es posible formar límites de confianza para la intersección usando el valor observado y sumando o restando el valor crítico de la distribución t, multiplicado por el error estándar de la intersección.
+++
Inferencias sobre el coeficiente de regresión
++
En lugar de ejemplificar la prueba de hipótesis para el coeficiente de regresión de la población, encontremos un intervalo de confianza de 95 % para β1. El intervalo está dado por:
++
++
Debido a que el intervalo excluye cero, se puede tener una confianza de 95 % en que el coeficiente de regresión no es cero, pero que está entre 0.57 y 1.37. Dado que el coeficiente de regresión es significativamente mayor que cero, ¿puede el coeficiente de correlación ser igual a cero? (consúltese el ejercicio 2). La relación entre b y r, presentada anteriormente, y el ejercicio 2 debería ser suficiente para probar la equivalencia de los resultados obtenidos al probar la significancia de la correlación y el coeficiente de regresión. De hecho, los autores de la literatura frecuentemente realizan un análisis de regresión y luego informan los valores de P para indicar un coeficiente de correlación significativo.
++
El resultado del programa de regresión R se muestra en el cuadro 8–4. El programa produce el valor de t y el valor P asociado, así como límites de confianza de 95 %. ¿Coinciden los resultados con los encontrados anteriormente? Para familiarizarse con el uso de la regresión, se sugiere replicar estos resultados utilizando el archivo de datos y R.
++
+++
Predicción con la ecuación de regresión: valores individuales y medios
++
Una de las razones importantes para obtener una ecuación de regresión es predecir valores futuros para un grupo de sujetos (o para sujetos individuales). Por ejemplo, un médico puede querer predecir el porcentaje de grasa corporal a partir del BMI para un grupo de participantes en un nuevo régimen de ejercicios. O el médico puede querer predecir el porcentaje de grasa corporal de un paciente en particular. En cualquier caso, la variabilidad asociada con la línea de regresión debe reflejarse en la predicción. El intervalo de confianza del 95 % para una media predicha Y en un grupo de sujetos es:
++
++
El intervalo de confianza de 95 % para predecir una sola observación es:
++
++
Si se comparan estas dos fórmulas, vemos que el intervalo de confianza que predice una sola observación es más amplio que el intervalo para la media de un grupo de individuos; y se agrega 1 al término de error estándar para el caso individual. Este resultado tiene sentido, porque para un valor dado de X, la variación en las puntuaciones de los individuos es mayor que en las puntuaciones medias de los grupos de individuos. Debe tenerse en cuenta también que el numerador del tercer término en el error estándar es la desviación al cuadrado de X de . Por tanto, el tamaño del error estándar depende de qué tan cerca esté la observación de la media; cuanto más cerca está X de su media, más precisa es la predicción de Y. Para valores de X bastante alejados de la media, la variabilidad en la predicción de la puntuación Y es considerable. ¡Por eso es difícil para los economistas y otras personas que desean predecir eventos futuros ser muy precisos!
++
El cuadro 8–5 muestra los intervalos de confianza de 95 % asociados con el porcentaje medio de grasa corporal pronosticado y el porcentaje de grasa corporal pronosticado para un individuo correspondiente a valores de BMI diferentes. Se puede obtener conocimiento sobre el análisis de regresión al examinar esta tabla. Primero, observe las diferencias de magnitud entre los errores estándar asociados con el porcentaje medio de grasa corporal predicho y los relacionados con el porcentaje de grasa corporal individual: los errores estándar son mucho mayores cuando predecimos valores individuales que cuando predecimos el valor medio. De hecho, el error estándar de los individuos siempre es mayor que el error estándar de las medias debido al 1 adicional en la fórmula. También debe tenerse en cuenta que los errores estándar toman sus valores más pequeños cuando la observación de interés se acerca a la media (BMI de 23.80, en este ejemplo). A medida que la observación se aparta en cualquier dirección de la media, los errores estándar y los intervalos de confianza se vuelven cada vez más grandes, lo que refleja la diferencia al cuadrado entre la observación y la media. Si los intervalos de confianza se trazan como bandas de confianza alrededor de la línea de regresión, están más cerca de la línea en la media de X y se alejan de ella en ambas direcciones a cada lado de . La figura 8–9 muestra la gráfica de las bandas de confianza.
++
++
++
El cuadro 8–5 expone otra característica interesante de la ecuación de regresión (la fila en negrita). Cuando se usa la media de X en la ecuación de regresión, la Y′ predicha es la media de Y. Por lo tanto, la línea de regresión pasa por la media de X y la media de Y.
++
Ahora se puede ver por qué las bandas de confianza sobre la línea de regresión son curvas. El error en la intersección significa que la línea de regresión verdadera puede estar por encima o por debajo de la línea calculada para las observaciones de la muestra, aunque mantiene la misma orientación (pendiente). Por lo tanto, el error en la medición de la pendiente significa que la verdadera línea de regresión puede girar alrededor de hasta cierto punto. La combinación de estos dos errores da como resultado las bandas de confianza cóncavas, ejemplificadas en la figura 8–9. A veces, los artículos de revistas tienen líneas de regresión con bandas de confianza que son paralelas en lugar de curvas. Estas bandas de confianza son incorrectas, aunque pueden corresponder a errores estándar o a intervalos de confianza en su distancia más estrecha de la línea de regresión.
+++
Comparación de dos líneas de regresión
++
A veces, los investigadores desean comparar dos líneas de regresión para ver si son iguales. Por ejemplo, los investigadores del problema anterior pueden estar interesados en la relación entre el BMI y el porcentaje de grasa corporal para hombres y mujeres. Las líneas de regresión para cada género se muestran en la figura 8–10.
++
++
Como puede adivinar, los investigadores a menudo están interesados en comparar líneas de regresión para saber si las relaciones son las mismas en diferentes grupos de sujetos. Cuando se comparan dos líneas de regresión, pueden ocurrir cuatro situaciones, como se muestra en la figura 8–11. En la figura 8–11A, las pendientes de las líneas de regresión son las mismas, pero las intersecciones difieren. Esta situación ocurre, por ejemplo, en la figura 8–10, cuando el porcentaje de grasa corporal retrocedió en el BMI en hombres y mujeres. Es decir, la relación entre el porcentaje de grasa corporal y el BMI es similar para hombres y mujeres (pendientes iguales), pero los hombres tienden a tener niveles de porcentaje de grasa corporal más bajos en todos los BMI que las mujeres (intersección más baja para los hombres).
++
++
En la figura 8–11B, las intersecciones son iguales, pero las pendientes difieren. Este patrón puede describir, por ejemplo, la regresión del recuento de plaquetas en el número de días posteriores al trasplante de médula ósea en dos grupos de pacientes: aquellos para quienes la terapia adyuvante produce la remisión de la enfermedad subyacente, y aquellos para quienes la enfermedad permanece activa. En otras palabras, antes e inmediatamente después del trasplante, el recuento de plaquetas es similar para ambos grupos (intersecciones iguales), pero en algún momento después del trasplante, el recuento de plaquetas permanece estable para los pacientes en remisión y comienza a disminuir para los pacientes que no están en remisión (pendiente más negativa para pacientes con enfermedad activa).
++
En la figura 8–11C, tanto las intersecciones como las pendientes de las líneas de regresión difieren. Aunque no abordaron específicamente ninguna diferencia en las intersecciones, la relación entre el BMI y el porcentaje de grasa corporal se parece a la situación de la figura 8–11A.
++
Si no existen diferencias en las relaciones entre las variables predictoras y de resultado, las líneas de regresión son similares a la figura 8–11D, donde las líneas coinciden: tanto las intersecciones como las pendientes son iguales. Esta situación ocurre frecuentemente en medicina y se considera que es el patrón esperado (la hipótesis nula), hasta que se demuestre que no se aplica, probando hipótesis o formando límites de confianza para la intersección o la pendiente (o tanto la intersección como la pendiente).
++
De las cuatro situaciones presentadas en la figura 8–11, se puede ver que es necesario formular tres preguntas estadísticas:
++
¿Son iguales las pendientes?
¿Son iguales las intersecciones?
¿Son iguales las pendientes y las intersecciones?
++
Se pueden utilizar pruebas estadísticas basadas en la distribución t para responder las dos primeras preguntas; estas pruebas se explican en Kleinbaum y Klein (2010). Sin embargo, los autores señalan que para responder a estas preguntas el enfoque preferido es utilizar modelos de regresión para más de una variable independiente, un procedimiento llamado regresión múltiple, para responder a estas preguntas. El procedimiento consiste en agrupar las observaciones de ambas muestras de sujetos (p. ej., observaciones de hombres y mujeres) y calcular una línea de regresión para los datos combinados. Otros coeficientes de regresión indican si importa a qué grupo pertenecen las observaciones. Luego se selecciona el modelo más simple.