Práctica 6

CONTRASTES DE HIPÓTESIS

Objetivos

  1. Resolver contrastes de hipótesis para la media de una población normal con varianza conocida
  2. Resolver contrastes de hipótesis para la media de una población normal con varianza desconocida
  3. Resolver contrastes de hipótesis para una proporción
  4. Resolver contrastes de hipótesis para la diferencia de medias en dos poblaciones normales independientes con varianzas desconocidas
    • Suponiendo que las varianzas, aun siendo desconocidas, son iguales en las dos poblaciones
    • Suponiendo que las varianzas son diferentes en las dos poblaciones
  5. Resolver contrastes de hipótesis para la diferencia de medias en dos poblaciones normales relacionadas
  6. Resolver contrastes de hipótesis para la diferencia de proporciones
  7. Resolver contrastes de hipótesis no-paramétricos de independencia para variables cualitativas
  8. Resolver contrastes de hipótesis no-paramétricos de bondad de ajuste de distribuciones
  9. Resolver contrastes de hipótesis no-paramétricos de aleatoriedad
  10. Resolver contrastes de hipótesis no-paramétricos de dos muestras independientes y de dos muestras relacionadas.
  11. APÉNDICE: Introducción al Análisis de datos categóricos: Tablas de Contingencia.

Conceptos básicos

Contraste de hipótesis. Un contraste de hipótesis (también conocido como test de hipótesis) es una técnica estadística que se utiliza para comprobar la validez de una afirmación en base a la información recogida en una muestra de observaciones. Es un proceso estadístico mediante el cual se investiga si una propiedad que se supone que cumple una población es compatible con lo observado en una muestra de dicha población. Es un procedimiento que permite elegir una hipótesis de trabajo de entre dos posibles y antagónicas.

Hipótesis Estadística. Todo contraste de hipótesis se basa en la formulación de dos hipótesis exhaustivas y mutuamente exclusivas:

  1. Hipótesis nula (\( H_0 \))
  2. Hipótesis alternativa (\( H_1 \))

La afirmación cuya validez se pretende comprobar recibe el nombre de hipótesis nula y se denota mediante \( H_0 \). La hipótesis nula de un contraste habitualmente hace referencia al valor poblacional de un parámetro o a la distribución de probabilidad de una variable. En los casos en los que la información de la muestra no apoya la hipótesis nula, se da por veraz una afirmación alternativa, que se conoce como hipótesis alternativa, y se denota por \( H_1 \). La hipótesis alternativa es la negación de la hipótesis nula. Así, por ejemplo, en un contraste sobre los valores poblaciones de un parámetro, en la hipótesis alternativa se recogen todos los posibles valores del parámetro que no figuran en la hipótesis nula. Igualmente, cuando se contrasta la distribución de probabilidad de una variable, en la hipótesis alternativa se incluyen todas las distribuciones de probabilidad que no se han considerado en la hipótesis nula. De aquí se deduce que la hipótesis nula y la hipótesis alternativa son exhaustivas y mutuamente excluyentes.

La hipótesis \( H_0 \) es la que se desea contrastar. Consiste generalmente en una afirmación concreta sobre la forma de una distribución de probabilidad o sobre el valor de alguno de los parámetros de esa distribución. El nombre de “nula” significa “sin valor, efecto o consecuencia”, lo cual sugiere que \( H_0 \) debe identificarse con la hipótesis de no cambio (a partir de la opinión actual); no diferencia, no mejora, etc. \( H_0 \) representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y puede entenderse, por tanto, en el sentido de “neutra”. La hipótesis \( H_0 \) nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que dos poblaciones tienen la misma media puede ser rechazada fácilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes de ambas poblaciones, pero no puede ser “demostrada mediante muestreo, puesto que siempre cabe la posibilidad de que las medias difieran en una cantidad lo suficientemente pequeña para que no pueda ser detectada, aunque la muestra sea muy grande. Dado que descartaremos o no la hipótesis nula a partir de muestras obtenidas (es decir, no dispondremos de información completa sobre la población), no será posible garantizar que la decisión tomada sea la correcta.

La hipótesis \( H_1 \) es la negación de la nula. Incluye todo lo que \( H_0 \) excluye.

¿Qué asignamos como \( H_0 \) y \( H_1 \)?

La hipótesis \( H_0 \) asigna un valor específico al parámetro en cuestión y por lo tanto “el igual” siempre forma parte de \( H_0 \).

La idea básica de la prueba de hipótesis es que los hechos tengan probabilidad de rechazar \( H_0 \). La hipótesis \( H_0 \) es la afirmación que podría ser rechazada por los hechos. El interés del investigador se centra, por lo tanto, en la \( H_1 \).

La regla de decisión. Es el criterio que vamos a utilizar para decidir si la hipótesis nula planteada debe o no ser rechazada. Este criterio se basa en la partición de la distribución muestral del estadístico de contraste en dos regiones o zonas mutuamente excluyentes: Región crítica o región de rechazo y Región de no-rechazo.

Región de no-rechazo. Es el área de la distribución muestral que corresponde a los valores del estadístico de contraste próximos a la afirmación establecida en \( H_0 \). Es decir, los valores del estadístico de contraste que nos conducen a decidir \( H_0 \). Es por tanto, el área correspondiente a los valores del estadístico de contraste que es probable que ocurran si \( H_0 \) es verdadera. Su probabilidad se denomina nivel de confianza y se representa por 1 – α .

Región de rechazo o región crítica. Es el área de distribución muestral que corresponde a los valores del estadístico de contraste que se encuentran tan alejados de la afirmación establecida en \( H_0 \), que es muy poco probable que ocurran si \( H_0 \) es verdadera. Su probabilidad se denomina nivel de significación o nivel de riesgo y se representa con la letra α .

Ya definidas las dos zonas, la regla de decisión consiste en rechazar \( H_0 \) si el estadístico de contraste toma un valor perteneciente a la zona de rechazo, o mantener \( H_0 \) si el estadístico de contraste toma un valor perteneciente a la zona de no-rechazo.

El tamaño de las zonas de rechazo y no-rechazo se determina fijando el valor de α, es decir, fijando el nivel de significación con el que se desea trabajar. Se suele tomar un 1% o un 5%.

La forma de dividir la distribución muestral en zona de rechazo y de no-rechazo depende de si el contraste es bilateral o unilateral. La zona crítica debe situarse donde puedan aparecer los valores muestrales incompatibles con H0.

Estadístico de contraste. Un estadístico de contraste es un resultado muestral que cumple la doble condición de:

  • Proporcionar información empírica relevante sobre la afirmación propuesta en la \( H_0 \).
  • Poseer una distribución muestral conocida

Tipos de contrastes.

Contrastes paramétricos: Conocida una v.a. con una determinada distribución, se establecen afirmaciones sobre los parámetros de dicha distribución.

Contrastes no paramétricos: Las afirmaciones establecidas no se hacen en base a la distribución de las observaciones, que a priori es desconocida.

Tipos de hipótesis del contraste.

Existen dos tipos de contrastes de hipótesis en función de la forma que adopten las hipótesis: los contrastes bilaterales y los contrastes unilaterales. En los contrastes bilaterales la hipótesis nula es una igualdad mientras que en los contrastes unilaterales en la hipótesis nula aparece una desigualdad no estricta. Cualquiera que sea el caso, es importante notar que en la hipótesis nula siempre debe aparecer un signo de igualdad, ya sea como una igualdad en sí (=) o como una desigualdad no estricta (\(  \leq \)  o \(   \geq \)). A modo de ejemplo, veamos los tipos de contrastes de hipótesis para la media de una variable que pueden darse.

\( \begin{array} {|c|} \hline Contraste \hspace{.1cm} bilateral \\  \hline H_0 \equiv \mu = \mu_0 \\  \hline H_1 \equiv \mu \neq \mu_0   \\  \hline \end{array} \) \( \hspace{2cm} \begin{array} {|c||} \hline   Contrastes \hspace {.1cm}unilaterales   \\  \hline H_0 \equiv \mu  \geq  \mu_0  \hspace{2cm} H_0 \equiv \mu  \leq  \mu_0 \\  \hline H_1 \equiv \mu < \mu_0  \hspace{2cm} H_1 \equiv \mu > \mu_0 \\  \hline \end{array} \)

Figura 1: Tipo de contrastes de hipótesis

El planteamiento de un contraste de hipótesis es el paso previo a su resolución. Plantear un contraste de hipótesis consiste en definir la hipótesis nula y la hipótesis alternativa.

Una vez planteado el contraste, se calcula el valor del estadístico de contraste. Un estadístico de contraste es una función de los datos muestrales cuya distribución de probabilidad es conocida en las condiciones que establece la hipótesis nula. Es decir, el estadístico de contraste, \( T \), se calcula a partir de una muestra de tamaño \( n \), \( X_1,X_2,…, X_n \), de la variable de interés, \( X \) , como \( T = f(X_1,X_2,…, X_n) \). En función del valor de \( T \), optaremos por rechazar, o no, la hipótesis nula. Concretamente, los valores de \( T \) con probabilidades pequeñas de haber sido obtenidos bajo las condiciones que establece la hipótesis nula nos harán pensar que dicha hipótesis no es cierta en realidad y, consecuentemente, nos llevarán a rechazarla. El conjunto de todos los valores del estadístico de contraste que nos llevan a rechazar la hipótesis nula recibe el nombre de región de rechazo o región crítica. Por el contrario, el conjunto de los valores del estadístico de contraste que nos hacen no rechazar la hipótesis nula se denomina región de aceptación. La localización de la región crítica depende del tipo de contraste que se plantee, tal y como se muestra en la siguiente figura.

Figura 2: Localización de la región crítica

Las dos primeras imágenes muestran las regiones críticas para contrastes unilaterales. Concretamente, la primera imagen se corresponde con el caso de un contraste de hipótesis con hipótesis alternativa del tipo <, mientras que la región crítica de la segunda imagen se corresponde con un contraste de hipótesis con hipótesis alternativa del tipo >. Por último, en la tercera imagen representa la región crítica para un contraste con hipótesis alternativa del tipo \( \neq \). En cualquier caso, los valores de la región crítica son aquellos que menos probabilidad tienen de ocurrir suponiendo cierta la hipótesis nula.

Hipótesis simples: La hipótesis asigna un único valor al parámetro desconocido,  \( H  \equiv  \theta = \theta_0 \)

Hipótesis compuestas: La hipótesis asigna varios valores posibles al parámetro desconocido, \( H  \equiv  \theta \in ( \theta_1, \theta_2) \)

En términos generales: Dada una variable aleatoria \( X  \) que se distribuye según una ley de probabilidad \( Ϝ(\theta)  \) que depende de un parámetro θ. Supongamos que el parámetro \( \theta \) es desconocido y que \( \theta_0 \) es el valor propuesto para \( \theta \). El contraste consiste en elegir, en alguno de los contrastes siguientes, entre la hipótesis \( H_0  \) o \( H_1 \).

\(  \begin{array}{ccccc} H_0 \equiv  \theta \leq \theta_0 &  &  H_0 \equiv θ \geq θ_0  &  & H_0 \equiv θ = θ_0 \\ & o & & o & \\ H_1 \equiv  \theta > \theta_0  &   &  H_1 \equiv  θ < θ_0  &  &  H_1 \equiv  θ \neq θ_0 \end{array}  \)

Nota: Consideramos la hipótesis \( H_0  \) simple y la hipótesis \( H_1  \) compuesta.

  • En los dos primeros contrastes, en los que la hipótesis alternativa es: \( H_1≡ θ>θ_0 \)  o \(  H_1 ≡ θ<θ_0 \), se dice que la Hipótesis Alternativa es Unilateral, ya que los posibles valores de \(  θ \)  bajo \( H_1 \) están situados a un lado del valor propuesto bajo \(  H_0 \)  y la región crítica recibe el nombre de Región crítica o de Rechazo Unilateral. (La hipótesis \(  H_1 \)  da lugar a una región crítica a un solo lado del valor del parámetro).
  • En el tercer contraste, en el que la hipótesis alternativa es de la forma \(  H_1≡ θ \neq θ_0 \), se dice que la Hipótesis Alternativa es Bilateral y la región crítica también recibe el nombre de Región Crítica Bilateral. (La hipótesis \(  H_1 \) da lugar a una región crítica a ambos lados del valor del parámetro).

\(  \begin{array}{||c|c||} \hline \begin{array}{c}H_0 \equiv \theta = \theta_0 \\ H_1 \equiv \theta \neq  \theta_0 \end{array}& Simple – Compuesta  \\ \hline \begin{array}{c}H_0 \equiv \theta  \leq \theta_0 \\ H_1 \equiv \theta > \theta_0 \end{array}& Compuesta – Compuesta \\ \hline \begin{array}{c}H_0 \equiv \theta \geq \theta_0 \\ H_1 \equiv \theta <  \theta_0 \end{array} & Compuesta – Compuesta \\ \hline \end{array} \)

Figura 3: Tipos de Hipótesis

El tamaño de la región de rechazo lo establece el investigador. Es decir, el investigador decide a partir de qué valor del estadístico de contraste va a rechazar la hipótesis nula. O en otras palabras, identifica cuáles son los valores que son poco probables de ocurrir bajo la hipótesis nula. El valor del estadístico de contraste a partir del cual se rechaza la hipótesis nula recibe el nombre de valor crítico. A la probabilidad de los valores de la región crítica se le conoce como nivel de significación y se denota mediante α. Al valor 1-α  se le conoce como nivel de confianza.

La resolución del contraste se hace en función de un criterio que se conoce como regla de decisión. La regla de decisión nos dice que se ha de rechazar la hipótesis nula en favor de la hipótesis alternativa cuando el valor del estadístico de contraste caiga dentro de la región de rechazo. En caso contrario, no se rechazará la hipótesis nula y se considerará cierta. En otras palabras, rechazaremos la hipótesis nula siempre y cuando el valor del estadístico de contraste sea mayor al valor crítico.

Equivalentemente, se puede resolver un contraste a partir de una probabilidad que recibe el nombre de p-valor. El p-valor de un contraste de hipótesis nos indica cuál es la probabilidad de obtener un valor del estadístico de contraste tanto o más “extraño” que el que se ha obtenido suponiendo que la hipótesis nula es cierta. Por tanto, p-valores pequeños nos llevarán a rechazar la hipótesis nula. Concretamente, si el p-valor obtenido es más pequeño que el nivel de significación, rechazaremos la hipótesis nula. En caso contrario, no podremos rechazar la hipótesis nula y la consideraremos verdadera.

Figura 4: Representación del rechazo y no rechazo de la hipótesis nula en función del p-valor

La Reglas de decisión.

  1. Contrastes bilaterales: Si la hipótesis alternativa da lugar a una región crítica “a ambos lados” del valor del parámetro, diremos que el test es bilateral o de dos colas.

Se rechaza H0 si el estadístico de contraste cae en la zona crítica, es decir, si el estadístico de contraste toma un valor tan grande o tan pequeño que la probabilidad de obtener un valor tan extremo o más que el encontrado es menor que α /2.

errores1Figura 5: Regiones de rechazo y no rechazo

  1. Contraste unilateral: Si la hipótesis alternativa da lugar a una región crítica “a un solo lado del valor del parámetro”, diremos que el test es unilateral o de una sola cola

Se rechaza \( H_0 \) si el estadístico de contraste cae en la zona crítica, es decir, si toma un valor tan grande que la probabilidad de obtener un valor como ese o mayor es menor que α .

Contraste bilateral

NORMAL42

\( H_0 \equiv  \theta = \theta_0 \)

\( H_1 \equiv  \theta \neq \theta_0  \)

Contraste unilateral: Cola a la derecha

NORMAL43

\( H_0  \equiv  \theta ≤  \theta_0 \)

\( H_1 \equiv  \theta >  \theta_0 \)

Contraste unilateral: Cola a la izquierda

NORMAL44

\( H_0  \equiv  \theta  ≥ \theta_0 \)

\( H_1 \equiv  \theta < \theta_0 \)

Figura 6: Tipos de contrastes

La decisión:

Planteada la hipótesis, formulados los supuestos, definido el estadístico de contraste y su distribución muestral, y establecida la regla de decisión, el paso siguiente es obtener una muestra aleatoria de tamaño n, calcular el estadístico de contraste y tomar una decisión:

  • Si es estadístico de contraste cae en la zona crítica se rechaza \( H_0 \).
  • Si es estadístico cae en la zona de no rechazo se mantiene \( H_0 \).

Si rechazamos Ho afirmamos que la hipótesis es falsa, es decir, que afirmamos con una probabilidad α de equivocarnos que esa hipótesis es falsa. Por el contrario, si no la rechazamos, no estamos afirmando que la hipótesis sea verdadera. Simplemente que no tenemos evidencia empírica suficiente para rechazarla y que se considera compatible con los datos.

Como conclusión, si se mantiene o no se rechaza \( H_0 \), nunca se puede afirmar que es verdadera.

Errores de Tipo I y II.

  • Error de tipo I: Se comete cuando se decide rechazar la hipótesis nula \( H_0 \) que en realidad es verdadera. La probabilidad de cometer ese error es α.

 \( P[Rechazar \hspace{.1cm} H_0 / H_0 \hspace{.1cm} es \hspace{.1cm} cierta]=α \hspace{.1cm}; \hspace{.1cm} 0 \leq α \leq 1 \)

  • Error de tipo II: Se comete cuando se decide no rechazar la hipótesis nula \( H_0 \) que en realidad es falsa. La probabilidad de cometer ese error es β .

 \( P[No\hspace{.1cm}  rechazar \hspace{.1cm} H_0 / H_0 \hspace{.1cm} es \hspace{.1cm} falsa] =β \hspace{.1cm} ; \hspace{.1cm} 0 \leq β \leq 1  \)

Por tanto,

  • 1 – α es la probabilidad de tomar una decisión correcta cuando \( H_0 \) es verdadera.
  • 1 – β es la probabilidad de tomar una decisión correcta cuando \( H_0 \) es falsa.

En la tabla siguiente presentamos las decisiones y posibles errores que se pueden cometer

\(  \begin{array}{||l|cc||} \hline &  \hspace{5cm} Decisión   \\ \hline & Rechazar \hspace{.1cm}  H_0 & No \hspace{.1cm}  rechazar H_0 \\ \hline Hipótesis \hspace{.1cm} cierta \hspace{.1cm} H_0 & \begin{array}{c} Error  \hspace{.1cm} de \hspace{.1cm} tipo \hspace{.1cm}I \\ P = α  \end{array} & \begin{array}{c} Decisión \hspace{.1cm} correcta \\ P = 1- \beta \end{array}  \\ \hline Hipótesis \hspace{.1cm} falsa \hspace{.1cm} H_0 & \begin{array}{c} Decisión \hspace{.1cm} correcta \\  P = 1-\alpha  \end{array} & \begin{array}{c} Error  \hspace{.1cm} de \hspace{.1cm} tipo \hspace{.1cm}II \\  P = β \end{array} \\ \hline \end{array}  \)

Figura 7: Cuadro tipos de errores

  • La dificultad al usar un procedimiento basado en datos muestrales es que debido a la variabilidad de muestreo, puede resultar una muestra no representativa, y por tanto, resultaría un rechazo erróneo de H0.
  • La probabilidad de cometer un error de tipo I con nuestra decisión es una probabilidad conocida, pues el valor de α lo fija el propio investigador.
  • Sin embargo, la probabilidad de cometer un error de tipo II, β , es un valor desconocido que depende de tres factores:
      • La hipótesis \( H_1 \) que consideremos verdadera.
      • El valor de α .
      • El tamaño del error típico (desviación típica) de la distribución muestral utilizada para efectuar el contraste.

errores2Figura 8: Zonas de rechazo y no rechazo

Relaciones entre los errores de Tipo I y II. El estudio de las relaciones entre los errores lo realizamos mediante el contraste de hipótesis:

\(  \begin{array}{c} H_0 \equiv  \mu = \mu_0  \\  H_1 \equiv  μ = μ_1 \end{array}  \)

Expresión 1: Contraste de hipótesis

Para ello utilizamos la información muestral proporcionada por el estadístico media muestral \( (\overline{X})\)

Cualquier valor atribuido a \( \mu_1 \) en \( H_1\) (siempre mayor a \( \mu_0 \)) generará distribuciones muestrales distintas para la media muestral. Aunque todas tendrán la misma forma, unas estarán más alejadas que otras de la curva de \( H_0 \), es decir, unas serán distintas de otras únicamente en el valor asignado a \( \mu_1 \).

Cuanto más se aleje el valor \( \mu_1 \) de \( \mu_0 \), más hacia la derecha se desplazará la curva \( H_1 \), y en consecuencia, más pequeña se hará el área \( \beta \). Por lo tanto, el valor de \( \beta \) depende del valor concreto de \( \mu_1 \) que consideremos verdadero dentro de todos los afirmados por \( H_1 \) .
  • Cuanto mayor es \( \alpha \), menor es \( \beta \). Se relacionan de forma inversa.
  • Para una distancia dada entre \( \mu_0 \) y \( \mu_1 \), el solapamiento entre las curvas correspondientes a uno y otro parámetro será tanto mayor cuanto mayor sea el error típico de la distribución muestral representada por esas curvas (cuanto mayor es el error típico de una distribución, más ancha es esa distribución). Y cuanto mayor sea el solapamiento, mayor será el valor de \( \beta \).

En lugar de buscar procedimientos libres de error, debemos buscar procedimientos para los que no sea probable que ocurran ningún tipo de estos errores. Esto es, un buen procedimiento es aquel para el que es pequeña la probabilidad de cometer cualquier tipo de error. La elección de un valor particular de corte de la región de rechazo fija las probabilidades de errores tipo I y tipo II.

Debido a que \( H_0 \) especifica un valor único del parámetro, hay un solo valor de \( \alpha \). Sin embargo, hay un valor diferente de \( \beta \) por cada valor del parámetro recogido en \( H_1 \).

En general, un buen contraste o buena regla de decisión debe tender a minimizar los dos tipos de error inherentes a toda decisión. Como \( \alpha \) queda fijado por el investigador, trataremos de elegir una región donde la probabilidad de cometer el error de tipo II sea la menor .

Usualmente, se diseñan los contrastes de tal manera que la probabilidad a sea el 5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o más estrictas.

 Potencia de un contraste. Es la probabilidad de decidir \( H_1 \) cuando ésta es cierta

\( P[decidir \hspace{.1cm} H_1 / H_1 \hspace{.1cm} es \hspace{.1cm} verdadera]=1- \beta \)

El concepto de potencia se utiliza para medir la bondad de un contraste de hipótesis. Cuanto más lejana se encuentra la hipótesis \( H_1 \) de \( H_0 \) menor es la probabilidad de incurrir en un error tipo II y, por consiguiente, la potencia tomará valores más próximos a 1.

Si la potencia en un contraste es siempre muy próxima a 1 entonces se dice que el estadístico de contraste es muy potente para contrastar \( H_0 \) ya que en ese caso las muestras serán, con alta probabilidad, incompatibles con \( H_0 \) cuando \( H_1 \) sea cierta.

Por tanto puede interpretarse la potencia de un contraste como su sensibilidad o capacidad para detectar una hipótesis alternativa. La potencia de un contraste cuantifica la capacidad del criterio utilizado para rechazar \( H_0 \) cuando esta hipótesis sea falsa

Es deseable en un contraste de hipótesis que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. Sin embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo I, α, conduce a incrementar la probabilidad del error de tipo II, β. El recurso para aumentar la potencia del contraste, esto es, disminuir la probabilidad de error de tipo II, es aumentar el tamaño muestral lo que en la práctica conlleva un incremento de los costes del estudio que se quiere realizar

El concepto de potencia nos permite valorar cual entre dos contrastes con la misma probabilidad de error de tipo I, α, es preferible. Se trata de escoger entre todos los contrastes posibles con α prefijado aquel que tiene mayor potencia, esto es, menor probabilidad β de incurrir en el error de tipo II. En este caso el Lema de Neyman-Pearson garantiza la existencia de un contraste de máxima potencia y determina cómo construirlo.

Potencia de un contraste de hipótesis

 Contrastes de hipótesis paramétricos

El propósito de los contrastes de hipótesis es determinar si un valor propuesto (hipotético) para un parámetro u otra característica de la población debe aceptarse como plausible con base en la evidencia muestral.

Podemos considerar las siguientes etapas en la realización de un contraste:

    1. El investigador formula una hipótesis sobre un parámetro poblacional, por ejemplo que toma un determinado valor
    2. Selecciona una muestra de la población
    3. Comprueba si los datos están o no de acuerdo con la hipótesis planteada, es decir, compara la observación con la teoría
      • Si lo observado es incompatible con lo teórico entonces el investigador puede rechazar la hipótesis planteada y proponer una nueva teoría
      • Si lo observado es compatible con lo teórico entonces el investigador puede continuar como si la hipótesis fuera cierta.

Contrastes de hipótesis para la media de una población normal

El objetivo es probar uno de los siguientes contrastes de hipótesis con respecto de μ

\(  \begin{array}{ccccc} H_0 \equiv  \mu = \mu_0 &  &  H_0 \equiv μ \leq μ_0  &  &  H_0 \equiv μ \geq μ_0 \\ & o & & o & \\  H_1 \equiv  μ \neq μ_0  &   &  H_1 \equiv  μ > μ_0  &  &  H_1 \equiv  μ < μ_0 \end{array}  \)

Expresión 2: Tipos de contrastes de hipótesis

donde \(  μ_0 \) es un valor conocido dado de antemano. Para ello se toma una m.a.s concreta  \( x_1, x_2, \cdots , x_{n} \) cuya media valdrá: \(  \bar {x} = \displaystyle \frac{1} {n} \displaystyle \sum_{i=1}^{n} x_{i} \)

Se distinguen dos situaciones: a) Varianza poblacional conocida y b) varianza poblacional desconocida.

Contrastes de hipótesis para la media de una población normal con Varianza conocida

El caso en el que se desea resolver un contraste de hipótesis para la media de una variable continua y, además, se conoce el valor de la varianza de dicha variable en toda las poblaciónes el más sencillo de todos y, a la vez, el menos usual.

Supongamos una muestra aleatoria \( X_1, X_2, \cdots, X_n \) de tamaño n de valores de una variable aleatoria que sigue una distribución normal de media μ desconocida, y de desviación típica σ conocida. Se plantea el siguiente contraste:

\(  \begin{array}{c} H_0 \equiv  \mu = \mu_0 \\  H_1 \equiv  μ \neq μ_0   \end{array}  \)

Expresión 3: Contraste de hipótesis bilateral

Para resolver este contraste, calculamos el siguiente estadístico de contraste:

\(  Z= \displaystyle \frac {\overline{X}-μ_0} {σ/ \sqrt{n}} \)

Expresión 4: Estadístico de contraste de la media con varianza conocida

que sigue una distribución normal de media 0 y desviación típica 1 cuando la hipótesis nula es cierta. A continuación se busca el cuantil 1-α/2 de una distribución normal y se comparan ambos valores.

En el contraste de hipótesis bilateral, si el valor absoluto del estadístico de contraste es mayor que el cuantil, se rechazará la hipótesis nula. En caso contrario, no se rechazará.

En el contraste de hipótesis unilateral

  • Con hipótesis alternativa del tipo <, el valor crítico \( – z_{1-α} \) y la hipótesis nula se rechaza cuando \( Z < – z_{1- α} \)
  • Con hipótesis alternativa del tipo >. el valor crítico \( – z_{1-α} \) y la hipótesis nula se rechaza cuando \( Z > – z_{1- α} \)

R no incluye una función específica para la resolución de contrastes de hipótesis de este tipo. Aun así, pueden resolverse de una forma muy sencilla como se muestra en el siguiente ejemplo.

Supuesto Práctico 1

Con el fin de estudiar el número medio de flexiones continuadas que pueden realizar sus alumnos, un profesor de educación física somete a 75 de ellos, elegidos aleatoriamente, a una prueba. El número de flexiones realizado por cada alumno, así como su sexo y si realizan o no deporte fuera del horario escolar se muestran en el fichero Flexiones.txt.

Tabla1; Datos del Supuesto Práctico 1

Se sabe que el número de flexiones se distribuye según una Normal de varianza poblacional 7.5. ¿Puede asumirse, considerando un nivel de significación del 5%, que el número medio de flexiones que realizan los alumnos es de 55?

El contraste de hipótesis asociado a este ejercicio es

\(  \begin{array}{c} H_0 \equiv  \mu = 55 \\  H_1 \equiv  μ \neq  55   \end{array}  \)

Expresión 5: Contraste de hipótesis del supuesto práctico 1

En primer lugar debemos importar en R los datos que contienen el número de flexiones realizadas por cada alumno. Para ello, utilizamos la orden read.table.

> setwd(“D:/”)  # cambiar al directorio de trabajo donde están los datos
> datos<- read.table(“D:/Flexiones.txt”, header = TRUE)
> datos
Flexiones Sexo Deporte
1         60    H       0
2         41    H       0
3         53    M       1
4         53    M       0
5         41    H       0
6         56    H       0
7         50    H       0
8         53    M       1
9         50    M       1
10        48    M       0
11        50    M       1
12        48    M       1
13        56    H       0
14        52    M       1
15        54    M       0
16        50    H       1
17        50    H       0
18        54    H       0
19        52    H       1
20        48    H       0
21        48    H       1
22        35    M       1
23        50    M       1
24        41    M       1
25        56    M       1
26        52    M       1
27        56    M       0
28        54    H       1
29        53    H       0
30        53    M       0
31        53    H       0
32        41    M       1
33        48    M       0
34        50    H       1
35        50    M       1
36        52    H       0
37        53    M       0
38        35    H       0
39        35    H       0
40        54    M       0
41        46    M       1
42        48    H       0
43        50    M       0
44        48    H       0
45        41    M       0
46        48    M       1
47        60    H       1
48        53    M       0
49        54    M       1
50        56    H       1
51        50    H       1
52        41    H       0
53        60    M       1
54        60    M       1
55        54    H       0
56        54    H       0
57        53    H       0
58        35    M       0
59        54    H       0
60        48    M       0
61        50    H       0
62        54    H       0
63        54    H       0
64        53    H       0
65        52    H       0
66        50    H       0
67        52    H       0
68        48    H       1
69        46    H       1
70        53    H       0
71        50    H       0
72        35    H       0
73        50    H       1
74        60    M       1
75        50    H       0

Una vez hecho esto, introducimos en R el nivel de significación que proporciona el enunciado.

> alpha<- 0.05

A continuación, calculamos el valor del estadístico de contraste.

> alpha<- 0.05
> media<- mean(datos$Flexiones)
> mu_0 <- 55
> varianza <- 7.5
>  n <- nrow(datos)
> Z<- (media – mu_0) / (sqrt(varianza)/sqrt(n))
> Z
[1] -15.47408

Y también el valor crítico, que en este caso coincide con z1-α/2, el cuantil 1-α/2  de una distribución normal de media 0 y varianza 1.

 > cuantil<- qnorm(1 – alpha/2)
> cuantil
[1] 1.959964

Como el valor absoluto del estadístico de contraste (15.47408) es mayor que el valor crítico (1.959964), en este caso se rechaza la hipótesis nula en favor de la hipótesis alternativa. Es decir, no puede asumirse que el número medio de flexiones que realizan los alumnos es de 55.

Contrastes de hipótesis para la media de una población normal con Varianza desconocida

Supongamos que la varianza poblacional de la variable de interés es desconocida. Nuestro objetivo sigue siendo la resolución del contraste de hipótesis para la media de dicha variable.

\(  \begin{array}{ccccc} H_0 \equiv  \mu = \mu_0 &  &  H_0 \equiv μ \geq μ_0  &  &  H_0 \equiv μ \leq μ_0 \\ & o & & o & \\  H_1 \equiv  μ \neq μ_0  &   &  H_1 \equiv  μ < μ_0  &  &  H_1 \equiv  μ > μ_0 \end{array}  \)

Expresión 6: Tipos de contrastes de hipótesis

Supongamos, de nuevo, una muestra aleatoria \( X_1, X_2, \cdots, X_n \), de tamaño n de valores de la variable aleatoria que sigue una distribución normal de media \( \mu \) y desviación típica \( \sigma \), ambas desconocidas. Para resolver el contraste de hipótesis para \( \mu \) en este caso partimos del estadístico de contraste

\(  T= \displaystyle \frac {\overline{X}-μ_0} {s/ \sqrt{n}} \)

Expresión 7: Expresión del estadístico de contraste

dicho estadístico  sigue una distribución t de Student con n-1 grados de libertad cuando la hipótesis nula es cierta. En la fórmula anterior, s  hace referencia a la cuasidesviación típica muestral.

Fijado un nivel de significación α

a) Para la hipótesis alternativa \( H_1: \mu \neq \mu_0 \) la correspondiente región de no rechazo es \( (-t_{α/2;n-1},  t_{α/2;n-1})  \) y el estadístico de contraste adopta la forma de la Expresión 7

y se utiliza la siguiente regla de decisión

\(  \begin{array}{ccccc} H_0 \equiv  \mu = \mu_0 & Si  &  t_ {exp} < t_{α/2;n-1}  & \Rightarrow &  No \hspace{.2cm} se \hspace{.2cm} rechaza \hspace{.2cm}  H_0 \\  H_1 \equiv  μ \neq μ_0  & Si  &  t_ {exp} \geq t_{α/2;n-1}   &  \Rightarrow &  Se \hspace{.2cm} rechaza \hspace{.2cm}  H_0 \end{array}  \)

Expresión 8: Contraste para \( H_1 \equiv \mu \neq \mu_0 \) y regla de decisión

b) Para la hipótesis alternativa \( H_1 \equiv \mu > \mu_0 \) la correspondiente región de no rechazo es \( ( -\infty, t_{\alpha;n-1}) \) y el estadístico de contraste es el mismo a). Se utiliza la siguiente regla de decisión

\(  \begin{array}{ccccc} H_0 \equiv  \mu \leq \mu_0 & Si  &  t_ {exp} < t_{α;n-1}  & \Rightarrow &  No \hspace{.2cm} se \hspace{.2cm} rechaza \hspace{.2cm}  H_0 \\  H_1 \equiv  μ > μ_0  & Si  &  t_ {exp} \geq t_{α;n-1}   &  \Rightarrow &  Se \hspace{.2cm} rechaza \hspace{.2cm}  H_0 \end{array}  \)

Expresión 9: Contraste para \( H_1 \equiv  μ > μ_0  \) y regla de decisión

c) Para la hipótesis alternativa \( H_1 \equiv  μ < μ_0  \)  la correspondiente región de no rechazo es \( (- t_{\alpha;n-1}, \infty,) \), el estadístico de contrate es el anterior y se adopta la siguiente regla de decisión

\(  \begin{array}{ccccc} H_0 \equiv  \mu \geq \mu_0 & Si  &  t_ {exp} > – t_{α;n-1}  & \Rightarrow &  No \hspace{.2cm} se \hspace{.2cm} rechaza \hspace{.2cm}  H_0 \\  H_1 \equiv  μ <  μ_0  & Si  &  t_ {exp} \leq – t_{α;n-1}   &  \Rightarrow &  Se \hspace{.2cm} rechaza \hspace{.2cm}  H_0 \end{array}  \)

Expresión 10: Contraste para \( H_1 \equiv \mu < \mu_0 \) y regla de decisión

La función de t.testla cual se introdujo en la práctica 5, resuelve contrastes de hipótesis en este contexto. Recordemos la sintaxis de esta función:

t.test(x, alternative, mu = 0, conf.level = 0.95)

donde

  • x es un vector numérico con los valores de la muestra de la variable de interés
  • alternative indica el tipo de la hipótesis alternativa del contraste. Los posibles valores son “two.sided” (hipótesis alternativa del tipo ≠, es la opción que se considera por defecto), “less” (hipótesis alternativa del tipo <) y “greater” (hipótesis alternativa del tipo >).
  • mu es un valor numérico que se corresponde con el valor µ0  que se desea comprobar si es válido para la media de la variable. Si no se introduce ningún valor, se toma el valor 0 por defecto.
  • level es un valor numérico que indica el nivel de confianza, en tanto por uno, al que se construirá el intervalo de confianza asociado al contraste. Si omitimos este parámetro en la llamada a la función, el intervalo de confianza se calcula a un nivel de confianza del 95%.

Veamos el funcionamiento de la función t.test mediante un ejemplo.

Supuesto Práctico 2

Considerando nuevamente el conjunto de datos que se ha presentado en el Supuesto práctico1, relativo al número de flexiones y el sexo de los alumnos. Contrastar a un nivel de significación del 2% la hipótesis de que el número medio de flexiones realizada por los alumnos es de 50. Suponer en este caso que el número de flexiones se distribuye según una normal de varianza desconocida. El fichero es Flexiones.txt.

Tabla1; Datos del Supuesto Práctico 1

En primer lugar, planteamos el contraste de hipótesis asociado a este supuesto

\(  \begin{array}{c} H_0 \equiv  \mu = 50 \\  H_1 \equiv  μ \neq  50   \end{array}  \)

Expresión 11: Contraste de hipótesis del supuesto práctico 2

Partiendo del conjunto de datos del supuesto 1, el cual se había importado y almacenado en una variable de nombre datos

En primer lugar, como hicimos anteriormente, debemos importar en R los datos que contienen el número de flexiones realizadas por cada alumno. Para ello, utilizamos la orden read.table.

> setwd(“C:/Users/Usuario/Desktop/Datos/”)  # cambiar al directorio de trabajo donde están los datos
> datos<- read.table(“Flexiones.txt”, header = TRUE)

Una vez importado los datos, vamos a resolver este contraste. Para ello, basta con realizar la siguiente llamada a la función t.test:

> t.test(datos$Flexiones, alternative = “two.sided”, mu = 50, conf.level = 0.98)

  One Sample t-test

data:  datos$Flexiones
t = 0.15451, df = 74, p-value = 0.8776
alternative hypothesis: true mean is not equal to 50
98 percent confidence interval:
 48.46512 51.74822
sample estimates:
mean of x
 50.10667

Entre la información que devuelve la función t.test, encontramos la relativa al intervalo de confianza, que se estudió en la práctica 5. En esta práctica nos centraremos en la referente al contraste de hipótesis.

t = 0.15451, df = 74, p-value = 0.8776
alternative hypothesis: true mean isnotequal to 50

En primer lugar, aparece el valor del estadístico de contraste (0.15451) junto a los grados de libertad de la distribución t de Student (74) que sigue dicho estadístico de contraste. A continuación, encontramos el p-valor, que en este caso es 0.8776. Por último, el programa nos recuerda que la hipótesis alternativa que se está contrastando es del tipo ≠.

Teniendo en cuenta que el p-valor (0.8776) es superior al nivel de significación (0.02) en este ejemplo no podemos rechazar la hipótesis nula, por lo que podemos asumir que el número medio de flexiones que realizan los alumnos es de 50.


Contrastes de hipótesis para el parámetro p de una distribución Binomial

Supongamos que  \( X  \) es una variable aleatoria con distribución de probabilidad binomial con parámetro \( 1 \) y \( \pi \), \( X \rightarrow  B(n, π) \), de la que se extrae una muestra aleatoria \( X_1, X_2, \cdots, X_n \) de tamaño \( n \). Sea \( p \) la proporción poblacional. Se desea contrastar si el parámetro \( \pi \)  puede ser igual a un valor \( \pi_0 \), es decir se desea resolver uno de los siguientes contrastes

\(  \begin{array}{|c|c|} \hline \text {Contraste bilateral} & \text {Contrastes unilaterales} \\ \hline H_0 \equiv  \pi = \pi_0 &   H_0 \equiv  \pi \geq \pi_0  \hspace {2cm}  H_0 \equiv \pi \leq \pi_0 \\   H_1 \equiv  \pi \neq \pi_0  &   H_1 \equiv  \pi < \pi_0  \hspace {2cm}   H_1 \equiv  \pi > \pi_0  \\  \hline \end{array}  \)

Expresión 12: Tipos de contrastes de hipótesis para la proporción

El contraste de hipótesis para el parámetro \( p \) (proporción de éxitos) de una distribución Binomial se basa en la distribución del estadístico muestral \( \pi \) para un tamaño muestral \( n \) suficientemente grande.

Denotando por \(  \widehat {p} \) la proporción de éxitos de la muestra de una distribución Binomial, se verifica que

\(  Z= \displaystyle \frac {\widehat{p}- \pi_0} { \displaystyle \sqrt { \displaystyle \frac { \widehat{p} (1- \widehat {p})} {n}}} \)

Expresión 13: Expresión del estadístico de contraste para el parámetro p de un distribución Binomial

sigue una distribución normal de media 0 y desviación típica 1 bajo la hipótesis nula.

a) Para la hipótesis alternativa \( H_1 \equiv \pi \neq \pi_0 \) la correspondiente región de no rechazo es \( (- z_{α/2},  z_{α/2}) \)

b) Para la hipótesis alternativa \( H_1 \equiv \pi  > \pi_0 \) la correspondiente región de no rechazo es \( (-\infty , z_α) \)

c) Para la hipótesis alternativa \( H_1 \equiv \pi  < \pi_0 \)  la correspondiente región de no rechazo es \( (- z_α , \infty) \).

La función que resuelve contrastes de hipótesis para la proporción en R es prop.test. Sus argumentos son los siguientes

prop.test(x, n,p = NULL, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95)

donde

  • x es un valor numérico que indica el número de elementos del grupo que presentan la característica de interés
  • n es un valor numérico que indica el número total de elementos del grupo
  • p es un valor numérico que se corresponde con el valor π0 que se desea comprobar si es válido para la proporción
  • alternative indica el tipo de la hipótesis alternativa del contraste. Los posibles valores son “two.sided” (hipótesis alternativa del tipo ≠ , es la opción que se considera por defecto), “less” (hipótesis alternativa del tipo <) y “greater” (hipótesis alternativa del tipo >).
  • level es un valor numérico que indica el nivel de confianza, en tanto por uno, al que se construirá el intervalo de confianza asociado al contraste. Si omitimos este parámetro en la llamada a la función, el intervalo de confianza se calcula a un nivel de confianza del 95%.

Vamos a aplicar la función prop.test a los datos sobre las flexiones realizadas por los alumnos que hemos utilizado en los ejemplos anteriores.

Supuesto Práctico 3

Considerando nuevamente el conjunto de datos que se ha presentado en el Supuesto práctico1, relativo al número de flexiones y el sexo de los alumnos. Contrastar a un nivel de confianza del 95%, si la proporción de alumnos varones es mayor o igual que 0.5 frente a que dicha proporción es menor. El fichero es Flexiones.txt.

El contraste que debemos resolver es

\(  \begin{array}{c} H_0 \equiv  \pi_H \geq 0.5 \\  H_1 \equiv  \pi_H < 0.5   \end{array}  \)

Expresión 14: Contraste de hipótesis del Supuesto Práctico 3

Para realizar la llamada a la función prop.test necesitamos conocer el número de alumnos varones y el número total de estudiantes en la muestra. Para ello utilizamos la función de R table.

En primer lugar, omo hicimos anteriormente, debemos importar en R los datos que contienen el número de flexiones realizadas por cada alumno. Para ello, utilizamos la orden read.table.

> setwd(“C:/Users/Usuario/Desktop/Datos/”)  # cambiar al directorio de trabajo donde están los datos
> datos<- read.table(“Flexiones.txt”, header = TRUE)

Una vez importado los datos,  utilizamos la función de R table como hemos dicho anteriormente

> table(datos$Sexo)
 H  M
43 32

De los 75 estudiantes que conforman la muestra, 43 son chicos. Por lo que la llamada a prop.test sería la siguiente:

> prop.test(43, 75, p = 0.5, alternative = “less”, conf.level = 0.95)

  1-sample proportions test with continuity correction

data:  43 out of 75, null probability 0.5
X-squared = 1.3333, df = 1, p-value = 0.8759
alternative hypothesis: true p is less than 0.5
95 percent confidence interval:
 0.0000000 0.6693525
sample estimates:
        p
0.5733333

De nuevo, los resultados de la función incluyen información sobre el intervalo de confianza y sobre el contraste de hipótesis. Nos centraremos en esta última.

X-squared = 1.3333, df = 1, p-value = 0.8759
alternativehypothesis: true p islessthan 0.5

El valor del estadístico de contraste es 1.3333, con un p-valor de 0.8759. Como el p-valor es mayor que el nivel de significación, que es 0.05, no rechazamos la hipótesis de que la proporción de alumnos es mayor o igual que 0.5.


Contrastes de hipótesis para la diferencias de medias de dos poblaciones normales e independientes

De un modo general, dos muestras se dice que son independientes cuando las observaciones de una de ellas no condicionan para nada a las observaciones de la otra, siendo dependientes en caso contrario. En realidad, el tipo de dependencia que se considera a estos efectos es muy especial: cada dato de una muestra tiene un homónimo en la otra, con el que está relacionada, de ahí el nombre alternativo de muestras apareadas. Por ejemplo, supongamos que se quiere estudiar el efecto de un medicamento, sobre la hipertensión, a un grupo de 20 individuos. El experimento se podría planificar de dos formas:

  1. Aplicando el medicamento a 10 de estos individuos y dejando sin tratamiento al resto. Transcurrido un tiempo se miden las presiones sanguíneas de ambos grupos y se contrasta la hipótesis \( H_0: \mu_1 = \mu_2 \hspace{.2cm} vs \hspace{.2cm} H_1: \mu_1 \neq \mu_2 \) para evaluar si las medias son iguales o no. Como las muestras están formadas por individuos distintos sin relación entre sí, se dirá que son muestras independientes.
  2. Aplicando el medicamento a los 20 individuos disponibles y anotando su presión sanguínea antes y después de la administración del mismo. En este caso los datos vienen dados por parejas, presión antes y después y tales datos están relacionados entre sí. Las muestras son apareadas.

Consideramos ahora dos variables aleatorias independientes \( X_1 \) y \( X_2 \) con distribuciones normales de parámetro \( (\mu_1, \sigma_1) \)  y \( (\mu_2, \sigma_2) \) respectivamente, de las que vamos a tomar muestras aleatorias independientes de tamaños \( n_1 \) y \( n_2 \), respectivamente.

Nuestro objetivo, en este caso, es resolver un contraste de hipótesis para la diferencia de las medias de ambas distribuciones, es decir, para \( \mu_1 \)  y \( \mu_2 \). Este contraste presentará alguna de las formas que se muestran a continuación

\(  \left \lbrace \begin{array} {c} H_0 \equiv  \mu_1 – \mu_2 = d_0  \\ H_1 \equiv   \mu_1 – \mu_2 \neq d_0 \end {array}\right.   \)  \(  \hspace{1cm} \left \lbrace \begin{array} {c} H_0 \equiv  \mu_1 – \mu_2 \geq d_0  \\ H_1 \equiv   \mu_1 – \mu_2 < d_0 \end {array}\right.   \) \(  \hspace{1cm} \left \lbrace \begin{array} {c}  H_0 \equiv  \mu_1 – \mu_2 \leq d_0  \\ H_1 \equiv   \mu_1 – \mu_2 >  d_0 \end {array}\right. \)

Expresión 15: Contraste de hipótesis para la diferencia de medias

Pero antes de la resolución del contraste, debemos determinar si las varianzas de ambas distribuciones o, equivalentemente, sus desviaciones típicas, \( \sigma_1 \) y \( \sigma_2 \), aun siendo desconocidas, pueden asumirse iguales o no. La resolución del contraste de hipótesis sobre las medias se realiza de forma diferente dependiendo de las varianzas.

Para decidir si las varianzas de las dos distribuciones pueden asumirse iguales o no plantearemos y resolveremos el siguiente contraste de hipótesis:

\(  \begin{array}{c} H_0 \equiv  \sigma_{1}^{2} = \sigma_{2}^{2} \\  H_1 \equiv  \sigma_{1}^{2} \neq \sigma_{2}^{2}   \end{array}  \)

Expresión 16: Contraste de hipótesis para la igualdad de varianzas

Para resolver este contraste, partimos del estadístico de contraste

\(  F= \displaystyle \frac {s_{1}^{2}} {s_{2}^{2}} \)

Expresión 17: Estadístico de contraste para comparar dos varianzas de dos distribuciones normales e independientes

que sigue una distribución F de Snedecor con \( n_1-1 \)  grados de libertad en el numerador y \( n_2-1 \) grados de libertad en el denominador cuando la hipótesis nula del contraste es cierta. Los valores \( s_{1}^{2} \)  y \( s_{2}^{2} \) en la expresión anterior hacen referencia a las cuasivarianzas muestrales de la variable en el primer y el segundo grupo, respectivamente. En R, la función var.test se encarga de resolver este contraste. Sus parámetros son los siguientes:

var.test(x, y, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95)

siendo

  • x un vector numérico con los datos de la variable de interés en el primer grupo o muestra
  • y un vector numérico con los datos de la variable de interés en el segundo grupo o muestra
  • alternative indica el tipo de la hipótesis alternativa del contraste. Los posibles valores son “two.sided” (hipótesis alternativa del tipo \( \neq \), es la opción que se considera por defecto), “less” (hipótesis alternativa del tipo <) y “greater” (hipótesis alternativa del tipo >).
  • level un valor numérico que indica el nivel de confianza, en tanto por uno, al que se construirá el intervalo de confianza asociado al contraste. Si omitimos este parámetro en la llamada a la función, el intervalo de confianza se calcula a un nivel de confianza del 95%.

Supuesto Práctico 4

Continuando con los datos relativos a las flexiones realizadas por un grupo de estudiantes y asumiendo que las flexiones que realizan los chicos y las que realizan las chicas se distribuyen según sendas distribuciones normales con medias y varianzas desconocidas, contrastar a un nivel de significación del 5% si las varianzas poblacionales de ambas distribuciones pueden asumirse iguales.

El contraste de hipótesis que debemos resolver es

\(   \left \lbrace \begin{array}{c} H_0 \equiv  \sigma_{H}^{2} = \sigma_{M}^{2} \\  H_1 \equiv  \sigma_{H}^{2} \neq  \sigma_{M}^{2}  \end{array} \right.  \)

Expresión 18: Contraste de hipótesis sobre las varianzas del Supuesto Práctico 3

donde \( \sigma_{H}^{2} \) representa la varianza del número de flexiones realizadas por los chicos \( \sigma_{M}^{2} \) y representa la varianza del número de flexiones realizadas por las chicas.

Lo primero que tenemos que hacer para aplicar la función var.test es separar en dos variables los datos relativos a las flexiones realizadas por los chicos y por las chicas.
> Flexiones.chicos<- datos$Flexiones[datos$Sexo == “H”]
> Flexiones.chicas<- datos$Flexiones[datos$Sexo == “M”]

A continuación, utilizamos la función var.test

> var.test(Flexiones.chicos, Flexiones.chicas, alternative = “two.sided”, conf.level = 0.95)

  F test to compare two variances

data:  Flexiones.chicos and Flexiones.chicas
F = 0.87506, num df = 42, denom df = 31, p-value = 0.679
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.4415454 1.6765483
sample estimates:
ratio of variances
         0.8750585

Analizando la información relativa al contraste de hipótesis que se incluye en la salida de var.test, vemos que el valor del estadístico de contraste es 0.87506. La distribución F de Snedecor que sigue el estadístico de contraste tiene 42 grados de libertad en el numerador y 31 en el denominador. El p-valor asociado al contraste es 0.679. Como este valor es superior al nivel de significación (que para este ejemplo es 0.05), no podemos rechazar la hipótesis nula que hemos planteado. Es decir, se puede considerar que la varianza del número de flexiones realizadas por chicos y la varianza del número de flexiones realizadas por chicas son iguales.

Una vez se ha determinado la igualdad (o desigualdad) de las varianzas de ambas distribuciones, procedemos a plantear y a resolver el contraste de hipótesis para la diferencia de las medias propiamente dicho.

a) Si las varianzas se han supuesto iguales, se parte del estadístico de contraste

\( T= \displaystyle \frac{ ( \overline {X}_1 – \overline {X}_2) }{   \displaystyle \sqrt { \displaystyle \frac {(n_{1}-1) s_{1}^{2}+ (n_{2}-1) s_{2}^{2}} {n_{1 } – n_{2} – 2 }  } \displaystyle \sqrt {  \displaystyle \frac{1}{n_{1}} +  \displaystyle \frac{1}{n_{2}}}  } \)

Expresión 19:Estadistico de contraste para la diferencia de medias de dos problaciones con varianzas iguales

Que  se distribuye según una t de Student con \( n_1 + n_2 -2 \) grados de libertad cuando la hipótesis nula es cierta

b) Si las varianzas se han supuesto distintas, el estadístico de contraste de partida es

\( T= \displaystyle \frac{ ( \overline {X}_1 – \overline {X}_2) }{   \displaystyle \sqrt { \displaystyle \frac {s_{1}^{2}} {n_{1} } +  \displaystyle \frac {s_{2}^{2}} {n_{2} } }  } \)

Expresión 20: Estadistico de contraste para la diferencia de medias de dos problaciones con varianzas supuestas distintas

Que  se distribuye, bajo la hipótesis nula, según una distribución t de Student con f grados de libertad, siendo f  el entero más próximo a

 \(  \displaystyle \frac{\left ( \displaystyle \frac {s_2^{2}}{n_1} + \displaystyle \frac {s_2^{2}} {n_2}   \right )^{2} } {  \displaystyle \frac  { \left ( \displaystyle \frac {s_1^{2}} { n_1} \right ) ^{2} } {n_{1}-1 } + \displaystyle \frac { \left ( \displaystyle \frac  { s_2^{2}} { n_2} \right )^{2}} { n_2-{1}} } \)

Expresión 21: Expresión para el cálculo de los grados de libertad f

En ambos casos se utiliza la función t.test (que fue introducida y utilizada con anterioridad).Los parámetros de t.test presentan algunos cambios cuando la función se utiliza en un contexto de dos poblaciones:

t.test (x, y, alternative = c(“two.sided”, “less”, “greater”), mu = 0, var.equal = FALSE, conf.level = 0.95)

En este caso:

  • x es un vector numérico que incluye los valores de la variable de interés en el primer grupo o muestra
  • y es un vector numérico que incluye los datos de la variable de interés en el segundo grupo o muestra
  • alternative indica el tipo de la hipótesis alternativa del contraste. Los posibles valores son “two.sided” (hipótesis alternativa del tipo \( \neq \), es la opción que se considera por defecto), “less” (hipótesis alternativa del tipo <) y “greater” (hipótesis alternativa del tipo >)
  • mu es un valor numérico que se corresponde con el valor  que se desea comprobar si es válido para la diferencia de las medias de la variables
  • equal es un argumento lógico que indica si las varianzas de la variable en los dos grupos o muestras puede suponerse igual o no. Para establecer el valor de este parámetro nos basamos en la interpretación del contraste de hipótesis que proporciona la función var.test. Por defecto,  la función considera que las varianzas en los dos grupos son distintas
  • level un valor numérico que indica el nivel de confianza, en tanto por uno, al que se construirá el intervalo de confianza asociado al contraste. Si omitimos este parámetro en la llamada a la función, el intervalo de confianza se calcula a un nivel de confianza del 95%.

Supuesto Práctico 5

En vista de los resultados obtenidos en el Supuesto Práctico 4, y suponiendo que el número de flexiones que realizan los alumnos y las alumnas se distribuyen de acuerdo a variables normales de medias y varianzas desconocidas, ¿puede suponerse, a un nivel de significación del 5%, que el número medio de flexiones que realizan los chicos y las chicas es igual?

El contraste que debemos resolver en esta ocasión es

\( \left \lbrace \begin{array}{c} H_0 \equiv  \mu_H = \mu_M  \\  H_1 \equiv   μ_H \neq  μ_M  \end{array}  \right.  \)  \( \hspace{1cm} \text{o} \hspace{1cm}   \left \lbrace \begin{array}{c}  H_0 \equiv μ_H – μ_M = 0 \\   H_1 \equiv  μ_H – μ_M \neq 0   \end{array} \right. \)

Expresión 22: Contraste de hipótesis para la diferencia de medias de dos poblaciones normales independientes

En ambos casos \( \mu_H \),  representa la media poblacional del número de flexiones realizadas por chicos y \( \mu_M \) es la media poblacional del número de flexiones realizadas por las chicas.

Dado que en el Supuesto práctico 4 se concluyó la igualdad de las varianzas del número de flexiones que hacen chicos y chicas, debemos establecer a TRUE el valor del parámetro var.equal cuando realicemos la llamada a la función t.test.

> setwd(“C:/Users/Usuario/Desktop/Datos/”)  # cambiar al directorio de trabajo donde están los datos
> datos<- read.table(“Flexiones.txt”, header = TRUE)

> Flexiones.chicos<- datos$Flexiones[datos$Sexo == “H”]
> Flexiones.chicas<- datos$Flexiones[datos$Sexo == “M”]

> t.test(Flexiones.chicos, Flexiones.chicas, alternative = “two.sided”, mu = 0, var.equal = TRUE)

  Two Sample t-test
data:  Flexiones.chicos and Flexiones.chicas
t = -0.06154, df = 73, p-value = 0.9511
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.887271  2.714306
sample estimates:
mean of x mean of y
 50.06977  50.15625

Entre la información sobre el contraste de hipótesis que se incluye entre los resultados

data:  Flexiones.chicos and Flexiones.chicas
t = -0.06154, df = 73, p-value = 0.9511
alternativehypothesis: true difference in meansisnotequal to 0

se incluye el valor del estadístico de contraste (-0.06154), los grados de libertad de la distribución t de Student que sigue el estadístico de contraste (73) y el p-valor (0.9511). Como el p-valor es mayor que el nivel de significación fijado (0.05), no rechazamos la hipótesis nula del contraste.


Contrastes de hipótesis para la diferencia de medias de dos poblaciones normales relacionadas 

Sean \( X_1, X_2, \cdots, X_n  \) e  \( Y_1, Y_2, \cdots, Y_n  \) dos muestras aleatorias de tamaño n y relacionadas, de tal forma que la primera procede de una población \(  N ( \mu_1, \sigma_1) \) y la segunda de una población \(  N ( \mu_2, \sigma_2) \).

Antes de plantear y resolver el contraste de hipótesis para la diferencia de medias de estas dos poblaciones, se hace necesario indicar qué se entiende por muestras relacionadas. Se dice que dos muestras \( X_1, X_2, \cdots, X_n  \) e  \( Y_1, Y_2, \cdots, Y_n  \) están relacionadas o apareadas cuando los datos de las muestras vienen por parejas, uno de cada una de ellas, de manera que cada individuo proporciona dos observaciones. El contraste que debemos resolver será alguno de los siguientes:

\( \left \{ \begin{array}{c} H_0 \equiv  \mu_1 – \mu_2 = d_0 \\  H_1 \equiv μ_1 – μ_2 \neq  d_0 \end{array}\right. \) \( \hspace {2cm} \left \{ \begin{array}{c} H_0 \equiv  \mu_1 – \mu_2 \geq d_0 \\  H_1 \equiv μ_1 – μ_2 < d_0   \end{array}\right. \) \( \hspace {2cm} \left \{ \begin{array}{c} H_0 \equiv  \mu_1 – \mu_2 \leq d_0 \\  H_1 \equiv μ_1 – μ_2  > d_0   \end{array}\right. \)

Expresión 23: Contraste de hipótesis para la diferencia de medias dos poblaciones normales relacionadas

En los casos de muestras relacionadas, se utiliza nuevamente la función t.test para la resolución de contrastes de hipótesis, pero se ha de indicar que los datos que reciben como parámetros provienen de muestras relacionadas incluyendo en la llamada a la función el argumento lógico paired, cuyo valor debe establecerse a TRUE.

t.test (x, y, alternative = c(“two.sided”, “less”, “greater”), mu = 0, paired = TRUE, conf.level = 0.95)

Supuesto Práctico 6

Para estudiar los efectos de un programa de control de peso, el profesor de educación física selecciona aleatoriamente a 6 alumnos y se les toma nota de sus pesos antes y después de pasar por el programa.

\(  \begin{array}{||c|c|c|c|c|c|c||} \hline \text {Antes} & 72.0 & 73.5 & 70.0 & 71.5 & 76.0 & 80.5  \\ \hline \text {Después} & 73.0 & 74.5 & 74.0 & 74.5 & 75.0 & 80.2   \\ \hline \end{array} \)

Tabla2; Datos del Supuesto Práctico 6

¿Puede suponerse, a un nivel de significación del 5%, que el programa para el control de peso es efectivo? O, dicho de otra forma, ¿el peso medio de los alumnos antes de someterse al programa es igual al peso medio tras el programa?

El contraste de hipótesis que debemos resolver es el siguiente:

\( \left \{ \begin{array}{c} H_0 \equiv  \mu_a  =  \mu_d  \\  H_1 \equiv μ_a \neq μ_d \end{array}\right. \)

Expresión 24: Contraste de hipótesis para el Supuesto práctico 6

donde \( \mu_a \) y \( \mu_d \) hacen referencia al peso medio poblacional antes y después de pasar por el programa de control de peso, respectivamente.

Como puede observarse, los datos vienen por parejas: peso antes y después, dos datos por individuo. Parece lógico que los datos se encuentren relacionados entre sí.

En primer lugar, vamos a introducir los datos en R.

> Antes <- c(72.0, 73.5, 70.0, 71.5, 76.0, 80.5)
> Despues<- c(73.0, 74.5, 74.0, 74.5, 75.0, 82.0)

A partir de estos datos, vamos a aplicar la función t.test, para resolver el contraste de hipótesis que hemos planteado.

> t.test(Antes, Despues, alternative = “two.sided”, mu = 0, paired = TRUE)

Paired t-test
data:  Antes and Despues
t = -2.2238, df = 5, p-value = 0.07676
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.4135884  0.2469217
sample estimates:
mean of the differences
              -1.583333

Según los datos que se incluyen en la salida de la función, el estadístico de contraste toma un valor de -2.2238 y sigue una distribución t de Student con 5 grados de libertad. El p-valor asociado al contraste es 0.07676. Como este p-valor es mayor que 0.05, que es el nivel de significación del contraste, podemos afirmar que la diferencia entre los pesos medios de los alumnos antes y después de seguir el programa de control de peso es nula o, equivalentemente, que ambos pesos medios pueden suponerse iguales.


Contrastes de hipótesis para la diferencia de proporciones 

Consideremos dos muestras aleatorias \( X_1, X_2, \cdots, X_{n1} \) e \( Y_1, Y_2, \cdots, Y_{n2} \) de tamaños \( n1 \) y \( n2 \) independientes  entre sí, extraídas de poblaciones con distribuciones binomiales \( B (n1, \pi_1) \) y \( B (n2, \pi_2 ) \), respectivamente. Pretendemos resolver alguno de los siguientes contrastes de hipótesis:

\( \left \{ \begin{array}{c} H_0 \equiv  \pi_1 – \pi_2 = \delta_0 \\  H_1 \equiv \pi_1 – \pi_2 \neq  \delta_0 \end{array}\right. \) \( \hspace {2cm} \left \{ \begin{array}{c} H_0 \equiv  \pi_1 – \pi_2 \geq \delta_0 \\  H_1 \equiv \pi_1 – \pi_2 < \delta_0  \end{array}\right. \) \( \hspace {2cm} \left \{ \begin{array}{c} H_0 \equiv  \pi_1 – \pi_2 \leq \delta_0 \\  H_1 \equiv \pi_1 – \pi_2  > \delta_0   \end{array}\right. \)

Expresión 25: Contraste de hipótesis para la diferencia de proporciones

Para ello, partimos del estadístico de contraste

\(  Z =  \displaystyle \frac { (\widehat{p}_1- \widehat{p}_2) – \delta_0} { \displaystyle \sqrt { \displaystyle \frac {\widehat{p}_1(1- \widehat{p}_1) } {n_1} +   \displaystyle \frac  { \widehat{p}_2 (1- \widehat{p}_2)} {n_2}       }         } \)

Expresión 26: Estadístico de contraste para la diferencia de proporciones

con \( \widehat{p}_1 \) y \( \widehat{p}_2 \) las proporciones de individuos que presentan la característica de interés en la primera y la segunda muestra, respectivamente. Este estadístico de contraste sigue una distribución normal de media 0 y desviación típica 1 cuando la hipótesis nula del contraste en cuestión es cierta.

Para resolver este contraste en R utilizaremos de nuevo la función prop.test, pero teniendo en cuenta que ahora contamos con dos muestras en lugar de con una. Esto afecta (mínimamente) a la manera de definir los parámetros. La sintaxis de la función en este caso es:

prop.test(x, n, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95)

Pero ahora

  • x es un vector de dimensión 2 que indica el número de elementos en cada grupo que presentan la característica de interés
  • n es un vector numérico de dimensión 2 que indica el número total de elementos del grupo
  • alternative indica el tipo de la hipótesis alternativa del contraste. Los posibles valores son “two.sided” (hipótesis alternativa del tipo \( \neq \), es la opción que se considera por defecto), “less” (hipótesis alternativa del tipo <) y “greater” (hipótesis alternativa del tipo >).
  • conf.level sigue siendo un valor numérico que indica el nivel de confianza, en tanto por uno, al que se construirá el intervalo de confianza asociado al contraste. Si omitimos este parámetro en la llamada a la función, el intervalo de confianza se calcula a un nivel de confianza del 95%.

Supuesto Práctico 7

Retomando el conjunto de datos relativo a las flexiones que realizan un grupo de estudiantes, contrastar, a un nivel de significación del 8% si la proporción de alumnos y de alumnas que practican deporte pueden considerarse iguales.

El contraste que vamos a resolver es

\( \left \{ \begin{array}{c} H_0 \equiv  \pi_H – \pi_M = 0 \\  H_1 \equiv \pi_H – \pi_M \neq  0 \end{array}\right. \)

Expresión 27: Contraste de hipótesis para el Supuesto práctico 7

donde \( \pi_H \) y \( \pi_M \) representan la proporciones de chicos y chicas que practican deporte, respectivamente.

En primer lugar, utilicemos el comando table para determinar cuántos chicos y cuantas chicas practican deporte.

> table(datos$Sexo, datos$Deporte)   

0  1
  H 32 11
  M 13 19

En total, 11 de los 43 y 19 de las 32 chicas muestreados practican deporte fuera del horario escolar. Vamos a crear dos vectores con esta información: en uno indicaremos el total de chicos y chicas que practican deporte y en el otro el total de chicos y chicas en la muestra.

> vector_Deporte<- c(11, 19)
> vector_Sexo<- c(43, 32)

Es muy importante que los valores se introduzcan en el mismo orden en los dos vectores. Ahora ya podemos utilizar la función prop.test utilizando estos dos vectores como argumentos.

> prop.test(vector_Deporte, vector_Sexo, alternative = “two.sided”, conf.level = 0.92)

    2-sample test for equality of proportions with continuity correction

data:  vector_Deporte out of vector_Sexo
X-squared = 7.3787, df = 1, p-value = 0.0066
alternative hypothesis: two.sided
92 percent confidence interval:
 -0.5566881 -0.1191840
sample estimates:
  prop 1   prop 2
0.255814 0.593750

Según la salida de la función prop.test, el p-valor asociado al contraste es 0.0066, que al ser menor que el nivel de significación (0.08), nos lleva a concluir que las proporciones de chicos y chicas que hacen deporte no coinciden.


Contrastes de hipótesis no paramétricos

En la sesión anterior hemos estudiado contrastes de hipótesis acerca de parámetros poblacionales, tales como la media y la varianza, de ahí el nombre de contrastes paramétricos. En estadística paramétrica se trabaja bajo el supuesto de que las poblaciones poseen distribuciones conocidas, donde cada función de distribución teórica depende de uno o más parámetros poblacionales. Sin embargo, en muchas situaciones, es imposible especificar la forma de la distribución poblacional. El proceso de obtener conclusiones directamente de las observaciones muestrales, sin formar los supuestos con respecto a la forma matemática de la distribución poblacional se llama teoría no paramétrica.

En esta sesión vamos a realizar procedimientos que no exigen ningún supuesto, o muy pocos acerca de la familia de distribuciones a la que pertenece la población, y cuyas observaciones pueden ser cualitativas o bien se refieren a alguna característica ordenable. En estos casos, cuando  no se dispone de información acerca de qué distribución de probabilidad sigue la variable a nivel poblacional, se pueden utilizar técnicas estadísticas no paramétricas para el planteamiento y resolución de contrastes de hipótesis no paramétricos. .Estas técnicas se basan exclusivamente en la información que se recoge en la muestra para resolver los contrastes.

Así, uno de los objetivos de esta sesión es el estudio de contrates de hipótesis para determinar si una población tiene una distribución teórica específica. La técnica que nos introduce a estudiar esas cuestiones se llama Contraste de la Chi-cuadrado para la Bondad de Ajuste. Una variación de este contraste se emplea para resolver los Contrastes de Independencia. Tales contrastes pueden utilizarse para determinar si dos características (por ejemplo preferencia política e ingresos) están relacionadas o son independientes. Y, por último estudiaremos otra variación del contraste de la bondad de ajuste llamado Contraste de Homogeneidad. Tal contraste se utiliza para estudiar si diferentes poblaciones, son similares (u homogéneas) con respecto a alguna característica. Por ejemplo, queremos saber si las proporciones de votantes que favorecen al candidato A, al candidato B o los que se abstuvieron son las mismas en dos ciudades.


El procedimiento Prueba de la Chi-cuadrado

Hemos agrupado los procedimientos en los que el denominador común a todos ellos es que su tratamiento estadístico se aborda mediante la distribución Chi-cuadrado. El procedimiento Prueba de Chi-cuadrado tabula una variable en categorías y calcula un estadístico de Chi-cuadrado. Esta prueba compara las frecuencias observadas y esperadas en cada categoría para contrastar si todas las categorías contienen la misma proporción de valores o si cada categoría contiene una proporción de valores especificada por el usuario.

Contraste de hipótesis no paramétrico para la independencia de los valores de una variable cualitativa

Supongamos que se dispone de información sobre una variable cualitativa, X, y se quiere comprobar si todas las categorías de la variable aparecen por igual. Es decir, se pretende comprobar si las categorías de la variable son independientes o no. El contraste de hipótesis que se debe resolver es el siguiente:

\( H_0 \equiv \hspace{.2cm} \) Las categorías de la variable X aparecen igual

\( H_1 \equiv \hspace{.2cm} \) Las categorías de la variable X no aparecen igual

Para resolver este contraste en R se utiliza la función chisq.test (que ya se presentó en la práctica 3). Los argumentos de esta función son:

chisq.test(x, p = rep(1/length(x), length(x)))

donde

  • x es un vector que recoge las frecuencias con las que aparece cada categoría de la variable.
  • p es un vector, de la misma dimensión que x, que recoge las proporciones que se quieren probar para cada categoría de la variable. Por defecto, se contrasta si todos los valores de la variable aparecen en la misma proporción.

Supuesto Práctico 8

La directora de un hospital quiere comprobar si los ingresos en el hospital se producen en la misma proporción durante todos los días de la semana. Para ello, se anota el número de ingresos durante una semana cualquiera. Los datos se recogen en la siguiente tabla:

\(  \begin{array}{||c|c||} \hline \text {Día de la semana} & \text {Número de ingresos } \\ \hline  \text {Lunes} & 78 \\ \hline  \text {Martes} & 90 \\ \hline  \text {Miércoles} & 94 \\ \hline  \text {Jueves} & 89 \\ \hline  \text {Viernes} & 110 \\ \hline  \text {Sábado} & 84 \\ \hline  \text {Domingo} & 44  \\ \hline \end{array} \)

Tabla 3: Datos del Supuesto Práctico 8

Contrastar, a un nivel de significación del 5%, si la hipótesis de la directora del hospital puede suponerse cierta. ¿Puede asumirse que las proporciones de ingresos de lunes a domingo son (0.15, 0.15, 0.15, 0.15, 0.20, 0.15, 0.05)?

Solución

En primer lugar vamos a introducir los datos en R.

> frecuencias <- c(78, 90, 94, 89, 110, 84, 44)

El contraste que se debe resolver es:

\( H_0 \equiv \hspace{.2cm} \) Los ingresos en el hospital se producen en la misma proporción todos los días de la semana

\( H_1 \equiv \hspace{.2cm} \) Los ingresos en el hospital no se producen en la misma proporción todos los días de la semana

Para resolver este contraste se usa la función chisq.test.

> chisq.test(frecuencias)

Chi-squared test for given probabilities
data:  frecuencias
X-squared = 29.389, df = 6, p-value = 5.135e-05

El estadístico de contraste, que sigue una distribución chi-cuadrado, toma el valor 29.389. Los grados de libertad de la distribución chi-cuadrado para este ejemplo son 6. El p-valor asociado al contraste es menor que 0.05 por lo que, considerando un nivel de significación del 5%, se rechaza la hipótesis nula. Es decir, se concluye que los ingresos hospitalarios no se producen en la misma proporción todos los días de la semana.

Para comprobar si el vector (0.15, 0.15, 0.15, 0.15, 0.20, 0.15, 0.05) puede considerarse como el vector de proporciones de ingresos hospitalarios durante los 7 días de la semana, creamos un vector en R que recoja estos valores:

> proporciones <- c(0.15, 0.15, 0.15, 0.15, 0.20, 0.15, 0.05)

Volvemos a llamar a la función chisq.test incluyendo como argumento el vector que acabamos de definir.

> chisq.test(frecuencias, p = proporciones)

Chi-squared test for given probabilities
data:  frecuencias
X-squared = 9.5286, df = 6, p-value = 0.146

En este caso, el valor del estadístico de contraste es 9.5286. El p-valor asociado es 0.146 que, al ser superior a 0.05, nos indica que no se puede rechazar la hipótesis nula. Esto equivale a decir que, a un nivel de significación del 5%, puede suponerse que los ingresos hospitalarios se producen según los valores que se recogen en el vector proporciones.

Supuesto Práctico 9

Lanzamos un dado 720 veces y obtenemos los resultados que se muestran en la tabla.

\(  \begin{array}{||c|c|c|c|c|c|c||} \hline x_i & 1 & 2 & 3 & 4 & 5 & 6 \\ \hline  n_i & 116 & 120 & 115 & 120 & 125 & 124  \\ \hline \end{array} \)

Tabla 4:  Datos del Supuesto Práctico 9

Contrastar la hipótesis de que el dado está bien construido.

Solución

Comencemos introduciendo en R las frecuencias con las que aparecen los valores del dado.

> frecuencias <- c(116, 120, 115, 120, 125, 124)

Que el dado esté bien construido equivale a decir que todos sus valores aparecen en la misma proporción. Por tanto, el contraste de hipótesis que se debe resolver es el siguiente:

\( H_0 \equiv \hspace{.2cm} \) Los valores del dado aparecen en la misma proporción

\( H_1 \equiv \hspace{.2cm} \) Los valores del dado no aparecen en la misma proporción

Para resolver este contraste de hipótesis se utiliza la función chisq.test, que recibe como argumento el vector de frecuencias.

> chisq.test(frecuencias)

Chi-squared test for given probabilities
data:  frecuencias
X-squared = 0.68333, df = 5, p-value = 0.9839

El valor del estadístico de contraste es 0.68333 y el p-valor asociado es igual a 0.984. Como este p-valor es superior a 0.05 no se puede rechazar la hipótesis nula por lo que, a un nivel de significación del 5%, concluimos que todos los valores del dado aparecen en la misma proporción. Dicho de otra forma, el dado está bien construido.

Contraste de hipótesis no parametricos para la independencia de dos variables cualitativas

Supongamos que se dispone de datos de dos variables cualitativas, X e Y, y se quiere comprobar si los valores que toma una de ellas dependen en cierta medida de los valores que toma la otra. En tal caso, se dice que las variables X e Y son dependientes. Para comprobar la dependencia (o, equivalentemente, la independencia) de X e Y se debe resolver el siguiente contraste de hipótesis

\( H_0 \equiv \hspace{.2cm} \) X e Y son variables independientes

\( H_1 \equiv \hspace{.2cm} \) X e Y no son variables independientes (son dependientes)

En R se usa el comando chisq.test para resolver este tipo de contrastes. Dicho comando tiene los siguientes argumentos:

chisq.test (x, correct = TRUE)

donde

  • x es el nombre de la tabla de doble entrada (a la cual se suele denominar tabla de contingencia, como se verá en el apéndice de esta misma práctica) para las dos variables cualitativas
  • correct es un argumento lógico que indica si es necesaria una corrección por continuidad (que se denomina corrección por continuidad de Yates) a la hora de calcular el estadístico de contraste. Si se realiza esta corrección, el estadístico de contraste que se calcula es el siguiente:

\(  \chi^{2}_{corr}  =  \displaystyle \sum_{i=1}^{k} \displaystyle \sum_{j=1}^{p} \displaystyle \frac { (| n_{ij} – e_ {íj} | – 0.5)^{2}} {e_{ij}}  \)

Expresión 28: Estadístico de contraste con corrección por continuidad de Yates

El objetivo de esta corrección es que el estadístico \(  \chi^{2}_{corr} \) ajuste mejor a la distribución   teórica correspondiente, especialmente en muestras pequeñas.

Por defecto, este argumento toma el valor TRUE, por lo que la corrección por continuidad de Yates se hace de forma automática, de modo que si queremos calcular el valor del estadístico de contraste sin ningún tipo de modificación, debemos asignar a este parámetro el valor FALSE.

Supuesto Práctico 10

La siguiente tabla muestra información sobre el número de ejemplares de 7 especies de peces avistados aguas arriba y aguas abajo en un río.

\(  \begin{array}{||c|cc||} \hline &  \hspace{3cm} \text{ Zona}  &  \\ \hline &   \text{Aguas arriba } &   \text{Aguas abajo} \\ \hline  \text{Especie A} & 37 & 19  \\ \hline  \text{Especie B} & 12 & 10 \\ \hline  \text{Especie C} & 10 & 7  \\ \hline   \text{Especie D} & 18 & 20  \\ \hline  \text{Especie E} & 11 & 8  \\ \hline  \text{Especie F} & 16 & 12  \\ \hline  \text{Especie G} & 59 & 24 \\ \hline \end{array} \)

Tabla5; Datos del Supuesto Práctico 10

Contrastar, a un nivel de significación del 5%, si la especie de pez y la zona de avistamiento pueden considerarse variables independientes.

Solución

En primer lugar, introduzcamos en R los datos que proporciona el enunciado y construyamos la tabla de contingencia.

> frecuencias <- c(37, 19, 12, 10, 10, 7, 18, 20, 11, 8, 16, 12, 59, 24)
> tabla_conting <- matrix (frecuencias, 7, 2, byrow = TRUE, dimnames = list(c(“A”, “B”, “C”, “D”, “E”, “F”, “G”), c(“Aguas_Arriba”, “Aguas_abajo”)))
> tabla_conting
Aguas_Arriba Aguas_abajo
A           37          19
B           12          10
C           10           7
D           18          20
E           11           8
F           16          12
G           59          24

El contraste de hipótesis que se debe resolver es:

\( H_0 \equiv \hspace{.2cm} \)  La especie y la zona de avistamiento son independientes

\( H_1 \equiv \hspace{.2cm} \)  La especie y la zona de avistamiento no son independientes

A continuación, usaremos la función chisq.test (sin aplicar la corrección por continuidad) para resolver el contraste.

> chisq.test(tabla_conting, correct = FALSE)

Pearson’s Chi-squared test
data:  tabla_conting
X-squared = 7.7604, df = 6, p-value = 0.2562

El estadístico de contraste, que sigue una distribución chi-cuadrado con 6 grados de libertad, toma el valor 7.7604. El p-valor asociado al contraste es 0.2562. Como este p-valor es mayor que 0.05, no podemos rechazar la hipótesis nula por lo que concluimos que la especie y la zona de avistamiento son variables independientes. Esto es, para cada especie, se observan el mismo número de peces aguas arriba y aguas abajo en el río.

Supuesto Práctico 11

Se realiza una investigación para determinar si hay alguna asociación entre el peso de un estudiante y un éxito precoz en la escuela. Se selecciona una muestra de 50 estudiantes y se clasifica a cada uno según dos criterios, el peso y el éxito en la escuela. Los datos se muestran en la tabla adjunta

\(  \begin{array}{||c|c|c||} \hline \text {Éxito}/\text {Sobrepeso} & \text { SI} & \text {NO}    \\ \hline \text {SI} &  162 & 263  \\ \hline  \text {NO} & 38 & 37 \\ \hline \end{array} \)

Tabla 6; Datos del Supuesto Práctico 11

Contrastar, a un nivel de significación del 5%, si las dos variables estudiadas están relacionadas o si, por el contrario, son independientes.

Solución

Introducimos los datos en R
> frecuencias <- c(162, 263, 38, 37)
> tabla_conting <- matrix (frecuencias, 2, 2, byrow = TRUE, dimnames = list(c(“Exito = Sí”, “Exito = No”), c(“Sobrepeso = Sí”, “Sobrepeso = No”)))
> tabla_conting
Sobrepeso = Sí Sobrepeso = No
Exito = Sí            162            263
Exito = No             38             37

El contraste de hipótesis que se debe resolver es:

\( H_0 \equiv \hspace{.2cm} \) El exito en la escuela y el sobrepeso son independientes

\( H_1 \equiv \hspace{.2cm}  \) El exito en la escuela y el sobrepeso no son independientes

Vamos a resolver el contraste usando la función chisq.test (sin aplicar la corrección por continuidad).

> chisq.test(tabla_conting, correct = FALSE)

Pearson’s Chi-squared test
data:  tabla_conting
X-squared = 4.183, df = 1, p-value = 0.04083

El p-valor asociado a este contraste es 0.04083. Como este p-valor es menor que 0.05, se rechaza la hipótesis nula del contraste, por lo que concluimos que el éxito escolar y el sobrepeso son variables dependientes. Esto es, los valores de una dependen de los valores de la otra.


Otros contrastes no paramétricos

El procedimiento Prueba binomial

El procedimiento Prueba binomial compara las frecuencias observadas de las dos categorías de una variable dicotómica con las frecuencias esperadas en una distribución binomial con un parámetro de probabilidad especificado. Por defecto, el parámetro de probabilidad para ambos grupos es 0.5. Se puede cambiar el parámetro de probabilidad en el primer grupo. Siendo la probabilidad en el segundo grupo igual a uno menos la probabilidad del primer grupo.

En este procedimiento, partimos de una variable dicotómica, X. Se pretende comprobar si uno de los valores de la variable aparece en una determinada proporción, \( p_0 \). Para ello, se comparan las frecuencias observadas de dicho valor con las frecuencias esperadas de una distribución binomial donde la probabilidad de éxito viene dada por \( p_0 \). Este contraste de hipótesis, tambén llamado Contrastes de hipótesis para el parámetro p de una distribución Binomial, ya lo hemos realizado en el apartado 5.

Recordemos que se plantean los siguientes contrastes de hipótesis:

\( \left \{ \begin{array}{c} H_0 \equiv  p = p_0 \\  H_1 \equiv  p \neq p_0 \end{array}\right. \)

Expresión 29: Contrates de hipótesis bilateral para el parámetro p de una Binomial

\( \left \{ \begin{array}{c} H_0 \equiv  p \leq p_0 \\  H_1 \equiv  p > p_0 \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv  p \geq p_0 \\  H_1 \equiv  p <  p_0 \end{array}\right. \)

Expresión 30: Contrates de hipótesis unilateral para el parámetro p de una Binomial

Si las variables no son dicotómicas se debe especificar un punto de corte. Mediante el punto de corte se divide la variable en dos grupos, el formado por los casos mayores o iguales que el punto de corte y el formado por los casos menores que el punto de corte.

La función que resuelve este tipo de contrastes en R es binom.test, que tiene los siguientes argumentos:

binom.test(x, n, p = 0.5, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95)

donde

  • x es el número de veces que aparece el valor de interés en la muestra de observaciones.
  • n es el tamaño de la muestra.
  • p es la proporción con la que aparece el valor de interés cuya validez se quiere comprobar. A menos que se indique lo contrario, esta proporción es 0.5.
  • alternative indica el tipo de la hipótesis alternativa. Puede tomar los valores “two.sided” (hipótesis alternativa bilateral, del tipo ), que es el valor por defecto; “less” (hipótesis alternativa unilateral, del tipo <) o “greater” (hipótesis alternativa unilateral, del tipo >).
  • level indica el nivel de confianza del intervalo que se calcula. Por defecto, se construye el intervalo de confianza a un 95% de confianza.
Supuesto Práctico 12

Se quiere comprobar si la proporción de hombres y mujeres en un municipio andaluz es la misma o no. Para ello, se selecciona una muestra aleatoria de habitantes del municipio, de los cuales 258 son hombres y 216 son mujeres. A un nivel de significación del 5%, ¿puede asumirse cierta la igualdad en el número de hombres y mujeres?

Solución

Comencemos planteando las hipótesis del contraste. En este caso, se quiere probar la igualdad de hombres y de mujeres en el municipio. Para ello, es posible plantear el contraste de hipótesis de dos formas distintas. Por un lado, se puede contrastar si la proporción de hombres es de 0.5 (en cuyo caso la proporción de mujeres será también 0.5 y habrá equidad entre ambos géneros) frente a que esta proporción es distinta de 0.5. Pero, alternativamente, se puede contrastar si la proporción de mujeres es de 0.5 (lo que implica que la proporción de hombre será, igualmente, de 0.5 y habrá equidad entre géneros) frente a que esta proporción es distinta de 0.5.

En cualquier caso, el contraste a resolver es

\( \left \{ \begin{array}{c} H_0 \equiv  p  = 0.5  \\  H_1 \equiv  p \neq 0.5 \end{array}\right. \)

Expresión 31: Contraste de hipótesis para el Supuesto práctico 12

donde p representa la proporción de hombres (o de mujeres, dependiendo de la forma de resolver el contraste que se siga) en la población.

Utilicemos la función binom.test para resolver el contraste.

> binom.test(258, n = 474, p = 0.5, alternative = “two.sided”, conf.level = 0.95)

Exact binomial test
data:  258 and 474
number of successes = 258, number of trials = 474, p-value = 0.05956
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.4982562 0.5897954
sample estimates:
probability of success
             0.5443038

En la salida aparecen los datos de entrada que se han usado para resolver el contraste (258 hombres de 474 habitantes muestreados) así como el tipo de la hipótesis alternativa (distinto de) y la proporción que se ha usado como referente para el contraste (0.5).

También aparece un p-valor, que es el que nos ayuda a resolver el contraste. En este caso, el p-valor es 0.05956. Como es mayor que 0.05, no podemos rechazar la hipótesis nula, por lo que podemos asumir que la proporción de hombres en la población es de 0.5. Consecuentemente, la proporción de mujeres también puede considerarse igual a 0.5 y puede concluirse que el número de hombres y mujeres en el municipio es el mismo.

Por último, en la salida se incluye un intervalo de confianza al nivel de confianza indicado en la llamada a binom.test (95% en nuestro caso), para la proporción de hombres en el municipio. Este intervalo es (0.4982, 0.5897). Como era de esperar, la proporción de referencia pertenece al intervalo calculado.

Si se hubiese optado por considerar p como la proporción de mujeres en el municipio y resolver el contraste a partir de esta proporción se llegaría a la misma conclusión, tal y como se muestra a continuación.

> binom.test(216, n = 474, p = 0.5, alternative = “two.sided”, conf.level = 0.95)

Exact binomial test
data:  216 and 474
number of successes = 216, number of trials = 474, p-value = 0.05956
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.4102046 0.5017438
sample estimates:
probability of success
             0.4556962

Supuesto Práctico 13

Entre los pacientes con cáncer de pulmón, el 90% o más muere generalmente en el espacio de tres años. Como resultado de nuevas formas de tratamiento, se cree que esta tasa se ha reducido. En un reciente estudio sobre 150 paciente diagnosticados de cáncer de pulmón, 128 murieron en el espacio de tres años. ¿Se puede afirmar que realmente ha disminuido la tasa de mortalidad?

Solución

En primer lugar, vamos a plantear las hipótesis del contraste.

\( H_0 \equiv  p  \geq 0.9 \hspace{.2cm} \) El tratamiento no es efectivo

\( H_1 \equiv p < 0.9 \hspace{.2cm}  \) El tratamiento es efectivo

Expresión 32: Contraste de hipótesis para el Supuesto práctico 13

A continuación, utilizaremos la función binom.test para resolver el contraste. Teniendo en cuenta el número de pacientes de la muestra que fallecieron (128), el número de pacientes totales en la muestra (150), la proporción que se quiere contrastar (0.9) y la forma de la hipótesis alternativa (“menor que”).

> binom.test(128, 150, p = 0.9, alternative = “less”, conf.level = 0.95)

Exact binomial test
data:  128 and 150
number of successes = 128, number of trials = 150, p-value = 0.04396
alternative hypothesis: true probability of success is less than 0.9
95 percent confidence interval:
 0.0000000 0.8985727
sample estimates:
probability of success
             0.8533333

El p-valor asociado al contraste es 0.04396. De manera que, considerando un nivel de significación del 5%, rechazamos la hipótesis nula, por lo que se puede concluir que la proporción de pacientes que fallecieron en el espacio de tres años es inferior a 0.9 y, consecuentemente, que el tratamiento es efectivo.


Contraste de aleatoriedad. Test de Rachas

El procedimiento Prueba de Rachas contrasta la aleatoriedad de un conjunto de observaciones de una variable continua. Para ello, el test de rachas cuenta las cadenas de valores consecutivos que presenta la variable por encima y por debajo de un determinado punto de corte. Cada uno de estas cadenas recibe el nombre de racha (de ahí el nombre del contraste). Un número muy elevado o muy reducido de rachas apuntarán hacia la no aleatoriedad de los datos que componen la muestra.

Una racha es una secuencia de observaciones similares, una sucesión de símbolos idénticos consecutivos. Ejemplo: + + – – – + – – + + + + – – – (6 rachas). Una muestra con un número excesivamente grande o excesivamente pequeño de rachas sugiere que la muestra no es aleatoria.

Las hipótesis del contraste son las siguientes:

\( H_0 \equiv \hspace{.2cm} \) Los datos de la muestra son aleatorios

\( H_1 \equiv \hspace{.2cm} \) Los datos de la muestra no son aleatorios

Para resolver el contraste con R se utiliza la función runs.test del paquete randtests. De manera que el primer paso es instalar y cargar este paquete.

> install.packages(“randtests”)

> library(randtests)

 A continuación, ya podemos realizar la llamada a la función runs.test. Sus argumentos son los siguientes:

runs.test (x, alternative = “two.sided”, threshold, plot)

donde

  • x es un vector numérico que contiene las observaciones de la variable continua
  • alternative indica el tipo de la hipótesis alternativa. Puede tomar los valores “two.sided” (hipótesis alternativa bilateral, del tipo ≠ ), que es el valor por defecto; “left.sided” (hipótesis alternativa unilateral, del tipo <) o “right.sided” (hipótesis alternativa unilateral, del tipo >).
  • threshold es un valor numérico que indica el punto de corte a partir del cual se transformarán los valores del vector numérico en valores dicotómicos.
  • plot es un valor lógico que indica si se incluye un gráfico en la salida o no.
Supuesto Práctico 14

Se realiza un estudio sobre el tiempo en horas de un tipo determinado de escáner antes de la primera avería. Se ha observado una muestra de 10 escáner y se ha anotado el tiempo de funcionamiento en horas: 18.21; 2.36;  17.3; 16.6; 4.70; 3.63; 15.56; 7.35; 9.78; 14.69. A un nivel de significación del 5%, ¿se puede considerar aleatoriedad en la muestra?

Solución

Formulamos el contraste que debemos resolver.

\( H_0 \equiv  \hspace{.2cm} \) Los datos de la muestra son aleatorios

\( H_1 \equiv  \hspace{.2cm} \) Los datos de la muestra no son aleatorios

Comenzamos introduciendo los datos en R:

> datos <- c(18.21, 2.36, 17.3, 16.6, 4.70, 3.63, 15.56, 7.35, 9.78, 14.69)

Para resolver el contraste, cargamos el paquete randtests y, a continuación, llamamos a la función runs.test. Cuando llamamos a esta función, debemos tener en cuenta que la hipótesis alternativa es del tipo “distinto de”. Por otra parte, como el enunciado no especifica ningún punto de corte para transformar los valores del vector numérico en valores dicotómicos, este punto de corte vendrá dado por la mediana de los datos (función median en R).

> library(randtests)

> runs.test (datos, alternative = “two.sided”, threshold = median(datos), plot = TRUE)

Runs Test
data:  datos
statistic = 0.67082, runs = 7, n1 = 5, n2 = 5, n = 10, p-value = 0.5023
alternative hypothesis: nonrandomness

Figura 9: Representación del resultado aplicando el test de Rachas

Según los resultados del test de rachas, se han encontrado 7 rachas (runs), que vienen separadas por líneas discontinuas verticales. Hay 5 valores por encima de la mediana (n1), marcados en negro, y otros 5 valores por debajo de la mediana (n2), marcados en rojo.

El p-valor asociado al contraste es 0.5023 superior a 0.05, por lo que no es posible rechazar la hipótesis nula. Por tanto, podemos concluir que los datos de la muestra son aleatorios.


Contraste sobre bondad de ajuste: Procedimiento Prueba de Kolmogorov-Smirnov

Mediante el contraste de bondad de ajuste de Kolmogorv-Smirnov se prueba si los datos de una muestra proceden, o no, de una determinada distribución de probabilidad. Lo que se hace es comparar la función de distribución acumulada que se calcula a partir de los datos de la muestra con la función de distribución acumulada teórica de la distribución con la que se compara.

El contraste de hipótesis que se plantea es el siguiente:

\( H_0 \equiv  \hspace{.2cm} \) Los datos de la muestra proceden de la distribución de probabilidad

\( H_1 \equiv  \hspace{.2cm} \) Los datos de la muestra no proceden de la distribución de probabilidad

Para resolver este contraste en R se utiliza la función ks.test, que tiene los siguientes argumentos:

ks.test(x, y, …, alternative = c(“two.sided”, “less”, “greater”)) 

donde

  • x es un vector numérico que contiene las observaciones de la variable.
  • y indica la distribución de probabilidad (que ha de ser continua) que se utilizará para la comparación. Los posibles valores de este argumento son: pnorm (distribución normal), punif (distribución uniforme continua), pt (distribución t), pchisq (distribución chi-cuadrado), pf (distribución F), pexp (distribución exponencial), pgamma (distribución gamma), pweibull (distribución de Weibull) o pwilcox (distribución W de Wilcoxon).
  • … Estos puntos suspensivos hacen referencia a los parámetros de la distribución, que varían de una a otra. Por ejemplo, si se elige como distribución de comparación la normal (es decir, si se asigna el valor prnom al argumento y), habrá que indicar la media y la desviación típica de dicha distribución.
  • alternative indica el tipo de la hipótesis alternativa. Puede tomar los valores “two.sided” (hipótesis alternativa bilateral, del tipo ≠), que es el valor por defecto; “left.sided” (hipótesis alternativa unilateral, del tipo <) o “right.sided” (hipótesis alternativa unilateral, del tipo >).
Supuesto Práctico 15

Las puntuaciones de 10 individuos en una prueba de una oposición han sido las siguientes: 41.81, 40.30, 40.20, 37.14, 39.29, 38.79, 40.73, 39.26, 35.74, 41.65. ¿Puede suponerse, a un nivel de significación del 5% que dichas puntuaciones se ajustan a una distribución normal de media 40 y desviación típica 3?

Solución

El contraste de hipótesis que se plantea es el siguiente:

\( H_0 \equiv  \hspace{.2cm} \) Los datos de la muestra proceden de una distribución N(40,3)

\( H_1 \equiv  \hspace{.2cm} \) Los datos de la muestra no proceden de de una distribución N(40,3)

Comenzamos introduciendo los datos en R:

> datos <- c(41.81, 40.30, 40.20, 37.14, 39.29, 38.79, 40.73, 39.26, 35.74, 41.65)

A continuación, se resuelve el contraste mediante una llamada a la función ks.test. Debemos tener en cuenta que la distribución de comparación es la distribución normal (por tanto, el argumento y tomará el valor pnorm) de media igual a 40 y desviación típica igual a 3.

> ks.test(datos, y = pnorm, 40, 3, alternative = “two.sided”)

One-sample Kolmogorov-Smirnov test
data:  datos
D = 0.27314, p-value = 0.3752
alternative hypothesis: two-sided

En este caso, el valor del estadístico de contraste es 0.27314 y el p-valor asociado al contraste es 0.3752. Como el p-valor es superior a 0.05 no podemos rechazar la hipótesis nula, por lo que concluimos que los datos de la muestra proceden de una distribución normal de media 40 y de desviación típica 3.


Pruebas para dos muestras independientes

El procedimiento Pruebas para dos muestras independientes compara dos grupos de casos existentes en una variable y comprueba si provienen de la misma población (homogeneidad). Estos contrastes, son la alternativa no paramétrica de los tests basados en el t de Student, Al igual que con el test de Student, se tienen dos grupos de observaciones independientes y se compara si proceden de la misma población.

El contraste que se debe resolver será alguno de los siguientes:

\( \left \{ \begin{array}{c} H_0 \equiv  Me_1 – Me_2 = 0 \\  H_1 \equiv  Me_1 – Me_2 \neq 0 \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv Me_1 – Me_2 = 0  \\ H_1 \equiv Me_1 – Me_2 < 0 \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv Me_1 –  Me_2 = 0  \\  H_1 \equiv Me_1 – Me_2 > 0 \end{array}\right. \)

Expresión 33: Contraste de hipótesis para dos muestras independientes

O, equivalentemente,

\( \left \{ \begin{array}{c} H_0 \equiv  Me_1 = Me_2  \\  H_1 \equiv  Me_1 \neq Me_2  \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv Me_1 = Me_2   \\  H_1 \equiv  Me_1 < Me_2  \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv Me_1 = Me_2   \\  H_1  \equiv Me_1 > Me_2  \end{array}\right. \)

Expresión 34: Contraste de hipótesis para dos muestras independientes

siendo \( Me_1 \) y \( Me_2 \) as medianas de la variable en la primera y en la segunda población, respectivamente.

La función que resuelve estos contrastes en R es wilcox.test, que tiene los siguientes argumentos:

wilcox.test(x, y = NULL, alternative = c(“two.sided”, “less”, “greater”), mu = 0, paired = FALSE, correct = TRUE, conf.int = FALSE, conf.level = 0.95)

donde

  • x es un vector numérico que contiene las observaciones de una de las variables.
  • y es un vector numérico que contiene las observaciones de la otra variable.
  • alternative indica el tipo de la hipótesis alternativa. Puede tomar los valores “two.sided” (hipótesis alternativa bilateral, del tipo ≠), que es el valor por defecto; “left.sided” (hipótesis alternativa unilateral, del tipo <) o “right.sided” (hipótesis alternativa unilateral, del tipo >).
  • mu es un valor numérico que indica la diferencia a contrastar entre las dos medianas.
  • paired es un argumento lógico que indica si las observaciones son independientes (paired = FALSE, opción por defecto) o si son apareadas (paired = TRUE).
  • correct es un argumento lógico que indica si se debe aplicar una corrección por continuidad a la hora de calcular el estadístico de contraste, cuya distribución se aproxima por una distribución normal. Por defecto, se aplica esta corrección por continuidad.
  • int es un argumento lógico que indica si deben calcularse o no un intervalo de confianza para la diferencia de las medianas. Por defecto, la función no calcula el intervalo de confianza.
  • level es un valor numérico que indica el nivel de confianza que se utiliza para calcular el intervalo de confianza.
Supuesto Práctico 16

En unos grandes almacenes se realiza un estudio sobre el rendimiento de ventas de los vendedores. Para ello, se observa durante 10 días el número de ventas de dos vendedores:

Vendedor A:   10    40    60    15    70    90    30     32      22      13
Vendedor  B:  45    60   35    30    30    15     50     20       32      9

Contrastar, considerando un nivel de significación del 5%, si los rendimientos medianos de ambos vendedores pueden asumirse iguales.

Solución

Comenzamos introduciendo los datos de ventas de los dos vendedores:

> datosA <- c (10, 40, 60, 15, 70, 90, 30, 32, 22, 13)
> datosB <- c (45, 60, 35, 30, 30, 15, 50, 20, 32, 9)

A continuación, vamos a plantear el contraste que se debe resolver

\( \left \{ \begin{array}{c} H_0 \equiv  Me_A – Me_B = 0 \\  H_1 \equiv  Me_A – Me_B \neq 0 \end{array}\right. \)

Expresión 35: Contraste de hipótesis para diferencia de medianas

O, equivalentemente,

\( \left \{ \begin{array}{c} H_0 \equiv  Me_A = Me_B  \\  H_1 \equiv  Me_A  \neq Me_B  \end{array}\right. \)

Expresión 36: Contraste de hipótesis para diferencia de medianas

Vamos a resolver el contraste utilizando la función wilcox.test. Para ello, tendremos en cuenta que los datos proceden de muestras independientes, que el valor de la diferencia entre las medianas que se pretende comprobar es 0 y que la hipótesis alternativa del contraste es del tipo “distinto de”. Además, indicaremos que se incluya el intervalo de confianza para la diferencia de las medianas entre las salidas de la función y que no se aplique la corrección por continuidad.

> wilcox.test (datosA, y = datosB, alternative = “two.sided”, mu = 0, paired = FALSE, correct = FALSE, conf.int = TRUE, conf.level = 0.95)

Wilcoxon rank sum test
data:  datosA and datosB
W = 52.5, p-value = 0.8497
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 -17.00003  25.00003
sample estimates:
difference in location
             0.5611639

En este caso, el p-valor asociado al contraste es, aproximadamente, 0.85. Como este p-valor es mayor que 0.05 no se puede rechazar la hipótesis nula, considerando un nivel de significación del 5%. Por tanto, concluimos que las medianas de las ventas de ambos vendedores pueden asumirse iguales. El intervalo de confianza para la diferencia de las medianas incluye, como era de esperar, el valor 0.


Pruebas para dos muestras relacionadas

Esta prueba es similar a la anterior, con la salvedad de que ahora se supone que los datos de las muestras están relacionados, es decir, no son independientes.

Las hipótesis a contrastar son las mismas que en el caso anterior:

\( \left \{ \begin{array}{c} H_0 \equiv  Me_1 – Me_2 = 0 \\  H_1 \equiv  Me_1 – Me_2 \neq 0 \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv Me_1 – Me_2 = 0  \\  H_1 \equiv Me_1 – Me_2 < 0 \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv Me_1 – Me_2 = 0  \\  H_1 \equiv Me_1 – Me_2 > 0 \end{array}\right. \)

Expresión 37: Contraste de hipótesis para dos muestras relacionadas

O, equivalentemente,

\( \left \{ \begin{array}{c} H_0 \equiv  Me_1 = Me_2  \\  H_1 \equiv  Me_1 \neq Me_2  \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv Me_1 = Me_2   \\  H_1 \equiv Me_1 < Me_2  \end{array}\right. \) \( \hspace{2cm}  \left \{ \begin{array}{c} H_0 \equiv Me_1 = Me_2   \\  H_1 \equiv Me_1 > Me_2  \end{array}\right. \)

Expresión 38: Contraste de hipótesis para dos muestras relacionadas

De nuevo, usaremos la función wilcox.test para resolver esta prueba en R, cuyos argumentos, recordemos, son:

wilcox.test(x, y = NULL, alternative = c(“two.sided”, “less”, “greater”), mu = 0, paired = FALSE, correct = TRUE, conf.int = FALSE, conf.level = 0.95)

En este caso, habrá que indicar, asignando el valor TRUE al argumento paired, que estamos trabajando con datos relacionados. Para recordar qué indican el resto de argumentos, puedes consultar la sección anterior.

Supuesto Práctico 17

En un encinar de Navarra se pretende comprobar si un tratamiento ayuda a disminuir el nivel de húmedas de las hojas de las encinas. Para ello, se realiza un estudio a 10 encinas, en las que se seleccionan aleatoriamente 10 hojas y se registra el nivel de humedad de las hojas antes y después del tratamiento. Los resultados son los siguientes:

\(  \begin{array}{||c|c|c|c|c|c|c|c|c|c|c||} \hline \text{Antes} & 10.5 & 9.7 & 13.3 & 7.5 & 12.8 & 15.2 & 11.2 & 10.7  & 5.2 & 18.9    \\ \hline \text{Después} & 11.2 & 7.8 & 9.2 & 3.4 & 8.9 & 10.8 & 11.4 & 8.5 & 6.2 & 11.1  \\ \hline \end{array} \)

Tabla 7; Datos del Supuesto Práctico 17

Suponiendo un nivel de significación del 5%, ¿Puede suponerse efectivo el tratamiento?

Solución

En primer lugar, introduzcamos los datos en dos vectores numéricos en R.

> datosAntes <- c(10.5, 9.7, 13.3, 7.5, 12.8, 15.2, 11.2, 10.7, 5.2, 18.9)
> datosDespues <- c(11.2, 7.8, 9.2, 3.4, 8.9, 10.8, 11.4, 8.5, 6.2, 11.1)

El contraste que se debe resolver es el siguiente:

\( \left \{ \begin{array}{c} H_0 \equiv  Me_{Antes} = Me_{Después}  \\  H_1 \equiv  Me_{Antes} > Me_{Después} \end{array}\right. \)

Expresión 39: Contraste de hipótesis para Supuesto Práctico 17

Vamos a resolver el contraste usando la función wilcox.test. Hay que recordar que como los datos son relacionados, debemos asignar al parámetro paired el valor TRUE.

> wilcox.test (datosAntes, y = datosDespues, alternative = “greater”, mu = 0, paired = TRUE, correct = FALSE)

  Wilcoxon signed rank test

data:  datosAntes and datosDespues
V = 49, p-value = 0.01367
alternative hypothesis: true location shift is greater than 0

En este ejemplo, el p-valor asociado al contraste es 0.013, inferior a 0.05, por lo que se  rechaza la hipótesis nula considerando un nivel de significación del 5%. Esto quiere decir que el tratamiento utilizado es efectivo para reducir el nivel de humedad de las hojas de las encinas.




Ejercicios

Ejercicios Guiados

Ejercicio Guiado1

Un fabricante diseña un experimento para estimar la tensión de ruptura media de una fibra es 20. Para ello, observa las tensiones de ruptura, en libras, de 16 hilos de dicha fibra seleccionados aleatoriamente.

a) Si la tensión de ruptura se distribuye según una normal de desviación típica

b) Si la tensión de ruptura se distribuye según una normal de desviación típica desconocida.

Las tensiones son 20.8, 20.6, 21.0, 20.9, 19.9, 20.2, 19.8, 19.6, 20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 20.3, 20.7.

Ejercicio Guiado 2

En una muestra de 40 alumnos, 25 de ellos están conformes con las decisiones que ha tomado el profesor con respecto a las calificaciones. ¿Puede suponerse, con un nivel de significación del 5%, que la mitad o más de los alumnos están de acuerdo con las calificaciones del profesor?

Ejercicio Guiado 3

Una agencia estatal vigila la calidad del agua para la cría de peces. Esta agencia desea comparar la cantidad media de cierta sustancia tóxica en dos ríos contaminados por desperdicios industriales. Se seleccionaron 11 muestras en un río y 8 muestras en el otro. Los resultados de los análisis fueron:

Río 1: 10, 10, 12, 13, 9, 8, 12, 12, 10, 14, 8

Río 2: 11, 8, 9, 7, 10, 8, 8, 10

Si las dos poblaciones son normales e independientes, ¿puede suponerse que la cantidad media de sustancia tóxica presente en ambos ríos es la misma? Considerar un nivel de significación del 5%.

Ejercicio Guiado 4

Una empresa farmacéutica está interesada en la investigación preliminar de un nuevo medicamento que parece tener propiedades reductoras del colesterol en la sangre. A tal fin se toma una muestra al azar de 6 personas, y se determina el contenido en colesterol antes y después del tratamiento. Los resultados han sido los siguientes:

Antes: 217, 252, 229, 200, 209, 213

Después: 209, 241, 230, 208, 206, 211

Comprobar, a un nivel de significación del 4% si la aplicación del medicamento es efectiva. Es decir, comprobar si el nivel medio de colesterol en sangre de los pacientes antes de la aplicación del medicamento es mayor o igual al nivel medio de colesterol en sangre después del tratamiento.

Ejercicio Guiado 5

Una determinada empresa quiere saber si su nuevo producto tendrá más aceptación en la población adulta o entre los jóvenes. Para ello, considera una muestra aleatoria de 400 adultos y 600 jóvenes, observando que sólo a 100 adultos y 300 jóvenes les había gustado su producto. Tomando un nivel de significación del 1%, ¿puede suponerse que el producto gusta por igual en adultos y jóvenes?


Ejercicio Guiado 1 (Resuelto)

Un fabricante diseña un experimento para estimar la tensión de ruptura media de una fibra es 20. Para ello, observa las tensiones de ruptura, en libras, de 16 hilos de dicha fibra seleccionados aleatoriamente.

a) Si la tensión de ruptura se distribuye según una normal de desviación típica

b) Si la tensión de ruptura se distribuye según una normal de desviación típica desconocida.

Las tensiones son 20.8, 20.6, 21.0, 20.9, 19.9, 20.2, 19.8, 19.6, 20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 20.3, 20.7.


Solución:

En ambos casos, el contraste de hipótesis que debemos resolver es

\( \left \{ \begin{array}{c} H_0 \equiv  \mu = 20  \\  H_1 \equiv\mu \neq 20 \end{array}\right. \)

Expresión 40: Contraste de hipótesis para el Ejercicio Guiado1

En primer lugar, introduciremos en un vector los datos de las 16 tensiones observadas.

> tensiones <- c(20.8, 20.6, 21.0, 20.9, 19.9, 20.2, 19.8, 19.6, 20.9, 21.1, 20.4, 20.6,
+ 19.7, 19.6, 20.3, 20.7)

También indicamos el nivel de significación, \( \mu_0 \) y la desviación típica poblacional de la variable que proporciona el enunciado.

> alpha <- 0.02
> mu_0 <- 20
> desv_tipica <- 0.45

a) Si la tensión de ruptura se distribuye según una normal de desviación típica

En este primer caso, y dado que conocemos la desviación típica poblacional de la distribución de la tensión de la fibra, debemos calcular manualmente los valores del estadístico de contraste y del valor crítico, que serán

> n <- length(tensiones)
> media <- mean(tensiones)
> Z <- (media – mu_0) / (desv_tipica/sqrt(n))
> Z
[1] 3.388889
> cuantil <- qnorm(1 – alpha/2)
> cuantil
[1] 2.326348

De este modo, ya tenemos todo lo necesario para la resolución del contraste. Como el valor absoluto del estadístico de contraste 3.3888 es mayor que el cuantil \(  Z_{1-\alpha/2} \), rechazamos la hipótesis nula en favor de la alternativa. Es decir, no puede asumirse que la tensión media de ruptura de la fibra sea de 20 unidades.

b) Si la tensión de ruptura se distribuye según una normal de desviación típica desconocida.

Cuando la desviación típica no se conoce, usamos la función test para obtener el intervalo de confianza

> t.test(tensiones, alternative = “two.sided”, mu = 20, conf.level = 0.98)

One Sample t-test
data:  tensiones
t = 2.9154, df = 15, p-value = 0.01066
alternative hypothesis: true mean is not equal to 20
98 percent confidence interval:
 20.04092 20.72158
sample estimates:
mean of x
 20.38125

En este segundo caso, el valor del estadístico de contraste es 2.9154. El p-valor asociado al contraste es 0.01066, que al ser menor que 0.02, el nivel de significación, nos lleva también al rechazo de la hipótesis nula.

En este segundo caso, el intervalo de confianza para la tensión media de la fibra, al 98% de confianza, es (20.04092, 20.72158).


Ejercicio Guiado2 (Resuelto)

En una muestra de 40 alumnos, 25 de ellos están conformes con las decisiones que ha tomado el profesor con respecto a las calificaciones. ¿Puede suponerse, con un nivel de significación del 5%, que la mitad o más de los alumnos están de acuerdo con las calificaciones del profesor?


Solución:

En este caso, el contraste que se debe resolver es:

\( \left \{ \begin{array}{c} H_0 \equiv  \pi \geq 0.5  \\  H_1 \equiv \pi < 0.5  \end{array}\right. \)

Expresión 41: Contraste de hipótesis para el Ejercicio Guiado2

En este caso, debemos utilizar la función prop.test para resolver el contraste de hipótesis anterior. Disponemos tanto del número de alumnos que presentan la característica de interés (estar conforme con el profesor) como del número total de alumnos en la muestra, de manera que podemos realizar la llamada a la función tal y como sigue:

> prop.test(25, 40, p = 0.5, alternative = “less”, conf.level = 0.95)

1-sample proportions test with continuity correction
data:  25 out of 40, null probability 0.5
X-squared = 2.025, df = 1, p-value = 0.9226
alternative hypothesis: true p is less than 0.5
95 percent confidence interval:
 0.0000000 0.7501004
sample estimates:
    p
0.625

El p-valor para este contraste es 0.9226, el cual es mayor que el nivel de significación, que es 0.05. Por ello, no podemos rechazar la hipótesis nula del contraste y concluiremos diciendo que la mitad o más de los alumnos están de acuerdo con las calificaciones del profesor.


Ejercicio Guiado3 (Resuelto)

Una agencia estatal vigila la calidad del agua para la cría de peces. Esta agencia desea comparar la cantidad media de cierta sustancia tóxica en dos ríos contaminados por desperdicios industriales. Se seleccionaron 11 muestras en un río y 8 muestras en el otro. Los resultados de los análisis fueron:

Río 1: 10, 10, 12, 13, 9, 8, 12, 12, 10, 14, 8

Río 2: 11, 8, 9, 7, 10, 8, 8, 10

Si las dos poblaciones son normales e independientes, ¿puede suponerse que la cantidad media de sustancia tóxica presente en ambos ríos es la misma? Considerar un nivel de significación del 5%.


Solución:

En primer lugar introducimos los datos en R:

> Rio1 <- c(10, 10, 12, 13, 9, 8, 12, 12, 10, 14, 8)
> Rio2 <- c(11, 8, 9, 7, 10, 8, 8, 10)

Aunque el enunciado nos pide resolver un contraste de hipótesis para la diferencia de la cantidad media de sustancia tóxica en ambos ríos, primero debemos saber si la variabilidad del nivel de sustancia tóxica en ambos ríos puede considerarse igual. Para ello, resolveremos el siguiente contraste de hipótesis:

\( \left \{ \begin{array}{c} H_0 \equiv  \sigma_{1}^{2} = \sigma_{2}^{2}  \\  H_1 \equiv \sigma_{1}^{2} \neq \sigma_{2}^{2}  \end{array}\right. \)

Expresión 42: Contraste de hipótesis para el Ejercicio Guiado3

Para resolver este primer contraste, empleamos la función var.test

> var.test(Rio1, Rio2, alternative = “two.sided”, conf.level = 0.90)

F test to compare two variances
data:  Rio1 and Rio2
F = 2.1846, num df = 10, denom df = 7, p-value = 0.3119
alternative hypothesis: true ratio of variances is not equal to 1
90 percent confidence interval:
 0.6007504 6.8498698
sample estimates:
ratio of variances
          2.184643

Según los resultados de var.test, el estadístico de contraste toma el valor 2.1846. El p-valor asociado al contraste es 0.3119, que es mayor que el nivel de significación (0.10). Por tanto, no podemos rechazar la hipótesis nula o, equivalentemente, podemos asumir que ambas varianzas son iguales en ambos ríos.

Teniendo en cuenta esta información, resolveremos el contraste para la diferencia de medias, que en este caso toma la forma

\( \left \{ \begin{array}{c} H_0 \equiv  \mu_1 – \mu_2 = 0  \\  H_1 \equiv \mu_1 – \mu_2 \neq 0  \end{array}\right. \)

Expresión 43: Contraste de hipótesis para el Ejercicio Guiado3

Vamos a realizar una llamada a la función t.test para resolver este contraste.

> t.test(Rio1, Rio2, alternative = “two.sided”, mu = 0, var.equal = TRUE, conf.level =  0.90)

Two Sample t-test
data:  Rio1 and Rio2
t = 2.2564, df = 17, p-value = 0.0375
alternative hypothesis: true difference in means is not equal to 0
90 percent confidence interval:
 0.424258 3.280287
sample estimates:
mean of x mean of y
 10.72727   8.87500

En este caso, el p-valor asociado al contraste es 0.0375, que es menor que 0.10, el nivel de significación. Por tanto, rechazamos la hipótesis nula y concluimos que la cantidad media de tóxico en ambos ríos no es la misma.


Ejercicio Guiado4 (Resuelto)

Una empresa farmacéutica está interesada en la investigación preliminar de un nuevo medicamento que parece tener propiedades reductoras del colesterol en la sangre. A tal fin se toma una muestra al azar de 6 personas, y se determina el contenido en colesterol antes y después del tratamiento. Los resultados han sido los siguientes:

Antes: 217, 252, 229, 200, 209, 213

Después: 209, 241, 230, 208, 206, 211

Comprobar, a un nivel de significación del 4% si la aplicación del medicamento es efectiva. Es decir, comprobar si el nivel medio de colesterol en sangre de los pacientes antes de la aplicación del medicamento es mayor o igual al nivel medio de colesterol en sangre después del tratamiento.


Solución:

El contraste que debemos resolver es

\( \left \{ \begin{array}{c} H_0 \equiv  \mu_a – \mu_d \geq  0  \\  H_1 \equiv \mu_a – \mu_d <0  \end{array}\right. \)

Expresión 44: Contraste de hipótesis para el Ejercicio Guiado4

Introducimos los datos en R.

> Antes <- c(217, 252, 229, 200, 209, 213)
> Despues <- c(209, 241, 230, 208, 206, 211)

Estos datos son un claro ejemplo de datos pareados, ya que a los mismos individuos se les ha medido el nivel de colesterol en sangre antes y después del tratamiento.

Ahora sólo nos queda realizar la llamada a la función t.test, sin olvidar indicar mediante el parámetro paired la relación que existe entre los conjuntos de datos.

> t.test(Antes, Despues, alternative = “less”, mu = 0, paired = TRUE, conf.level = 0.96)

Paired t-test
data:  Antes and Despues
t = 0.91186, df = 5, p-value = 0.7982
alternative hypothesis: true difference in means is less than 0
96 percent confidence interval:
     -Inf 8.506849
sample estimates:
mean of the differences
                    2.5

En este caso, el estadístico de contraste toma el valor 0.91186 y el p-valor es 0.7982. Este p-valor supera el nivel de significación, que recordemos es 0.04. Por tanto, no podemos rechazar la hipótesis nula y concluimos que los niveles medios de colesterol antes y después del tratamiento pueden considerarse iguales, poniendo así en duda la efectividad del mismo.


Ejercicio Guiado5 (Resuelto)

Una determinada empresa quiere saber si su nuevo producto tendrá más aceptación en la población adulta o entre los jóvenes. Para ello, considera una muestra aleatoria de 400 adultos y 600 jóvenes, observando que sólo a 100 adultos y 300 jóvenes les había gustado su producto. Tomando un nivel de significación del 1%, ¿puede suponerse que el producto gusta por igual en adultos y jóvenes?


Solución:

Para responder a la pregunta que se nos plantea, resolveremos el siguiente contraste de hipótesis:

\( \left \{ \begin{array}{c} H_0 \equiv  \pi_A – \pi_J = 0  \\  H_1 \equiv  \pi_A – \pi_J \neq 0  \end{array}\right. \)

Expresión 45: Contraste de hipótesis para el Ejercicio Guiado5

donde \( \pi_A \) y \( \pi_J \) es la proporción de adultos y jóvenes, respectivamente, a los que gusta el producto.

En este caso debemos utilizar la función prop.test para resolver este contraste. Pero primero, debemos crear un vector que indique el número de adultos y jóvenes a los que les gusta el producto así como un segundo vector con el número total de adultos y jóvenes encuestados

> Adul_Jov_Gusta_Producto <- c(100, 300)
> Adul_Jov_Total <- c(400, 600)

Una vez hecho esto, llamamos a la función prop.test

> prop.test(Adul_Jov_Gusta_Producto, Adul_Jov_Total, alternative = “two.sided”,  conf.level = 0.99)

   2-sample test for equality of proportions with continuity correction
data:  Adul_Jov_Gusta_Producto out of Adul_Jov_Total
X-squared = 61.463, df = 1, p-value = 4.512e-15
alternative hypothesis: two.sided
99 percent confidence interval:
 -0.3287296 -0.1712704
sample estimates:
prop 1 prop 2
  0.25   0.50

Según los resultados que proporciona prop.test, el p-valor asociado a este contraste es muy pequeño, concretamente 4.512e-15. Este p-valor es menor que 0.01, el nivel de significación. Por eso, rechazamos la hipótesis nula en favor de la alternativa y podemos afirmar que el producto no gusta por igual entre adultos y jóvenes.




Ejercicios Propuestos

Ejercicio Propuesto1

Se realiza un experimento para estudiar el nivel (en minutos) que se requiere para que la temperatura del cuerpo de un lagarto del desierto alcance los 45º partiendo de la temperatura normal de su cuerpo mientras está en la sombra. Se supone que la varianza es conocida. Se obtuvieron las siguientes observaciones: 10.1 ; 12.5 ; 12.2 ; 10.2 ; 12.8 ; 12.1 ; 11.2 ; 11.4 ; 10.7 ; 14.9 ; 13.9 ; 13.3. Se pide:

a) Hallar estimaciones puntuales de la media y la varianza

b) Supóngase que la variable X: “Tiempo en alcanzar los 45º sigue una ley Normal

b1) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis letal es de 15 minutos?

b2) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis letal es inferior a 13 minutos?

Ejercicio Propuesto2

Se quieren comparar dos poblaciones de ranas pipiens aisladas geográficamente. Para ello se toman dos muestras de ambas poblaciones de tamaño 12 y 10 y se les mide la longitud del cuerpo expresado en milímetros.

Población 1: 20,1; 22,5; 22,2 ; 30,2 ; 22,8 ; 22,1 ; 21,2 ; 21,4 ; 20,7 ; 24,9 ; 23,9 ; 23,3

Población 2: 25,3 ; 31,2 ; 22,4 ; 23,1 ; 26,4 ; 28,2 ;21,3 ;31,1 ;26,2 ;21,4

Contrastar la hipótesis de igualdad de medias a un nivel de significación del 5%. (Suponiendo que la longitud se distribuya según una Normal).

Ejercicio Propuesto3

Se realiza un estudio, en el que participan 10 individuos, para investigar el efecto del ejercicio físico en el nivel de colesterol  en plasma. Antes del ejercicio se tomaron muestras de sangre para determinar el nivel de colesterol de cada individuo. Después, los participantes fueron sometidos a un programa de ejercicios. Al final de los ejercicios se tomaron nuevamente muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol. Los resultados se muestran a continuación.

Nivel previo: 182; 230; 160; 200; 160; 240; 260; 480; 263; 240

Nivel posterior: 190; 220; 166; 150; 140; 220; 156; 312; 240; 250

Se quiere saber si el ejercicio físico ha reducido el nivel de colesterol para un nivel de confianza del 95%.

Ejercicio Propuesto4

Se ignora la proporción de familias numerosas y con el fin de determinar dicha proporción se toma una muestra de 800 familias siendo la proporción observada de 0.18.  Se puede afirmar que la proporción de familias  numerosas es 0.20.

Ejercicio Propuesto5

Se sospecha que añadiendo al tratamiento habitual para la curación de una enfermedad un medicamento A, se consigue mayor número de curaciones. Tomamos dos grupos de enfermos de 100 individuos cada uno. A un grupo se le suministra el medicamento A y se curan 60 enfermos y al otro no se le suministra, curándose 55 enfermos. ¿Es efectivo el tratamiento A en la curación de la enfermedad?

Ejercicio Propuesto6

En 5 zonas de la provincia de Granada (Ladihonda y Fazares, zonas muy secas y Cortijuela, Molinillo y Fardes, zonas húmedas) se hacen una serie de mediciones sobre las hojas de las encinas a lo largo de 3 años consecutivos: 1995, muy seco y 1996 y 1997, muy lluviosos.

El objetivo es medir la simetría fluctuante en dichas hojas como indicador de stress en la planta. Bajo condiciones de stress (sequía, herbivoría, limitación por nutrientes…), la hipótesis es que la asimetría aumente. Contamos con la siguiente información:

  • Localización árboles: 5 zonas, dos en zonas muy secas (Hoya Guadix-Baza, Ladihonda y Fazares) y tres en zonas con mayor precipitación (Cortijuela, Molinillo, Fardes). En esta última, Fardes, son árboles situados en la ladera de un río (presumiblemente poco afectados por años más o menos secos).
  • Años de climatología diferente: 1995 año muy seco y años 1996 y 1997, años muy lluviosos.
  • Situación de la hoja: Canopy (copa de los árboles) y Sprouts (rebrotes, hojas nuevas que salen desde la parte inferior del tronco).

Disponemos de un total de 2101 casos, cedidos por el Departamento de Ecología de la Universidad de Granada (España), de los que hemos seleccionado aleatoriamente una muestra de tamaño 15 que se presenta en la siguiente tabla:

\(  \begin{array}{||c|c|c|c|c||} \hline Zona & Parte & Año & Longitud & Asimetría    \\ \hline  Cortijuela & Canopy & 1995 & 26.51 & 0.028  \\ \hline   Cortijuela & Canopy & 1996 & 30.17 & 0.010  \\ \hline Molinillo & Canopy & 1995 & 34.24 & 0.080  \\ \hline Molinillo & Canopy & 1996 & 31.04 & 0.340 \\ \hline Molinillo & Canopy & 1996 & 34.99 & 0.087 \\ \hline Fardes & Canopy & 1995 & 30.48 &  0.040  \\ \hline Fardes & Canopy & 1996 & 25.07 & 0.010 \\ \hline   Ladihonda & Canopy & 1995 & 25.04 & 0.021 \\ \hline  Ladihonda & Canopy & 1996 & 29.16 & 0.135  \\ \hline Fazares & Canopy & 1995 & 35.12 & 0.010 \\ \hline  Fazares & Canopy & 1996 & 25.41 & 0.094 \\ \hline Fazares & Canopy & 1996 & 27.02 & 0.153 \\ \hline Cortijuela & Sprouts  & 1995 & 23.04 & 0.156 \\ \hline Fazares & Sprouts & 1995 & 27.69 & 0.172 \\ \hline  Fazares & Sprouts & 1996 & 34.71 & 0.077 \\ \hline  \end{array} \)

Tabla 8: Datos del Ejercicio Propuesto 6

Se pide:

  1. ¿Se puede admitir que la longitud de las hojas de encina se distribuye normalmente?
  2. ¿Se puede admitir que la longitud media de las hojas es igual a 30 cm a un nivel de significación del 5%? (Suponiendo que la varianza es conocida)
  3. Suponiendo que la asimetría de las hojas sigan una distribución Normal; comprobar mediante un contraste de hipótesis si existen diferencias significativas en la asimetría de las hojas teniendo en cuenta la situación de la hoja en el árbol.
  4. A un nivel de significación del 5%, ¿es representativo el ajuste lineal entre la longitud y la asimetría? ¿Cuál sería la expresión del modelo? ¿Cuánto explica el modelo?



Ejercicio Propuesto 1(Resuelto)

Se realiza un experimento para estudiar el nivel (en minutos) que se requiere para que la temperatura del cuerpo de un lagarto del desierto alcance los 45º partiendo de la temperatura normal de su cuerpo mientras está en la sombra. Se supone que la varianza es conocida. Se obtuvieron las siguientes observaciones: 10.1 ; 12.5 ; 12.2 ; 10.2 ; 12.8 ; 12.1 ; 11.2 ; 11.4 ; 10.7 ; 14.9 ; 13.9 ; 13.3. Se pide:

a) Hallar estimaciones puntuales de la media y la varianza

b) Supóngase que la variable X: “Tiempo en alcanzar los 45º sigue una ley Normal

b1) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis letal es de 15 minutos?

b2) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis letal es inferior a 13 minutos?

Solución

b1) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis letal es de 15 minutos?

El valor del estadístico de contraste experimental, -6.7746, deja  a la derecha una área menor que 0.000 < 0.025. Por lo tanto se rechaza la hipótesis nula de que el tiempo medio requerido para alcanzar la dosis letal es de 15 minutos.

b2) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis letal es inferior a 13 minutos?

El valor del estadístico de contraste experimental, -2.089, deja  a la derecha una área 0.030 < 0.05. Por lo tanto se rechaza la hipótesis nula y se concluye que el tiempo medio requerido para alcanzar la dosis letal es inferior a 13 minutos.

Solución del Ejercicio propuesto 1


Ejercicio Propuesto 2 (Resuelto)

Se quieren comparar dos poblaciones de ranas pipiens aisladas geográficamente. Para ello se toman dos muestras de ambas poblaciones de tamaño 12 y 10 y se les mide la longitud del cuerpo expresado en milímetros.

Población 1: 20,1; 22,5; 22,2 ; 30,2 ; 22,8 ; 22,1 ; 21,2 ; 21,4 ; 20,7 ; 24,9 ; 23,9 ; 23,3

Población 2: 25,3 ; 31,2 ; 22,4 ; 23,1 ; 26,4 ; 28,2 ;21,3 ;31,1 ;26,2 ;21,4

Contrastar la hipótesis de igualdad de medias a un nivel de significación del 5%. (Suponiendo que la longitud se distribuya según una Normal).

Solución

La salida nos muestra el valor experimental del estadístico de contraste (texp = -2.0097) y el p-valor = 0.0508, por lo tanto no se puede rechazar la hipótesis nula de igualdad de medias. También, se puede concluir el contraste observando que el intervalo de confianza para la diferencia de medias (-5.5398, 0.1032) contiene al cero.

Solución del Ejercicio propuesto 2


Ejercicio Propuesto 3 (Resuelto)

Se realiza un estudio, en el que participan 10 individuos, para investigar el efecto del ejercicio físico en el nivel de colesterol  en plasma. Antes del ejercicio se tomaron muestras de sangre para determinar el nivel de colesterol de cada individuo. Después, los participantes fueron sometidos a un programa de ejercicios. Al final de los ejercicios se tomaron nuevamente muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol. Los resultados se muestran a continuación.

Nivel previo: 182; 230; 160; 200; 160; 240; 260; 480; 263; 240

Nivel posterior: 190; 220; 166; 150; 140; 220; 156; 312; 240; 250

Se quiere saber si el ejercicio físico ha reducido el nivel de colesterol para un nivel de confianza del 95%.

Solución

La salida muestra el valor experimental del estadístico de contraste (t = 2.0525) y Sig. 0.03516, menor que 0.05, y  se debe rechazar la hipótesis nula. Por lo tanto, el nivel medio de colesterol se reducirá con el ejercicio físico.

Solución del Ejercicio propuesto 3


Ejercicio Propuesto 4 (Resuelto)

Se ignora la proporción de familias numerosas y con el fin de determinar dicha proporción se toma una muestra de 800 familias siendo la proporción observada de 0.18.  Se puede afirmar que la proporción de familias  numerosas es 0.20.

Solución

El p-valor de la prueba (Sig. exacta (unilateral)) es 0.1707 mayor que 0.05. Por lo tanto no se rechaza la Hipótesis nula. Se puede afirmar que la proporción de familias numerosas  es 0.20.

Solución del Ejercicio propuesto 4


Ejercicio Propuesto 5 (Resuelto)

Se sospecha que añadiendo al tratamiento habitual para la curación de una enfermedad un medicamento A, se consigue mayor número de curaciones. Tomamos dos grupos de enfermos de 100 individuos cada uno. A un grupo se le suministra el medicamento A y se curan 60 enfermos y al otro no se le suministra, curándose 55 enfermos. ¿Es efectivo el tratamiento A en la curación de la enfermedad?

Solución

El valor del estadístico Chi-Cuadrado es 3.9298 y el p-valor asociado es 0.02372 por lo tanto se debe rechazar la Hipótesis nula. Podemos afirmar que el medicamento A consigue un mayor número de curaciones.

Solución del Ejercicio propuesto 5


Ejercicio Propuesto 6 (Resuelto)

En 5 zonas de la provincia de Granada (Ladihonda y Fazares, zonas muy secas y Cortijuela, Molinillo y Fardes, zonas húmedas) se hacen una serie de mediciones sobre las hojas de las encinas a lo largo de 3 años consecutivos: 1995, muy seco y 1996 y 1997, muy lluviosos.

El objetivo es medir la simetría fluctuante en dichas hojas como indicador de stress en la planta. Bajo condiciones de stress (sequía, herbivoría, limitación por nutrientes…), la hipótesis es que la asimetría aumente. Contamos con la siguiente información:

  • Localización árboles: 5 zonas, dos en zonas muy secas (Hoya Guadix-Baza, Ladihonda y Fazares) y tres en zonas con mayor precipitación (Cortijuela, Molinillo, Fardes). En esta última, Fardes, son árboles situados en la ladera de un río (presumiblemente poco afectados por años más o menos secos).
  • Años de climatología diferente: 1995 año muy seco y años 1996 y 1997, años muy lluviosos.
  • Situación de la hoja: Canopy (copa de los árboles) y Sprouts (rebrotes, hojas nuevas que salen desde la parte inferior del tronco).

Disponemos de un total de 2101 casos, cedidos por el Departamento de Ecología de la Universidad de Granada (España), de los que hemos seleccionado aleatoriamente una muestra de tamaño 15 que se presenta en la siguiente tabla:

\(  \begin{array}{||c|c|c|c|c||} \hline Zona & Parte & Año & Longitud & Asimetría    \\ \hline  Cortijuela & Canopy & 1995 & 26.51 & 0.028  \\ \hline   Cortijuela & Canopy & 1996 & 30.17 & 0.010  \\ \hline Molinillo & Canopy & 1995 & 34.24 & 0.080  \\ \hline Molinillo & Canopy & 1996 & 31.04 & 0.340 \\ \hline Molinillo & Canopy & 1996 & 34.99 & 0.087 \\ \hline Fardes & Canopy & 1995 & 30.48 &  0.040  \\ \hline Fardes & Canopy & 1996 & 25.07 & 0.010 \\ \hline   Ladihonda & Canopy & 1995 & 25.04 & 0.021 \\ \hline  Ladihonda & Canopy & 1996 & 29.16 & 0.135  \\ \hline Fazares & Canopy & 1995 & 35.12 & 0.010 \\ \hline  Fazares & Canopy & 1996 & 25.41 & 0.094 \\ \hline Fazares & Canopy & 1996 & 27.02 & 0.153 \\ \hline Cortijuela & Sprouts  & 1995 & 23.04 & 0.156 \\ \hline Fazares & Sprouts & 1995 & 27.69 & 0.172 \\ \hline  Fazares & Sprouts & 1996 & 34.71 & 0.077 \\ \hline  \end{array} \)

Tabla 8; Datos del Ejercicio Propuesto 6

Se pide:

  1. ¿Se puede admitir que la longitud de las hojas de encina se distribuye normalmente?
  2. ¿Se puede admitir que la longitud media de las hojas es igual a 30 cm a un nivel de significación del 5%? (Suponiendo que la varianza es conocida)
  3. Suponiendo que la asimetría de las hojas sigan una distribución Normal; comprobar mediante un contraste de hipótesis si existen diferencias significativas en la asimetría de las hojas teniendo en cuenta la situación de la hoja en el árbol.
  4. A un nivel de significación del 5%, ¿es representativo el ajuste lineal entre la longitud y la asimetría? ¿Cuál sería la expresión del modelo? ¿Cuánto explica el modelo?

Solución

1. ¿Se puede admitir que la longitud de las hojas de encina se distribuye normalmente?

Mediante la prueba de Kolmogorov-Smirnov obtenemos que el p-valor es 0.8173, mayor que el nivel de significación 0.05, por lo tanto no se puede rechazar la hipótesis nula y admitimos que la longitud de las hojas sigue una distribución Normal.

2. ¿Se puede admitir que la longitud media de las hojas es igual a 30 cm a un nivel de significación del 5%? (Suponiendo que la varianza es conocida)

El valor del nivel crítico o p-valor (Sig. (bilateral)) es 0.5229, mayor que el nivel de significación 0.05, por lo que no se rechaza la hipótesis nula y admitimos que la longitud media de las hojas de encina es igual a 30 cm.

3. Suponiendo que la asimetría de las hojas sigan una distribución Normal; comprobar mediante un contraste de hipótesis si existen diferencias significativas en la asimetría de las hojas teniendo en cuenta la situación de la hoja en el árbol.

En la salida se incluye el valor del estadístico de contraste (-0.88477), los grados de libertad de la distribución t de Student que sigue el estadístico de contraste (13) y el p-valor (0.3924). Como el p-valor es mayor que el nivel de significación fijado (0.05), no rechazamos la hipótesis nula y se deduce que las partes de la planta (Canopy y Sprouts) no influyen en la asimetría de las hojas.

4. A un nivel de significación del 5%, ¿es representativo el ajuste lineal entre la longitud y la asimetría? ¿Cuál sería la expresión del modelo? ¿Cuánto explica el modelo?

asimetría = 0.119847 –  0.000875  * longitud

En nuestro ejemplo, los p-valores que nos ayudan a resolver estos contrastes son 0.514 y 0.887, ambos mayores que 0.05. Así, considerando un nivel del significación del 5%, no rechazamos la hipótesis nula en ambos contrastes, de manera que podemos suponer ambos parámetros no son significativamente distintos de 0. Por lo tanto que concluimos que longitud no es  válida para predecir la asimetría según un modelo lineal.

Por último, en la parte final de la salida, encontramos el valor de \( R^2  \) que es indicador de la bondad del ajuste de nuestro modelo a los datos.\( R^2  \) oscila entre 0 y 1, de manera que, valores de \( R^2  \) próximos a 1 indican un buen ajuste del modelo lineal a los datos.  En nuestro ejemplo, \( R^2  = 0.001609 \), por lo que podemos concluir que el modelo lineal no se ajusta a nuestros datos. El porcentaje de variación de la asimetría de las hojas de la encina explicado por el modelo de regresión lineal es igual al 0.1 %, siendo ésta una cantidad claramente insatisfactoria.

Por últimomediante el contraste ómnibus, se comprueba si, de forma global, el modelo lineal es apropiado para modelizar los datos. En nuestro ejemplo, el p-valor asociado a este contraste 0.8871 es mayor que 0.05 por lo que, al 5% de significación no podemos rechazar la hipótesis nula y afirmar que, efectivamente, el modelo lineal no es adecuado para nuestro conjunto de datos.

Solución del Ejercicio propuesto 6


APÉNDICE

Introducción al Análisis de datos categóricos: Tablas de Contingencia

Las variables cualitativas o categóricas son aquellas que expresan una cualidad no numérica de los individuos. Un buen ejemplo de este tipo de variables es el color de ojos. Los posibles valores que puede tomar una variable cualitativa reciben el nombre de modalidades o categorías. Siguiendo con el ejemplo del color de ojos, las categorías de esta variable son “Azul”, “Marrón”, “Negro” y “Verde”.

Existen distintos tipos de variables cualitativas:

  • Variables cualitativas nominales. Este tipo de variables se caracteriza por la inexistencia de un orden específico entre sus categorías, de manera que dos personas distintas pueden establecer una ordenación diferente de las mismas. Por ejemplo, el género de una persona es una variable cualitativa nominal, pues sus dos categorías (“Hombre” y “Mujer”) pueden ordenarse indistintamente como “Hombre”-“Mujer” o como “Mujer”-“Hombre”.
  • Variables cualitativas ordinales. A diferencia de las anteriores, en las variables cualitativas ordinales sí existe un orden predeterminado entre las modalidades basado en alguna característica intrínseca de la propia variable. La opinión de una persona sobre un restaurante es un ejemplo de variable cualitativa ordinal, ya que sus categorías pueden ordenarse de la menos favorable a la más favorable (“Malo”, “Regular” y “Bueno”) o viceversa. Otros ejemplos pueden ser: el rango militar, la clase social, el nivel de estudios
  • Variables cualitativas por intervalo. Son aquellas que surgen de la categorización de variables inicialmente cuantitativas.  Estas variables pueden tratarse como ordinales pero en éstas se pueden calcular distancias numéricas entre dos niveles de la escala ordinal. (Ejemplos: el sueldo, la edad, los días del mes, el nivel de presión sanguínea. Son ejemplos de variables que se pueden agrupar por intervalos).

El conjunto de técnicas estadísticas específicas para el estudio de la asociación entre variables cualitativas recibe el nombre de Análisis de Datos Cualitativos o Categóricos.

Tablas de Contingencia

Una tabla de contingencia es una tabla de frecuencias bidimensional en la que se recoge el número de individuos que presentan simultáneamente cada una de las combinaciones de las modalidades de dos variables cualitativas.

Si consideramos dos variables cualitativas,   \( X  \) e  \( Y  \), con  \( k  \) y  \( p  \) modalidades, respectivamente, la tabla de contingencia asociada sería la siguiente:

\( \begin{array}{|c|c|c|c|c|c|}   \hline  X/ Y & Y_1 & Y_2 & \cdots & Y_p & \text{Total (pot filas) } \\ \hline  X_1 & n_{11} & n_{12} & \cdots & n_{1k} & n_{1.} \\ \hline X_2 & n_{21} & n_{22} & \cdots & n_{2k} & n_{2.} \\ \hline  \cdots & \cdots & \cdots & \cdots & \cdots & \cdots \\ \hline   X_k & n_{k1} & n_{k2} & \cdots & n_{kp}  & n_{k.} \\ \hline  \text{Total por columnas)} & n_{.1} & n_{.2} & \cdots & n_{.p} & n_{..}= n \\ \hline  \end{array} \)

Expresión 46: Tabla de contingencia

En esta tabla, \( n_{ij} \) representa el número de individuos que presentan simultáneamente la modalidad i de la variable X  y la modalidad j de la variable Y, y se denomina, habitualmente, frecuencia absoluta observada.

Cuando se estudian dos variables cualitativas resulta interesante analizar si existe, o no, algún tipo de relación o asociación entre ellas, es decir, si ambas variables son dependientes o no lo son.

El estudio de la dependencia (o, equivalentemente, de la independencia) entre dos variables cualitativas pasa por resolver el siguiente contraste de hipótesis:

\( H_0 \equiv \) X e Y son independientes

\( H_1 \equiv \) X e Y no son independientes (son dependientes)

Para resolver este contraste de hipótesis se debe calcular el siguiente estadístico de contraste:

\(  \chi^{2}_{exp}  =  \displaystyle \sum_{i=1}^{k} \displaystyle \sum_{j=1}^{p} \displaystyle \frac { (n_{ij} – e_ {íj} )^{2}} {e_{ij}}  \)

Expresión 47: Estadístico de contraste Chi Cuadrado

donde \( e_{ij} = \displaystyle \frac {n_{i.} \times n_{.j}} {n} \) recibe el nombre de frecuencia absoluta esperada ya que es el número de individuos que se esperaría obtener en cada casilla de la tabla de contingencia si se cumpliera el supuesto de independencia entre las dos variables cualitativas.

Bajo la hipótesis nula, \(  \chi^{2}_{exp} \) se distribuye según una \(  \chi^{2}_{(k-1) \times (p-1)} \), siendo k y p el número de filas y columnas, respectivamente, de la tabla de contingencia.

Cuando se rechaza la hipótesis nula en el contraste de independencia y, consecuentemente, se concluye que existe un cierto grado de asociación entre las variables, puede resultar interesante estudiar la intensidad de tal asociación.

Existen diversas medidas para determinar la asociación entre las dos variables. A la hora de elegir una medida hay que tener en cuenta el tipo de las variables.

Medidas de asociación de variables nominales

  • Coeficiente \(  \phi \) 

\( \phi =   \displaystyle \sqrt {  \displaystyle \frac { \chi^{2}} { n} } \)

Expresión 48: Coeficiente \( \phi \)

En las tablas de contingencia 2 x 2, el coeficiente \( \phi \) oscila entre 0 y 1. Si \( \phi = 0 \), las variables son independientes y si \( \phi = 1 \), existe una asociación perfecta entre las variables. Si alguna de las dos variables tiene más de dos niveles, este coeficiente puede tomar un valor superior a 1.

  • Coeficiente C de contingencia

\( C =  \displaystyle \sqrt {  \displaystyle \frac { \chi^{2}} {\chi^{2} + n} } \)

Expresión 49: Coeficiente C de contingencia

El coeficiente de contingencia se utiliza cuando las dos variables tienen el mismo número de niveles.

El coeficiente de contingencia oscila

  • entre 0 y \( \sqrt {2/2} \) en tablas de contingencia \( 2 \times  2 \) y
  • entre 0 y  \( \displaystyle \sqrt {\displaystyle \frac {k-1}{k} } \).
  • Si  \(  C = 0 \), las variables son independientes y cuanto mayor sea el valor de \( C \), mayor será el grado de asociación entre las variables.
  • Coeficiente V de Cramer.

El coeficiente \( V \)  de Cramer es una modificación del coeficiente \(  \phi \) y se calcula como

\( V =  \displaystyle \sqrt {  \displaystyle \frac { \chi^{2}} {n \ast \min (k-1, m-1)} } \)

Expresión 50: Coeficiente V de Cramer

En las tablas de contingencia \( 2 \times k \) o \( p \times 2 \) el coeficiente \( \phi \)  y el coeficiente \( V \) de Cramer coinciden.

El coeficiente  \( V \) de Cramer oscila entre 0 y 1.

  • Si \( V = 0 \), las variables son independientes y
  • Si \( V = 1 \), existe una asociación perfecta entre las variables.
  • Coeficiente Lambda

Al contrario que las medidas anteriores, el coeficiente lambda no depende del valor del estadístico \( \chi^{2} \).

Cuando la variable Y actúa como variable dependiente y la variable X actúa como variable independiente, el coeficiente lambda mide la capacidad de X para predecir Y. En este caso, se calcula como

\( \lambda_{Y} = \displaystyle \frac { \sum_{i} (máx)_{j}n_{ij} – (máx)_j n{.j}}{n- (máx)_jn_{ij}} \)

Expresión 51: Coeficiente Lamdda (X predice Y)

Cuando la variable X actúa como variable dependiente y la variable Y actúa como variable independiente, el coeficiente lambda mide la capacidad de Y para predecir X. En este caso, se calcula como

\( \lambda_{X} = \displaystyle \frac { \sum_{j} (máx)_{i}n_{ij} – (máx)_i n{i.}}{n- (máx)_i n_{ij}} \)

Expresión 52: Coeficiente Lamdda (Y predice X)

Los valores del coeficiente lambda están comprendidos entre 0 y 1 para tablas \( p \times q \), con \( p, q \geq 2 \).

Valores próximos a 0 implican baja asociación y valores próximos a 1 denotan fuerte asociación. Sin embargo un valor de 0 no implica independencia entre los atributos.

Dos variables son independientes cuando \( \lambda = 0 \), pero  \( \lambda = 0 \) no implica independencia estadística.

Medidas de asociación de variables ordinales

Algunas de las medidas para calcular el grado de asociación entre variables de tipo ordinal son:

  • Coeficiente gamma de Goodman y Kruskal

El coeficiente gamma se calcula como

\( \gamma = \displaystyle \frac { C-D}{C+D} \)

Expresión 53: Coeficiente gamma de Goodman y Kruskal

siendo

  • C el número de concordancias, es decir, el número de veces en las que los dos valores de un caso en ambas variables son mayores o menores que los del caso precedente.
  • D el número de discordancias, es decir, el número de veces en las que el valor de una de las variables es mayor que el valor precedente de dicha variable mientras que el valor de la otra variable es menor que el valor precedente de dicha variable (o viceversa).
  • Coeficiente d de Somers

Existen diversas versiones del coeficiente d de Somers, dependiendo de cuál de las dos variables se considera dependiente y cuál se considera independiente.

Cuando la variable independiente es Y

\( d_X = \displaystyle \frac {C-D}{C+D+E_X} \)

Expresión 54: Coeficiente de de Somers . La variable Y es independiente

siendo \( E_X \) el número de empates en la variable X, es decir, el número de veces en los que los valores de dos casos consecutivos coinciden en la variable X, pero no en la variable Y.

Cuando la variable independiente es X

\( d_Y = \displaystyle \frac {C-D}{C+D+E_Y} \)

Expresión 56: Coeficiente de Somers . La variable X es independiente

siendo \( E_Y \) el número de empates en la variable Y, es decir, el número de veces en los que los valores de dos casos consecutivos coinciden en la variable Y, pero no en la variable Y.

  • Coeficiente tau-b de Kendall

Este coeficiente se calcula como

\( \tau_b = \displaystyle \frac {C-D}{\displaystyle \sqrt {(C+D+E_X) (C+D+E_Y)}} \)

Expresión 59: Coeficiente tau-b de Kendall

  • Coeficiente tau-c de Kendall

Este coeficiente se calcula como

\( \tau_c = \displaystyle \frac {2m (C-D)}{n^{2} \ast (m-1)} \)

Expresión 60: Coeficiente tau-c de Kendall

Las cuatro medidas presentadas en este apartando oscilan entre -1 y 1 y su interpretación es muy similar.

  • Si la medida es igual a 0, las dos variables son independientes.
  • Si la medida es igual a 1, existe una asociación perfecta y positiva entre las variables y
  • Si la medida es igual a -1, la asociación también es perfecta, pero negativa.

Supuesto Práctico 18

El fichero festival.txt contiene información sobre el género (Hombre o Mujer) y la intención de asistir o no a un festival de música de 20 individuos. Calcula la tabla de contingencia asociada y determina, a un nivel de significación del 5%, si existe algún tipo de asociación entre ambas variables.

Solución

El primer paso consiste en leer el fichero de datos mediante la orden read.table y asignar su contenido a una variable (que en nuestro caso, llamaremos datos).

> datos <- read.table(“festival.txt”, header = TRUE)
> datos
  Asistir   Sexo
1       Sí Hombre
2       No  Mujer
3       No  Mujer
4       No  Mujer
5       No Hombre
6       Sí Hombre
7       Sí  Mujer
8       Sí Hombre
9       No Hombre
10      No Hombre
11      No  Mujer
12      Sí Hombre
13      Sí  Mujer
14      Sí  Mujer
15      Sí  Mujer
16      Sí Hombre
17      Sí  Mujer
18      Sí  Mujer
19      Sí  Mujer
20      Sí  Mujer

Una vez que se han leído los datos, pasamos a resumirlos mediante una tabla de contingencia. Para ello, se emplea el comando table, que tiene como único argumento el nombre de la variable que contiene los datos.

table (variable)

En nuestro caso, para obtener la tabla de contingencia, debemos escribir

> tabla_conting <- table (datos)
> tabla_conting
Sexo
Asistir Hombre Mujer
     No      3     4
     Sí      5     8

A continuación, planteamos el contraste de hipótesis que nos permitirá decidir sobre la dependencia o independencia del género y la intención de asistir al festival de música.

\( H_0 \equiv \hspace{.2cm}\) El género y la intención de asistir al festival son independientes

\( H_1 \equiv  \hspace{.2cm} \) El género y la intención de asistir al festival son dependientes

Para resolver el contraste con R se usa el comando chisq.test, que tiene los siguientes argumentos:

chisq.test (x, correct = TRUE)

donde

  • x es el nombre de la tabla de contingencia para las dos variables cualitativas.
  • correct es un argumento lógico que indica si es necesaria una corrección por continuidad (que se denomina corrección por continuidad de Yates) a la hora de calcular el estadístico de contraste. Si se realiza esta corrección, el estadístico de contraste que se calcula es el siguiente:

\(  \chi^{2}_{corr}  =  \displaystyle \sum_{i=1}^{k} \displaystyle \sum_{j=1}^{p} \displaystyle \frac { (|n_{ij} – e_ {íj}|-0.5 )^{2}} {e_{ij}}  \)

Expresión 61: Estadístico de contraste Chi Cuadrado (Corrección de Yates)

El objetivo de esta corrección es que el estadístico \(  \chi^{2}_{corr} \)  se ajuste mejor a la distribución \(  \chi^{2} \)   teórica correspondiente, especialmente en muestras pequeñas.

Por defecto, este argumento toma el valor TRUE, por lo que la corrección por continuidad de Yates se hace de forma automática, de modo que si queremos calcular el valor del estadístico de contraste sin ningún tipo de modificación, debemos asignar a este parámetro el valor FALSE.

Así, en nuestro ejemplo concreto, para resolver el contraste de hipótesis que hemos planteado, obviando la corrección por continuidad del estadístico de contraste escribimos en R:

> contraste_indep <- chisq.test(tabla_conting, correct = FALSE)
Warning message:
In chisq.test(tabla_conting, correct = FALSE) :
  Chi-squared approximation may be incorrect
> contraste_indep

Pearson’s Chi-squared test
data:  tabla_conting
X-squared = 0.03663, df = 1, p-value = 0.8482

En este caso, el valor del estadístico de contraste es 0,03663. Además, se nos indica que la distribución \(  \chi^{2} \) correspondiente tiene un grado de libertad (puesto que hay dos filas y dos columnas en la tabla de contingencia). El p-valor asociado al contraste es de 0,8482. Como este p-valor es superior al nivel de significación (0,05), no podemos rechazar la hipótesis nula, por lo que concluimos que las variables género e intención de asistir al festival de música son independientes o, dicho de otra forma, el género no influye en la intención de asistir al festival.

Al llevar a cabo el contraste, ha aparecido un mensaje de advertencia (Warning message), indicando que los resultados pueden ser incorrectos. Esto se debe a que, en este ejemplo, no se cumple una de las hipótesis del contraste de independencia. En concreto, la que dice que, como mucho, el 20% de los valores  que se calculan pueden ser inferiores a 5. Para comprobar el no cumplimiento de esta hipótesis, podemos visualizar los valores esperados  escribiendo

> contraste_indep$expected
Sexo
Asistir Hombre Mujer
     No    2.8   4.2
     Sí    5.2   7.8

Como se aprecia, 2 de los 4 valores esperados (es decir, el 50%) están por debajo de 5. Esto ocurre con frecuencia cuando se trabaja con muestras de tamaño reducido, como es nuestro caso. En estas situaciones, hay que interpretar los resultados con precaución.

Si queremos realizar el contraste teniendo en cuenta la corrección por continuidad de Yates, escribimos

> contraste_indep <- chisq.test(tabla_conting, correct = TRUE)
Warning message:
In chisq.test(tabla_conting, correct = TRUE) :
  Chi-squared approximation may be incorrect
> contraste_indep

Pearson’s Chi-squared test with Yates’ continuity correction
data:  tabla_conting
X-squared = 0, df = 1, p-value = 1

En la salida se indica que se ha utilizado la corrección por continuidad de Yates para calcular los resultados. En este caso, se obtiene un p-valor de 1, que es mayor que el nivel de significación (0,05), por lo que no se puede rechazar la hipótesis de que el sexo y la intención de asistir al festival son independientes.

Supuesto Práctico 19

Se realiza un estudio sobre las relaciones entre la opinión sobre la prohibición de fumar en lugares públicos y el hecho de ser fumador o no. Para ello, se seleccionan 350 personas, de las cuales 140 son fumadores.

\(  \begin{array}{||c|cccc|c||} \hline  & & & \hspace {-1cm} Opinión & &     \\ \hline    & Muy \hspace {.1cm} en  & En  & A  & Muy  \hspace {.1cm} a &   \\  Fumador  & contra & contra & favor & favor  & Total  \\ \hline Si & 60 & 50 & 20 & 10 & 140  \\ \hline No & 10 & 30 & 70 & 100 & 210 \\ \hline Total & 70 & 80 & 90 & 110 & 350  \\ \hline  \end{array} \)

Tabla 9; Datos del Supuesto Práctico 19

Determinar, a través del test chi-cuadrado de independencia, considerando un nivel de significación del 5% si existe relación entre la condición de fumador y la opinión sobre la prohibición de fumar en sitios públicos.

Solución

En primer lugar vamos a introducir los datos. En este ejemplo, a diferencia del anterior, el enunciado del ejercicio ya proporciona la tabla de contingencia. Para introducirla en R usaremos la función matrix (que ya se introdujo en la práctica 1).

> frecuencias <- c(60, 50, 20, 10, 10, 30, 70, 100)
> tabla_conting <- matrix (frecuencias, 2, 4, byrow = T, dimnames = list(c(“Sí”, “No”), c(“Muy en contra”, “En contra”, “A favor”, “Muy a favor”)))
> tabla_conting
Muy en contra En contra A favor Muy a favor
Sí            60        50      20          10
No            10        30      70         100

A continuación, planteamos el contraste a resolver:

\( H_0 \equiv \hspace{.2cm} \) La condicion de fumador y la opinión sobre la prohibición de fumar en espacios públicos son independientes

\( H_1 \equiv \hspace{.2cm}  \) La condicion de fumador y la opinión sobre la prohibición de fumar en espacios públicos son dependientes

Y procedemos a resolverlos mediante la función chisq.test, sin usar la corrección por continuidad.

> contraste_indep <- chisq.test(tabla_conting, correct = FALSE)
> contraste_indep

Pearson’s Chi-squared test
data:  tabla_conting
X-squared = 133.47, df = 3, p-value < 2.2e-16

En este caso, el valor del estadístico de contraste es de 133,47. El p-valor asociado es un número muy pequeño, menor que 0,05, por lo que se rechaza la hipótesis nula y se concluye que existe cierta asociación entre la condición de fumador y la opinión sobre la prohibición de fumar en espacios públicos.

Pasemos ahora a determinar la intensidad de dicha asociación. Para ello, y teniendo en cuenta que las dos variables que se están estudiando son de tipo nominal, calcularemos el coeficiente phi, el coeficiente C de contingencia, el coeficiente V de Cramer y los coeficientes lambda.

Para calcular los coeficientes de asociación debemos instalar y cargar el paquete DescTools.

> install.packages(“DescTools”)

> library(DescTools)

Una vez hecho esto, calculamos el coeficiente phi mediante la función Phi, que tiene un único argumento

Phi (x)

donde

  • x  es la tabla de contingencia a partir de la cual se calcula el coeficiente.

En nuestro ejemplo concreto, para calcular el coeficiente phi escribiremos

> Phi(tabla_conting)
[1] 0.617523

El coeficiente de contingencia se obtiene mediante la función ContCoef, cuyo argumento es el mismo que el de la función Phi:

ContCoef (x)

donde

  • x  es la tabla de contingencia a partir de la cual se calcula el coeficiente.

En este ejemplo concreto, el valor del coeficiente de contingencia se calcula del siguiente modo:

> ContCoef(tabla_conting)
[1] 0.5254164

Para obtener el coeficiente V de Cramer en R se utiliza la función CramerV, la cual, además de la tabla de contingencia, puede recibir como argumento opcional un nivel de confianza en cuyo caso calcula un intervalo de confianza para el coeficiente.

CramerV (x, conf.level = NA)

donde

  • x  es la tabla de contingencia a partir de la cual se calcula el coeficiente.
  • level es el valor del nivel de confianza a partir del cual se calcula un intervalo de confianza para el coeficiente.

El coeficiente V de Cramer para los datos de este ejemplo es el siguiente:

> CramerV(tabla_conting, conf.level = 0.95)
Cramer V    lwr.ci    upr.ci
0.6175230 0.5076633 0.7179930

El valor de los 3 coeficientes sugiere una relación moderada-alta entre las dos variables objeto de estudio. Los valores de los extremos del intervalo de confianza para el coeficiente V de Cramer indican que dicho coeficiente es significativamente distinto de 0 (puesto que el 0 no es un valor del intervalo).

Por último, el coeficiente lambda se calcula en R con la función Lambda, que tiene los siguientes argumentos:

Lambda (x, direction = c(“symmetric”, “row”, “column”), conf.level = NA)

donde

  • x  es la tabla de contingencia a partir de la cual se calcula el coeficiente.
  • direction indica la versión del coeficiente que se calculará. Por defecto se calcula la versión simétrica del coeficiente (symmetric), en la que las dos variables desempeñan el mismo papel de manera que no se distingue entre variable dependiente y variable independiente. Si se selecciona el valor row para este argumento, la variable situada en las filas asume el papel de variable dependiente, mientras que si se selecciona el valor column, será la variable situada en las columnas la que ejerza el papel de variable dependiente.
  • level es el valor del nivel de confianza a partir del cual se calcula un intervalo de confianza para el coeficiente.

En este ejemplo, el coeficiente lambda simétrico y los dos coeficientes lambda asimétricos son los siguientes:

> Lambda(tabla_conting, direction = c(“symmetric”), conf.level = 0.95)
lambda    lwr.ci    upr.ci
0.3157895 0.2391714 0.3924075

> Lambda(tabla_conting, direction = c(“row”), conf.level = 0.95)
lambda    lwr.ci    upr.ci
0.5000000 0.3787587 0.6212413

> Lambda(tabla_conting, direction = c(“column”), conf.level = 0.95)
lambda    lwr.ci    upr.ci
0.2083333 0.1475398 0.2691268

El valor del coeficiente lambda simétrico es 0.315. Un intervalo de confianza al 95% para este coeficiente es (0.239, 0.392). Esto indica que el coeficiente es significativo a un 5% de significación. Según este coeficiente, la asociación entre ambas variables es moderada-baja.

Cuando se considera como variable dependiente la situada en las filas (es decir, la condición de fumador), el valor del coeficiente lambda es 0.5. Esto se interpreta del siguiente modo: cuando se conoce la opinión del individuo, se reduce en un 50% la probabilidad de cometer un error al predecir la condición de fumador de dicho individuo. De forma similar, conocida la condición de fumador de un individuo se reduce en un 20.8% el error al predecir su opinión. Se concluye, por tanto, que la capacidad predictiva de la variable opinión sobre la variable fumador es mayor que a la inversa.

Supuesto Práctico 20

Se realiza un estudio sobre la práctica deportiva y la sensación de bienestar. Se desea saber si hay asociación entre ambas variables. La práctica deportiva se clasifica en poca, moderada, alta y muy alta y la sensación de bienestar se clasifica en poca, moderada y alta. Para dicho estudio se selecciona una muestra aleatoria de 500 sujetos. Los datos se muestran en la siguiente tabla:

\( \begin{array} {|c|ccc|} \hline & \hspace{4 cm} \text {Sensación}  &  \hspace{-4 cm} \text {de} \hspace{-4 cm} &  \text {bienestar }\hspace{4 cm}  \\  \hline \hline \text {Práctica deportiva} & \text {Poca} & \text {Moderada} &  \text {Alta}  \\  \hline  Poca & 75 & 35 &  40    \\  \hline  \text {Moderada} & 60 & 70 & 50  \\  \hline \text {Alta} & 20 & 30 & 40  \\  \hline  \text {Muy Alta} & 15 & 25 & 40  \\  \hline   \end{array} \)

Tabla 10: Datos del Supuesto Práctico 20

Realizar los contrastes necesarios (considerando un nivel de significación del 5%) y calcular e interpretar las medidas de asociación.

Solución

Comenzamos introduciendo la tabla de contingencia en R:

> frecuencias <- c(75, 35, 40, 60, 70, 50, 20, 30, 40, 15, 25, 40)
> tabla_conting <- matrix (frecuencias, 4, 3, byrow = TRUE, dimnames = list(c(“Poca”, “Moderada”, “Alta”, “Muy alta”), c(“Poca”, “Moderada”, “Alta”)))
> tabla_conting
Poca Moderada Alta
Poca       75       35   40
Moderada   60       70   50
Alta       20       30   40
Muy alta   15       25   40

El contraste que debemos resolver es el siguiente:

\( H_0 \equiv \hspace{.2cm} \) La práctica deportiva y la sensación de bienestar son independientes 

\( H_1 \equiv \hspace{.2cm} \) La práctica deportiva y la sensación de bienestar son dependientes 

Pasamos ahora a resolver el contraste mediante la función chisq.test

> contraste_indep <- chisq.test(tabla_conting, correct = FALSE)
> contraste_indep

 Pearson’s Chi-squared test
data:  tabla_conting
X-squared = 40.049, df = 6, p-value = 4.455e-07

En este caso, como el p-valor asociado al contraste es menor que el nivel de significación (0,05), rechazamos la hipótesis de que la práctica deportiva y el nivel de bienestar sean variables independientes.

Tiene sentido, por tanto, cuantificar el grado de asociación entre ambas variables. Para ello, debemos tener presente que ambas variables son de tipo ordinal. Pasemos a calcular con R los 4 coeficientes de asociación que se han expuesto para este tipo de variables.

Para calcular los coeficientes de asociación debemos instalar y cargar el paquete DescTools.

> install.packages(“DescTools”)

> library(DescTools)

Una vez hecho esto, podemos calcular el coeficiente gamma de Goodman y Kruskal a través de la función GoodmanKruskalGamma, que tiene los siguientes argumentos:

GoodmanKruskalGamma (x, conf.level = NA)

donde

  • x  es la tabla de contingencia a partir de la cual se calcula el coeficiente.
  • level es el valor del nivel de confianza a partir del cual se calcula un intervalo de confianza para el coeficiente.

En nuestro caso

> GoodmanKruskalGamma (tabla_conting, conf.level = 0.95)
  gamma    lwr.ci    upr.ci
0.3073770 0.2022589 0.4124952

El valor del coeficiente gamma es de 0,307, lo que indica una asociación positiva y débil entre ambas variables. El intervalo de confianza para el coeficiente, a un nivel de confianza del 95% es (0,202, 0,412).

Para obtener los coeficientes d de Somers, se utiliza la función SomersDelta. Esta función tiene los siguientes argumentos:

SomersDelta(x, direction = c(“row”, “column”), conf.level  =NA)

donde

  • x  es la tabla de contingencia a partir de la cual se calcula el coeficiente.
  • direction indica qué coeficiente de Somers se calcula. Por defecto, direction = “row”, lo que implica que la variable situada en las filas actúa como variable dependiente. Si se desea que la variable dependiente sea la situada en las columnas, basta con adjudicar el valor “column” a este argumento.
  • level es el valor del nivel de confianza a partir del cual se calcula un intervalo de confianza para el coeficiente.

Para calcular los coeficientes d de Somers en nuestro caso escribiremos

> SomersDelta(tabla_conting, direction = “row”, conf.level = 0.95)
somers    lwr.ci    upr.ci
0.2250900 0.1462091 0.3039710

> SomersDelta(tabla_conting, direction = “column”, conf.level = 0.95)
somers    lwr.ci    upr.ci
0.2076412 0.1351477 0.2801347

Cuando la variable situada en las filas (práctica deportiva) actúa como dependiente, el valor del coeficiente es 0,225, lo que indica una asociación positiva y baja entre las variables. Un intervalo de confianza al 95% para este coeficiente es (0,146, 0,303).

Si la variable independiente es la situada en las columnas (sensación de bienestar), el valor del coeficiente es 0,207, indicando, nuevamente una asociación positiva y baja entre las variables. En este caso, el intervalo de confianza para el coeficiente al 95% de confianza es (0,135, 0,280).

Los coeficientes tau de Kendall (tau-b y tau-c) se calculan mediante las funciones KendallTauB y StuartTauC, respectivamente. Los parámetros de estas funciones son los mismos:

KendallTauB (x, conf.level = NA)

StuartTauC (x, conf.level = NA)

donde

  • x es la tabla de contingencia a partir de la cual se calcula el coeficiente.
  • level es el valor del nivel de confianza a partir del cual se calcula un intervalo de confianza para el coeficiente.

Así, en nuestro ejemplo concreto, ambos coeficientes se calculan tal y como se indica a continuación:

> KendallTauB(tabla_conting, conf.level = 0.95)
  tau_b    lwr.ci    upr.ci
0.2161896 0.1405767 0.2918026

> StuartTauC(tabla_conting, conf.level = 0.95)
tauc    lwr.ci    upr.ci
0.2250000 0.1461296 0.3038704

El valor del coeficiente tau-b de Kendall es 0,216, con un intervalo de confianza al 95% de confianza de (0,140, 0,291). El coeficiente tau-c de Kendall toma un valor de 0,225 y el intervalo de confianza asociado es (0,146, 0,303). La interpretación es similar en ambos casos: las dos variables presentan una asociación positiva y de intensidad baja.

Supuesto Práctico 21

Se realiza un estudio sobre la posible relación que hay entre la edad de las mujeres y su grado de aceptación de una ley sobre interrupción del embarazo. Para ello se ha realizado una encuesta sobre 450 mujeres cuyos resultados se adjuntan en la siguiente tabla:

\( \begin{array} {|c|ccc|} \hline & & \text {Aceptación} &    \\  \hline   \text {Edad} &  \text {Baja} &  \text {Media} &  \text {Alta}  \\  \hline 0-18 & 22 & 44 &  25    \\  \hline 18-30 & 36 & 41 & 25  \\  \hline 30-45 & 31 & 30 & 28  \\  \hline 45-65 & 37 &  26 & 23  \\  \hline > 65 & 40 & 30 & 12    \\  \hline \end{array} \)

Tabla 11: Datos del Supuesto Práctico 21

Contrastar al nivel de significación del 5% si existe relación entre el centro hospitalario y el motivo de las consultas. En caso afirmativo, dar medidas del grado de intensidad de dicha asociación.

Solución

Comenzamos planteando el contraste que se debe resolver para dar comprobar la dependencia o independencia de las variables.

\( H_0 \equiv \hspace{.2cm} \) La edad de las mujeres y el grado de aceptación de una ley sobre la interrupción del embarazo son independientes 

\( H_1 \equiv \hspace{.2cm} \) La edad de las mujeres y el grado de aceptación de una ley sobre la interrupción del embarazo son dependientes 

A continuación, se introducen los datos de la tabla de contingencia que figura en el enunciado del problema.

> frecuencias <- c(22, 44, 25, 36, 41, 25, 31, 30, 28, 37, 26, 23, 40, 30, 12)
> tabla_conting <- matrix (frecuencias, 5, 3, byrow = TRUE, dimnames = list(c(“0 – 18”, “18 – 30”, “30 – 45”, “45 – 65”, “> 65”), c(“Baja”, “Media”, “Alta”)))
> tabla_conting
   Baja Media Alta
0 – 18    22    44   25
18 – 30   36    41   25
30 – 45   31    30   28
45 – 65   37    26   23
> 65      40    30   12

A continuación, se realiza el contraste chi-cuadrado mediante la función chisq.test (sin aplicar la corrección por continuidad de Yates)

> contraste_indep <- chisq.test(tabla_conting, correct = FALSE)
> contraste_indep

  Pearson’s Chi-squared test
data:  tabla_conting
X-squared = 18.037, df = 8, p-value = 0.02095

En este caso, el valor del estadístico de contraste es 18.037. Este estadístico de contraste sigue una distribución chi-cuadrado con 8 grados de libertad. El p-valor asociado al contraste es, aproximadamente, 0.021 que, al ser menor que el nivel de significación (0.05) nos lleva a rechazar la hipótesis nula. Concluimos, por tanto, que la edad de las mujeres y el grado de aceptación de la ley sobre la interrupción del embarazo son variables que están relacionadas.

Determinemos ahora el grado de intensidad de esta relación. Dado que ambas variables son de tipo ordinal, las medidas que se van a calcular son el coeficiente gamma de Goodman y Kruskal, los coeficientes d de Somers, el coeficiente tau-b de Kendall y el coeficiente tau-c de Kendall.

Antes de calcular de estos coeficientes, se debe cargar el paquete DescTools (también será necesario instalar el paquete, en caso de no haberlo hecho con anterioridad).

> library (DescTools)

Ahora ya podemos calcular el valor de los coeficientes de asociación.

> GoodmanKruskalGamma (tabla_conting, conf.level = 0.95)
  gamma      lwr.ci      upr.ci
-0.16467700 -0.26566503 -0.06368897
> SomersDelta(tabla_conting, direction = “row”, conf.level = 0.95)
somers      lwr.ci      upr.ci
-0.13220094 -0.21373760 -0.05066428
> SomersDelta(tabla_conting, direction = “column”, conf.level = 0.95)
somers      lwr.ci      upr.ci
-0.10863303 -0.17547613 -0.04178993
> KendallTauB(tabla_conting, conf.level = 0.95)
tau_b      lwr.ci      upr.ci
-0.11983901 -0.19361709 -0.04606094
> StuartTauC(tabla_conting, conf.level = 0.95)
    tauc      lwr.ci      upr.ci
-0.13017778 -0.21031807 -0.05003749

Todos los coeficientes calculados toman valores bajos y negativos (entre -0.10 y -0.16, aproximadamente), siendo todos ellos significativos al 5% de significación. La significación de cada coeficiente se pone de manifiesto al no estar incluido el valor 0 dentro del intervalo de confianza que aparece en la salida correspondiente. Esto indica una asociación indirecta y débil (aunque significativa) entre las dos variables analizadas.

Se puede concluir, por tanto, que a medida que aumenta el rango de edad de las mujeres baja su nivel de aceptación de la ley y viceversa.

Supuesto Práctico 22

El ministerio de sanidad está interesado en conocer si hay relación entre el motivo de la consulta de los usuarios y el centro hospitalario al que recurren. Para ello, clasifican el motivo de la consulta en 7 grupos y realizan el estudio en 5 centros similares. Los 7 motivos de consulta se clasificaron en los siguientes grupos: (1) Medicina preventiva; (2) Enfermedades alérgicas; (3) Enfermedades respiratorias de vías altas; (4) Enfermedades respiratorias de vías bajas; (5) Enfermedades agudas; (6) Enfermedades crónicas; (7) Intoxicaciones. Los datos se muestran en la siguiente tabla:

\( \begin{array} {|c|ccccc cc|} \hline \text{Centro} & & &  \text{Tipo} &  \text{de} & \text{consulta} & &   \\  \hline  \text{Hospitalario} & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\  \hline 1 & 400 & 89 & 78 & 29 & 35 & 25 & 38   \\  \hline 2 & 328 & 56 & 89 & 7 & 59 & 34 & 52  \\  \hline 3 & 259 & 90 & 87 & 15 & 56 & 48 & 39  \\  \hline 4 & 324 & 156 & 75 & 63& 212 & 125 & 65  \\  \hline 5 & 123 & 89 & 12 & 27 & 34 & 23 & 18   \\  \hline \end{array} \)

Tabla 12: Datos del Supuesto Práctico 22

Contrastar al nivel de significación del 5% si existe relación entre el centro hospitalario y el motivo de las consultas. En caso afirmativo, dar medidas del grado de intensidad de dicha asociación.

Solución

Comenzamos planteando el contraste que se debe resolver para dar comprobar la dependencia o independencia de las variables

\( H_0 \equiv \hspace{.2cm} \) El centro hospitalario y el motivo de la consulta son independientes 

\( H_1 \equiv \hspace{.2cm} \) El centro hospitalario y el motivo de la consulta son dependientes

A continuación, se introducen los datos de la tabla de contingencia que figura en el enunciado del problema.

> frecuencias <- c(400, 89, 78, 29, 35, 25, 38, 328, 56, 89, 7, 59, 34, 52, 259, 90, 87, 15, 56, 48, 39, 324, 156, 75, 63, 212, 125, 65, 123, 89, 12, 27, 34, 23, 18)
> tabla_conting <- matrix (frecuencias, 5, 7, byrow = TRUE, dimnames = list(c(“Hosp. 1”, “Hosp. 2”, “Hosp. 3”, “Hosp. 4”, “Hosp. 5”), c(“Med. preventiva”, “Enf. Alérgicas”, “Enf. Resp. vías altas”, “Enf. Resp. vías bajas”, “Enf. agudas”, “Enf. crónicas”, “Intoxicaciones”)))
> tabla_conting
Med. preventiva Enf. Alérgicas Enf. Resp. vías altas
Hosp. 1             400             89                    78
Hosp. 2             328             56                    89
Hosp. 3             259             90                    87
Hosp. 4             324            156                    75
Hosp. 5             123             89                    12
        Enf. Resp. vías bajas Enf. agudas Enf. crónicas Intoxicaciones
Hosp. 1                    29          35            25             38
Hosp. 2                     7          59            34             52
Hosp. 3                    15          56            48             39
Hosp. 4                    63         212           125             65
Hosp. 5                    27          34            23             18

A continuación, se realiza el contraste chi-cuadrado mediante la función chisq.test (sin aplicar la corrección por continuidad de Yates).

> contraste_indep <- chisq.test(tabla_conting, correct = FALSE)
> contraste_indep

Pearson’s Chi-squared test
data:  tabla_conting
X-squared = 360.78, df = 24, p-value < 2.2e-16

El valor del estadístico de contraste, en este caso, es de 360.78. Este estadístico de contraste sigue una distribución chi-cuadrado con 24 grados de libertad. El p-valor asociado al contraste es prácticamente 0. Como este p-valor es menor que el nivel de significación considerado (0.05), se rechaza la hipótesis nula planteada, concluyendo la asociación entre el centro hospitalario y el tipo de consulta.

Una vez comprobada la relación entre las dos variables, pasamos a cuantificar su magnitud. Para ello, debemos tener en cuenta que ambas variables son nominales (pues no existe un orden preestablecido entre las categorías de cada una de ellas). Consecuentemente, las medidas de asociación que vamos a calcular son el coeficiente phi, el coeficiente de contingencia, el coeficiente V de Cramer  y los coeficientes  lambda.

Antes de calcular de estos coeficientes, se debe cargar el paquete DescTools (también será necesario instalar el paquete, en caso de no haberlo hecho con anterioridad).

> library (DescTools)

Una vez hecho esto, se calcula cada una de las medidas de asociación.

> Phi(tabla_conting)
[1] 0.3327194
> ContCoef(tabla_conting)
[1] 0.3157034
> CramerV(tabla_conting, conf.level = 0.95)
Cramer V    lwr.ci    upr.ci
0.1663597 0.1434872 0.1784028
> Lambda(tabla_conting, direction = “row”, conf.level = 0.95)
lambda     lwr.ci     upr.ci
0.04019652 0.01464059 0.06575244
> Lambda(tabla_conting, direction = “column”, conf.level = 0.95)
lambda lwr.ci upr.ci
0      0      0

Según el coeficiente phi y el coeficiente de contingencia, la asociación entre las dos variables es moderada-baja. Esta asociación es baja si atendemos al valor del coeficiente V de Cramer (0.166).

Por su parte, el coeficiente lambda simétrico indica una asociación muy baja entre las variables (aunque significativa). Cabe destacar el nulo poder predictivo del centro hospitalario sobre el tipo de consulta.

Supuesto Práctico 23

Se realiza un estudio para analizar si existe asociación entre los ingresos de un grupo de 132 trabajadores de varias empresas y su nivel de estudios. Se clasifica el salario que reciben en tres categorías: (Salarios están entre 700 y 999 euros; Salarios entre 1000 y 1500 euros y Salarios mayores de 1500 euros). El nivel de estudios se mide en tres categorías (estudios básicos, secundarios y universitarios). Los datos del ejercicio se recogen en la siguiente tabla:

\( \begin{array} {|c|c|} \hline & \text{ Nivel de  estudios } \\  \hline \text{ Salario} & \text{Básico} \hspace{1cm} \text{Secundarios} \hspace{1cm} \text{Universitarios} \\  \hline 700-9999 & \hspace{-.5cm}26 \hspace{3cm} 9 \hspace{3.5 cm} 5  \\  \hline 1000-1500 & \hspace{-.3cm} 13 \hspace{2.8cm} 18 \hspace{3cm} 12 \\  \hline > 1500 & 6 \hspace{3cm}8 \hspace{3cm} 25  \\  \hline \end{array} \)

Tabla 13: Datos del Supuesto Práctico 23

Contrastar, a un nivel de significación del 5% si ambas variables están relacionadas. En caso afirmativo, dar medidas para cuantificar la intensidad de dicha relación.

Solución

En primer lugar, vamos a introducir en R los datos de la tabla de contingencia

> frecuencias <- c(26, 9, 5, 13, 18, 12, 6, 8, 25)
> tabla_conting <- matrix (frecuencias, 3, 3, byrow = T, dimnames = list(c(“700-999”, “1000-1500”, “> 1500”), c(“Básicos”, “Secundarios”, “Universitarios”)))
> tabla_conting
Básicos Secundarios Universitarios
700-999        26           9              5
1000-1500      13          18             12
> 1500          6           8             25

Planteamos las hipótesis del contraste que debemos resolver:

\( H_0 \equiv \hspace{.2cm} \) El salario y el nivel de estudios son independientes 

\( H_1 \equiv \hspace{.2cm} \) El salario y el nivel de estudios son dependientes 

Para resolver este contraste realizamos el contraste chi-cuadrado sin la corrección por continuidad de Yates.

> contraste_indep <- chisq.test(tabla_conting, correct = FALSE)
> contraste_indep

Pearson’s Chi-squared test
data:  tabla_conting
X-squared = 34.113, df = 4, p-value = 7.066e-07

El estadístico de contraste, que sigue una distribución chi-cuadrado con 4 grados de libertado, toma un valor de 34.113. El p-valor asociado al contraste es muy pequeño, menor que el nivel de significación (0.05), lo que nos lleva a rechazar la hipótesis nula. Concluimos, por tanto, que el salario y el nivel de estudios están relacionados o, dicho de otro modo, que existe un cierto grado de asociación entre las dos variables.

Dado que ambas variables son de tipo ordinal, para cuantificar la intensidad de la asociación que existe entre ellas calcularemos el coeficiente gamma de Goodman y Kruskal, los coeficientes d de Somers, el coeficiente tau-b de Kendall y el coeficiente tau-c de Kendall.

Antes de calcular de estos coeficientes, se debe cargar el paquete DescTools (también será necesario instalar el paquete, en caso de no haberlo hecho con anterioridad).

> library (DescTools)

Una vez hecho esto, se calcula cada una de las medidas de asociación.

> GoodmanKruskalGamma (tabla_conting, conf.level = 0.95)
gamma    lwr.ci    upr.ci
0.6183986 0.4477821 0.7890152
> SomersDelta(tabla_conting, direction = “row”, conf.level = 0.95)
somers    lwr.ci    upr.ci
0.4413374 0.2999941 0.5826807
> SomersDelta(tabla_conting, direction = “column”, conf.level = 0.95)
somers    lwr.ci    upr.ci
0.4393787 0.3007292 0.5780281
> KendallTauB(tabla_conting, conf.level = 0.95)
tau_b    lwr.ci    upr.ci
0.4403569 0.3009032 0.5798107
> StuartTauC(tabla_conting, conf.level = 0.95)
  tauc    lwr.ci    upr.ci
0.4389949 0.2999530 0.5780368

Los coeficientes tau-b y tau-c de Kendall, con valores que rondan el 0.44, sugieren una asociación moderada, positiva y significativa entre ambas variables. Esto quiere decir que, a medida que aumenta el nivel de estudios aumenta también el rango salarial y viceversa. Según el coeficiente gamma de Goodman y Kruskal, que toma el valor 0.618, la intensidad de la asociación entre el salario y el nivel de estudios es aún mayor.

Por último, los coeficientes d de Sommers se interpretan del siguiente modo:

  • Cuando se considera como variable dependiente la variable situada en las filas (el rango salarial), el valor del coeficiente d de Sommers es 0.441. Esto significa que, conocido el nivel de estudios de un individuo, se reduce en un 44.1% la probabilidad de cometer un error al predecir su rango salarial.
  • Cuando la variable que se sitúa en las columnas (el nivel de estudios) es la que actúa como variable dependiente, el coeficiente d de Sommers toma el valor 0.439. Esto quiere decir que, conocido el rango salarial de un individuo, se reduce en un 43.9% la probabilidad de equivocarse al predecir su nivel de estudios.
  • Los valores tan cercanos de ambos coeficientes nos llevan a concluir que las dos variables tienen un poder similar a la hora de predecir los valores de la otra.

Autores: David Molina Muñoz y Ana María Lara Porras. Universidad de Granada. (2018).

Reformulado con MathML en 2021 por Ana María Lara Porras