La prueba Shapiro-Wilk ES sensible al tamaño de la muestra

Como parte de la elaboración de un documento institucional, estuve buscando artículos de investigación que usaran los resultados de las evaluaciones a gran escala en las que he participado como coordinador de algunas áreas.

Encontré el siguiente artículo, que me llamó mucho la atención, de manera positiva, por varias razones.

Assessing the impact of virtual reality on mathematics teaching in rural middle schools: A quasi-experimental approach (Maldonado, Parra-González, Zurita-Agilar, Avila-Jorge , 2023)

En primer lugar es una estudio sobre una intervención para mejorar el aprendizaje de matemáticas en escuelas telesecundarias. Matemáticas es la disciplina que más requiere fortalecimiento en educación básica y las telesecundarias, aunque han tenido avances, son el tipo de secundaria que ha presentado históricamente los resultados de aprendizaje más bajos en ese nivel educativo.

En segundo lugar, la intervención hace uso de dispositivos de realidad virtual. Esta tecnología ha tenido una penetración muy lenta en el entretenimiento y, después de que Meta abandonara el metaverso, en el terreno laboral es prácticamente inexistente.

Se realizó una medida de aprendizaje en matemáticas a dos grupos de estudiantes, de telesecundaria después, con uno se hizo una intervención para reforzar el aprendizaje de matemáticas usando una aplicación de realidad virtual y con el otro una intervención tradicional. Finalmente, se realizó de nuevo nueva medida de aprendizaje en matemáticas y se compararon los resultados de los grupos.

Finalmente, es un estudio que demuestra mucho cuidado en su metodología. Aunque las y los autores tienen una muestra pequeña y poco tiempo para llevar a cabo su intervención, toman todas medidas para que los resultados sean lo más sólidos posibles en cuanto a su análisis cuantitativo.

De hecho, exageran un poco.

Llevan a cabo una prueba de Shapiro-Wilk para poner a prueba que su muestra tiene una distribución normal, aproximadamente normal o bien, una distribución t, para así asegurarse que pueden llevar a cabo una comparación usando una prueba t.

Eso está muy bien, de hecho muchas personas obvian este paso al realizar comparaciones entre grupos usando una prueba t sin asegurarse que se cumplen los supuestos para hacerla. En el mejor de los casos porque confían que en la mayoría de los casos, los datos serán muy cercanos a una distribución t, así que no habrá problema si no son estrictamente normales. En el peor de los casos, se omite por desconocimiento o descuido.

Curiosamente, en este caso, podría haberse confiado en que los datos tendrían una distribución apropiada, pues cuando digo que su tamaño de muestra es pequeño, de verdad es pequeño: son 9 casos por grupo.

La prueba Shapiro-Wilk tiene como hipótesis nula que los datos que estás poniendo a prueba pertenecen a una distribución normal, mientras que la hipótesis alterna es que pertenecen a una distribución diferente a la normal. Entonces, buscamos que los resultados no sean significativos, generalmente con p <= 0.05.

Esta prueba es muy sensible al tamaño de la muestra, para tamaños de muestra pequeños es sumamente difícil que obtengamos resultados significativos, es decir, que rechacemos la hipótesis nula de que los datos pertenecen a una distribución normal.

Esto lo podemos comprobar fácilmente y, como no tengo control de mi mismo, eso hice.

En esta liga puedes encontrar el código de R que he usado.

Lo que hice fue sencillo, generar dos muestras de 1000 observaciones, una con distribución normal y otra con distribución Poisson, como se ven a continuación.

Después hice varias pruebas Shapiro-Wilk, primero con las distribuciones completas y después con con submuestras de diferentes tamaños.

Sí hacemos la prueba con los 1000 casos distribuidos normalmente, no es significativa.

  statistic p.value method                     
      <dbl>   <dbl> <chr>                      
1     0.999   0.906 Shapiro-Wilk normality test

Y con la muestra con distribución Poisson, es significativa.

  statistic  p.value method                     
      <dbl>    <dbl> <chr>                      
1     0.959 3.78e-16 Shapiro-Wilk normality test

Si hacemos esta prueba diez veces con diferentes submuestras de 9 casos cada una, el tamaño usado en el estudio obtenemos lo siguiente.

Para las submuestras extraídas de los datos distribuidos normalmente, en ninguna ocasión son significativos. Que es lo que esperaríamos.

   statistic p.value method                     
       <dbl>   <dbl> <chr>                      
 1     0.932   0.496 Shapiro-Wilk normality test
 2     0.941   0.594 Shapiro-Wilk normality test
 3     0.924   0.429 Shapiro-Wilk normality test
 4     0.973   0.919 Shapiro-Wilk normality test
 5     0.928   0.462 Shapiro-Wilk normality test
 6     0.955   0.747 Shapiro-Wilk normality test
 7     0.916   0.359 Shapiro-Wilk normality test
 8     0.969   0.889 Shapiro-Wilk normality test
 9     0.933   0.506 Shapiro-Wilk normality test
10     0.951   0.706 Shapiro-Wilk normality test

Pero lo mismo ocurre con las submuestra de datos que tienen una distribución Poisson.

   statistic p.value method                     
       <dbl>   <dbl> <chr>                      
 1     0.940  0.581  Shapiro-Wilk normality test
 2     0.826  0.0398 Shapiro-Wilk normality test
 3     0.942  0.601  Shapiro-Wilk normality test
 4     0.957  0.770  Shapiro-Wilk normality test
 5     0.901  0.260  Shapiro-Wilk normality test
 6     0.948  0.664  Shapiro-Wilk normality test
 7     0.937  0.553  Shapiro-Wilk normality test
 8     0.863  0.103  Shapiro-Wilk normality test
 9     0.949  0.679  Shapiro-Wilk normality test
10     0.926  0.447  Shapiro-Wilk normality test

Por supuesto, sabemos que los datos no tienen una distribución normal y que con muestras pequeñas, la prueba Shapiro-Wilk rara vez es significativa, pero si no tenemos cuidado, podemos cometer errores.

Es importante tener en mente que incluso con tamaños de muestra que suenan razonables para estudios en ciencias sociales, obtenemos resultados similares.

Si cambiamos los tamaños de la submuestra de 9 a 30, para los datos que sabemos se distribuyen normalmente no tenemos resultados significativos.

   statistic p.value method                     
       <dbl>   <dbl> <chr>                      
 1     0.974  0.665  Shapiro-Wilk normality test
 2     0.975  0.686  Shapiro-Wilk normality test
 3     0.981  0.863  Shapiro-Wilk normality test
 4     0.964  0.401  Shapiro-Wilk normality test
 5     0.974  0.646  Shapiro-Wilk normality test
 6     0.961  0.335  Shapiro-Wilk normality test
 7     0.933  0.0586 Shapiro-Wilk normality test
 8     0.979  0.790  Shapiro-Wilk normality test
 9     0.971  0.578  Shapiro-Wilk normality test
10     0.937  0.0777 Shapiro-Wilk normality test

Pero tampoco los obtenemos para los que tienen una distribución Poisson, excepto en una ocasión.

   statistic p.value method                     
       <dbl>   <dbl> <chr>                      
 1     0.947  0.140  Shapiro-Wilk normality test
 2     0.967  0.469  Shapiro-Wilk normality test
 3     0.949  0.164  Shapiro-Wilk normality test
 4     0.955  0.232  Shapiro-Wilk normality test
 5     0.957  0.258  Shapiro-Wilk normality test
 6     0.947  0.139  Shapiro-Wilk normality test
 7     0.947  0.138  Shapiro-Wilk normality test
 8     0.925  0.0355 Shapiro-Wilk normality test
 9     0.965  0.408  Shapiro-Wilk normality test
10     0.943  0.110  Shapiro-Wilk normality test

¿Qué tamaño de muestra entonces nos dará confianza en los resultados de esta prueba?

Después de intentar con varios tamaños de muestra, 80 parece razonable. Sin embargo, como en estadística nos gustan las «reglas de dedo», 100 funciona muy bien.

Estos son los resultados con una submuestra de 100 casos distribuidos normalmente.

   statistic p.value method                     
       <dbl>   <dbl> <chr>                      
 1     0.989  0.608  Shapiro-Wilk normality test
 2     0.976  0.0658 Shapiro-Wilk normality test
 3     0.987  0.466  Shapiro-Wilk normality test
 4     0.986  0.397  Shapiro-Wilk normality test
 5     0.981  0.150  Shapiro-Wilk normality test
 6     0.978  0.0997 Shapiro-Wilk normality test
 7     0.975  0.0527 Shapiro-Wilk normality test
 8     0.991  0.716  Shapiro-Wilk normality test
 9     0.974  0.0476 Shapiro-Wilk normality test
10     0.988  0.485  Shapiro-Wilk normality test

Y estos con una submuestra de los casos con distribución Poisson.

   statistic   p.value method                     
       <dbl>     <dbl> <chr>                      
 1     0.961 0.00445   Shapiro-Wilk normality test
 2     0.968 0.0167    Shapiro-Wilk normality test
 3     0.948 0.000580  Shapiro-Wilk normality test
 4     0.955 0.00166   Shapiro-Wilk normality test
 5     0.926 0.0000288 Shapiro-Wilk normality test
 6     0.948 0.000599  Shapiro-Wilk normality test
 7     0.950 0.000872  Shapiro-Wilk normality test
 8     0.937 0.000124  Shapiro-Wilk normality test
 9     0.944 0.000339  Shapiro-Wilk normality test
10     0.958 0.00289   Shapiro-Wilk normality test

En ambos casos, obtenemos lo que esperaríamos.

Lo anterior no quiere decir que las y los autores del estudio hayan cometido un error que ponga en duda los resultados obtenidos. Simplemente usaron una herramienta sobrada para su circunstancia, en realidad, la prueba t es muy tolerante con datos con distribuciones diferentes a la normal, siempre que estas no sean extremas. Por eso más arriba decía que generalmente se confía que los datos más o menos se aproximarán a una normal o a una t y eso es suficiente.

Vaya, eso fue más largo e involucrado de lo que tenía planeado.

Para cerrar, vale la pena echarle un ojo al estudio que ha sido motivo del estudio. Tengo mis reservas en cuanto a la magnitud del incremento en resultados de aprendizaje obtenidas, pues hubo un periodo muy corto de tiempo entre el pre test y el post test, pero las y los autores son mesurados en sus conclusiones y son explícitos en las limitaciones del estudio.

Más bien, llaman la atención a aprovechar las innovaciones tecnológicas en la práctica educativa y realizar estudios de mayor alcance para investigar sus posibles beneficios. No podría estar más de acuerdo con ello.


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *