Entrenando con Cabeza: Aprendiendo a leer ciencia (3ª parte): La problemática de trabajar con muestras

"Sé capaz de analizar las estadísticas,
que pueden ser utilizadas para apoyar o socavar casi cualquier argumento"

Marilyn vos Savant

Que levante la mano quién de los presentes se está convirtiendo en un experto en Epidemiología y Estadística. Sí, tú también puedes levantarla, no seas modesto. Cuando comencé la serie de entradas de "Aprendiendo a leer ciencia" tenía un claro objetivo en mente: que cualquier persona fuera capaz de entender la metodología y saber interpretar los resultados de una investigación científica.

En entradas anteriores hemos aprendido a diferenciar varios conceptos clave: correlación y causalidad, estudios observacionales y de intervención, riesgo absoluto y relativo. No hay ningún motivo o lógica en el orden en que estoy publicando estas entradas. Es más, el motivo detrás de cada una de ellas suele venir de algún tipo de noticia de prensa o estudio que me llega a través de redes sociales y en el que veo cómo se malinterpretan de forma casi ofensiva los métodos y usos de la Estadística y la Epidemiología. Por ese motivo intento incluir en las explicaciones no solo ejemplos que hagan sencilla la compresión de la teoría sino casos reales.

En esta ocasión vamos a explicar algunos conceptos que ayudan a interpretar el diseño y los resultados de un estudio teniendo como protagonista un elemento ineludible cuando se trabaja con grandes poblaciones: la muestra.

Población y muestra

- Población inabarcable y necesidad de trabajar con muestras

En Estadística, denominamos población al conjunto de todos los individuos que poseen una determinada característica que deseamos estudiar o en los que queremos comprobar el efecto de cierta intervención. En última instancia, la población total no es sino el conjunto de todos los habitantes del planeta. Como resulta lógico, es imposible plantear un estudio donde se analicen los datos de más de 7.000 millones de personas aunque realmente pocos estudios requieren obtener los datos de todas las personas del mundo sino que se limitan a una población de características concretas de un país, región o área. Aún así, por falta de recursos económicos, materiales y temporales resulta imposible someter a estudio a todos los sujetos de interés, por eso se dice que la población total a estudio generalmente es inabarcable. Existen por supuesto excepciones en la que la población es lo suficientemente pequeña y la participación de todos los individuos sería posible, aunque en la práctica casi nunca se llega a requerir a todos los sujetos.

Dado que no podemos acceder a toda la población de interés para realizar un estudio recurrimos al uso de muestras. Una muestra es un conjunto de individuos de menor cuantía que la población, que pertenece a ésta y que sí es accesible para la realización del estudio. Además, cumple el requisito imprescindible de que representa a la población y permite obtener conclusiones que son generalizables a ella.

- Población y muestra obtenida de ella -

- Procesos de muestreo

El proceso de obtención de muestras a partir de una población inicial se denomina muestreo. Todo muestreo tiene una finalidad básica y última: obtener una muestra que sea representativa de la población, esto es, que cumpla de forma proporcionada todas y cada una de las características que son significativas para nuestro estudio.

Veámoslo con un ejemplo. Después de haber hecho sus pinitos como fotógrafo paisajista, y tras haber conseguido demostrar con éxito la relación entre el tabaco y el cáncer de pulmón, nuestro amigo el investigador ha recibido una nueva oferta de empleo. En su nuevo equipo de investigación se han planteado si existe relación entre la exposición solar y los niveles de vitamina D. Para ello van a realizar un estudio transversal con habitantes de la ciudad costera de Sunny Bay empleando una encuesta en la que preguntarán a los participantes cuántas horas están expuestos al sol junto con otros datos como la edad, el sexo, algunos patrones de alimentación o si toman suplementos. En la ciudad costera de Sunny Bay viven medio millón de personas, pero nuestros investigadores han calculado que para obtener un resultado estadísticamente significativo (explicaremos más tarde qué significa esto) necesitan hacer la encuesta a mil personas a las que llamarán por teléfono (o al teléfono de sus padres en caso de ser menores de edad) para recoger los datos.

A la hora de elegir quienes serán los encuestados entran en juego los muestreos. De los muchos procedimientos de muestreo vamos a comentar rápidamente dos de ellos. El primero es el muestreo aleatorio (o aleatorio simple). En este tipo de muestreos nuestro investigador abriría la guía de teléfonos y escogería libremente 1000 entradas. En el muestreo aleatorio simple todos los sujetos de la población tienen la misma posibilidad de entrar a formar parte de la muestra y solo depende del azar que uno sea elegido finalmente y otro no.

- Muestreo aleatorio simple -

El segundo es el muestreo aleatorio estratificado. En este tipo de muestreo la población se divide en grupos denominados estratos, cada uno de los cuales tiene la misma proporción de algunas características que la población general. Dentro de cada estrato, todos los sujetos tienen la misma posibilidad de entrar a formar parte de la muestra. En resumen, podemos organizar de forma más o menos exacta la población para que cumpla determinados requisitos que son útiles para nuestro estudio pero, al final, la probabilidad individual de cada sujeto para entrar a formar parte del estudio únicamente depende del azar.

Pero entonces, si al final todo depende del azar, ¿qué utilidad tiene estratificar una población? ¿Por qué no hacer desde el principio un muestro aleatorio simple que requiere mucho menos trabajo? Siguiendo con el ejemplo, la población de Sunny Bay está compuesta en un 50% por adultos menores de 70 años, habiendo un 25% de niños y un 25% de adultos mayores de 70 años. Dado que se quiere tener en cuenta la edad de los sujetos, en una población con esta distribución por edades tenemos que estar seguros de que obtenemos una muestra donde cerca de la mitad de sujetos sean adultos menores de 70 años. Si nuestros investigadores llamaran a todos los participantes aleatoriamente podría ocurrir que no se cumpliera este requisito y que, por ejemplo, la mayoría de participantes fueran adultos mayores de 70. Para evitar eso se organiza la población en los tres estratos de edad, de forma que la mitad de individuos a los que hay que llamar pertenezcan al grupo de adultos menores de 70 años.

- Muestreo aleatorio estratificado por edades -

- El papel de los factores de confusión

Un factor de confusión es una variable externa al estudio o no considerada en él que modifica los resultados obtenidos. Existen técnicas que permiten tener en cuenta estos factores de confusión y ajustar los cálculos para obtener resultados correctos, como es el caso de la estratificación o el análisis multivariante (que, a diferencia de la estratificación, se realiza una vez se han recogido los datos).

En otras ocasiones hemos comentado varios casos en los que los factores de confusión podrían afectar a los resultados de estudios observacionales, con especial atención al papel que los hábitos de vida pueden jugar en la investigación sobre los cereales integrales o la relación entre el consumo de carne y el incremento de riesgo de cáncer. En nuestro ejemplo, la medición de los niveles de vitamina D puede depender de diversos factores. Hemos elegido estudiar la relación entre vitamina D y exposición solar, pero también hemos decidido tener en cuenta que los hábitos alimenticios o la edad puede influir.

Quizás si fuéramos más estrictos tendríamos que considerar aún más variables, como el color de piel, la presencia de algunas enfermedades u otros muchos, pero la población no puede ser estratificada indefinidamente, ya que al final apuraríamos tanto las características definitorias de los estratos que cada uno estaría constituido por un número muy pequeño de personas. Por eso, a la hora de plantear la organización por estratos se emplean aquellas características que pueden tener una mayor relación con la variable a estudiar. Aún así, siempre cabe la posibilidad de dejar olvidadas algunas características que puedan ejercer un papel como factor de confusión y, si no somos capaces de identificarlas y tenerlas en cuenta a la hora de interpretar los resultados y exponer las conclusiones del estudio podemos ofrecer resultados que no son del todo correctos.

El intervalo de confianza

- Distribución de parámetros en la población

Es de esperar que cada uno de los individuos de la población tenga unos determinados valores en las distintas variables que podemos estudiar como es el ejemplo de la vitamina D. Para un gran número de parámetros biológicos, así como también fenómenos físicos y estadísticos las variables se distribuyen en la población siguiendo una distribución normal o de Gauss. En este tipo de distribución la gran mayoría de las medidas se agrupan en torno a un valor central (media) y son cada vez menos frecuentes conforme se alejan por encima o por debajo de este valor. El ejemplo más sencillo para comprobar esto es la altura de los adultos: en una población normal será muy común encontrar personas con alturas de 1,60 a 1,80 metros, pero será más raro ver adultos de 2 metros o más así como también será inusual ver personas de 1,30 o 1,40 metros. Los niveles de vitamina D, suponiendo una población sana, con una dieta adecuada y una exposición solar moderada, se encontrarían más frecuentemente en el rango que va de los 20 a los 50 ng/mL, y serán tanto menos frecuentes conforme nos alejamos del valor medio.

Para saber en qué medida los distintos valores tienden a concentrarse o alejarse de la media se utilizan las denominadas medidas de dispersión, de entre las cuales la más importante es la desviación típica o estándar. En el intervalo abarca dos desviaciones estándar por encima y por debajo de la media se encuentran contenidos el 95% de los individuos de la población.

- Estimación de parámetros de la población a partir de la muestra e intervalo de confianza

La utilidad de la estadística analítica es hacer inferencias sobre la población a partir de los datos de una muestra extraída de ella, es decir, a partir de los sujetos estudiados extrapolar los hallazgos a todos los sujetos de la población. En tanto que la muestra sea representativa de la población y cuánto más lo sea, las conclusiones del estudio serán en mayor medida extrapolables a la población, es decir, se podrán generalizar y aplicar de forma más o menos aproximada a todos los individuos. Una vez seleccionada la muestra los investigadores llevan a cabo los análisis estadísticos sobre las variables que desean estudiar, que en este caso es la relación entre exposición solar y niveles de vitamina D.

Los resultados matemáticos obtenidos en este estudio reflejan los valores de vitamina D en función de minutos de exposición solar en los individuos de esta muestra concreta, es decir, 1000 habitantes de Sunny Bay escogidos al azar. Si la muestra a estudio estuviera compuesta por todos los individuos de la población, la media y otros valores muestrales se corresponderían con los valores de la población pero, como hemos dicho, en la gran mayoría de las ocasiones la población es inabarcable, de ahí la necesidad de trabajar con muestras. Entonces, cabría preguntarse qué valores de vitamina D se obtendrían si se hubiera elegido otro grupo de habitantes de la misma ciudad y, por extensión, si se hubiera estudiado a toda la población.

En una población donde podrían escogerse distintas muestras cada una ofrecería su particular valor de vitamina D que bien podría ser muy diferente (en la imagen superior, distintas muestras ofrecen distintos valores de vitamina D representados con líneas de diferentes colores). En ese caso, ¿qué valor de vitamina D muestral se correspondería con el verdadero valor de vitamina D en la población? Para intentar aportar un valor lo más aproximado posible al verdadero valor poblacional se construye un intervalo de confianza que contenga un conjunto de valores dentro de cuyos límites es muy probable que se incluya el verdadero valor. Por consenso, y salvo que se indique lo contrario, el intervalo se calcula con una confianza del 95% (lo que equivale a dos desviaciones estándar), de modo que existe un 95% de posibilidades de que el verdadero valor poblacional se encuentre dentro de dicho intervalo.

- El intervalo de confianza en caso de riesgos

En el caso particular de los riesgos, la interpretación del intervalo de confianza nos aporta información adicional que creo interesante comentar. Para explicar este apartado vamos a recurrir a un estudio real en el que se relacionaba el consumo de pescado azul con la obesidad infantil.

Sí Ryan, por mucho que te sorprenda a mediados de mes salió publicado un estudio (ni más ni menos que un meta-análisis) en el que investigadores de la Universidad de Creta demostraban que el consumo de pescado azul se correlacionaba con el aumento de peso y la velocidad de crecimiento en niños, siendo el riesgo (relativo) del total de grupos de 1,44 y 1,22 respectivamente. Pero, dado que se trata de un estudio sobre muestras, para intentar extrapolar los resultados a la población total es necesario calcular un intervalo de confianza, y es aquí dónde necesitamos prestar atención. Si nos fijamos en los intervalos de confianza (del 95%), el riesgo de sobrepeso a los cuatro años abarca un intervalo de 0,99 a 1,32, mientras que el riesgo de crecimiento acelerado abarca un intervalo de 1,05 a 1,42 en todos los sexos con un intervalo de 0,92 a 1,34 en varones.

Para entender el significado de los valores que abarca el intervalo de confianza de un riesgo debemos recordar la definición de riesgo. Como explicábamos en "Aprendiendo a leer ciencia (2ª parte)" el riesgo relativo responde a la pregunta: "¿cuántas veces es más frecuente el evento adverso entre los expuestos al factor de riesgo con respecto a los no expuestos?", lo cual se expresa matemáticamente de la siguiente forma:

Como se deriva de la fórmula, el riesgo relativo [y otros valores como el riesgo absoluto, el odds ratio o el hazard ratio (usado en análisis de supervivencia)] puede aportar tres valores:

RR < 1: indica que la incidencia de efectos adversos en sujetos expuestos al factor de riesgo es menor que la incidencia en no expuestos, luego este supuesto factor de riesgo actúa en realidad como protector.

RR = 1: indica que la incidencia en expuestos y no expuestos es la misma, por tanto la exposición al factor supone un riesgo nulo.

RR > 1: indica que la incidencia en expuestos es mayor que la incidencia en no expuestos, en consecuencia el factor incrementa el riesgo de padecer el efecto adverso.

Teniendo en cuenta estas consideraciones, veamos cómo se representa el riesgo relativo con sus intervalos de confianza en un estudio cualquiera, en este caso sobre factores de riesgo de delirium en pacientes en cuidados intensivos. La imagen está tomada de "Van Rompaey B. et al. Risk factors for delirium in intensive care patients: A prospective cohort study. Critical care. June 2009".

Como se puede ver, si consideramos 1 (riesgo nulo) como valor central, el riesgo relativo sigue una distribución asimétrica, es decir, el rango de un factor protector va de 0 a 1, mientras que el de un factor de riesgo puede ir de 1 a infinito. Esto puede dar lugar a confusión pero en realidad es muy sencillo y se explica por razones matemáticas: la incidencia puede ser tan grande o tan pequeña como la población en sí pero jamás habrá una incidencia con valores negativos, luego el valor más bajo que podemos calcular para un riesgo es cercano a 0 cuando la incidencia en expuestos es muy pequeña y la incidencia en no expuestos es muy grande; por otro lado, el riesgo jamás será igual a 0, ya que para ello la incidencia en el grupo de no expuestos debería ser infinita y una población, por muy inabarcable que sea, siempre tendrá un número finito de individuos.

Si volvemos al ejemplo de los peces y prestamos atención nos daremos cuenta de que el intervalo de confianza del riesgo de aumento de peso en relación con el consumo de pescado azul contiene los valores que van de 0,99 a 1,32; Si hemos dicho que 1 era el valor nulo y los números inferiores a 1 indicaban el papel protector de un factor vemos que el intervalo contiene tres posibilidades: que el pescado azul sea factor protector contra el aumento de peso, que no influya en el peso o que incremente el riesgo de sobrepeso. Evidentemente un solo factor no puede cumplir tres papeles distintos dentro de la población por tanto, en términos estadísticos, el estudio no ha obtenido resultados significativos, lo que quiere decir que no ha conseguido demostrar que exista relación entre el consumo de pescado azul y el sobrepeso infantil pero tampoco ha demostrado que no la haya.

Por eso, en estudios de grandes muestras de población es necesario observar todos y cada uno de los intervalos de confianza, no fijarse únicamente en los riesgos o las conclusiones. Si el intervalo de confianza de un riesgo contiene el valor 1 el resultado no es estadísticamente significativo para lo que el estudio quería demostrar.

NOTA: algunos de los iconos empleados en esta entrada son propiedad de Anna Litviniuk.

3 comentarios:

Unknown26 de marzo de 2016, 20:40
Buenas Ignacio genial los 3 artículos sobre leer ciencia, pero en este último me ha quedado una duda, igual no me he enterado bien pero en el penúltimo párrafo:

"Si hemos dicho que 0 era el valor nulo y los números inferiores a 0 indicaban el papel protector de un factor vemos que el intervalo contiene tres posibilidades: que el pescado azul sea factor protector contra el aumento de peso, que no influya en el peso o que incremente el riesgo de sobrepeso."

No está mal eso de que 0 era el valor nulo? No debería ser 1 el valor nulo? Si te estás refiriendo al riesgo relativo claro que es lo que yo interpreto jajaja.

Un saludo y muchas gracias por estas clases de epidemiología y estadística, me vienen genial para mis estudios y aprender a comprender estudios científicos.
ResponderEliminar
Respuestas

Añadir comentario

Páginas

lunes, 29 de febrero de 2016

Aprendiendo a leer ciencia (3ª parte): La problemática de trabajar con muestras

3 comentarios: