El rincn de Hipaso

FISIOLOGÍA. Boletn de la SECF. Vol 6,nº1. Febrero 2003

El rincn de Hipaso

Untitled Document En el segundo y tercer artículo de esta serie tratábamos los conceptos básicos de la Inferencia Estadística aplicada a la investigación en fisiología. En respuesta a las sugerencias recibidas de algunos lectores, aquí resumimos de nuevo las ideas fundamentales e ilustramos el correcto proceder con nuevos ejemplos donde es muy manifiesta la diferencia entre las conclusiones que deben enunciarse y las que una buena parte de los investigadores suscribirían. La irrelevancia de la presunta frontera del 5% y el no confundir "no hay evidencia suficiente a favor de que cierto tipo de efecto ocurre en la población" con "hay evidencia de que ese tipo de efecto no ocurre en la población", son los dos puntos más importantes que todo científico debe tener muy presentes al elaborar las conclusiones de sus trabajos.

ERRORES MÁS FRECUENTES AL ELABORAR CONCLUSIONES EN TRABAJOS CIENTÍFICOS

Diógenes Laercio y David Prieto

Revisaremos el tipo de errores que más frecuentemente se cometen al elaborar las conclusiones de los trabajos de investigación a través del siguiente ejemplo. Para estudiar el posible efecto anticancerígeno (AC) de tres productos recientemente descubiertos, "A", "B" y "C", trabajaremos con ratas de la cepa "Primus LA", genéticamente modificada, pues sabemos que el 90% de ellas desarrollan cáncer de cérvix espontáneamente el segundo año de su vida.
Probaremos cada uno de los nuevos fármacos en 20 ratas de esa cepa. Si un producto no es AC esperamos que unas 18 de las 20 ratas que lo recibieron tengan cáncer en el 2º año de vida (18 es el 90% de 20). Si la cantidad de ratas tratadas que desarrollan cáncer es próxima a 18 diremos que ese resultado es compatible con que el producto no sea AC. Si el número de ratas tratadas que desarrollan cáncer es sensiblemente menor de 18, concluiremos que el producto tiene efecto AC.
La duda surge cuando el número de ratas que desarrollan cáncer, entre las 20 tratadas, no es tan claramente grande ni tan claramente pequeño. Es precisamente en estos casos cuando se calcula el "valor P del test" y cuando pueden cometerse gruesos errores de concepto, al creer que la conclusión será drásticamente diferente según esté dicho valor P por encima o por debajo de 0,05.
Supongamos, para hacer más didáctico el ejemplo, que la mayoría de los expertos en este campo cree que esas sustancias no son AC y desaconsejan hacer esa investigación por ser muy costosa y previsiblemente inútil. Pero, en contra del consenso general, nosotros creemos que los tres productos pueden ser potentes AC e insistimos en llevar adelante este estudio.
A medida que se acerca el momento en que se conocerán los resultados reina la expectación en la comunidad científica. Son muchos los que piensan que nos veremos obligados a reconocer que estábamos totalmente equivocados y que ninguno de los tres productos disminuye realmente la proporción de cánceres. Al acabar el estudio, piensan nuestros opositores, quedaremos en ridículo ante nuestros colegas, que esperan impacientes resultados y conclusiones.
Al fin llegan los resultados; helos aquí, junto con el valor P del correspondiente Test de Hipótesis:

"A" à Administrado a 20 ratas, aparecen 8 ratas con cáncer à 40%; P = 0,0000003

"B" à Administrado a 20 ratas, aparecen 15 ratas con cáncer à 75% ; P = 0,043

"C" à Administrado a 20 ratas, aparecen 16 ratas con cáncer à 80% ; P = 0,133

Muchos fisiólogos enunciarían las conclusiones con esta frase:

"Los productos A y B son anticancerígenos (P < 0,05) y el C no lo es (P > 0,05)".

Pero este resumen contiene varios errores graves, derivados de la creencia en que hay algo decisivo en el hecho de que el valor P esté por encima o por debajo del 0,05. Las conclusiones correctas y razonables son:

Conclusiones para "A":
Es prácticamente seguro que A es anticancerígeno, pues la probabilidad de encontrar ese resultado muestral si realmente no fuera anticancerígeno es ínfima, casi nula.
Calculado el Intervalo de confianza al 95% encontramos que, dando A, la verdadera proporción de canceres estará entre 19 y 64%, claramente por debajo del 90%.

Conclusiones para "B":
B puede que sea AC, pero también puede que no lo sea. Con este resultado es imposible pronunciarse.
No es muy fácil, pero tampoco muy difícil encontrar este tipo de resultado muestral si realmente B no es AC (4,3% es la probabilidad de encontrar solo 75% o menos cánceres por casualidad). No podemos descartar que la disminución de canceres encontrados en la muestra (90-75 = 15%) haya sido puro azar del muestreo.
Calculado el Intervalo de confianza al 95% encontramos que dando B la proporción real de cánceres estará entre 51% y 91%. Por tanto, "B" puede que disminuya el porcentaje de cánceres en un 39% (90-51 = 39), pero también puede que lo aumente en 1% (91-90 = 1) o que no lo modifique.

Conclusiones para "C":
C puede que sea AC, pero también puede que no lo sea. Con este resultado es imposible pronunciarse.
Es bastante fácil encontrar este tipo de resultado muestral si realmente C no fuera AC, pero ello no demuestra que sea inútil como AC (13,3% es la probabilidad de encontrar solo 80% o menos de cánceres por casualidad). La disminución de cánceres encontrados en la muestra (90-80 = 10%) bien pudo ser puro azar del muestreo.
Calculado el Intervalo de confianza al 95% encontramos que dando C la proporción real de cánceres estará entre 56% y 94%. Por tanto, "C" puede que disminuya el % de cánceres en 34% (90-56 = 34), pero también puede que lo aumente en 4% (94-90 = 4) y, por supuesto, que no lo modifique.

Resumiendo:
Los resultados deberían haberse reportado así; en esa cepa aparecen espontáneamente 90% de cánceres. Se prueba cada producto en 20 ratas:

"A" à Hacen cáncer 8 ratas à 40%; P = 0,0000003; IC95% = 19% y 64%

"B" à Hacen cáncer 15 ratas à 75%; P = 0,043; IC95% = 51% y 91%

"C" à Hacen cáncer 16 ratas à 80%; P = 0,133; IC95% = 56% y 94%

Conclusiones razonables:
"A" se ha mostrado como un potente AC, que redujo el % de cáncer desde el 90% de los controles hasta un 40%, con IC95% entre 19% y 64%. "B" y "C" podrían ser o no ser AC, nuestros datos son compatibles con ambas opciones.
Expresando las conclusiones de ese modo se evitan afirmaciones no justificadas y se sustituyen por información veraz que el lector maduro sabrá valorar adecuadamente, no sintiéndose el autor del trabajo ni sus lectores obligados a decantarse a favor o en contra de la hipótesis investigada cuando los resultados no lo justifican.
Recordemos que en ciertos contextos de la investigación industrial el investigador puede decidir si, por ejemplo, detiene o no detiene una máquina. Pero ningún investigador puede decidir si cierto producto es o no es anticancerígeno. Cómo es la naturaleza no lo decide ningún científico.
Lo único que puede y debe hacer el científico es aportar datos y mostrar, cuando es el caso, que al ser difícilmente compatibles con ciertas Hipótesis, invitan a rechazarlas. El valor P del test mide esa incompatibilidad de los datos con la Hipótesis Nula planteada.

"La ausencia de evidencia no implica evidencia de ausencia".
Finalmente, consideremos el caso de un cuarto producto, el fármaco "D", que nosotros tenemos especial confianza sea un buen AC, mientras la comunidad científica pone especial énfasis en decir que no lo es.
Finalmente se hace el estudio y en las 20 ratas tratadas con "D" se encuentran precisamente 18 canceres à 90% (P del test = 0,50).
Este resultado era esperado con gran expectación y cuando llega la mayoría de los observadores dicen que estos datos muestran definitivamente que "D" no es anticancerígeno. En la muestra tratada con "D" se obtuvo precisamente el mismo número de cánceres que cabría esperar cuando no se da producto alguno. El resultado no puede ser más desalentador. El fracaso es total. Si los investigadores que insistieron en hacer ese estudio en contra de la opinión de la mayoría fueran samuráis deberían tomar medidas harto drásticas.
Pero esa conclusión no está justificada por este resultado. Los datos no la avalan. En efecto, es claro que el resultado es compatible con que D no sea AC en absoluto. ¡¡Pero también es compatible con que D sea un buen AC!!
Calculado el Intervalo de Confianza al 95% encontramos que dando D la proporción real de cánceres estará entre 69% y 99%. Por tanto, "D" puede que disminuya el % de canceres en 21% (90-69 = 21), lo cual representaría un efecto muy notable. Pero también puede que D aumente el % de canceres en 9% (99-90 = 9). Por supuesto que, entre esas posibilidades, está la de que no modifique en ningún sentido el % de cánceres.
Un samurai prudente pensaría, en primer lugar, en aumentar el tamaño de la muestra.

Diógenes Laercio
Departamento de Bioestadística
Universidad Complutense de Madrid
Universidad de Alcalá de Henares
tatopv@med.ucm.es

Titulares	Carta del Presidente	Editorial	Junta Directiva	Noticias SECF	Historia	Destellos
La importancia del mtodo	Actualizacin	El rincn de Hipaso	Innovacin Docente	Opinin	Libros	La ventana del fisilogo