Untitled Document
En el segundo y tercer artículo de esta serie
tratábamos los conceptos básicos de la Inferencia Estadística
aplicada a la investigación en fisiología. En respuesta a las sugerencias
recibidas de algunos lectores, aquí resumimos de nuevo las ideas fundamentales
e ilustramos el correcto proceder con nuevos ejemplos donde es muy manifiesta
la diferencia entre las conclusiones que deben enunciarse y las que una buena
parte de los investigadores suscribirían. La irrelevancia de la presunta
frontera del 5% y el no confundir "no hay evidencia suficiente a favor de
que cierto tipo de efecto ocurre en la población" con "hay evidencia
de que ese tipo de efecto no ocurre en la población", son los dos
puntos más importantes que todo científico debe tener muy presentes
al elaborar las conclusiones de sus trabajos.
ERRORES MÁS FRECUENTES AL ELABORAR CONCLUSIONES EN TRABAJOS CIENTÍFICOS
Diógenes Laercio y David
Prieto
Revisaremos el tipo de errores que
más frecuentemente se cometen al elaborar las conclusiones de los trabajos
de investigación a través del siguiente ejemplo. Para estudiar
el posible efecto anticancerígeno (AC) de tres productos recientemente
descubiertos, "A", "B" y "C", trabajaremos con
ratas de la cepa "Primus LA", genéticamente modificada, pues
sabemos que el 90% de ellas desarrollan cáncer de cérvix espontáneamente
el segundo año de su vida.
Probaremos cada uno de los nuevos fármacos en 20 ratas de esa cepa. Si
un producto no es AC esperamos que unas 18 de las 20 ratas que lo recibieron
tengan cáncer en el 2º año de vida (18 es el 90% de 20).
Si la cantidad de ratas tratadas que desarrollan cáncer es próxima
a 18 diremos que ese resultado es compatible con que el producto no sea AC.
Si el número de ratas tratadas que desarrollan cáncer es sensiblemente
menor de 18, concluiremos que el producto tiene efecto AC.
La duda surge cuando el número de ratas que desarrollan cáncer,
entre las 20 tratadas, no es tan claramente grande ni tan claramente pequeño.
Es precisamente en estos casos cuando se calcula el "valor P del test"
y cuando pueden cometerse gruesos errores de concepto, al creer que la conclusión
será drásticamente diferente según esté dicho valor
P por encima o por debajo de 0,05.
Supongamos, para hacer más didáctico el ejemplo, que la mayoría
de los expertos en este campo cree que esas sustancias no son AC y desaconsejan
hacer esa investigación por ser muy costosa y previsiblemente inútil.
Pero, en contra del consenso general, nosotros creemos que los tres productos
pueden ser potentes AC e insistimos en llevar adelante este estudio.
A medida que se acerca el momento en que se conocerán los resultados
reina la expectación en la comunidad científica. Son muchos los
que piensan que nos veremos obligados a reconocer que estábamos totalmente
equivocados y que ninguno de los tres productos disminuye realmente la proporción
de cánceres. Al acabar el estudio, piensan nuestros opositores, quedaremos
en ridículo ante nuestros colegas, que esperan impacientes resultados
y conclusiones.
Al fin llegan los resultados; helos aquí, junto con el valor P del correspondiente
Test de Hipótesis:
"A" à Administrado
a 20 ratas, aparecen 8 ratas con cáncer à 40%; P = 0,0000003
"B" à Administrado
a 20 ratas, aparecen 15 ratas con cáncer à 75% ; P = 0,043
"C" à Administrado
a 20 ratas, aparecen 16 ratas con cáncer à 80% ; P = 0,133
Muchos fisiólogos enunciarían
las conclusiones con esta frase:
"Los productos A y B son anticancerígenos
(P < 0,05) y el C no lo es (P > 0,05)".
Pero este resumen contiene varios
errores graves, derivados de la creencia en que hay algo decisivo en el hecho
de que el valor P esté por encima o por debajo del 0,05. Las conclusiones
correctas y razonables son:
Conclusiones para "A":
Es prácticamente seguro que A es anticancerígeno, pues la probabilidad
de encontrar ese resultado muestral si realmente no fuera anticancerígeno
es ínfima, casi nula.
Calculado el Intervalo de confianza al 95% encontramos que, dando A, la verdadera
proporción de canceres estará entre 19 y 64%, claramente por debajo
del 90%.
Conclusiones para "B":
B puede que sea AC, pero también puede que no lo sea. Con este resultado
es imposible pronunciarse.
No es muy fácil, pero tampoco muy difícil encontrar este tipo
de resultado muestral si realmente B no es AC (4,3% es la probabilidad de encontrar
solo 75% o menos cánceres por casualidad). No podemos descartar que la
disminución de canceres encontrados en la muestra (90-75 = 15%) haya
sido puro azar del muestreo.
Calculado el Intervalo de confianza al 95% encontramos que dando B la proporción
real de cánceres estará entre 51% y 91%. Por tanto, "B"
puede que disminuya el porcentaje de cánceres en un 39% (90-51 = 39),
pero también puede que lo aumente en 1% (91-90 = 1) o que no lo modifique.
Conclusiones para "C":
C puede que sea AC, pero también puede que no lo sea. Con este resultado
es imposible pronunciarse.
Es bastante fácil encontrar este tipo de resultado muestral si realmente
C no fuera AC, pero ello no demuestra que sea inútil como AC (13,3% es
la probabilidad de encontrar solo 80% o menos de cánceres por casualidad).
La disminución de cánceres encontrados en la muestra (90-80 =
10%) bien pudo ser puro azar del muestreo.
Calculado el Intervalo de confianza al 95% encontramos que dando C la proporción
real de cánceres estará entre 56% y 94%. Por tanto, "C"
puede que disminuya el % de cánceres en 34% (90-56 = 34), pero también
puede que lo aumente en 4% (94-90 = 4) y, por supuesto, que no lo modifique.
Resumiendo:
Los resultados deberían haberse reportado así; en esa cepa aparecen
espontáneamente 90% de cánceres. Se prueba cada producto en 20
ratas:
"A" à Hacen cáncer
8 ratas à 40%; P = 0,0000003; IC95% = 19% y 64%
"B" à Hacen cáncer
15 ratas à 75%; P = 0,043; IC95% = 51% y 91%
"C" à Hacen cáncer
16 ratas à 80%; P = 0,133; IC95% = 56% y 94%
Conclusiones razonables:
"A" se ha mostrado como un potente AC, que redujo el % de cáncer
desde el 90% de los controles hasta un 40%, con IC95% entre 19% y 64%. "B"
y "C" podrían ser o no ser AC, nuestros datos son compatibles
con ambas opciones.
Expresando las conclusiones de ese modo se evitan afirmaciones no justificadas
y se sustituyen por información veraz que el lector maduro sabrá
valorar adecuadamente, no sintiéndose el autor del trabajo ni sus lectores
obligados a decantarse a favor o en contra de la hipótesis investigada
cuando los resultados no lo justifican.
Recordemos que en ciertos contextos de la investigación industrial el
investigador puede decidir si, por ejemplo, detiene o no detiene una máquina.
Pero ningún investigador puede decidir si cierto producto es o no es
anticancerígeno. Cómo es la naturaleza no lo decide ningún
científico.
Lo único que puede y debe hacer el científico es aportar datos
y mostrar, cuando es el caso, que al ser difícilmente compatibles con
ciertas Hipótesis, invitan a rechazarlas. El valor P del test mide esa
incompatibilidad de los datos con la Hipótesis Nula planteada.
"La ausencia de evidencia no
implica evidencia de ausencia".
Finalmente, consideremos el caso de un cuarto producto, el fármaco "D",
que nosotros tenemos especial confianza sea un buen AC, mientras la comunidad
científica pone especial énfasis en decir que no lo es.
Finalmente se hace el estudio y en las 20 ratas tratadas con "D" se
encuentran precisamente 18 canceres à 90% (P del test = 0,50).
Este resultado era esperado con gran expectación y cuando llega la mayoría
de los observadores dicen que estos datos muestran definitivamente que "D"
no es anticancerígeno. En la muestra tratada con "D" se obtuvo
precisamente el mismo número de cánceres que cabría esperar
cuando no se da producto alguno. El resultado no puede ser más desalentador.
El fracaso es total. Si los investigadores que insistieron en hacer ese estudio
en contra de la opinión de la mayoría fueran samuráis deberían
tomar medidas harto drásticas.
Pero esa conclusión no está justificada por este resultado. Los
datos no la avalan. En efecto, es claro que el resultado es compatible con que
D no sea AC en absoluto. ¡¡Pero también es compatible con
que D sea un buen AC!!
Calculado el Intervalo de Confianza al 95% encontramos que dando D la proporción
real de cánceres estará entre 69% y 99%. Por tanto, "D"
puede que disminuya el % de canceres en 21% (90-69 = 21), lo cual representaría
un efecto muy notable. Pero también puede que D aumente el % de canceres
en 9% (99-90 = 9). Por supuesto que, entre esas posibilidades, está la
de que no modifique en ningún sentido el % de cánceres.
Un samurai prudente pensaría, en primer lugar, en aumentar el tamaño
de la muestra.
Diógenes Laercio
Departamento de Bioestadística
Universidad Complutense de Madrid
Universidad de Alcalá de Henares
tatopv@med.ucm.es
|