Cómo detectar estadísticas sospechosas

 

Este artículo se publicó originalmente en inglés en The Open Notebook el 5 de diciembre de 2017. Este artículo fue traducido por Rodrigo Pérez Ortega.

 

Tara Haelle, periodista de ciencia independiente, admite que cuando comenzó a escribir sobre estudios médicos no tenía idea de lo que estaba haciendo. Citaba comunicados de prensa y leía solo los resúmenes (abstracts) de los estudios —prácticas que le dan escalofríos a la mayoría de los periodistas científicos—. Pero en la primavera de 2012, Haelle asistió a un taller dirigido por los veteranos de periodismo de salud Gary Schwitzer e Ivan Oransky en la conferencia anual de la Association of Health Care Journalists (AHCJ) en Atlanta, Estados Unidos. Los dos líderes en la vigilancia de la buenas prácticas periodísticas y científicas —Schwitzer encabeza Health News Review y Oransky, Retraction Watch— le enseñaron a Haelle y a los demás asistentes cómo detectar fallas en los estudios científicos. Haelle salió de la sesión transformada en una nueva periodista. “Me dije: ‘Mierda, lo he estado haciendo mal’”, recuerda.

Después del taller, por años Haelle puso en práctica esas nuevas habilidades, estudiando detenidamente durante horas los estudios científicos y profundizando en sus densas secciones de métodos y resultados. Ahora, como líder del área de Estudios Médicos de la AHCJ, regularmente derrumba la ciencia exagerada o de mala calidad. Algunos de los problemas que Haelle denuncia involucran prácticas cuestionables como la minería excesiva de datos o el cherry-picking —la elección de los sujetos o resultados más valiosos del total—, actividades que probablemente reflejan una presión creciente sobre los científicos para producir resultados llamativos.

El problema, según Haelle y otros, es que esta falsificación estadística se ha vuelto más difícil de detectar. Gran parte de esto está enterrado en la forma en que los datos son diseccionados después del hecho o sometidos a un análisis torturado en busca de resultados significativos. La buena noticia es que los periodistas científicos pueden aprender a detectar muchos de estos trucos sin tener un título en bioestadística, dice Haelle. “No es necesario que seas capaz de realizar tu propio análisis de regresión para poder detectar problemas”.

A medida que los periodistas desmenuzan los detalles de un estudio —evitando la tentación de leer por encima la prosa densa de las secciones de métodos y resultados— también deben estar atentos a señales de alerta específicas.

 

Pesca de datos

Una de las formas más comunes en que los investigadores podrían intentar ajustar sus resultados es mediante una práctica conocida como p-hacking, que implica realizar minería de datos a un conjunto de información hasta obtener un resultado que supere el umbral de significancia estadística. Esto está determinado por el valor de p, una medida de qué tan inesperado es un hallazgo, si la hipótesis de un investigador es errónea. (La mayoría de los campos científicos consideran que un valor de p inferior a 0,05 es estadísticamente significativo.)

Según Susan Wei, experta en bioestadística de la Universidad de Minnesota, en Estados Unidos, el p-hacking aprovecha la flexibilidad que los investigadores tienen para masajear sus datos después de que ya han sido recopilados. En la mayoría de los estudios científicos, los investigadores deben decidir cuál de los múltiples enfoques analíticos utilizar, dice Wei. Ella señala que uno le podría dar el mismo conjunto de datos a cinco estadísticos y cada uno obtendría un resultado diferente. “El análisis de datos no es del todo una ciencia”, dice. “Hay un poco más de arte en ello”.

El p-hacking puede tomar algunas formas diferentes, dice Wei. En algunos casos, los investigadores pueden evaluar las relaciones entre un conjunto de variables —por ejemplo, entre diferentes dosis de un antidepresivo y sus efectos en una variedad de resultados diferentes, como el estado de ánimo, el apetito, los patrones de sueño o los pensamientos suicidas—. Si aparece un resultado significativo para cualquiera de esos resultados, los investigadores pueden generar una hipótesis que se ajuste a ese hallazgo, ignorando aquellas variables para las cuales no hubo ningún efecto. Inventar una hipótesis de forma retroactiva —a veces denominado “hacer una hipótesis después de que se conocen los resultados” o HARKing— a menudo sigue esta forma de p-hacking.

Otra forma en que los investigadores pueden hacer p-hacking de los datos es apegarse a su hipótesis original para un estudio, pero recorrer varias pruebas estadísticas hasta que logren el resultado que esperaban encontrar. Por ejemplo, si un estudio incluye la edad de los pacientes como una variable, los investigadores podrían usar primero una técnica estadística que trate la edad como una variable continua. Si este enfoque no produce un hallazgo significativo, podrían probar un análisis diferente que divida las edades en categorías, como las personas menores de 50 años y las que tienen 50 años o más.

Ambos trucos aumentan la probabilidad de que un resultado significativo se deba en realidad al simple azar. Dado que los investigadores suelen considerar valores de p inferiores a 0,05 estadísticamente significativos, ejecutar 20 o más pruebas casi asegura que al menos un hallazgo sea un falso positivo. Como resultado, los investigadores pueden estar haciendo conexiones que en realidad no existen. En una entrada de blog de marzo de 2017 para la AHCJ, Haelle puso en evidencia la práctica de p-hacking en un estudio que encontró una asociación entre ciertas vacunas y afecciones psiquiátricas, como el trastorno obsesivo compulsivo y la anorexia. Tal como señaló Haelle, los investigadores realizaron una enorme cantidad de pruebas basadas en diferentes combinaciones de vacunas, los momentos de administración de las vacunas y condiciones psiquiátricas, haciendo casi inevitable que algún resultado significativo surgiera por puro chance.

Detectar el p-hacking puede ser difícil, dice Wei, porque los investigadores pueden desinfectar sus publicaciones finales al informar solo las pruebas que produjeron hallazgos significativos. Pero los reporteros pueden buscar evidencia de que podría haber ocurrido preguntándole a los investigadores si examinaron otras variables o si utilizaron pruebas estadísticas adicionales que no se enumeraron en la publicación científica, y de ser así, preguntar cómo se decidieron por aquellas que sí fueron publicadas.

Las secciones de métodos y resultados de los estudios pueden revelar otras evidencias de p-hacking. Por ejemplo, dice Haelle, hay que tener cuidado con un número excesivo de criterios de valoración, también conocidos como variables dependientes. Los estudios clínicos generalmente deben tener uno o dos criterios de valoración primarios y quizás de cuatro a seis secundarios. Mucho más que eso —incluso si se reportan todos los criterios de valoración— es indicativo de que los investigadores podrían haber estado buscando un resultado estadísticamente significativo. Haelle también escanea los documentos en busca de menciones de una corrección de Bonferroni, que es una de las pocas formas de explicar una gran cantidad de pruebas estadísticas o criterios de valoración. Si ella no encuentra una corrección cuando cree que estaría justificada, ella le pregunta a los investigadores por qué no está, o si justificaron las múltiples pruebas con una técnica diferente.

También, se debe examinar los valores de p publicados. Si todos tienden acercarse a 0,05, eso es una señal de que podría haber p-hacking, dice Brian Nosek, psicólogo de la Universidad de Virginia y director ejecutivo del Center for Open Science, que impulsa la transparencia en la ciencia. Las prácticas de p-hacking tienden a empujar valores de p no significativos a poco menos de 0,05. Los hallazgos altamente significativos, como aquellos con valores de p inferiores a 0,01, tienen menos probabilidades de haber surgido del p-hacking.

Para verificar que un estudio médico no ha sido producido con p-hacking, verifica su registro en ClinicalTrials.gov. En la mayoría de los registros de estudios, los investigadores especifican los criterios de valoración que pretenden usar antes de que comience un proyecto. La vista tabular de un registro enumera los criterios de valoración actuales y originales, así como un enlace a versiones anteriores del mismo estudio. Los investigadores también pueden optar por registrar previamente los estudios en cualquier campo en el Open Science Framework del Center for Open Science, donde pueden presentar planes detallados para la recopilación y el análisis de datos por adelantado. Unos 7.000 estudios ahora están preinscritos en el sitio, dice Nosek.

Estos registros públicos permiten a los periodistas comparar el plan original de un estudio con el documento publicado. Las discrepancias son sorprendentemente comunes, según los resultados de un proyecto dirigido por Ben Goldacre, investigador clínico sénior del Centre for Evidence-Based Medicine de la Universidad de Oxford, en Inglaterra. Goldacre y su equipo verificaron los resultados reportados de los ensayos clínicos publicados en las cinco principales revistas médicas de octubre de 2015 a enero de 2016 comparados con sus protocolos iniciales o registros públicos. Al observar 67 estudios, descubrieron que, en promedio, cada uno reportó solo alrededor del 58 por ciento de sus outcomes (las variables o indicadores de resultado, aquello que se mide en un estudio para evaluar la efectividad de una intervención) originales en el documento publicado y agregaron alrededor de cinco variables nuevas.

Por último, el p-hacking puede generar resultados que, si bien son estadísticamente significativos, no son tan significativos o de gran utilidad práctica. Además, los valores de p en general ni siquiera están diseñados para medir la fuerza o importancia de un hallazgo. En cambio, hay que mirar el tamaño de los efectos, dice Regina Nuzzo, periodista independiente y profesora de estadística en la Universidad Gallaudet en Washington, DC. Los tamaños de efecto pueden mostrar cuán diferentes son dos grupos, por ejemplo, en lugar de solo informar que hay una diferencia.

Para encontrar información sobre los tamaños de los efectos dentro de los estudios, busca palabras clave como “Cohen’s d” (efecto d de Cohen ) o “r-squared” (coeficiente de determinación, R2), que son medidas estándar del tamaño del efecto; y pídele a los investigadores que interpreten el tamaño de sus efectos en el contexto del mundo real, por ejemplo, cuánto ayuda realmente un medicamento a las personas con enfermedad pulmonar obstructiva crónica.

Si el tamaño de un efecto es muy pequeño o del todo está ausente en los resultados, esa es una señal de advertencia a la que hay que darle seguimiento, dice Nuzzo.

 

Echar un vistazo antes de tiempo

En una práctica llamada data peeking, o análisis provisional, los investigadores pueden analizar algunos de sus datos antes de que se recopilen todos. Hacerlo puede ayudar a un científico a ver si un medicamento está funcionando, por ejemplo, pero es una mala idea estadísticamente, dice Nosek. Ejecutar algunas pruebas iniciales en los datos y luego nuevamente al final de un estudio conlleva los mismos riesgos que el p-hacking, dice, porque los datos se someten a múltiples rondas de pruebas estadísticas.

El data peeking es difícil de detectar, a menos que un estudio se haya registrado previamente, porque los investigadores rara vez lo revelan, dice Nosek. Sin embargo, echar una mirada a los resultados de un estudio temprano puede motivar a un científico a cambiar criterios de valoración o incluso ajustar una intervención a mitad de camino. Ajustar una intervención antes de que finalice un estudio es especialmente delicado, dice Wei, porque cuando eso ocurre es imposible decir si la intervención que se está probando realmente funcionó o si los cambios en sí empujaron los resultados hacia la significancia.

Y si un estudio se detiene tras los análisis provisionales —por ejemplo, un estudio farmacológico se suspende temprano debido a inquietudes en torno a la seguridad— recuerda que los hallazgos son menos confiables, dice Lisa Schwartz, profesora de medicina en el Dartmouth Institute for Health Policy and Clinical Practice en New Hampshire, Estados Unidos. Los investigadores incluso pueden finalizar los ensayos antes de tiempo si un medicamento o terapia parece ser contundentemente beneficioso. Pero los efectos del tratamiento pueden variar con el tiempo, dice Schwartz, por lo que lo que puede parecer un hallazgo positivo en el momento de la revisión temprana de datos podría nivelarse al final de un estudio.

Si un artículo publicado enumera análisis que se realizaron antes de que se recopilaran todos los datos, Schwartz recomienda que los periodistas pregunten a los investigadores si estas pruebas tempranas fueron planificadas previamente en el protocolo original del estudio. (A veces, esto es parte del control de calidad.) “Las respuestas a esa pregunta comienzan a ayudarte a evaluar tu nivel de preocupación sobre si esto es realmente algo que está en la categoría de ciencia sospechosa”, dice Schwartz.

 

Cortando y rebanando

Cuando los análisis estadísticos basados ​​en un conjunto de datos completo no funcionan como se esperaba, los investigadores pueden optar por recortar una parte de los datos para un análisis por separado. Quizás un tratamiento solo beneficia a las mujeres, o quizás un medicamento sea más efectivo en niños menores de cierta edad. Analizar un subgrupo de datos recopilados es una práctica muy común, especialmente en el contexto de ensayos clínicos, donde los medicamentos rara vez son panaceas, dice Wei. Pero esta práctica no está exenta de inconvenientes. “El análisis de subgrupos siempre ha sido bastante controvertido”, dice, a pesar de que casi todos lo hacen.

El problema con mirar un subconjunto de datos es que los resultados de estos análisis a menudo no son reproducibles, dice Wei. En otras palabras: si un subgrupo de pacientes parece ser particularmente receptivo a un medicamento, los investigadores deben verificar el resultado realizando un estudio completamente nuevo, utilizando solo personas con las características del subgrupo original. Pero es probable que este estudio de seguimiento no presente los mismos resultados. Esto puede suceder si el número de participantes en el subgrupo inicial es pequeño, lo que hace que los resultados sean menos confiables. Los resultados que resultan ser significativos son probablemente falsos positivos. Por ejemplo, un estudio de 2011 del fármaco mavoglurant para el síndrome del cromosoma X frágil mostró beneficios para un subgrupo de siete personas con la condición —la cual está relacionada con el autismo— que tenían un perfil genético específico. Pero los estudios posteriores del fármaco no revelaron los mismos resultados.

Sin embargo, si el estudio original tiene una gran cantidad de participantes, los análisis de subgrupos podrían indicar un resultado real. Por ejemplo, cuando los investigadores desglosaron los datos —por edad y tiempo desde el inicio de la menopausia—, de más de 27.000 mujeres posmenopáusicas que participaban en dos grandes ensayos de la Women’s Health Initiative, descubrieron que la terapia de reemplazo hormonal puede tener efectos y riesgos dramáticamente diferentes. Las mujeres más jóvenes en las primeras etapas de la menopausia pueden tomar hormonas para aliviar los síntomas como los calores súbitos (bochornos, sofocos), pero las mujeres mayores que usan la terapia a largo plazo tienen un mayor riesgo de cáncer de mama y otras enfermedades.

 

Ten cuidado con las “historias precisamente así”, dice Aschwanden. “Estas historias coinciden perfectamente con los datos porque fueron creadas para los datos”.

 

Al leer artículos científicos, generalmente es fácil ver cuándo los científicos han extraído una porción de sus datos para verlos más de cerca, dice Haelle. Por ejemplo, después de enumerar los resultados para el conjunto de datos completo, un artículo puede incluir hallazgos basados ​​en subconjuntos de datos, como los participantes de un determinado género o raza. En esos casos, investiga más y pregunta si el subgrupo que se está poniendo a prueba tiene sentido lógico, teniendo en cuenta lo que se está estudiando.

Christie Aschwanden, periodista científica líder de FiveThirtyEight, advierte que los reporteros deben tener cuidado con las “historias precisamente así” (aludiendo a la colección de cuentos fantásticos de Rudyard Kipling sobre cómo surgieron ciertos fenómenos). Los científicos pueden elaborar una narrativa para justificar la prueba de un subgrupo después de descubrir que produjo un resultado significativo. “Estas historias coinciden perfectamente con los datos porque fueron creadas para los datos”, dice Aschwanden.

Además, ten en cuenta que los investigadores podrían probar varias porciones pequeñas de sus datos hasta ver un efecto positivo, que es una forma de p-hacking, dice Wei. “Estás pescando hasta atrapar un pez”, dice ella. “Por supuesto que siempre vas a atrapar uno si continúas intentándolo”. Este útil artículo de Health News Review ofrece razones adicionales para abordar los estudios con análisis de subgrupos con cautela.

Los periodistas deben ser particularmente cautelosos con los estudios que hacen pruebas en una gran cantidad de subgrupos de personas con características genéticas específicas, dice Schwartz, de Dartmouth. Proyectos como estos usualmente tienen grandes conjuntos de datos, lo que significa que los investigadores pueden probar una inmensa cantidad de correlaciones entre diferentes rasgos genéticos y diagnósticos. Estos estudios y otros tipos de análisis de subgrupos son importantes para la detección de ideas, dice Schwartz: ayudan a los científicos a formular hipótesis para futuros estudios, pero no ofrecen un resultado confiable por sí solos.

 

Escogiendo una variable proxy

Los investigadores también tienen flexibilidad para elegir los criterios de valoración de su estudio, algunos de los cuales son más útiles que otros. Cuando se estudia un medicamento diseñado para prevenir ataques cardiacos, por ejemplo, un científico puede medir la presión sanguínea o el colesterol como un indicador de la cantidad de ataques cardiacos que supuestamente previene el medicamento. Estos llamados criterios de valoración sustitutos ahorran tiempo y dinero cuando otras variables, como las muertes, pueden tomar muchos años y millones de dólares para medir. En términos generales, esta es una práctica legítima, dice Wei, ya que generalmente existen estándares científicos para determinar lo que hace que un criterio de valoración sea una buena variable proxy para usar.

 

Ten en cuenta que los investigadores podrían reportar un criterio de valoración sustituto simplemente porque reveló un hallazgo significativo, cuando otros criterios de valoración más significativos no lo hicieron.

 

Algunos criterios de valoración sustitutos son aceptados incluso por la Administración de Alimentos y Medicamentos de los Estados Unidos como fundamentos para la aprobación de medicamentos, dice Schwartz. Aún así, léelos con precaución. Por ejemplo, los investigadores han probado medicamentos para la diabetes midiendo los cambios en los niveles promedio de glucosa en la sangre, en lugar de medidas más directas del bienestar del paciente. Pero los problemas con el medicamento Avandia cuestionaron el uso de este marcador. A pesar de que su nivel promedio de glucosa en la sangre disminuyó, las personas que tomaban el medicamento para la diabetes tenían un mayor riesgo de ataques cardiacos y otras complicaciones cardiovasculares.

“Los sustitutos siempre introducen [un] salto de fe”, dice Schwartz. Esperas que se traduzcan en resultados que marquen la diferencia en la vida de las personas, pero no es una garantía. Esta es la razón por la cual los estudios que utilizan resultados sustitutos merecen un ojo cauteloso.

El uso de biomarcadores en la investigación psicológica es otro ejemplo de sustitutos potencialmente flojos, dice Haelle. Por ejemplo, ella señala, los investigadores pueden medir ciertos tipos de actividad cerebral como criterio de valoración en un estudio de un medicamento que involucra a personas con esquizofrenia. Pero estas medidas aún no son confiables como marcadores de la respuesta real al tratamiento. Ten en cuenta que los investigadores podrían reportar un criterio de valoración sustituto simplemente porque reveló un hallazgo significativo, cuando otros criterios de valoración más significativos no lo hicieron. Las medidas de calidad de vida son ejemplos de criterios de valoración que pueden marcar mejor el resultado general de un paciente.

Además, los investigadores pueden combinar varios criterios de valoración en un resultado compuesto, lo que les permite probar diferentes combinaciones de criterios de valoración (número de ataques cardiacos, ingresos hospitalarios y muertes, por ejemplo) hasta que algo resulte significativo. Pero estos resultados son vagos cuando se trata de interpretar cómo un tratamiento realmente puede mejorar la vida de los pacientes. Por esa razón, los periodistas deben verificar la validez de los resultados sustitutos con fuentes externas. Haelle señala que los científicos que también son médicos son especialmente útiles, porque entienden la importancia de medir los resultados que son significativos para los pacientes.

 

No lo hagas solo

Con suficiente práctica, los periodistas pueden aprender a detectar algunos casos de p-hacking u otras prácticas estadísticas sospechosas. Pero en muchos de los artículos científicos, andar por el pantano estadístico no es fácil. “Que los periodistas puedan identificar estas cosas es un gran pedido”, dice Nosek. Después de todo, si un acto cuestionable llegó a una publicación, eso significa que se le escapó a los otros investigadores y editores de la revista científica que revisaron el artículo. Por lo tanto, se trata de reporteo inteligente —no un fracaso— ir en busca de ayuda cuando la necesitas.

Algunas organizaciones proporcionan recursos para ayudar a los periodistas a repasar errores estadísticos comunes y tácticas sospechosas. Health News Review publica un conjunto de herramientas con consejos para analizar estudios, como lo que realmente significa (y no significa) si un hallazgo es estadísticamente significativo. La AHCJ tiene varias páginas de consejos sobre cómo cubrir estudios médicos. (Algunos están disponibles solo para miembros de la AHCJ.) La asociación también tiene sesiones relacionadas al tema, como a la que asistió Haelle y ahora ayuda a organizar, en la conferencia anual, así como en talleres regionales en todo Estados Unidos.

 

No asumas que la aparición de estadísticas sospechosas en un artículo convierte al investigador en un fraude total. En general, los científicos están motivados para descubrir la verdad y encontrar buena evidencia para respaldarla.

 

Los periodistas científicos también deberían cultivar relaciones con expertos que puedan ayudarles a descifrar los complejos métodos y resultados de los artículos científicos. “Hazte amigo de un estadístico, cómprale algunas cervezas y pon su número en la lista de tus favoritos”, dice Nuzzo. Además, el recurso STATS.org tiene como objetivo mejorar la educación estadística a través de talleres en organizaciones de noticias y a través de su servicio STATScheck, que los periodistas pueden usar para enviar preguntas a estadísticos, incluido Nuzzo. Los periodistas también pueden comunicarse con la American Statistical Association, que puede identificar a los estadísticos que están familiarizados con el campo particular que está cubriendo un periodista. Por ejemplo, la asociación ayudó a Aschwanden a conectarse con un experto que podría ayudarla a comprender los complicados métodos de siembra de nubes para una historia en la que estaba trabajando.

Al final, los periodistas deben tener cuidado de no asumir que la aparición de estadísticas sospechosas en un artículo convierte al investigador en un fraude total. En general, los científicos están motivados a descubrir la verdad y encontrar buena evidencia para respaldarla. “En su mayoría, las prácticas de investigación cuestionables se realizan por ignorancia, no por una intención deliberada de engañar”, dice Nosek.

Según Wei, parte de la razón por la cual han surgido problemas como el p-hacking y el data peeking es que las técnicas estadísticas tradicionales ya no son relevantes para diseños de estudio cada vez más complejos. “Estamos conscientes de los problemas”, dice ella. “Estamos tratando de darle a los científicos herramientas para hacer una ciencia más rigurosa, que con suerte lleve a una mejor reproducibilidad”.

Tal y como Aschwanden dejó claro en su reciente galardonado reportaje de FiveThirtyEightScience isn’t broken” (La ciencia no está rota), la ciencia es desordenada —y simplemente difícil—. Y los científicos mismos no son perfectos. Al igual que cualquier otra persona, señala, son susceptibles al sesgo natural que nos lleva a pensar que estamos haciendo un buen trabajo, incluso cuando no lo estamos haciendo. “Por supuesto, un investigador tendrá una tendencia a querer exagerar sus hallazgos”, dice. “Este es un impulso humano, y se necesita trabajo para superarlo”. Y ese trabajo no se acaba con los científicos —sino que también se extiende a los periodistas que cubren la ciencia—.

 

Rachel Zamzow

[/media-credit] Rachel Zamzow

Rachel Zamzow es escritora independiente de ciencia y salud. Es escritora colaboradora de la revista de noticias sobre autismo Spectrum, y también ha escrito para Science News y The Philadelphia Inquirer. Fue becaria de The Open Notebook en 2017. Rachel tuitea como @RachelZamzow.

One Comment

  1. Pingback: The Open Notebook – Spotting Shady Statistics

Leave a Reply

Your email address will not be published. Required fields are marked *