En agosto de 2024, las periodistas brasileñas Sílvia Lisboa y Carla Ruas publicaron un reportaje que relacionaba los altos niveles de pesticidas con las alarmantes tasas de mortalidad fetal y malformaciones congénitas en las principales regiones productoras de cultivos de Brasil. La investigación, que tomó meses en ser reporteada y se publicó en Dialogue Earth, reunió entrevistas con residentes y evidencias de docenas de artículos científicos.
Tres conjuntos de datos abiertos jugaron un papel fundamental en la investigación: uno que contenía datos de salud pública recopilados por el sistema nacional de salud de Brasil, otro que proporcionaba datos cartográficos sobre el uso del suelo en el país y un tercero que rastreaba el uso de pesticidas en todo el mundo. Analizados en conjunto, estos ricos recursos permitieron a las reporteras arrojar luz sobre un problema de salud pública que se había pasado por alto durante años.
Muchos reporteros están familiarizados con la idea de utilizar datos para aportar matices y profundidad a una historia. Pueden recurrir a datos gubernamentales públicos, como los del censo o las estadísticas sobre la COVID-19, por ejemplo. Pero, como sugiere la investigación de mi equipo, los periodistas no están utilizando ampliamente la enorme cantidad de datos de libre acceso que los investigadores y las organizaciones comparten en línea. Estos conjuntos de datos de investigación “abiertos” son distintos de otros tipos de datos en la caja de herramientas de un periodista, incluidos los datos recogidos a través de solicitudes de la Ley de Libertad de Información (Freedom of Information Act, FOIA) o extraídos de la web. Por definición, no solo son de libre acceso y pueden analizarse sin restricciones, sino que también pueden ir acompañados de descripciones detalladas de cómo se ha recopilado y depurado la información. Esta transparencia metodológica puede facilitar a los periodistas el conocimiento de las limitaciones y los puntos fuertes de un conjunto de datos y situar la investigación en su contexto.
Estas características hacen que los datos abiertos de investigación sean un recurso muy valioso para los periodistas que quieran contar muchos tipos de historias científicas, como artículos de periodismo de datos, pero también reportajes, investigaciones e incluso notas sobre un solo estudio. La accesibilidad de los datos abiertos puede ser beneficiosa para todos los periodistas, pero especialmente para los que tienen presupuestos y recursos limitados, entre ellos muchos freelancers, reporteros de redacciones pequeñas y periodistas del Sur Global, afirma Yao Hua Law, periodista científico y cofundador del medio de periodismo medioambiental malasio Macaranga.
Aprovechar los datos abiertos puede parecer una tarea ardua, sobre todo si no se tiene una formación formal en investigación. “Muchos periodistas dudan en utilizar datos porque creen que son difíciles de digerir y de encontrar”, dice Law. Pero si sabes qué tipos de datos abiertos existen, dónde buscar y qué preguntas hacer a los expertos, estos datos pueden abrirte un mundo de posibles historias.
Investigar nuevas preguntas
Los datos abiertos pueden ser especialmente útiles para impulsar investigaciones en profundidad, a menudo exclusivas. El acceso libre e inmediato a los datos abiertos permite a los periodistas explorar posibles historias con menos burocracia y menos costos que con los datos cerrados. Y su volumen y amplitud permiten a los reporteros ampliar su búsqueda. Los datos abiertos pueden adoptar la forma de transcripciones de entrevistas, datos de archivo, visualizaciones, datos geográficos y grabaciones de audio o vídeo, por ejemplo.
“No son solo lo que usualmente pensarías que son”, afirma la investigadora de datos abiertos Kathleen Gregory.
Al aprovechar los conocimientos exclusivos de su especialidad y su audiencia, los periodistas pueden plantear preguntas que otros podrían haber pasado por alto, dice Arturo Garduño Magaña, quien fue especialista en participación regional para América Latina de DataCite, una organización mundial sin ánimo de lucro que apoya el uso de datos abiertos. “Cualquier dato puede contar una historia”, afirma.
Por ejemplo, en la investigación de Dialogue Earth de Ruas y Lisboa, el dúo se basó en investigaciones existentes sobre pesticidas y salud para desarrollar algunas “preguntas de investigación” iniciales, como si las regiones productoras de cultivos vinculados a un mayor uso de pesticidas también tenían mayores tasas de enfermedad. Trabajaron con la investigadora en salud ambiental Tatiane Moraes para afinar sus preguntas antes de que Moraes y su equipo de la Universidad de São Paulo realizaran los análisis. “Esta colaboración fue esencial para poder leer estos conjuntos de datos, encontrar patrones y contar una historia que no se había contado antes”, afirma Ruas.
Estos proyectos de investigación basados en datos pueden ser intensivos, pero no tienen que girar como las noticias de última hora. Esto da a los periodistas más tiempo para dejarse llevar por su curiosidad. Por ejemplo, después de que Richard Van Noorden, editor de reportajes de Nature, recibiera de una fuente el dato de que podría haber hasta 10.000 retractaciones de artículos científicos para finales de 2023, él se sumergió en los conjuntos de datos abiertos de Retraction Watch y del detective de la integridad de la investigación Guillaume Cabanac. Van Noorden observó que ninguno de los dos conjuntos de datos parecía recoger todas las retractaciones. Al combinar estos datos, descubrió un sorprendente aumento de las retractaciones en la investigación —una historia que otros periodistas (e incluso científicos) aún no habían podido contar—.
La clave del proceso fue que Van Noorden dispuso de más de un mes para limpiar y analizar los datos, así como para entrevistar a las fuentes, sin preocuparse de que le robaran la primicia. “Si se trata de un proyecto de datos exclusivos, no hace falta hacerlo en tres días”, dice. “Eso es lo bueno de estos proyectos”.
Entregar profundidad y detalle
Los datos abiertos también pueden enriquecer los reportajes científicos que no sean de investigación, permitiendo a los periodistas criticar y contextualizar los nuevos hallazgos. Al cubrir estudios, por ejemplo, los periodistas pueden adquirir el hábito de descargar conjuntos de datos abiertos asociados a la investigación. Estos datos pueden revelar puntos débiles que quizá no queden claros en el propio artículo científico, como una representación excesiva de un grupo demográfico concreto entre los participantes en el estudio, una gran cantidad de datos incompletos o que faltan, o la presencia de valores atípicos —datos extremos, pero potencialmente significativos que los investigadores podrían haber descartado—. Los datos abiertos de la investigación cualitativa, como las transcripciones de las entrevistas, pueden ofrecer pistas similares sobre la calidad de un estudio. Por ejemplo, si las principales conclusiones del artículo se basan en entrevistas con solo uno o dos participantes, es señal de que el estudio puede no ser tan representativo.
Estas y otras señales de alarma pueden ser más evidentes para los investigadores que para los periodistas, quienes no necesariamente tienen formación en el escrutinio de datos ni tiempo para dedicar a análisis adicionales. Cuando Van Noorden pide a fuentes externas que comenten un nuevo estudio, dice que a veces les remite a conjuntos de datos asociados al artículo para ayudarles a evaluar mejor las conclusiones.
Para reportajes u otras historias con espacio para más detalles, los distintos tipos de datos abiertos pueden aportar una mayor especificidad al reportaje. En un reportaje de El País de 2023 sobre arquitectura adaptada al clima, el periodista freelance y estudioso de la arquitectura Daniel Díez Martínez utilizó un conjunto de datos abiertos que contenía los niveles de consumo de agua necesarios para producir materiales de construcción comunes. Con estos datos, Díez Martínez pudo demostrar que la huella hídrica de la madera, por ejemplo, es casi el doble que la del concreto. Incluir cifras específicas le permitió equilibrar una “perspectiva cuantitativa y otra cualitativa”, afirma.
Los conjuntos de datos abiertos cualitativos pueden incluir citas o anécdotas de los participantes que ayuden a los periodistas a ilustrar cómo afectan los resultados a las personas reales. Incluir perspectivas personales ayuda a humanizar las historias científicas, especialmente cuando los periodistas no tienen tiempo de entrevistar a personas directamente afectadas por el tema que están cubriendo.
Del mismo modo, los datos visuales abiertos pueden avivar las historias con ricos detalles. La periodista científica freelance Sofia Quaglia utilizó una colección de vídeos de libre acceso para ampliar su reportaje de National Geographic de 2024 sobre cómo los cefalópodos pueden cambiar de forma y color. Quaglia enlazó los datos de vídeo para ilustrar cómo algunas especies ondulan patrones dinámicos a través de sus cuerpos para camuflarse. “Es un artículo que está muy centrado en cómo esto se ve”, dice. “Pensé que sería muy útil para el lector hacer clic y ver realmente de qué estamos hablando”.
Law también ha utilizado datos visuales para dar un sentido de lugar a una historia. Cuando realizaba un reportaje para Macaranga en 2021 sobre los efectos perjudiciales de un proyecto de deforestación en una comunidad indígena de Pahang, Malasia, las restricciones de viaje impuestas por la COVID-19 le impidieron viajar al lugar de la tala. Así que Law recurrió a datos abiertos en forma de imágenes históricas por satélite para captar los cambios que se estaban produciendo en la comunidad. Estas imágenes se convirtieron en la base de una rica descripción del entorno de su protagonista, Omar: “Hace solo dos años, Omar podía salir de su choza al bosque adyacente y caminar hacia el oeste más de 15 km bajo el dosel. Habría visto señales de tapires, osos malayos, gatos leopardo y elefantes. Quizá incluso tigres”, escribió Law. “Al cabo de un año, el suelo desnudo se extendía 5 km al oeste de la cabaña de Omar, y la tala continúa hoy sin cesar”.
Encontrar conjuntos de datos de investigación abiertos
Muchas personas buscan conjuntos de datos abiertos del mismo modo que buscan otros recursos: Google. Aunque es posible encontrar datos abiertos de esta manera, no siempre es la estrategia más eficaz. Los motores de búsqueda generales se basan en texto, imágenes y vídeos para determinar si el contenido es relevante para la consulta, lo que significa que los conjuntos de datos pueden pasarse por alto fácilmente, sobre todo si las descripciones que los acompañan no son exhaustivas. En su lugar, los periodistas deben buscar datos a través de “repositorios” en línea desarrollados con esta tarea en mente.
Colecciones generales
Los repositorios generales pueden ser un buen punto de partida cuando aún se está esbozando una idea para un reportaje, ya que incluyen datos de una gran variedad de temas. Google ha creado una herramienta específica para encontrar conjuntos de datos: Google Dataset Search. Este recurso proporciona acceso a más de 45 millones de conjuntos de datos, incluidos datos académicos e información gubernamental. Los usuarios pueden limitar su búsqueda filtrando por tipo de conjunto de datos (por ejemplo, imagen, texto, tablas) y tema, como ciencias de la vida, agricultura o ingeniería.

Otros portales generales son Zenodo, Harvard Dataverse, Open Science Framework (OSF), The Accountability Project y Figshare, que tanto Quaglia como Díez Martínez utilizaron para acceder a los datos de sus artículos. Algunas de estas plataformas albergan otros recursos, como libros, software y preprints, por lo que resulta útil limitar la búsqueda a los conjuntos de datos.
Portales de datos específicos para cada campo
Estas plataformas permiten a los investigadores depositar conjuntos de datos específicos de un campo o disciplina concretos, como la biomedicina o las ciencias marinas, y pueden ser especialmente útiles para los periodistas especializados en un tema de cobertura específico. Por ejemplo, cuando Law cubría la demolición de bosques, dice que a menudo empezaba buscando en Global Forest Watch, un repositorio abierto de datos relacionados con los bosques. Muchos de estos portales también tienen filtros útiles. El repositorio de datos OpenNeuro, por ejemplo, permite a los usuarios buscar conjuntos de datos de neurociencias por fecha de publicación o por edad, número y especie de los participantes. Para encontrar los repositorios de su especialidad, los periodistas pueden explorar los registros de datos, como re3data.org y DataCite Commons, o pedir recomendaciones a sus fuentes.

Recopilación de datos institucionales
Las universidades y otras instituciones de investigación ofrecen a menudo acceso abierto a los conjuntos de datos producidos por sus investigadores y estudiantes. Acceder a estas colecciones de datos abiertos puede ser especialmente útil cuando se buscan datos relacionados con un investigador, un artículo o una institución en particular. Puedes encontrar estas colecciones en los sitios web de las instituciones o en plataformas como el Registro de Repositorios de Acceso Abierto u OpenDOAR, que albergan portales de datos académicos.
Artículos científicos
Indagar en la investigación publicada es otra forma habitual de encontrar datos abiertos relevantes. Las referencias a conjuntos de datos de libre acceso aparecen en muchos lugares de un artículo, como la sección de métodos, los pies de figuras o tablas, las notas a pie de página, la lista de referencias o los agradecimientos. También puede haber una declaración separada de “disponibilidad de datos”, que algunas revistas, como PLOS ONE y Nature, exigen a los autores.

Si no ves un conjunto de datos enlazado en un artículo, pregunta a los investigadores si está disponible gratuitamente en línea y, si no lo está, pregúntales por qué. A veces, los investigadores pueden estar dispuestos a compartir datos que aún no están a disposición del público. Sin embargo, estos datos cerrados suelen ir acompañados de restricciones para compartirlos o reutilizarlos, lo que significa que es posible que no puedas reportear sobre ellos sin permiso.
Evaluar los datos abiertos
La accesibilidad de los datos abiertos significa que cualquiera puede analizarlos, lo que permite comprobar su calidad. Además, los investigadores suelen examinar sus propios conjuntos de datos y pedir a sus colegas que los revisen antes de publicarlos, afirma Garduño Magaña. Dicho esto, es importante que los periodistas sepan detectar los posibles puntos débiles de los conjuntos de datos.
Hay algunas tácticas sencillas que puedes utilizar para evaluar los datos abiertos, como comprobar manualmente si faltan valores o si hay valores atípicos extremos. Los conjuntos de datos también pueden tener un problema de “limpieza” si los datos no siguen patrones de formato coherentes para las fechas, las zonas geográficas u otra información. Estas incoherencias pueden estropear los análisis o contribuir a conclusiones erróneas. Las herramientas gratuitas, como OpenRefine, son útiles para identificar variaciones y limpiar datos, especialmente cuando se trabaja con grandes conjuntos de datos, pero requieren cierta experiencia en codificación.
Con un enfoque diferente, Alice Dreger, editora del boletín Local News Blues, recurrió al crowdsourcing para evaluar los datos en los que se basa el mapa Medill “State of Local News”, ampliamente utilizado. (Aclaración: fui entrevistada para uno de los reportajes de Dreger sobre estos datos). Con la ayuda de sus colegas de las redacciones locales de todo EE.UU., Dreger detectó varios problemas, como el doble recuento, la ubicación incorrecta, la categorización errónea o la exclusión total de muchos medios del conjunto de datos interactivo, lo que plantea dudas sobre las conclusiones de los investigadores de Medill. “Sospecho que gran parte de los datos son erróneos debido [a la] forma en que los están contando”, dice.
Comparar conjuntos de datos relacionados, como hizo Van Noorden para su artículo en Nature, es otra forma (más manual) de examinar los datos. ¿Un conjunto de datos apunta a una conclusión radicalmente distinta de otro? Si es así, ¿cuál podría ser la causa de la divergencia? Las grandes diferencias podrían indicar un posible problema de calidad o simplemente reflejar diferencias en el diseño del estudio o en los métodos de recopilación de datos. Las extrañas similitudes entre conjuntos de datos también podrían ser un indicio de que algo no va bien; esos datos podrían estar copiados de otro lugar.
Además, muchos conjuntos de datos abiertos incluyen un archivo “ReadMe” (o Léeme) que describe cómo se recopilaron y procesaron los datos. Una revisión crítica de esta información puede indicar posibles limitaciones. Por ejemplo, si estás examinando los datos de una encuesta, ¿la muestra que estudian los investigadores es representativa de la población? ¿Podría haber un sesgo de respuesta o de selección? ¿Cuándo se recogieron los datos? (Incluso los conjuntos de datos publicados recientemente pueden contener datos recogidos hace años).
Otro método clave para examinar los conjuntos de datos es preguntar a los expertos. Ponte en contacto con los investigadores que están detrás de un conjunto de datos para saber, por ejemplo, cómo se recopilaron los datos y si hay alguna limitación que debas conocer. Pregunta también por ahí, “igual a como quisieras que una fuente independiente comentara un artículo de investigación”, dice Van Noorden. Él suele plantear a las fuentes externas preguntas generales como “¿Qué opinas de este conjunto de datos y cómo la armaron?”, así como otras más específicas, como si un hallazgo puede deberse a la forma en que se recogieron los datos, si se ha omitido algo importante y si hay otros conjuntos de datos que vale la pena tener en cuenta. Los periodistas también pueden encontrar comentarios públicos de investigadores que critican conjuntos de datos en foros de revisión por pares como PubPeer.
Recuerda que el hecho de que un conjunto de datos esté disponible no significa que sea bueno. Confía en las fuentes y en tu instinto periodístico para decidir si un conjunto de datos es fiable. Y si no es así, ahí también hay una historia. Este fue el caso de la periodista climática y ambiental freelance Chloe Glad, que reveló importantes problemas con un conjunto de datos públicos publicados como parte de la iniciativa de la Unión Europea de plantar 3.000 millones de árboles para 2030. Las cifras parecían contar una impresionante historia de conservación, pero al visitar los lugares de plantación de árboles y entrevistar a expertos en biodiversidad, Glad descubrió incoherencias en los proyectos de plantación, incluidas diferencias en la forma de contabilizar los árboles. La primera parte de su investigación, publicada en la revista belga Wilfried en 2024, señala quizá la advertencia más importante de cualquier conjunto de datos: los números son solo una parte de la historia. No tienen en cuenta los “matices de la realidad sobre el terreno”, afirma Glad. Le corresponde a los periodistas aterrizar esas cifras.

Alice Fleerackers es una escritora freelance cuyo trabajo ha aparecido en medios como Nautilus, The Globe and Mail y el National Post. También es profesora asistente en el Departamento de Estudios de Medios de Comunicación de la Universidad de Ámsterdam, donde estudia las intersecciones entre el periodismo científico y la ciencia abierta.
