¿Qué son datos de investigación?

En términos generales, se puede decir que los datos de investigación son datos que son recolectados, observados o creados para ser analizados y producir resultados de investigación originales. La Ley 26899 utiliza el concepto de datos primarios: 

Todo subsidio o financiamiento proveniente de agencias gubernamentales y de organismos nacionales de ciencia y tecnología del SNCTI, destinado a proyectos de investigación científico-tecnológica que tengan entre sus resultados esperados la generación de datos primarios, documentos y/o publicaciones, deberá contener dentro de sus cláusulas contractuales la presentación de un plan de gestión acorde a las especificidades propias del área disciplinar, en el caso de datos primarios y, en todos los casos, un plan para garantizar la disponibilidad pública de los resultados esperados según los plazos fijados en el artículo 5° de la presente ley.

De acuerdo al portal de Datos Primarios en Acceso Abierto de la Ciencia y la Tecnología Argentina (DACyTAr) del Ministerio de Ciencia, Tecnología e Innovación de la Nación, el dato primario es el dato observado durante el proceso de investigación que no ha sido sometido a ningún otro procedimiento. En este contexto, se entiende por dato primario de investigación a todos aquellos datos en bruto sobre los que se basa cualquier investigación y que pueden ser o no ser publicados cuando se comunica un avance científico, pero que son los que fundamentan un nuevo conocimiento. Los conjuntos de datos primarios de investigación, son colecciones de datos codificados en una estructura definida, como ser listas, tablas, bases de datos, etc., que generalmente puede ser leída por sistemas automatizados. 

Se pueden clasificar en observacionales, experimentales o computacionales. Por ejemplo: registros numéricos, registros textuales, imágenes y/o sonidos, modelados computacionales, que la comunidad científica genera en el marco de sus proyectos de investigación, y que son comúnmente aceptados para validar los resultados de la investigación.

Se excluyen: anotaciones de laboratorio, análisis preliminares, objetos físicos (cartas, inventarios, muestras, cepas de bacterias, animales de ensayo, vasijas, especímenes, etc.).

 

Qué se entiende por un conjunto de datos (dataset)

Se considera dato primario a todo dato en bruto sobre los que se basa cualquier investigación y que puede o no ser publicado cuando se comunica un avance científico pero que fundamenta un nuevo conocimiento. Los datos primarios pueden clasificarse en observacionales, experimentales y computacionales. Se consideran datos primarios, por ejemplo a: registros numéricos, registros textuales, imágenes y/o sonidos, que los investigadores generan en el marco de sus proyectos de investigación, y que son comúnmente aceptados en la comunidad para validar los resultados de la investigación. Se excluyen: anotaciones de laboratorio, análisis preliminares, objetos físicos (cartas, muestras, cepas de bacterias, animales de ensayo, vasijas, especímenes, etc.).

Los conjuntos de datos pueden incluir archivos con datos en diferentes formatos (texto, imágenes, planillas, video, bases de datos, etc.) a los que se pueden sumar otros archivos que facilitan el reuso de los datos por otras personas. Por ejemplo, si los datos se almacenan en una planilla (ya sea en formato Excel, ODC, CSV o TSV) debería acompañarse de un diccionario de datos. El diccionario de datos consiste en un archivo que describe cada variable y debería incluir, en la medida de lo posible:

  • El nombre de la variable, tal y como figura en el dataset (por ejempo, altura_de_cada_objeto);
  • El nombre de la variable legible para humanos (por ejemplo, “altura de cada objeto”);
  • La definición de la variable que refleja la manera en que se utiliza el término o variable y que se busca que otros autores tomen en cuenta para comprender el trabajo;
  • Una unidad de medida (por ejemplo, centímetros, metros, pulgadas);
  • Valores permitidos, mínimos y máximos, o conjuntos de valores y su significado cuando corresponda (por ejemplo, “valores reales, mayores o iguales a cero y menores a 230”);
  • De manera opcional, sinónimos de la variable (por ejemplo “tamaño medido”);
  • También de manera opcional, descripción de la variable, legible para humanos (por ejemplo, “la altura del objetivo medida al momento de capturar los datos uilizando el instrumento XYZ”). En esta definición pueden incluirse definiciones formales si corresponde.

Cuando se trate de datos procesados, el código fuente que permite procesar esos datos. Por ejemplo un script en R, un programa en Python, un modelo en Octave o una notebook Jupyter.

Cuando se trate de datos procesados (no crudos), archivos que permitan replicar el entorno de ejecución utilizado por los autores del conjunto de datos: librerías adicionales, dependencias externas, archivos de configuración del entorno de ejecución o archivos de definición de imágenes Docker.

Ejemplo de diccionario de datos. Fuente: Center for Open Science . “How to make a data diccionary”. https://help.osf.io/article/217-how-to-make-a-data-dictionary