Presentación

El término dato es impreciso; en algunos casos se refiere a la fuente primaria para respaldar una investigación, es decir a la evidencia para validar los resultados de investigación
(Johnston, Lisa R. 2017, 2). Sin embargo existe una variedad de datos
además de los que derivan de la investigación; el dato puede ser experimental, observacional, operacional, datos de un tercero, del sector público, datos de monitoreo, datos procesados o datos reutilizados (Austin, Claire C. 2016).

Tras la creciente proliferación de dispositivos móviles, transitan grandes cantidades de datos de diversa naturaleza a través de Internet. La coexistencia de esta heterogeneidad de datos es uno de los principales desafíos al momento de su manejo, por lo que surge una amplia diversidad de procesos para su análisis y sistematización, que va desde algoritmos genéticos, procesamiento del lenguaje, aprendizaje automático, redes neuronales, modelos predictivos, análisis de redes sociales, visualización de datos y minería de datos, por mencionar sólo algunos.

Desde los estudios de la información se ha vuelto necesario abordar cómo aprovechar las tecnologías y métodos que existen para efectuar el análisis de datos, con el fin de derivar servicios y productos de información acordes con los requerimientos que se tienen en el ámbito de la investigación, de la empresa, o de cualquier otro ámbito.

Frente a la amplitud de temas que circundan el estudio de los datos, la presente obra tiene por objetivo ofrecer algunas reflexiones en torno al tema del manejo de datos, que por lo general consta de la obtención de datos, su almacenamiento y su tratamiento. En este sentido, se presentan tres trabajos relacionados con la minería de datos y de texto, que tienen como objetivo explorar el empleo de métodos para interpretar la información cualitativa, así como del análisis diacrónico de la producción científica.

De igual forma se presenta un capítulo relacionado con la gestión de datos de investigación, tema que surge como una nueva área de análisis y de práctica para los estudiosos de la información.

Otro aspecto es el referente a la adopción de los principios de linked data (datos enlazados), en la asignación de metadatos, para representar de forma granular los datos bibliográficos y su interrelación con otros datos en el entorno web.

El manejo de datos también requiere de conocimientos especializados, además de la infraestructura tecnológica. En el capítulo "Plan para el Desarrollo de la Ciencia de Datos y Big Data (pdcdbd) en la unam para fines académicos y administrativos" se muestran los antecedentes que motivan el desarrollo de este proyecto, así como la problemática que representa su implementación y el logro de sus alcances.

Como el lector podrá notar, un rasgo esencial de esta obra es que a lo largo de sus capítulos se reflexiona sobre las implicaciones sociales que trae consigo el manejo de los datos, así como los usos que y problemas que pueden derivarse. Las pautas de análisis que se dan para los datos, serán de utilidad para los estudiosos del tema y para quienes desean comenzar a adentrarse en la materia.

Austin, Claire C. “Key components of data publishing: using current best practices to develop a reference model for data publishing”. En: International Journal on Digital Libraries. Junio 2016. Doi:10.1007/s00799-016-0178-2.

Johnston, Lisa R. “Introduction to data curation”. En: Curation research data. Volume One: practical strategies for your digital repository / edited by Lisa R. Johnston, 2-24. Chicago, Illinois: Association of College and Research Libraries, 2017.

Georgina Araceli Torres Vargas

MINERÍA DE TEXTO Y MINERÍA DE DATOS

Identificación de los temas de investigación en los documentos científicos del Colegio de Postgraduados

ÁNGEL BRAVO VINAJA

SANTIAGO DE JESÚS MÉNDEZ GALLEGOS

JORGE PALACIO NUÑEZ

Colegio de Postgraduados

Campus San Luis Potosí

INTRODUCCIÓN

El Colegio de Postgraduados (ColPos) es un Centro Público de Investigación dependiente de la Secretaría de Agricultura y Recursos Hidráulicos Pesca y Alimentación (SAGARPA), creado por Decreto Presidencial en 1959 (Colegio de Postgraduados 2014). En el 2001 el ColPos se constituyó en un Centro Público de Investigación, lo que le permitió autonomía y mayor independencia presupuestal, que cuando estaba bajo control de la SAGARPA y la Secretaría de Hacienda y Crédito Público (Colegio de Postgraduados 2016). Fue concebido como una institución pública estratégica para el desarrollo social del sector agropecuario y forestal de México, a través de la formación de recursos humanos de alto nivel, para generar información científica que contribuya al desarrollo y fortalecimiento de instituciones del sector (González Cossío 2010). Su misión es “generar, difundir y aplicar conocimiento para el manejo sustentable de los recursos naturales, la producción de alimentos nutritivos e inocuos, y el mejoramiento de la calidad de vida de la sociedad” (Colegio de Postgraduados 2016). Esta institución imparte dieciséis programas de maestría y doctorado en ciencias en sus siete Campus, ubicados en los estados de: México, Puebla, San Luis Potosí, Tabasco, Veracruz (dos campus) y Campeche, los cuales son reconocidos por el Programa Nacional de Posgrados de Calidad (pnpc) del Consejo Nacional de Ciencia y Tecnología (Conacyt) (Colegio de Postgraduados 2017). En 2017 contaba con 444 profesores (de 616 plazas académicas) con grado de doctor en ciencias, formados en universidades de todo el mundo, de los cuales 56% pertenecían en ese año al Sistema Nacional de Investigadores (Colegio de Postgraduados 2016).

Varios de sus investigadores han sido reconocidos con el otorgamiento de premios internacionales, nacionales y estatales de ciencias y artes, en las áreas de tecnología y diseño y en ciencias naturales y exactas; premios de ciencia y tecnología de los alimentos y premios Banamex, entre otros. Además, es la institución de ciencias agrícolas mexicana que cuenta con el mayor número de investigadores nacionales Nivel III en el Sistema Nacional de Investigadores (sni) (Larqué-Saavedra 2014). Pero la influencia del ColPos no se restringe a eso, ya que es pionero en la generación de conceptos y escuelas del pensamiento en las ciencias y tecnologías agrícolas, y por haber realizado aportaciones importantes para el desarrollo agrícola entre las que destacan: resaltar la importancia de la biodiversidad en México; establecer bancos de germoplasma, e implementar estudios fundamentales de los sistemas agrícolas y de los tipos de vegetación de México. Adicionalmente los investigadores han resaltado la importancia que representan los campesinos en la domesticación y conservación de las especies, la elaboración de mapas de suelos agrícolas y su conservación, así como el establecimiento de biofábricas de hongos comestibles y agentes de control biológico (Larqué-Saavedra 2014).

Actualmente, el ColPos cuenta con 49 líneas de investigación llamadas “Líneas de Generación y/o Aplicación del Conocimiento (lgac-cp)”, donde confluyen la especialización de las investigaciones de los profesores-investigadores que conforman el Núcleo Académico Básico (nab) de cada programa de postgrado, que son quienes definen la naturaleza de los programas de postgrado, además, de fundamentar los proyectos de investigación de los estudiantes y facilitar de esta forma la operación de la investigación (Colegio de Postgraduados 2018).

Los resultados de la actividad científica del ColPos, en sus primeros años de vida, no fue publicada en revistas internacionales indizadas en bases de datos analizadoras de la producción científica tales como el scie, el ssci, contenidas en el Web de la Ciencia (wos) y Scopus. En las bases de datos SCIE y SSCI, la primera contribución apareció hasta 1972; a partir de este momento, la publicación de contribuciones científicas hasta 1989 fue de 157 (4.54% del total publicado hasta 2017); es decir, 8.55 documentos por año. De 1990 a 2004 se publicaron 580 documentos (16.78% de lo publicado hasta 2017), esto es 38.66 por año. La mayoría de los documentos derivados de la investigación realizada en el ColPos se publicaron en revistas mexicanas, algunas de las cuales ahora aparecen listadas en el “Sistema de Clasificación de Revistas Mexicanas de Ciencia y Tecnología”, en publicaciones seriadas del propio ColPos como “Comunicaciones en Estadística y Cómputo”, “Cuadernos de Desarrollo Rural”, “Comunicaciones en Socioeconomía, Estadística e Informática” y los primeros años de la revista “Agrociencia”. Es en los últimos trece años que la actividad científica del ColPos se ve reflejada en las revistas de corriente principal, llamadas así por Salager-Meyer (2015) y a las revistas indizadas en las bases de datos SCIE y SSCI, ya que de 2005 a 2017 se indizaron allí 2 720 documentos del ColPos, que corresponden a 209.23 documentos por año.

En los últimos años los artículos indizados en las bases de datos SCIE y SSCI corresponden aproximadamente al 50% de la producción anual del ColPos, como lo muestran los datos estadísticos al respecto. En el año 2016 se indizaron 267 (48.72%) documentos en las bases de datos SCIE y SSCI, de 548 publicados en revistas con comité editorial reportados en el Sistema Integral de Información Académica (SIIA) de esta institución. En 2017, la proporción subió a 51.26% (305 de 595); por lo tanto, se puede afirmar que las temáticas de investigación de la producción científica del ColPos de los últimos años que se analizan mediante minería de textos, corresponden en esta investigación al 50% de la producción total de la institución.

La producción científica del ColPos indizada en las bases de datos SCIE y SSCI, tuvo un crecimiento bajo de 1972 a 2000, pero a partir de 2001 comenzaron a indizarse un mayor número de publicaciones en las bases de datos mencionadas, presentando una tendencia creciente cada año, exceptuando un periodo entre 2011 a 2013, pero a partir de 2014 la indización de documentos volvió a crecer Figura 1.

Figura 1. Crecimiento de la producción científica del Colegio de Postgraduados en revistas de corriente principal de 1972 a 2017.
Imagen 1

Los tipos de documentos indizados en las bases de datos SCIE y SSCI, en su mayoría, son artículos científicos (3 115, 90.17%), 199 resúmenes de congresos (5.76%), 42 editoriales (1.2%), 39 artículos in extenso (1.13%), 38 reseñas (1%), y el resto fueron noticias (32), notas científicas (17), correcciones (5), biografías (3), reseñas de libros (3), cartas al editor (3), y un capítulo de libro. Vale la pena destacar la baja aportación del cuerpo académico del ColPos en la participación de libros indizados en estas bases de datos, ya que indizan principalmente revistas científicas.

En cuanto a las categorías temáticas del Web de la Ciencia, de las revistas en las que se indizaron las publicaciones del ColPos, 74% de los documentos corresponden a seis grandes temas de agricultura multidisciplinaria (17%), ciencias de las plantas (16%), agronomía (14%), ciencia animal y de la leche (9%), entomología (9%) y horticultura (9%), el resto (26%), estuvo distribuido en otras categorías tales como: ecología, silvicultura, ciencias medioambientales, ciencias veterinarias, ciencia del suelo, y ciencia y tecnología de los alimentos Figura 2.

Figura 2. Categorías temáticas de las revistas indizadas en el Web de la Ciencia de los documentos publicados por el Colegio de Postgraduados.
Imagen 2

La minería de textos es el proceso de extracción de patrones o información interesante a partir de documentos de texto no estructurados (Tan 1999). En tanto que Feldman y Sanger (Feldman y Sanger 2006) lo definen como un intensivo proceso de conocimiento en el que un usuario interactúa con una colección de documentos mediante el uso de un conjunto de herramientas de análisis; mencionan además, que al igual que la minería de datos, la minería de textos busca extraer información útil de las fuentes de datos, sin embargo, en el caso de la minería de textos, las fuentes de datos son colecciones de documentos donde es posible encontrar patrones interesantes en los datos textuales no estructurados. Las aplicaciones de la minería de textos para encontrar patrones interesantes se dan principalmente, según Feldman y Sanger (2006) en áreas como la inteligencia de negocios o empresarial, el análisis de patentes, y la investigación en ciencias de la vida.

VOSviewer es un programa informático para construir y visualizar redes bibliométricas (csts 2018). Entre las múltiples tareas que éste puede realizar, se encuentra la minería de textos, la cual se puede realizar usando los títulos y resúmenes de los documentos. También ha sido utilizado como herramienta bibliométrica en diferentes documentos técnicos y de aplicación. Entre los documentos técnicos destacan trabajos de los creadores del programa de cómputo Ness Jan Van Eck y Ludo Waltman: “Text mining and visualization using VOSviewer” (Eck y Waltman 2007), y “VOS: A New Method for Visualizing Similarities Between Objects” (Eck y Waltman 2011). Respecto a documentos donde se aplica el análisis de textos usando Vosviewer, destaca el trabajo de Gobster (Gobster 2014) “(Text) Mining the LANDscape: Themes and trends over 40 years of Landscape and Urban Planning”.

A partir de las facilidades que proporciona VOSviewer para realizar trabajos de minería de textos usando los registros bibliográficos de diferentes bases de datos como el Web de la Ciencia y Scopus, se están realizado trabajos usando la aplicación para identificar las temáticas y tendencias de investigación, como es el caso de este trabajo, que tiene como objetivo identificar y describir las temáticas de investigación en los documentos publicados por el personal académico del ColPos en revistas de corriente principal, lo que servirá a los tomadores de decisiones del ColPos para afianzar o reorientar la investigación científica en la institución.

METODOLOGÍA

La búsqueda de la producción científica del Colegio de Postgraduados en revistas de corriente principal se efectuó en las bases de datos SCIE y SSCI del Web de la Ciencia de la empresa Clarivate Analytics mediante la ecuación de búsqueda mostrada en la Figura 3,