CiteSeerX, y ChemXSeer

25 septiembre 2008

Después de diez años de funcionamiento, hace varios meses que CiteSeer, la conocida fuente de información y documentos del sector de las ciencias de la computación, se ha renovado y ha renacido como CiteSeerX, con un nuevo sistema e interfaz. Alojada en el College of Information Sciences and Technology de la Pennsylvania State University, está ahora sólo bajo la dirección de C. Lee Giles.

Continuidad:

CiteSeerX vuelve a definirse como un buscador y una biblioteca digital de literatura científica. Mantiene la misma orientación de promover la comunicación libre y gratuita del conocimiento. Continúa capturando los artículos que los autores inscriben con su localización en la Red. Proporciona referencias, documentos digitales en PDF y PostScript y todo un sistema de índices de citas. Incluye informes técnicos, prepublicaciones, artículos de revista y, sobre todo, papers de congresos y conferencias, un tipo de literatura que es tan relevante en informática y computación.

CiteSeerX sigue explotando su sistema automático de indización de citas (Autonomous Citation Indexing) y mostrando el contexto que rodea a las citas en el texto del documento citante. Ofrece como antes listas de documentos relacionados (co-citados, co-citantes) y datos de citas a documentos no incluidos en el sistema. Y permite también buscar por texto completo.

Y cambio:

Entre las novedades, destaca el crecimiento que supone CiteSeerX: se ha pasado de 760.000 a 1.160.000 documentos. El sistema de búsqueda avanzada, con ser bastante esquemático, significa también una considerable mejora respecto a la “caja única” del antiguo CiteSeer. En general, la presentación se ha enriquecido, dentro de un estilo marcadamente espartano. A tono con ello, han aparecido prestaciones personalizadas, previo registro: MyCiteSeerX.

Lo más interesante de todo es que los datos y contenidos están actualizados. Por ejemplo, los más básicos y utilizados rankings de impacto de las fuentes (“venues”) son muy recomendables, porque calculan el impacto de series de congresos y conferencias que no figuran en Web of Science, Journal Citation Reports, Scopus, SJR, etc. Y en España, seguro, se usan mucho. Aparecen rankings anuales desde 1993 hasta 2007: 576 títulos en este último año. También hay rankings de autores, documentos y citas (referencias citadas no incluidas en CiteSeerX) más citados.

No veo, sin embargo, ni rastro en CiteSeerX de la búsqueda por agradecimientos (“acknowledgements”), que existía en CiteSeer y representaba un desarrollo experimental muy sugerente para la indagación sobre la estructura social de la ciencia.

Y también ChemXSeer:

En la estela de CiteSeerX, pero en el campo de la química, sobre todo de la química ambiental, está comenzando su camino ChemXSeer, también bajo el impulso peculiar del profesor C. Lee Giles. Se trata de un motor de búsqueda, fuente de documentos y de datos que por ahora opera de modo experimental, indizando sobre todo contenidos de la Royal Society of Chemistry.

ChemXSeer aspira a rastrear en internet y a alojar documentos científicos, así como a explotar inteligentemente la información química, al menos en tres direcciones: (i) la búsqueda de entidades químicas, moléculas, etc., (ii) la extracción automática y aprovechamiento de datos de tablas contenidas en los documentos y (iii) el tratamiento, conservación y recuperación de data sets (bancos de datos) experimentales obtenidos de varias procedencias y en distintos formatos.


“The claims of Google Scholar”

21 septiembre 2008

En este artículo Bruce White opina que, desde su aparición en 2004, Google Scholar ha causado entre los profesionales de la información y las bibliotecas un gran revuelo, pero que, en general, se han mostrado críticos: según ellos no es una fuente de información científica seria y valiosa; por su deficiente funcionamiento, no se puede comparar con bases de datos como Web of Science, PubMed, SciFinder, etc.

Gran parte del revuelo suscitado entre dichos profesionales, se debe, según White, al miedo de que, a pesar de todo, los usuarios finales (científicos, estudiantes, etc.) acaben enganchados a Google Scholar, abandonando las fuentes de calidad. Se teme que sean víctimas de la adición a lo fácil, cómodo y rápido, a costa del rigor y la excelencia.

El autor del artículo, por el contrario, no cree que los usuarios acaten esa ley del mínimo esfuerzo de forma inexorable. Y piensa además que hay aspectos en que Google Scholar puede ser útil como una fuente de información científica seria y formal, ilustrándolo con diversos ejemplos y comparaciones. Las virtudes fundamentales del buscador, según White, serían en resumen las siguientes:

  • Busca por texto completo en lugar de mediante referencias o abstracts
  • Recupera documentos escondidos en sitios recónditos de la Red
  • La cobertura de contenidos es sumamente extensa
  • Coloca los resultados más relevantes los primeros
  • Reúne documentos de repositorios digitales junto a los arbitrados 
  • Rastrea muy eficazmente las citas de los artículos

B. White también reconoce limitaciones en el buscador: la pobreza del sistema de recuperación, las inconsistencias en los resultados, la precariedad de la ordenación por fechas, la falta de metadatos fiables, etc. Explica y excusa estas deficiencias porque Google Scholar opera rastreando y amalgamando una gran cantidad de fuentes primarias y secundarias, estructural y tipológicamente muy heterogéneas.

Bruce White ofrece una visión sensata de Google Scholar, pero más centrada en la parte medio llena de la botella. Supongo que muchos de los críticos que han estudiado la parte medio vacía tampoco han dicho en realidad que Google Scholar no sirva para nada a los científicos o a los profesionales de la información. ¿Cómo lo veo yo?

Es cierto que Google Scholar barre una enorme extensión de la Red, recogiendo toda clase de cosas procedentes de muchos rincones (aunque se deje algunos). Encontrar más resultados, sin embargo, no es siempre la meta, a veces se buscan mejores, seleccionados. Buscar por texto completo puede ser muy útil en ocasiones, pero tampoco siempre, y carecer de la capacidad para discriminar estructuras o relevancias textuales (resúmenes, descriptores, referencias, etc.) no se ve que pueda ser ventajoso. Sabemos que el Scholar es un motor de búsqueda, no una base de datos, y que aporta un enfoque complementario a la recuperación de información, pero ha de justificarse por sus resultados. Y en cuanto a los resultados… los jerarquiza de forma unívoca, imponiendo su patrón de relevancia…

El Scholar es una herramienta imprecisa, pero poderosa, que abarca mucho y se usa con facilidad. Como su padre, el gran Google, automatiza, simplifica el penoso trabajo de pensar dónde acudir y cómo buscar y reunir la información, sustituyéndolo por el de rellenar casilleros triviales y recorrer pantallas previamente organizadas, y liberando la mente para otras tareas… Tiene el poder de la simplificación, frente a la dispersión, complejidad, dificultad, etc. Su gran virtud no radica en ninguna clase de calidad sino en su potencia para mediar de manera simple en el tráfico de información científica.

Tal vez, cuando la situación de la comunicación científica sea aún más confusa e intrincada que ahora, con volúmenes todavía mayores de datos y documentos, o si flaquean sus asentados competidores, las bases de datos, Google Scholar consiga con su poder de simplificación hacerse con un cierto monopolio, en virtud de la ley del mínimo esfuerzo, que es casi tan inapelable como las de la Termodinámica (si es que no se reduce a ellas). Por ahora, el Scholar es útil como complemento de las bases de datos científicas (“a valuable supplement”, dice el propio Bruce White).


“Los indicadores bibliométricos”

16 septiembre 2008

Los indicadores bibliométricos se publicó en 2003 recogiendo el texto de una tesis doctoral de 1996. Todo ello, el paso del tiempo, su carácter de tesis, se nota bastante, y el propio autor lo advierte en una nota preliminar. Lo esencial de la investigación y la comunicación científica no ha cambiado mucho desde mediados de los años 90, pero sus canales y formatos, las fuentes para su estudio cuantitativo y los propios indicadores métricos han experimentado grandes desarrollos y alteraciones…

De la obra de Maltrás me parece muy interesante su planteamiento, su intención, su propósito de “encontrar un fundamento teórico general sobre el que apoyar la interpretación, definición y uso de los indicadores bibliométricos” (como dice en el resumen de su tesis doctoral). Se necesita, en efecto, anclar la métrica en un estudio y análisis riguroso de la actividad científica (quizá más sociológico), para legitimar públicamente la validez de los análisis cuantitativos y no caer en un medicionismo alocado, frívolo y ad hoc (que es lo que parece a veces que sucede).

Me ha interesado también gran parte de la conceptualización de la obra. El reconocimiento entre investigadores aparece como “el impulsor y modelador básico de la publicación científica oficial”. El resultado científico, “lo que se obtiene mediante un ejercicio riguroso de la actividad científica y que se puede percibir como nuevo y relevante para la ciencia…”, cristaliza en la publicación formal o documento científico, “unidad mínima de novedad y relevancia científica”. Así, la producción científica es la suma o agregación de esas unidades, con independencia de cuál sea su contribución al conocimiento, esto es, de su valor o calidad.

Maltrás estudia tres tipos de indicadores bibliométricos:

  • De producción: dirigidos al recuento de la cantidad de resultados, que se plasman en documentos científicos.
  • De calidad: intentan medir y comparar la valoración de las comunidades científicas sobre la contribución al conocimiento de determinados documentos, etc., a través de mediciones basadas en última instancia en citas, sobre todo con el factor de impacto.
  • De colaboración: analizan las relaciones entre los agentes científicos productores de resultados.

“Student Plagiarism…”, Roberts

12 septiembre 2008

El plagio, ese lado oscuro del aprendizaje y la enseñanza (y de la propiedad intelectual), está aumentando de modo espectacular, como se sabe, por la facilidad (el poco esfuerzo) con que los contenidos se propagan y se contagian mediante las TIC. Con el auge del plagio, como no podía ser por menos, aparece la plagiología: esa rama de las ciencias o tecnologías de la educación y la documentación que versa sobre el fenómeno de la copia ilegítima en la enseñanza, etc.

Así pues, se está publicando cada vez más bibliografía dedicada a la indagación, prevención e instrucción en materia de plagios y plagiadores. Y ya hay una incipiente industria de las tecnologías de la información (Turnitin, EVE2, Glatt Plagiarism, etc.) especializada en la detección y solución de problemas de plagio creados mediante otras tecnologías de la información.

La obra dirigida por Roberts es otro ejemplo bibliográfico reciente de la (justificada) preocupación que suscita entre educadores, pedagogos, bibliotecarios y otras personas el plagio cometido por los estudiantes: una actividad que, en la medida en que sea medianamente frecuente, mina la enseñanza y el aprendizaje (aparte de las consideraciones sobre la propiedad intelectual).

Student Plagiarism in an Online World recoge las experiencias de diversas universidades, anglosajonas sobre todo: Australia, GB, EUA. Aborda el tema desde diversos puntos de vista, no es una presentación muy sistemática. La orientación o tono general de la obra es: educar más que castigar, prevenir más que curar, cambiar las formas de enseñar y los métodos de trabajo de los alumnos… No se incluye un recetario extenso de métodos de detección y diagnóstico de plagios, ni un catálogo de normas de conducta, ni un inventario de sanciones, se habla poco de educación informacional… pero sí se examinan en detalle los diferentes tipos de comportamiento inadecuado… y qué estrategias se han puesto en práctica para afrontarlos en cada caso.

En fin, si el copypasteleo no ayuda mucho a la educación y la cultura entendidas al estilo tradicional, tal vez por lo menos el estudio y tratamiento del fenómeno en cuestión abra una nueva especialidad académica y oportunidades industriales para la contratecnología educativa. Amén de que dará lugar, por otro lado, a la aparición de un grupúsculo underground, anti-EEES, de profesores irreductibles, defensores de volver al examen-de-memoria-con-bolígrafo-y-papel como baluarte de la autonomía intelectual.


Eigenfactor y Carl Bergstrom

5 septiembre 2008

Carl T. Bergstrom se dedica a la biología de la información en la Universidad de Washington (Seattle, EUA). Estudia los flujos de información en el mundo natural: cómo los organismos vivos han evolucionado adquiriendo, procesando, almacenando y transmitiendo información en múltiples niveles (células, individuos, poblaciones,… desde las bacterias a los homosapiens, pasando por la propagación de los patógenos). Investiga con su equipo cómo la información se comunica a través de sistemas biológicos y redes sociales. 

Su trabajo parte de la perspectiva de la biología evolutiva, pero se apoya en la teoría de juegos y la teoría de la señal, haciendo uso de modelos matemáticos para comprender los procesos biológicos y sociales basados en la información. Bergstrom está muy interesado en los aspectos estratégicos del uso de la información por parte de los organismos, pero sus indagaciones conectan la biología evolutiva con la teoría de la información heredera de Claude Shannon.

Así, en uno de sus artículos, The fitness value of information, concluye que el valor adaptativo de la información en el marco de la selección natural puede cuantificarse e interpretarse no sólo desde la teoría de la decisión, como se hace habitualmente en biología evolutiva y del comportamiento, sino a través de las medidas de “información mutua” y “entropía” características de la teoría de la información. 

No me parece casual que Bergstrom y sus colaboradores, además de dedicarse a la biología de la información, trabajen muy activamente en métrica de la información científica y sean los responsables de Eigenfactor.org. No sólo porque, obviamente, en ambos casos se apliquen métodos y modelos matemáticos, sino porque creo que hay vínculos esenciales entre ambos tipos de estudios. Es lo que más me llama la atención.

Eigenfactor.org es una fuente de datos métricos sobre las revistas científicas internacionales basada en información de citas de Journal Citation Reports y en la aplicación de algoritmos de relevancia tipo PageRank de Google. Proporciona datos anuales que abarcan desde 1995 a 2006 acerca de las 7.000 revistas incluidas en JCR y de otras muchas fuentes citadas por ellas. Presenta rankings temáticos con dos indicadores: eigenfactor y article influence. Además ofrece análisis de calidad/precio de las revistas y un módulo de representación gráfica de las relaciones entre las ciencias (mapping…)

Eigenfactor es un indicador de la influencia o repercusión global de las revistas que se basa, al estilo PageRank, en el cálculo iterativo del nivel de citación recibida por una revista según procedan a su vez las citas de revistas más o menos citadas, más o menos influyentes por tanto. Article influence mide la influencia media de los artículos de las revistas y se basa  en el mismo cálculo iterativo que Eigenfactor, pero teniendo en cuenta el número de articulos de la revista.

Es interesante anotar, por cierto, que SJR, utilizado en SCImago Journal & Country Rank, es otro indicador del tipo PageRank, también sobre revistas, pero basado en los datos de Scopus en lugar de en los de Journal Citation Reports y Web of Science