Índice h, Elsevier, Scopus

31 agosto 2007

En los (extensos) dominios de Elsevier también se apuesta por el índice H, lo que es un nuevo espaldarazo a este indicador de análisis de la producción científica, que, curiosamente, no ha sido inventado por los informetristas, sino por un científico, por el físico Jorge E. Hirsch (puede verse otra entrada al respecto en este blog).

logo.gif

Scopus, la gran base de datos multidisciplinar elaborada por Elsevier para cubir ambiciosamente todo el campo de la información científica referencial, calcula ya automáticamente el índice H de los conjuntos de referencias buscados. Frente a la enorme cobertura en revistas indizadas, la limitación de Scopus está en su juventud, que en este caso se traduce en que no calcula el índice H de los artículos anteriores a 1996, porque no tiene datos completos de las citas recibidas. Pero ofrece en compensación interesantes e intuitivos gráficos del índice H calculado en una búsqueda (que ayudan a captar visualmente su valor y significado).

Este nuevo servicio no sólo representa un importante respaldo del mayor editor científico del mundo al índice H como instrumento de evaluación de la ciencia. Al mismo tiempo, es un avance significativo de Elsevier en su lucha por competir con Web of Science (que ya ofrece el índice H desde hace tiempo) y situar a Scopus como una herramienta secundaria clave en el mundo científico, sinérgicamente asociada, como Scirus, a los enormes y valiosos contenidos primarios de los que es propietario.

Por otra parte, la nueva revista de Elsevier, aparecida este año 2007, Journal of informetrics, dedica su número 3 especialmente al índice H: cuatro artículos que analizan en profundidad varios aspectos del tema y relacionan el índice H con otros indicadores.


Clusty, de Vivísimo

29 agosto 2007

Clusty es un metabuscador de internet que funciona desde 2004. Pertenece a la compañía Vivísimo, dedicada a tecnologías y servicios de búsqueda de información, bajo el lema «Search done right». Para empresas, Vivísimo comercializa Velocity Search Platform, un software profesional que sirve para localizar, explorar, analizar, clasificar y manipular contenidos digitales. Clusty es el buscador para todos los públicos, basado en técnicas similares, fundamentalmente «clustering» (clasificación, formación de racimos de resultados).

toolbars-header.png

Como metabuscador, Clusty rastrea e integra información de otros buscadores y fuentes muy variadas, como Ask, Gigablast, Live, Open Directory, Wikipedia, NY Times, Yahoo NewsShopzilla, además de los enlaces patrocinados. Cubre contenidos web en general, imágenes, noticias, blogs, empleos, compras, etc.  Permite personalizar la interfaz, pero las técnicas de búsqueda son sencillas, porque la fortaleza de Clusty está en la integración y clasificación de los resultados. Los distribuye por temas en grupos, clusters, y además se pueden ver repartidos según las fuentes usadas por Clusty y según dominios de los sitios.

En este sentido, Clusty me llama la atención y me parece que es interesante como enfoque complementario al de Google. Se trata de una opción útil para buscar de otra forma, alternativa, pues estamos ante dos estrategias totalmente diferentes:

  • Google pretende dar los mejores resultados posibles de manera directa, se centra en la calidad de sus rankings, en optimizar la ordenación, de forma que el usuario intervenga poco, salvo en elaborar la mejor estrategia de búsqueda y en chequear una larga lista unívoca de resultados.
  • Clusty se basa en la integración de resultados de varias fuentes y, sobre todo, en el análisis y clasificación de los mismos, para que el usuario pueda refinar por su cuenta la búsqueda, explorando a su gusto las diferentes categorías o conjuntos de resultados que forma el buscador.

«Searching and researching…»

26 agosto 2007

searching4.jpg

Estamos ante un clásico de la enseñanza sobre técnicas de búsqueda de información usando internet, que a mí me gusta mucho, y del que destacaría tres cosas. 

a)  En su día, la anterior edición, me sorprendió, porque ofrece una visión unitaria de la búsqueda de información, presentando internet como marco general y colocando sensatamente después, en ese contexto, las herramientas más especializadas (frente a una antigua idea según la cual «buscar en internet» era algo añadido al uso de las bases de datos, catálogos…) Hoy esto me parece trivial, pero hace tres años para mí fue un pequeño hallazgo.

b)  Es una obra muy didáctica y práctica para estudiantes, completa en cuanto a tipos de fuentes en internet, llena de actividades y supuestos largos y detallados, ejemplos, cuestionarios, ejercicios, etc. La construcción y redacción del texto, el nivel de dificultad y la progresión de los contenidos están muy cuidadas desde este punto de vista de la utilidad para el que se introduce en estos temas.

c)  Se queda algo corto en cuanto a la formación en actitudes ante internet y la información, no entra lo suficiente en las cuestiones de utilización correcta y legítima de la información, en el aprovechamiento intelectual y en la moral del aprendizaje y la investigación, en el manejo de documentación especializada… Bordea el género del «how to…» de internet, frente a una más exigente educación informacional.

Una crítica muy detallada de Searching and researching… puede encontrarse en esta página. Los contenidos de la obra son estos: 

  • Introduction to the Internet and the World Wide Web
  • Managing and using information from the Internet and the W. W. W.
  • Using the web for research
  • A researcher’s toolkit: directories and virtual libraries
  • Search strategies for search engines
  • Specialized databases
  • Searching for news and multimedia
  • Searching library catalogs
  • Searching email discussion groups & usenet news
  • Searching archives, downloading files & FTP
  • Evaluating information found on the World Wide Web
  • Citing web and internet sources
  • Apendix A: Ways to stay current
  • Appendix B: Privacy and security on the Internet and the Web
  • Apendix C: Internet Explorer details

Buscando mejores buscadores

5 agosto 2007

Según este review, dado el uso masivo y creciente de internet entre todo tipo de usuarios y en todo el mundo, se está dedicando mucho esfuerzo para mejorar la capacidad y agilidad de las tecnologías de búsqueda; todo, evidentemente a partir de la revolución que ha significado Google, su PageRank, etc. La autora considera que los dos grandes retos que se afrontan son: el alcance o exhaustividad de los contenidos buscados y la ordenación satisfactoria de los resultados de las búsquedas.

Henzinger realiza una breve revisión de las tendencias de la investigación para la mejora de los buscadores de Internet: expone los objetivos que se afrontan y las líneas de trabajo en las que se progresa, a partir del análisis de abundante bibliografía reciente:

  • Objetivo: explorar mejor las profundidades de Internet, los contenidos ahora invisibles, como las bases de datos. Líneas de trabajo: protocolos de apertura que desvelen a los buscadores las URLs de las páginas recuperables, incluso las generadas dinámicamente, para que las indicen.
  • Objetivo: mejorar los resultados en búsquedas poco precisas por parte del usuario, con pocos y esquemáticos términos de búsqueda. Líneas de trabajo: explotar información específica adicional sobre el usuario para matizar y personalizar la búsqueda y ordenación de resultados; o sea, usar el historial de búsquedas, las páginas vistas, u otra información recogida sobre el usuario y sus intereses, para concretar la demanda automáticamente, interpretando las necesidades más allá de la sintaxis efectiva de búsqueda.
  • Objetivo: gestión de sinónimos y homónimos. Líneas de trabajo: investigación para detectar el contexto geográfico de una consulta y así deshacer ambigüedades al menos entre topónimos y otros términos.
  • Objetivo: luchar contra el «spam» en los resultados de las búsquedas, la optimización fraudulenta del posicionamiento web. Líneas de trabajo: sistemas automáticos de clasificación e identificación de contenidos spam.
  • Objetivo: filtros para contenidos inadecuados. Líneas de trabajo: sofware filtro desarrollado mediante técnicas de aprendizaje automático a través de ejemplos.
  • Objetivo: recuperación más especializada de información. Líneas de trabajo: buscadores especializados, como Google Scholar.
  • Objetivo: nuevos interfaces más avanzados y exhaustivos. Líneas de trabajo: búsqueda multifacetada (clustering), metabuscadores e integración de rankings de resultados de varias fuentes, etc.
  • Objetivo: más inteligencia y semántica. Líneas de trabajo: interfaces capaces de razonar, interpretar y aprender; promoción de páginas web semiestructuradas, para un mejor análisis de la información.

En algún otro sitio he oído hablar de la diferencia entre maraña y telaraña. Parece que de algo así se trata: que la Web aparezca más como telaraña y menos como maraña. Y también: poner más inteligencia en la Red, que no sea tan necesaria la de los cerebros.


El modelo lineal, superado

2 agosto 2007

Siguiendo con la idea de las dificultades para armonizar la segunda función de las universidades (generación de conocimiento) con una tercera y nueva tarea (innovación empresarial), se ha publicado hace pocas semanas un número de la revista Minerva dedicado a The business of research. Su artículo introductorio, titulado Science and the creation of value, de Sven Widmalm, presenta el asunto de las cambiantes relaciones entre ciencia, tecnología e industria de la siguiente manera.

El clásico modelo lineal sobre estas relaciones afirmaba que se da un proceso «Investigación científica > Desarrollo tecnológico > Innovación industrial» que conduce al progreso y el bienestar social y es: (i) estrictamente causal, (ii) unidireccional, en ese solo sentido, y (iii) entre tres esferas perfectamente separadas, con lógicas propias e independientes. Este modelo estaba avalado por las tesis de Robert K. Merton sobre la estructura normativa de la ciencia y por las propuestas de Vannevar Bush sobre políticas científicas en EUA, en ambos casos de mediados del siglo XX.

Pero está claro que el modelo lineal ha entrado en crisis, tanto en cuanto descripción de la realidad, como en cuanto fuente de inspiración de las políticas científicas, con el surgimiento de una ciencia post-académica (John Ziman) o de la tecnociencia (Javier Echeverría). Las cosas han cambiado, primero en EUA y luego por imitación en Europa y otros países: un cambio conceptual y político.

El paradigma emergente parece confuso y problemático pero tiende hacia la idea de que la generación de conocimiento no es un asunto científico-académico, sino un fenómeno social de amplio alcance, una fuerza productiva objeto de comercialización y en la que las fronteras (ciencia/tecnología/industria) se han difuminado. (De nuevo remito a ¿Qué es la tecnociencia? y La revolución tecnocientífica de Echeverría; pero Potocnick, el comisario de Ciencia e Investigación de la UE lo acaba de decir: «Estaré satisfecho si en esta década la gente considera el conocimiento tal y como veían el carbón y el acero hace cincuenta años: como una materia prima que se debe valorar, como un pilar de las sociedades, como un instrumento creador de empleo y un impulsor de la economía»).

Sven Widmalm, al introducir el resto de artículos que componen la revista, se plantea en cambio dificultades e interrogantes: ¿Es posible trasladar miméticamente modelos de EUA a otros países? ¿Son compatibles las nuevas orientaciones con la tradicional sensibilidad europea por el bienestar social y el interés público? ¿Qué pasa con el papel de la ciencia como marco cultural de referencia (como cosmovisión independiente del mercado, diría yo)?