CiteSeerX, y ChemXSeer

25 septiembre 2008

Después de diez años de funcionamiento, hace varios meses que CiteSeer, la conocida fuente de información y documentos del sector de las ciencias de la computación, se ha renovado y ha renacido como CiteSeerX, con un nuevo sistema e interfaz. Alojada en el College of Information Sciences and Technology de la Pennsylvania State University, está ahora sólo bajo la dirección de C. Lee Giles.

Continuidad:

CiteSeerX vuelve a definirse como un buscador y una biblioteca digital de literatura científica. Mantiene la misma orientación de promover la comunicación libre y gratuita del conocimiento. Continúa capturando los artículos que los autores inscriben con su localización en la Red. Proporciona referencias, documentos digitales en PDF y PostScript y todo un sistema de índices de citas. Incluye informes técnicos, prepublicaciones, artículos de revista y, sobre todo, papers de congresos y conferencias, un tipo de literatura que es tan relevante en informática y computación.

CiteSeerX sigue explotando su sistema automático de indización de citas (Autonomous Citation Indexing) y mostrando el contexto que rodea a las citas en el texto del documento citante. Ofrece como antes listas de documentos relacionados (co-citados, co-citantes) y datos de citas a documentos no incluidos en el sistema. Y permite también buscar por texto completo.

Y cambio:

Entre las novedades, destaca el crecimiento que supone CiteSeerX: se ha pasado de 760.000 a 1.160.000 documentos. El sistema de búsqueda avanzada, con ser bastante esquemático, significa también una considerable mejora respecto a la “caja única” del antiguo CiteSeer. En general, la presentación se ha enriquecido, dentro de un estilo marcadamente espartano. A tono con ello, han aparecido prestaciones personalizadas, previo registro: MyCiteSeerX.

Lo más interesante de todo es que los datos y contenidos están actualizados. Por ejemplo, los más básicos y utilizados rankings de impacto de las fuentes (“venues”) son muy recomendables, porque calculan el impacto de series de congresos y conferencias que no figuran en Web of Science, Journal Citation Reports, Scopus, SJR, etc. Y en España, seguro, se usan mucho. Aparecen rankings anuales desde 1993 hasta 2007: 576 títulos en este último año. También hay rankings de autores, documentos y citas (referencias citadas no incluidas en CiteSeerX) más citados.

No veo, sin embargo, ni rastro en CiteSeerX de la búsqueda por agradecimientos (“acknowledgements”), que existía en CiteSeer y representaba un desarrollo experimental muy sugerente para la indagación sobre la estructura social de la ciencia.

Y también ChemXSeer:

En la estela de CiteSeerX, pero en el campo de la química, sobre todo de la química ambiental, está comenzando su camino ChemXSeer, también bajo el impulso peculiar del profesor C. Lee Giles. Se trata de un motor de búsqueda, fuente de documentos y de datos que por ahora opera de modo experimental, indizando sobre todo contenidos de la Royal Society of Chemistry.

ChemXSeer aspira a rastrear en internet y a alojar documentos científicos, así como a explotar inteligentemente la información química, al menos en tres direcciones: (i) la búsqueda de entidades químicas, moléculas, etc., (ii) la extracción automática y aprovechamiento de datos de tablas contenidas en los documentos y (iii) el tratamiento, conservación y recuperación de data sets (bancos de datos) experimentales obtenidos de varias procedencias y en distintos formatos.


ChemSpider, búsqueda química

19 abril 2008

ChemSpider es un buscador especializado en información química que lleva funcionando algo más de un año. Su finalidad declarada es reunir e indizar estructuras químicas y su información asociada en un único repositorio donde todo el mundo pueda buscar y acceder a los datos sin tener que pagar (hacia la Open Chemistry).

ChemSpider proporciona información sobre más de diez millones de sustancias químicas, procedente de cerca de cien fuentes de datos químicos muy diferentes, como bases de datos públicas o comerciales, achivos ambientales, toxicológicos o analíticos, catálogos de proveedores industriales, etc. También admite contenidos aportados por los usuarios. Incluye muchos datos propios, residentes, de cada sustancia, pero también muestra enlaces profundos a los registros de fuentes de datos externas (en algunos casos, de pago), para ampliar la información.

En ChemSpider se pueden buscar las sustancias por sus diversas denominaciones, por código SMILES, cadenas InCHI, número Registry, molfiles, o dibujando estructuras mediante un applet o un software que se facilita. La búsqueda estructural permite recuperar por estructuras y subestructuras, exactas o similares. El sistema ofrece otras formas de consulta: por propiedades de las sustancias, por elementos químicos presentes y ausentes en las moléculas, por fuentes de datos, por valores de descriptores moleculares LASSO (Ligand Activity by Surface Similarity Order). Existe también una prestación integrada de búsqueda avanzada y otra de historial de búsquedas realizadas.

Además, ChemSpider facilita información bibliográfica (y textos íntegros) mediante dos opciones: Literature search (que corresponde al buscador ChemRefer), con la que se consultan diversas revistas y colecciones de revistas electrónicas, incluyendo PubMed Central, y NCBI Entrez Search, que directamente rastrea sólo PubMed. El sistema de búsqueda bibliográfica es algo rudimentario, no obstante.

Aparte de las búsquedas, ChemSpider dispone de un menú de servicios donde se facilita la conversión entre métodos de identificación de sustancias (códigos, nombres, estructuras…), y el cálculo o predicción de propiedades moleculares en relación con las estructuras químicas, etc.

ChemSpider cuenta con una serie de blogs asociados (Open Chemistry Web, ChemSpider Blog, etc.), que cumplen una función informativa y de apoyo en la promoción de la Open Chemistry.

ChemSpider resulta una potente instrumento de rastreo de información química en Internet, un interesante punto de acceso común a datos moleculares disponibles en la Red. Con la filosofía del motor de búsqueda especializado, aporta además valor añadido al ofrecer contenidos y herramientas de cálculo propias. Está en la línea de eMolecules, pero con más contenidos residentes y con una orientación más científica y menos dirigida a los catálogos industriales. En este sentido, ChemSpider se parece más a ChemFinder, aunque tiene lógicamente una carácter más abierto, con menos restricciones que éste, que es la versión gratuita de un sistema comercial.

P.S. 13-05-08: Con el título “Chemists spin a web of data”, se publica una noticia sobre el tema en la revista Nature, 453(7192):139, del 8 de mayo de 2008.


Linus Pauling, desde la base

10 abril 2008

Entre los científicos que más han aportado para comprender el funcionamiento de la naturaleza, generando nuevo conocimiento más fiable a partir de teorías recién recibidas y gracias a su creatividad y capacidad inquisitiva, destaca Linus Pauling (1901-1994).

Nacido en E.U.A., pero discípulo de grandes maestros europeos (Sommerfeld, Bohr, Schrödinger), Pauling quizá fue fundamentalmente químico, pero trabajó en la encrucijada de la física cuántica y de la biología molecular, de la que es considerado uno de los fundadores. Intervino también no obstante en otras disciplinas, desde la medicina a la psicología o la metalurgia, con un talante enciclopédico digno de los grandes sabios de otras épocas. Recibió el premio Nobel de Química en 1954 y el de la Paz en 1962, por su activismo contra las guerras y el armamento nuclear, que lo movió también a salir de laboratorios falsamente “neutrales” ante los dilemas sociopolíticos.

Las aportaciones más relevantes de Linus Pauling fueron su teoría del enlace químico y su programa de análisis estructural de las macromoléculas biológicas.

  • En su célebre obra The nature of the chemical bond (1939) explicó en profundidad los enlaces químicos entre átomos y, por tanto, la estructura de las moléculas y sistemas cristalinos, y las propiedades resultantes de las sustancias, sobre la base firme y cuantitativa de la mecánica cuántica recién formulada, impulsando de forma decisiva la química cuántica.
  • En cuanto a sus hallazgos en el nacimiento de la biología molecular, aplicando las técnicas de la difracción de rayos X, determinó la estructura molecular de diferentes proteínas y estableció el modelo básico de grandes cadenas polipéptidas enrrolladas una en otra a modo de hélice, noción que abrió paso claramente a la hélice de DNA, de la que estuvo muy próximo.

Parece que suele decirse que Pauling redujo la química a la física, lo cual seguramente no es más que una manera de hablar y de hacer frases. Tal vez sí pueda afirmarse que explicó lo complejo a partir de sus componentes más simples, de manera matemáticamente precisa, todo lo cual es característico de la tradición científica y sirve para entender, calcular y predecir. Las propiedades, el comportamiento y los cambios de los cuerpos sólidos y demás sustancias dependen de la configuración de sus moléculas o redes de átomos, y por tanto de cómo éstos están enlazados. Pauling dio grandes pasos en la ciencia de las moléculas y por consiguiente en la comprensión de cómo se construye la realidad desde abajo.


Thomas Global, industrias

27 febrero 2008

Para buscar información sobre empresas industriales en muchos países del mundo, incluida España, se puede utilizar Thomas Global, el hermano internacional de ThomasNet, el famoso directorio estadounidense. ThomasNet es la versión actual en Internet del tradicional Thomas Register of American Manufacturers, nacido en 1898 y conocido durante muchas décadas como la “Biblia de la industria norteamericana” (hay una página con su historia).

tgr_web-logo_mx.jpg

Thomas Global es un directorio industrial, sobre empresas, productos y servicios de los países con las economías más desarrolladas. Se define a sí mismo como “el más completo y actualizado directorio de proveedores industriales mundiales y de información sobre productos”, con la misión “de reunir en Internet a los compradores y vendedores industriales para facilitarles el proceso de compra”. Es, también, el resultado de reunir directorios regionales preexistentes, entre ellos uno europeo, ante la conveniencia de una información más integrada para una economía más global.

En realidad, Thomas Global facilita información sólo sobre empresas, aunque permite buscar por productos. Está organizado típicamente como un directorio jerárquico por sectores de actividad, aunque dispone de un sistema básico de búsqueda por producto o servicio, nombre de la empresa y país de ubicación. Es útil para identificar fabricantes o proveedores de un determinado tipo de producto, material, mercancía o servicio, aunque no proporciona catálogos, ni descripciones o especificaciones de los mismos u otros contenidos, como hace GlobalSpec.

La información que proporciona Thomas Global de cada empresa es muy sucinta, pero incluye la dirección web, así como otros datos de contacto, el número de empleados, la gama de productos y algún detalle más. El volumen de industrias incluidas es enorme, unas 700.000 empresas clasificadas por sectores en 11.000 categorías temáticas de productos y servicios. Se trata de empresas radicadas en casi 30 países: muchos de los de la Unión Europea, EUA, Canadá, México, Brasil, Turquía, India, Taiwán, China y Japón.

Thomas Global se puede usar en nueve idiomas. La versión en español tiene dominio Internet de México. Es un servicio gratuito para el usuario, que, dándose de alta, ofrece prestaciones personalizadas: historial de consultas, lista personal de empresas, suscripción de alertas y boletines, etc. Entre las facilidades complementarias que proporciona está un servicio de búsqueda sobre nuevos productos recientemente puestos en el mercado.

Un muestreo al azar en Thomas Global en 20 categorías da una cierta idea de la cobertura o presencia de empresas españolas, mediante la comparación con el número de empresas estadounidenses incluidas:

  • CATEGORÍA:  nº empresas españolas  /  nº empresas EUA 
  • Esmaltes cerámicos:  6  /  45
  • Circuitos integrados:  17  /  418
  • Monitores para PC:  22  /  307
  • Electroválvulas:  30  /  262
  • Materiales plásticos de PVC:  28  /  103
  • Rodamientos:  31  /  427
  • Motores eléctricos:  58  /  501
  • Embalaje y envasado (servicios):  34  /  390
  • Calderas industriales:  23  /  154
  • Hubs para telecomunicaciones:  11  /  57
  • Componentes para automoción:  13  /  819
  • Fotosensores:  7  /  71
  • Fundiciones termorresistentes:  7  /  161
  • Compresores de alta presión:  17  /  354 
  • Acero de alta resistencia:  12  /  94
  • Papel:  54  /  782
  • Consultores en ingeniería marítima:  27  /  176
  • Colorantes:  34  /  73
  • Acetonas:  11  /  66
  • Pernos y tornillos:  89  /  1056


eMolecules, sustancias químicas

13 enero 2008

Entre los sistemas de información sobre catálogos químicos existentes en Internet destaca eMolecules, que permite acceder a datos sobre siete u ocho millones de sustancias y facilita la adquisición comercial de las mismas. Fundada en 2005, es una herramienta de búsqueda libre y gratuita para el usuario, porque se financia mediante publicidad y a través de las empresas químicas con cuyos productos hace intermediación informativa.

molecules.gif

eMolecules apenas ofrece contenidos propios, es un motor de búsqueda, un buscador especializado en sustancias químicas. Rastrea, indiza y recupera información que aparece en catálogos comerciales de 150 empresas suministradoras de productos químicos y también en importantes fuentes de datos públicas como PubChemNIST Chemistry WebBook, National Cancer Institute, DrugBank, etc. Una vez identificada la sustancia, eMolecules remite o enlaza a las descripciones que figuran en esas fuentes y catálogos, con sus propiedades físicas, químicas, farmacológicas, biológicas, etc., o con la presentaciones y características comerciales según los proveedores que la venden.

No obstante, para bastantes de los catálogos comerciales que indiza, eMolecules no genera hipervínculos profundos a los datos de la sustancia: sólo da el número de referencia y el enlace al sitio web de la empresa. Supongo que estos proveedores son los que no han decidido “volcar” sus datos en el buscador. Las fuentes de datos públicas aparecen enlazadas en profundidad, salvo la EPA.

En eMolecules se puede buscar dibujando estructuras químicas y también mediante subestructuras comunes a diferentes moléculas relacionadas (con varios editores o applets de trazado), así como consultando por distintas formas textuales o codificadas del nombre de las sustancias. Además incluye algunos índices selectivos de varios tipos de compuestos. Las listas de resultados de una búsqueda se pueden refinar, filtrar, ordenar y editar. Registrándose con una cuenta personal es posible también archivar y compartir dichas listas, así como solicitar presupuestos a los proveedores.

Resulta interesante la página Cheminformatics 101, un resumen sobre informática documental química incluido entre las explicaciones About del buscador, donde se introduce al lector en las técnicas de representación de moléculas, de indización y recuperación subestructural, etc.

eMolecules, como ChemSpider, ChemFinder (ver post) y la propia PubChem, por supuesto, es del tipo de herramientas libremente accesibles que “desafian” hasta cierto punto a Chemical Abstracts o a CrossFire Beilstein por lo que se refiere a información comercial o factual. eMolecules no es ni mucho menos algo abierto en el sentido semifilantrópico que suele tener esta expresión cuando se habla de la edición científica. Pero, aunque no resulte desinteresado, es un canal más por el que información especializada se propaga con rapidez y facilidad a través de la Red.


Knovel, tecnología e industria

30 noviembre 2007

Dentro del mundo incierto de los libros electrónicos (que parecen venderse más que comprarse) hace tiempo que soy partidario de Knovel. Tal vez me dejo influir involuntariamente por el hecho de que no se empeña en ofrecer pruebas gratuitas de sus libros de mil en mil, pero el caso es que Knovel me convence, aunque no siempre resulta barato de precio, desde luego, y opera mediante suscripción.

top_logo.gif

Knovel es una plataforma de distribución de libros electrónicos especializados en temas tecnológicos e industriales. Incluye ahora unos 1.400 títulos, que corresponden a muy diversos sectores: química, bioquímica, biotecnología, alimentación, farmacia, ingeniería aeroespacial, civil, industrial, mecánica, eléctrica, electrónica, ambiental, energía, materiales, metalurgia, textiles y plásticos, etc. En muchos casos se trata de obras de referencia, handbooks y fuentes de datos fundamentales, algunas clásicas, en cada rama de la técnica.

Además de por su propia especialización, o sea, por la orientación concreta de sus colecciones, Knovel me parece convincente porque:

  • Es un distribuidor multieditorial, que reúne contenidos de calidad plurales y seleccionados, procedentes de unos 50 editores internacionales de gran prestigio.
  • Los títulos se pueden suscribir individualmente según las propias necesidades, y no sólo en forma de paquete o colección temática preestablecida, aunque esto sea lo recomendado. 
  • Constituye un conjunto diverso y equilibrado de datos de referencia, propiedades de materiales y sustancias, descripciones de procesos, procedimientos estándar, cálculos y fórmulas, manuales técnicos, enciclopedias, guías, informes, etc.
  • Permite la recuperación integrada de toda la información incluida en los libros, tablas y documentos, desde datos precisos a cuestiones generales, con una presentación e interfaz más que aceptables y una impresionante búsqueda avanzada, a la altura de la especialización de los contenidos.
  • Facilita herramientas de análisis y cálculo para manejar, aprovechar y exportar los datos científico-técnicos obtenidos en las búsquedas: tablas interactivas, tablas con trazado de gráficos, visualizadores de diagramas de fase, hojas Excel, conversores de unidades, etc.
  • Los contenidos puramente textuales están en el siempre tranquilizador y cómodo formato PDF, capítulo por capítulo.
  • Es un servicio bien adaptado a clientes bibliotecarios y corporativos, en entornos institucionales y académicos, no dirigido sólo directamente al usuario final, por tanto.
  • Suministra estadísticas de utilización serias y frecuentes, sin que haya que encargarlas, buscarlas o desentrañarlas.

En resumen, Knovel selecciona y reúne información de calidad, la enriquece mediante un tratamiento y organización que la hace más productiva, y la canaliza de forma flexible y atenta a las conveniencias del usuario: hace algo más que digitalizar y comercializar el libro tradicional. Es una buena biblioteca.


Chemistry y PhysMat Central

5 noviembre 2007

Diríase que el sistema editorial de BioMed Central (BMC) se consolida, es sostenible, dado que se extiende a otros espacios de la ciencia. Hace un año nació Chemistry Central, la sucursal de BMC para el campo de la química, y hace pocas semanas acaba de aparecer PhysMat Central, para la física y las matemáticas. Con ello, también, la revista electrónica abierta y comercial desborda el ámbito biomédico.

Chemistry Central publica una revista electrónica de acceso abierto, Chemistry Central Journal (con un saldo modesto de 25 artículos en sus siete primeros meses de vida) y también facilita la consulta de los artículos de química publicados en varias revistas propias de BMC o editadas por BMC en colaboración con otros editores. No hay mucha tradición de acceso abierto en química, por lo que es un intento significativo, desde una buena plataforma de lanzamiento.

PhysMat Central (PMC) ha empezado a publicar este mes de octubre dos revistas, PMC Physics A (altas energías, física nuclear, gravedad y cosmología) y PMC Physics B (materia condensada, física atómica, molecular y óptica), y anuncia el lanzamiento de PMC Physics C. La dinámica de trabajo de la física es muy diferente a la de la química y en este caso la iniciativa debe abrirse paso entre la muy consolidada combinación de eprints abiertos (arXiv, etc.) y revistas comerciales, con la idea también de atender a nuevas necesidades y planteamientos de publicación abierta surgidos en el CERN y en otros sectores. Desde PMC se promueve el depósito de los artículos en arXiv.

Las explicaciones que los editores ofrecen de su modelo de negocio son sencillas y comprensibles: se financian con los APCs (Article Processing Charges) de los autores, básicamente mileuristas (más o menos a 1.000 € cada artículo). De esta manera, la comunicación científica se sufraga por el lado de la divulgación de los resultados, como la última fase y el coste final del proceso investigador, la acreditación o evaluación del conocimiento. O sea, se organiza como un mercado de autores, en lugar de como un mercado de lectores, lo que permite el acceso abierto para estos últimos, que no se cobre por la lectura. Claro que, en este caso, la sostenibilidad de la empresa editorial depende, reconocen los editores [pdf], de que el mercado de autores sea suficientemente amplio y no exageradamente selectivo, por así decirlo.

Luego, como BMC ofrece acuerdos corporativos a los organismos y bibliotecas para que sufraguen colectivamente (al por mayor, con descuentos) la actividad publicadora de sus investigadores, las instituciones financian al editor convertidas en suscriptoras de autoría en vez de ser suscriptoras de lectura, como sucedía antes, en el modelo “lector paga”.

Creo que todo ello representa un pequeño paso más en la consolidación comercial de formas más rápidas e intensivas de propagación de aquel conocimiento que no es objeto inmediato de explotación industrial, o sea, de patente, licencia, etc.