E-ciencia, casos y ejemplos

26 marzo 2008

C. Borgman propone en su libro (Scholarship in the digital age) promover la «content layer» de la e-ciencia, que incluiría los resultados de la investigación, documentos y datos, objeto de organización y conservación estables en un marco semidocumental, según ella.

La e-ciencia es tecnociencia en su máxima expresión, investigación tan industrializada como es posible. Consiste en infraestructuras tecnológicas para la producción colectiva y organizada de conocimiento científico. Y me temo que distinguir o separar continentes y contenidos, resultados y medios, no va a ser fácil en un futuro fertilizado por la capacidad prolífica de la computación científica a gran escala, por el vigor de la información depurándose, especializándose y propagándose en red. 

La e-ciencia se desarrolla, con grandes apoyos públicos, en los terrenos clásicos de la big science (altas energías, astronomía y espacio, biología molecular, etc.) y también en aquellos que usan muchos datos y potencia de cálculo: ciencias de la tierra, clima y atmósfera, fluidos, materiales, problemas complejos de biomedicina e ingeniería, etc. Una gran parte de la e-ciencia usa tecnologías grid, de computación distribuida (hay un artículo breve en las CSA Discovery Guides sobre Grid computation).

La e-ciencia puede incluir: captación de información observacional, mediante sensores remotos e instrumentación; simulación o modelización computacional de fenómenos; cálculo y tratamiento numérico de datos masivos y complejos; herramientas colaborativas de interacción; y almacenamiento y uso compartido de resultados factuales, textuales y documentales, en diversos estadios de elaboración o maduración, por parte de las comunidades científicas.

Algunos sitios de interés, experiencias e iniciativas sobre e-ciencia son por ejemplo los siguientes: 

  • EGEE, Enabling Grids for E-sciencE: proyecto de la Unión Europea que proporciona una plataforma de computación grid multidisciplinar e internacional (32 países).
  • NeSC, National e-Science Centre: centro nacional británico para la e-ciencia, sitio general informativo sobre e-ciencia en el Reino Unido, con enlaces a todo el sistema.
  • OSG, Open Science Grid: infraestructura grid estadounidense para computación científica distribuida, financiada por la NSF y la Office for Science del Department of Energy.
  • GEON, Geosciences Network: plataforma de investigación geocientífica cooperativa de diversas instituciones norteamericanas, ya muy consolidada.
  • TeraGrid: infraestructura de computación científica norteamericana, multisectorial y cooperativa, de gran capacidad.
  • NEON, National Ecological Observatory Network: sistema de observación y seguimiento de los ecosistemas, en EUA, para estudiar su evolución, mediante sensores remotos.
  • Interactive European Grid: proyecto de plataforma grid europea, coordinado por el Instituto de Física de Cantabria, del CSIC.
  • OGF, Open Grid Forum: comunidad internacional para el desarrollo y estandarización de tecnologías grid.
  • IRISGrid: iniciativa nacional para la implantación y desarrollo de entornos grid en España, gestionada por RedIRIS
  • Iniciativa e-Ciencia del IFCA, Instituto de Física de Cantabria (CSIC): proyectos, información y documentación sobre e-ciencia.

P.S. 02-07-09: En relación con este tema he escrito en ThikEPI también esto: Academia y ciencia colectiva.


Pangaea, datasets en abierto

21 julio 2007

Una investigación científica culmina dando a conocer sus hallazgos mediante informes o artículos que son publicados. Sin embargo, en el cuerpo de tales documentos sólo se suelen reflejar, elaborados y tratados, los resultados fundamentales del trabajo, de forma resumida. Gracias a la edición electrónica, ahora muchas revistas publican en internet, junto con los papers, materiales suplementarios que pueden contener, entre otras cosas, datos o resultados algo más extensos. Pero los datos observacionales o experimentales, completos y en bruto, reunidos en el curso de la investigación, que son la base de los artículos, normalmente no se divulgan.

Paralela al movimiento de open access, relativo a los textos científicos, otra tendencia actual es la de crear repositorios comunes, públicos y abiertos con los datos observacionales y experimentales completos: datasets que son archivos numéricos generalmente. De esta manera, quedan a disposición de otros investigadores, se comparten, series de datos en bruto. Incluso, pueden ser objeto de tratamiento matemático o minería de datos para obtener nuevos análisis y conclusiones, realizando nuevas investigaciones sin tener que repetir el trabajo experimental. Una versión aún más decidida de la ciencia colaborativa en internet es la de la Open Notebook Science, que consiste en compartir en la red los cuadernos de laboratorio.

pangaea_logo_150x107.png

Pangaea, Publishing Network for Geoscientific & Environmental Data, es un buen ejemplo de archivo abierto de datos científicos. Reúne datasets de investigaciones básicas realizadas y publicadas en el campo de la oceanografía y ciencias del mar: geología, biología y medio ambiente marinos, climatología, meteorología, paleontología, geoquímica, etc. Se trata de una iniciativa de dos instituciones científicas alemanas, pero con alcance internacional.

Pangaea permite realizar búsquedas fáciles por referencias de las publicaciones y por las descripciones de los datasets depositados, así como por la cobertura geográfica y temporal de los estudios. Inicialmente los archivos se pueden ver en formato html y descargar como texto tabulado. Pero, además, para hacer indagaciones más precisas y minería de datos, Pangea ofrece dos herramientas avanzadas, PanCore y Advanced Retrieval Tool (ART), que requieren un plugin en Java. También se puede descargar freeware adicional para la visualización, exploración e interpretación de datos. No obstante, para consultar algunos datasets restringidos, procedentes de investigaciones en curso, no publicadas, es necesario registrarse.

Pangaea está integrado en el World Data Center System, una red internacional de archivos de datos geofísicos y ambientales bajo los auspicios de la ICSU (International Council for Science).