Español (spanish formal Internacional)English (United Kingdom)

e-Ciencia Semántica

logo escienceLos rápidos avances de las tecnologías transforman la manera en que se realiza la investigación científica. El análisis y almacenamiento de datos ha pasado desde un actividad manual a una actividad en la que las computadoras son vitales. Como resultado, una enorme cantidad de datos científicos se está recogiendo o produciendo diariamente mediante equipos de cómputo. Ninguna organización de investigación individual tiene suficientes recursos para recoger todo, de ahí que la recogida de datos y procesos de almacenamiento estén distribuidos y dispersos en diferentes lugares. Tampoco ningún grupo de investigación individual tiene el poder de cómputo para procesar todos estos datos. Además, la colaboración entre científicos de diferentes instituciones o disciplinas es necesaria en muchas ocasiones para aplicar una gama de métodos y modelos para analizar y procesar la avalancha de información, y la capacidad de acceder a bases de datos y la reutilización, métodos, modelos y resultados de las actuales publicaciones científicas en general, garantiza una mayor eficacia y mejor calidad en la investigación que se puede realizar.
 

El desarrollo de la e-Ciencia es una respuesta a estas nuevas tendencias en la investigación científica. E-ciencia fue concebida originalmente como la aplicación de la informática a las ciencias tradicionales (en su mayoría empíricos, aunque en algunos casos teóricos también) con el fin de ayudar a los científicos con sus investigaciones en las actividades tradicionales tales como el modelado, simulación y predicción, entre otros. Sin embargo, ahora la e-Ciencia se puede considerar que han ido más lejos que eso, e incluso está siendo considerada como una tercera pata del método científico, junto con los teórica y empírica, mediante la introducción de un nuevo entorno en la investigación científica que también ha dado lugar a nuevos métodos de investigación que pueden llevar potencialmente a una mejor ciencia.

Dar soporte a algunas de estas nuevas exigencias derivadas de este nuevo enfoque de la ciencia requiere, en algunos casos, la definición explícita del significado de los datos sobre estos diferentes dominios. Este es el papel que las semánticas explícitas y sus tecnologías asociadas, modelos y métodos de reproducción pueden jugar en el contexto de lo que se conoce como e-Ciencia semántica. Es decir, mientras que tradicionalmente la e-Ciencia se ha dirigido principalmente hacia cuestiones de cálculo y distribución de datos, interoperabilidad y alto rendimiento en tareas de investigación científicas tradicionales y no tradicionales, el foco principal de la e-Ciencia semántica está en la aplicación de la semántica explícita sobre la infraestructura  de la e-Ciencia para aumentar la interpretación precisa de la información, los análisis científicos más eficientes y mejor colaboración entre los científicos, entre otros.

researchobject phdcomic

Alcanzar la conservación y reproducción en e-Ciencia es un trabajo multidisciplinar el cual requiere de la consideración de varios aspectos. De entre ellos, nos centramos en la conservación y reproducción de los entornos de ejecución de experimentos científicos in-silico, tratando de desarrollar estrategias para garantizar que un experimento que puede ser ejecutado hoy en una infraestructura podrá ser ejectutado nuevamente en el futuro en una infrastrucutura equivalente. Exploramos como las tecnologías semánticas pueden ser aplicadas para este fin, desarrollando ontologías que describan las infrasestructuras computacionales y herramientas reproducirlas en base a dichas descripciones. Para ello exploramos también el uso de técnicas de virtualización como una manera flexible y dinámica de definir y manejar recursos computacionales bajo demanda.

Proyectos

Actualmente tenemos un proyecto europeo en ejecución en este ámbito, el proyecto DrInventor, y estamos participando activamente en el W3C Community Group on Research Objects for Scholarly Communication, y ayudando en el mantenimiento del siteresearchobject.org.

Algunos de los proyectos que hemos ejecutado relacionados con esta área incluyen: los proyectos europeos Wf4EverADMIRE y OntoGrid, la Marie Curie Initial Training Network SCALUS y el proyecto nacional myBigData.

Principales resultados

El trabajo realizado en esta área de investigación se ha centrado principalmente en:

    1. La definición de modelos para describir experimentos científicos a través de “Research Objects” centrados en flujos de trabajo científicos, que además de describir el flujo de trabajo contienen las trazas de sus ejecuciones, sus relaciones con otros flujos de trabajo y todos aquellos elementos relacionados de alguna manera con el experimento (por ejemplo, los archivos o bases de datos utilizados, referencias, etc.) Esta actividad incluye esfuerzos adicionales para la definición de buenas prácticas y guías a la hora de gestionar y crear los Research Objects, así como estrategias para combatir la decadencia de los flujos de trabajo:
      • rohub.linkeddata.es es un portal que sirve como ejemplo para exponer Research Objects simples asociados a artículos de investigación en el OEG
      • Belhajjame K, Corcho O, Garijo D, Zhao J, Missier P, Newman DR, Palma R,  Bechhofer S, Garcia-Cuesta E, Gómez-Pérez JM, Klyne G, Page K, Roos M, Ruiz JE, Soiland-Reyes S, Verdes-Montenegro L, De Roure D, Goble CA: Workflow-Centric Research Objects: A First Class Citizen in the Scholarly Discourse. In proceedings of the ESWC2012 Workshop on the Future of Scholarly Communication in the Semantic Web (SePublica2012), Heraklion, Greece, May 2012
    2. La publicación de un conjunto de trazas de provenance producto de las ejecuciones de numerosos flujos de trabajo. Dicho conjunto se ajusta al estándar de Provenance del W3C PROV-O, y aporta un conjunto de datos muy útil  a la hora de realizar diversos tipos de análisis sobre los resultados de los experimentos (cómo se han derivado los resultados, si se ha completado correctamente o no un experimento, creación de abstracciones sobre las trazas para ayudar a entender mejor lo que ha ocurrido, detección de errores ocurridos durante el experimento, etc.):
      • Khalid Belhajjame, Jun Zhao, Daniel Garijo, Aleix Garrido, Stian Soiland-Reyes, Pinar Alper and Oscar Corcho, A Workflow PROV-Corpus based on Taverna and Wings. BigPROV13.
    3. Otra área de trabajo está relacionada con la comprensión de flujos de trabajo científico para mejorar la reutilización de los mismos, mediante el uso de su procedencia. Analizando manualmente las plantillas y las trazas, se han identificado un conjunto independiente de patrones de dominio en los flujos de trabajo científico que se podrían utilizar para simplificarlos y abstraerlos. Actualmente estamos trabajando en el reconocimiento automático de estas abstracciones, con el fin de simplificar la vista del flujo de trabajo a otras comunidades y que sea más fácil de entender. Los metadatos y la procedencia son la clave para facilitar esta tarea, ya que describen la historia y las principales características de todos los recursos en la ejecución de un flujo de trabajo:
      • Daniel Garijo, Pinar Alper, Khalid Belhajjame, Oscar Corcho, Yolanda Gil and Carole Goble, Common Motifs in Scientific Workflows: An Empirical Analysis.
      • Daniel Garijo, Oscar Corcho, Yolanda Gil. "Detecting common scientific workflow fragments using templates and execution provenance". In Proceedings of the seventh international conference on Knowledge capture (K-CAP '13). ACM, New York, NY, USA, 2013, Pages 33-40. DOI=10.1145/2479832.2479848 http://doi.acm.org/10.1145/2479832.2479848
      • Daniel Garijo, Oscar Corcho, and Yolanda Gil. 2013. Detecting common scientific workflow fragments using templates and execution provenance. In Proceedings of the seventh international conference on Knowledge capture (K-CAP '13). ACM, New York, NY, USA, 33-40. DOI=10.1145/2479832.2479848
    4. La integración basada en ontologías de fuentes de datos heterogéneas científicas y no científicas. Importantes pasos hacia ese objetivo son la prestación de soporte a consultas en SPARQL en  SPARQL endpoints distribuidos, con un banco de pruebas en el dominio de la bioinformática que hace uso de Bio2RDF endpoints y algunos resultados iniciales en la planificación de consultas sobre fuentes de datos distribuidas. Resultados anteriores, que se siguen utilizando en varios proyectos de e-Ciencia semántica, son la arquitectura S-OGSA y sus correspondientes infraestructuras tecnológicas:
      • Buil-Aranda, C., Arenas, M., Corcho, O., Polleres, A., "Federating queries in SPARQL 1.1: Syntax, semantics and evaluation", Web Semantics: Science, Services and Agents on the World Wide Web, Volume 18, Issue 1, January 2013, Pages 1-17, 10.1016/j.websem.2012.10.001
      • Corcho, O., Alper, P., Kotsiopoulos, I., Missier, P., Bechhofer, S., Goble, C. (2006) An overview of S-OGSA: A Reference Semantic Grid Architecture. Journal of Web Semantics, 4 (2). pp. 102-115. ISSN 1570-8268
    5. La anotación semántica de documentos científicos. Esto incluye la definición de ontologías que permitan la anotación semántica de dichos documentos. Dentro de esta actividad se ha realizado un análisis del trabajo existente en el campo de la publicación semántica, detectando las ontologías que se están  utilizando para la publicación de documentos científicos. Como resultado de este análisis tenemos una clasificación de las principales ontologías existentes. Actualmente estamos trabajando en la publicación de una ontología que englobe las necesidades del discurso científico.
      • Ruiz-Iniesta A. and Corcho O., A review of ontologies for describing scholarly and scientific documents, Proceedings of the Workshop on Semantic Publications (SePublica), 2014.
    6. La definición de una serie de modelos para la descripción de los entornos de ejecución de experimentos científicos computacionales. Estos modelos permiten describir tanto los elementos de hardware y software involucrados en la ejecución de un flujo de trabajo científico, así como sus dependencias e información de configuración. En este contexto se han llevado a cabo una serie de experimentos en los que, haciendo uso de dichos modelos, se ha descrito el sistema de ejecución de flujos de trabajo Pegasus y sus dependencias, así como Montage, un flujo de trabajo científico centrado en el estudio astronómico del cielo:
    7. Un protocolo representa una secuencia de operaciones, que habitualmente se escriben en lenguaje natural. Estos protocolos se presentan a manera de "receta" proporcionando paso a paso la descripción de procesos. Dicha secuencia de tareas y operaciones en la investigación experimental son consideradas unidades fundamentales de conocimiento. Los investigadores siguen y generan protocolos en sus actividades diarias; es así, como los protocolos experimentales reflejan las habilidades o conocimientos prácticos generados en un laboratorio, los cuales luego son compartidos y adaptados para diversos propósitos. Lo más importante, los protocolos experimentales son esenciales para la concesión de patentes; de igual manera, ellos son piezas centrales en los esfuerzos de reproducibilidad. Varios esfuerzos se han centrado en la descripción precisa de datos con fines de interoperabilidad; sin embargo, pocos esfuerzos han hecho énfasis en cómo los datos son producidos. Durante la realización de este proyecto de investigación se abordará la siguiente pregunta "¿Cómo formalizar semánticamente protocolos experimentales para que el intercambio y descubrimiento de información pueda ser soportado? Actualmente, se han analizado 175 protocolos de laboratorio en biología de plantas. Como resultado de este esfuerzo, hemos generado una lista de verificación (checklist) que incluye un conjunto de metadatos para reportar este tipo de documento. Los metadatos incluidos en la lista de verificación han sido validados por 32 expertos de dominio y están representados en la ontología SMART Protocolos - documento. Además, se están usando técnicas de procesamiento de lenguaje natural con el fin de obtener una comprensión más profunda de las estructuras que actualmente apoyan la narrativa de los protocolos experimentales. Un vocabulario estructurado de conceptos para representar la ejecución de protocolos de laboratorio en ciencias de la vida se encuentra disponible en la ontología de SMARTProtocolos - flujo de trabajo

Miembros

Esta área de investigación está liderada por Oscar Corcho, y el equipo está formado, además, por María Pérez Hernández, el postdoc Rafael González, los estudiantes de doctorado Daniel Garijo, Idafen Santana y Olga Giraldo, y el estudiante de máster Carlos Badenes.

Lecturas recomendadas

Algunas lecturas relacionadas con la e-Ciencia Semántica:

Ofertas de trabajo

Actualmente, no hay ninguna oferta de trabajo o beca disponibles para este proyecto. Para ofertas en otros proyectos o áreas de investigación, puedes visitar la sección ofertas de trabajo. No obstante, si te interesa este área puedes contactar con Oscar Corcho para comprobar si hay posibles ofertas en un futuro cercano.

 

Created under Creative Commons License - 2015 OEG.