Distributed Caching of Scientific Workflows in Multisite Cloud
2020
Heidsieck, Gaëtan | de Oliveira, Daniel | Pacitti, Esther | Pradal, Christophe | Tardieu, Francois | Valduriez, Patrick | Scientific Data Management (ZENITH) ; Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM) ; Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Centre Inria d'Université Côte d'Azur ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria) | Universidade Federal Fluminense [Rio de Janeiro] (UFF) | Amélioration génétique et adaptation des plantes méditerranéennes et tropicales (UMR AGAP) ; Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut Agro - Montpellier SupAgro ; Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro) | Département Systèmes Biologiques (Cirad-BIOS) ; Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad) | Écophysiologie des Plantes sous Stress environnementaux (LEPSE) ; Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut Agro - Montpellier SupAgro ; Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro) | France Grille Scientific Interest Group | DEXA Society | Hartmann S. | Küng J. | Kotsis G. | Tjoa A.M. | Khalil I. | HPDASC | ANR-11-INBS-0012,PHENOME,Centre français de phénomique végétale(2011) | ANR-11-INBS-0013,IFB (ex Renabi-IFB),Institut français de bioinformatique(2011) | ANR-16-CONV-0004,DIGITAG,Institut Convergences en Agriculture Numérique(2016)
Best Paper Award
Показать больше [+] Меньше [-]International audience
Показать больше [+] Меньше [-]Английский. Many scientific experiments are performed using scientific workflows, which are becoming more and more data-intensive. We consider the efficient execution of such workflows in the cloud, leveraging the heterogeneous resources available at multiple cloud sites (geo-distributed data centers). Since it is common for workflow users to reuse code or data from other workflows, a promising approach for efficient workflow execution is to cache intermediate data in order to avoid re-executing entire workflows. In this paper, we propose a solution for distributed caching of scientific workflows in a multisite cloud. We implemented our solution in the OpenAlea workflow system, together with cache-aware distributed scheduling algorithms. Our experimental evaluation on a three-site cloud with a data-intensive application in plant phenotyping shows that our solution can yield major performance gains, reducing total time up to 42% with 60% of same input data for each new execution.
Показать больше [+] Меньше [-]Библиографическая информация
Эту запись предоставил Institut national de la recherche agronomique