GB-500 Tópicos Especiais em Modelagem Computacional: Introdução a Workflows Científicos e suas Aplicações

Programa de Pós-Graduação de Modelagem Computacional, P1/2017
Laboratório Nacional de Computação Científica
Professores: Luiz Gadelha e Kary Ocaña
Horário e local: 3ª e 5ª de 13:30 às 15:00h, Sala 2

Objetivos. Apresentar os principais conceitos relacionados a workflows científicos e ao ciclo de vida de um experimento. Mostrar técnicas e ferramentas para a gerência de experimentos científicos computacionais em suas diversas etapas que exijam a coordenação de muitas tarefas computacionais ou o processamento de grandes massas de dados. Apresentaremos alguns dos principais sistemas de gerência de workflows científicos, (SGWfC) eg. SciCumulus, VisTrails, Swift, Hadoop, Galaxy, com demonstrações de uso aplicadas à bioinformática, processamento de imagens de satélite, renderização. Esses sistemas servirão de base para as avaliações a serem desenvolvidas ao longo do curso. Também serão descritas técnicas para a gerência de informações de proveniência, que dão suporte à análise destes experimentos. O SciCumulus e o Swift são SGWfC com suporte nativo a execução em ambientes paralelos e distribuídos, que serão utilizados nas atividades práticas. Discutiremos as oportunidades de pesquisa em bancos de dados quanto à gerência de dados científicos, aos aspectos de distribuição de dados e processos em workflows, e à combinação de dados de proveniência com dados científicos, dentre outros.

Ementa.

  1. Introdução à computação intensiva em dados e e-Science.
  2. Workflows científicos.
    • Ciclo de vida de workflows científicos.
      • Composição: representação (gráfica, textual), padrões de composição.
      • Execução: gerenciamento de dados, paralelismo e distribuição.
      • Análise: gerenciamento de informações de proveniência.
    • Aspectos de segurança de workflows científicos.
    • Exemplos de sistemas de gerenciamento de workflows científicos: Galaxy, Taverna, Hadoop/MapReduce, Kepler, Vistrails, Chiron, SciCumulus, Swift.
  3. Gerência de dados de proveniência.
    • Introdução ao W3C PROV.
    • Validação de dados de proveniência.
    • Qualidade de dados de proveniência.
    • Ferramentas para gestão de dados de proveniência.
  4. Estudos de caso com SciCumulus e Swift.
    • BLAST paralelo.
    • Workflows para filogenia.
    • MODIS (processamento de imagens de satélite).
    • C-Ray (renderização paralela de vídeos).

Avaliação. Consistirá de duas apresentações de artigos sobre o estado-da-arte em pesquisa na área e de um projeto.

O projeto será composto por uma implementação, um relatório e uma apresentação.

A nota será baseada nas apresentações (30%), no projeto (50%) e na participação (20%).

  • 16/06: Apresentação dos objetivos, ementa e forma de avaliação do curso. Introdução à computação intensiva em dados e e-Science. [PDF]
  • 18/06: Aspectos de segurança de workflows científicos. [PDF]
  • 23/06: Padrões de composição de workflows científicos; introdução ao Swift. [PDF]
  • 25/06: Introução à proveniência, Open Provenance Model (OPM), proveniência no Swift (MTCProv). [PDF]
  • 30/06: Aula prática com Swift (Lab. 5): tutorial.
  • 02/07: Aula prática com Swift (Lab. 5): exercício de renderização de imagens.
  • 07/07: Apresentações de artigos.
    • Scientific workflow management and the Kepler system. Ludäscher, Bertram and Altintas, Ilkay and Berkley, Chad and Higgins, Dan and Jaeger, Efrat and Jones, Matthew and Lee, Edward A. and Tao, Jing and Zhao, Yang (2006) Concurrency and Computation: Practice and Experience. Volume 18. Pages: 1039-1065.
    • De Paula, R., Holanda, M., Gomes, L. S. A., Lifschitz, S., & Walter, M. E. M. T. (2013). Provenance in bioinformatics workflows. BMC Bioinformatics, 14 Suppl 1(Suppl 11), S6. doi:10.1186/1471-2105-14-S11-S6
  • 09/07: Apresentações de artigos.
    • Ogasawara, E., Oliveira, D. de, Dias, J., Porto, F., Valduriez, P., Mattoso, M. (2011). An Algebraic Approach for Data-Centric Scientific Workflows. Proceedings of the VLDB Endowment, 4(12), 1328–1339.
    • de Oliveira, D., Ogasawara, E., Baião, F., Mattoso, M. (2010). SciCumulus: A Lightweight Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows. In 2010 IEEE 3rd International Conference on Cloud Computing (pp. 378–385). IEEE. doi:10.1109/CLOUD.2010.64
  • 14/07: SciCumulus/C2: A Execução Paralela de Workflows Científicos.
  • 16/07: SciCumulus/C2, Prática Parte 1: Workflow de Bioinformática (Execução).
  • 21/07: SciCumulus/C2: Workflows de Bioinformática (Filogenia).
  • 23/07: SciCumulus/C2, Prática Parte 2: Workflow Bioinformática (Consultas SQL).
  • 28/07: Apresentações de artigos.
    • Juve, G., Chervenak, A., Deelman, E., Bharathi, S., Mehta, G., Vahi, K. (2013). Characterizing and profiling scientific workflows. Future Generation Computer Systems, 29(3), 682–692. doi:10.1016/j.future.2012.08.015
    • Wozniak, J. M., Armstrong, T. G., Wilde, M., Katz, D. S., Lusk, E., Foster, I. T. (2013). Swift/T: Large-Scale Application Composition via Distributed-Memory Dataflow Processing. In 2013 13th IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing (pp. 95–102). IEEE. doi:10.1109/CCGrid.2013.99
  • 30/07: Apresentações de artigos.
    • Freire, J., Silva, C. T., Callahan, S. P., Santos, E., Scheidegger, C. E., & Vo, H. T. (2006). Managing rapidly-evolving scientific workflows. In Provenance and Annotation of Data (pp. 10–18). Springer.
    • Deelman, E., Vahi, K., Juve, G., Rynge, M., Callaghan, S., Maechling, P. J., ... Wenger, K. (2015). Pegasus, a workflow management system for science automation. Future Generation Computer Systems, 46, 17–35. doi:10.1016/j.future.2014.10.008
  • 04/08: Apresentação de artigo.
    • Abouelhoda, M., Issa, S., Ghanem, M., (2012), Tavaxy: Integrating Taverna and Galaxy workflows with cloud computing support, BMC Bioinformatics, v. 13, p. 77.
    • Harnie, D., Vapirev, A. E., Wegner, J. K., Gedich, A., Steijaert, M., Wuyts, R., Meuter, W. De. (2015). Scaling Machine Learning for Target Prediction in Drug Discovery using Apache Spark. In Proceedings of the 15th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing.
  • 06/08: Aula prática com Swift (Lab. 5): Aula prática com Swift (Lab. 5): execução em cluster e distribuída.
  • 11/08: Apresentações de artigos.
    • Talbert, C., Talbert, M., Morisette, J., & Koop, D. (2013). Data Management Challenges in Species Distribution Modeling. IEEE Bulletin of the Technical Committee on Data Engineering, 36(4), 31–40.
    • Zhao Zhang, Daniel S. Katz, Justin M. Wozniak, Allan Espinosa, and Ian Foster. 2012. Design and analysis of data management in scalable parallel scripting. In Proceedings of the International Conference on High Performance Computing, Networking, Storage and Analysis (SC '12). IEEE Computer Society Press, Los Alamitos, CA, USA, , Article 85 , 11 pages.
    • Dun, N., Taura, K., Yonezawa, A. (2010). ParaTrac: a fine-grained profiler for data-intensive workflows. In Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing - HPDC ’10 (p. 37). New York, New York, USA: ACM Press. doi:10.1145/1851476.1851482
  • 13/08: Apresentações de artigos.
    • Nothaft, F. A., Linderman, M., Franklin, M. J., Joseph, A. D., Patterson, D. A., Massie, M., … Hammerbacher, J. (2015). Rethinking Data-Intensive Science Using Scalable Analytics Systems. In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data - SIGMOD ’15 (pp. 631–646). New York, New York, USA: ACM Press. doi:10.1145/2723372.2742787
    • Abouelhoda, M., Issa, S., Ghanem, M., (2012), Tavaxy: Integrating Taverna and Galaxy workflows with cloud computing support, BMC Bioinformatics, v. 13, p. 77.
  • 18/08: Apresentações de artigos.
    • Ocaña, K., Benza, S., Oliveira, D. de, Dias, J., & Mattoso, M. (2014). Exploring Large Scale Receptor-Ligand Pairs in Molecular Docking Workflows in HPC Clouds. In 2014 IEEE International Parallel & Distributed Processing Symposium Workshops (pp. 536–545). IEEE. doi:10.1109/IPDPSW.2014.65
  • 20/08: Apresentações de artigos.
    • Wilde, M., Hategan, M., Wozniak, J. M., Clifford, B., Katz, D. S., Foster, I. (2011). Swift: A language for distributed parallel scripting. Parallel Computing, 37(9), 633–652.
    • Zorrilla, R. Uma arquitetura para processamento de grande volumes de dados integrando sistemas de workflow científicos e o paradigma MapReduce. Dissertação de Mestrado, LNCC.
    • Elliott, J., Kelly, D., Chryssanthacopoulos, J., Glotter, M., Jhunjhnuwala, K., Best, N., … Foster, I. (2014). The parallel system for integrating impact models and sectors (pSIMS). Environmental Modelling & Software. doi:10.1016/j.envsoft.2014.04.008
  • 25/08: Atividade recomendada: keynote (15:00-16:00) e tutorial (11:30-13:00 e 16:30-18:00) sobre Swift do Michael Wilde (Arquiteto de software do Swift, U. Chicago) no ERAD-RJ (Escola Regional de Alto Desempenho do Rio de Janeiro), a participação é isenta para quem estiver inscrito no CARLA (veja abaixo na agenda do dia 27/08). Apresentação de artigos.
    • Armstrong, T. G., Wozniak, J. M., Wilde, M., Foster, I. T. (2014). Compiler Techniques for Massively Scalable Implicit Task Parallelism. In SC14: International Conference for High Performance Computing, Networking, Storage and Analysis (pp. 299–310). IEEE. doi:10.1109/SC.2014.30
    • Krieder, S. J., Wozniak, J. M., Armstrong, T., Wilde, M., Katz, D. S., Grimmer, B., … Raicu, I. (2014). Design and evaluation of the gemtc framework for GPU-enabled many-task computing. In Proceedings of the 23rd international symposium on High-performance parallel and distributed computing - HPDC ’14 (pp. 153–164). New York, New York, USA: ACM Press. doi:10.1145/2600212.2600228
    • Ikeda, R., Park, H., & Widom, J. (2011). Provenance for Generalized Map and Reduce Workflows. In Proc. 5th Biennial Conference on Innovative Data Systems Research (CIDR’11) (pp. 273–283).
  • 27/08: Keynote do Michael Wilde (Arquiteto de software do Swift, U. Chicago) de 14:00-15:00 no CARLA (Conferencia Latinoamericana de Computación de Alto Rendimiento) - a inscrição para estudantes e funcionários do LNCC é isenta, basta enviar o boleto para a Tathiana do setor de eventos.
  • 01/09: Apresentaçôes de artigo.
    • Hockey, G, Wilde, M, DeBartolo, J, Hategan, M, Foster, IT, Sosnick, TR, Freed, KF. (2009) Towards Petascale ab initio Protein Folding Through Parallel Scripting. Argonne National Laboratory, ANL/MCS-P1612-0409.
    • Kary A.C.S. Ocaña, Daniel de Oliveira, Jonas Dias, Eduardo Ogasawara, Marta Mattoso. Designing a parallel cloud based comparative genomics workflow to improve phylogenetic analyses. Future Generation Computer Systems, 29 (2013), 2205-2219.
    • Wilde, M., Hategan, M., Wozniak, J. M., Clifford, B., Katz, D. S., Foster, I. (2011). Swift: A language for distributed parallel scripting. Parallel Computing, 37(9), 633–652.
  • 03/09: Introdução ao PROV: introdução, validação, qualidade de dados e ferramentas.
  • 08/09: Apresentação dos projetos.
  • 10/09: Apresentação dos projetos.
  • Abouelhoda, M., Issa, S., Ghanem, M., (2012), "Tavaxy: Integrating Taverna and Galaxy workflows with cloud computing support", BMC Bioinformatics, v. 13, p. 77.
  • Ailamaki, A., Kantere, V., Dash, D., (2010), "Managing scientific data", Communications of the ACM, v. 53, n. 6 (Jun.), p. 68–78.
  • Armstrong, T. G., Wozniak, J. M., Wilde, M., Foster, I. T. (2014). Compiler Techniques for Massively Scalable Implicit Task Parallelism. In SC14: International Conference for High Performance Computing, Networking, Storage and Analysis (pp. 299–310). IEEE.
  • Balaji, P. (Ed.). Programming Models for Parallel Computing. MIT Press, 2015.
  • Braguetto, K., & Cordeiro, D. (2014). Introdução à Modelagem e Execução de Workflows Científicos. In XXXIII Jornadas de Atualização em Informática (JAI). XXXIV Congresso da Sociedade Brasileira de Computação (CSBC 2014). [PDF]
  • Carata, L., Akoush, S., Balakrishnan, N., Bytheway, T., Sohan, R., Selter, M., & Hopper, A. (2014). A primer on provenance. Communications of the ACM, 57(5), 52–60. doi:10.1145/2596628
  • Cuevas-Vicenttín, V., Dey, S., Köhler, S., Riddle, S., Ludäscher, B. (2012). Scientific Workflows and Provenance: Introduction and Research Opportunities. Datenbank-Spektrum, 12(3), 193–203. doi:10.1007/s13222-012-0100-z
  • Deelman, E., Gannon, D., Shields, M., Taylor, I. (2009). Workflows and e-Science: An overview of workflow system features and capabilities. Future Generation Computer Systems, 25(5), 528–540. doi:10.1016/j.future.2008.06.012
  • Freire, J., Koop, D., Santos, E., Silva, C. T., (2008), "Provenance for Computational Tasks: A Survey", Computing in Science and Engineering, v.10, n. 3, p. 11–21.
  • Gadelha, L. M. R., Wilde, M., Mattoso, M., Foster, I. (2012). MTCProv: a practical provenance query framework for many-task scientific computing. Distributed and Parallel Databases, 30(5-6), 351–370.
  • Gadelha, L., Mattoso, M. (2014). Applying Provenance to Protect Attribution in Distributed Computational Scientific Experiments. In Provenance and Annotation of Data and Processes - The Fifth Provenance and Annotation Workshop (IPAW). Cologne, Germany. Lecture Notes in Computer Science, v. 8628, 139-151. Springer.
  • Garijo, D., Alper, P., Belhajjame, K., Corcho, O., Gil, Y., & Goble, C. (2014). Common motifs in scientific workflows: An empirical analysis. Future Generation Computer Systems, 36, 338–351. doi:10.1016/j.future.2013.09.018
  • Hey, T., Tansley, S., Tolle, K., (2009), The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research. [PDF]
  • Moreau, L. (2010). The Foundations for Provenance on the Web. Foundations and Trends® in Web Science, 2(2-3), 99–241. doi:10.1561/1800000010
  • Moreau, L., Groth, P. (2013). Provenance: An Introduction to PROV. Synthesis Lectures on the Semantic Web: Theory and Technology (Vol. 3). Morgan and Claypool. [Exemplar Biblioteca LNCC]
  • Liu, J., Pacitti, E., Valduriez, P., Mattoso, M. (2015). A Survey of Data-Intensive Scientific Workflow Management. Journal of Grid Computing. doi:10.1007/s10723-015-9329-8
  • Miles, S., Groth, P., Munroe, S., & Moreau, L. (2011). PrIMe: A Methodology for Developing Provenance-Aware Applications. ACM Transactions on Software Engineering and Methodology, 20(3), 1–42. doi:10.1145/2000791.2000792
  • Ocaña, K. A. C. S., Oliveira, D., Ogasawara, E., Dávila, A. M. R., Lima, A. A. B., Mattoso, M., (2011), "SciPhy: A Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan Genomes". In: BSB, p. 66–70, Berlin, Heidelberg.
  • Ogasawara, E., Dias, J., Oliveira, D., Porto, F., Valduriez, P., Mattoso, M., (2011), "An Algebraic Approach for Data-Centric Scientific Workflows", PVLDB Endowment, v. 4, n. 12, p. 1328–1339.
  • Oliveira, D., Ocaña, K. A. C. S., Ogasawara, E., Dias, J., Gonçalves, J., Baião, F., Mattoso, M., (2013), "Performance evaluation of parallel strategies in public clouds: A study with phylogenomic workflows", Future Generation Computer Systems, v. 29, n. 7 (Sep.), p. 1816–1825.
  • Oliveira, D., Ogasawara, E., Baião, F., Mattoso, M., (2010), "SciCumulus: A Lightweight Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows". In: 3rd International Conference on Cloud Computing, p. 378–385, Washington, DC, USA.
  • Sandve, G. K., Nekrutenko, A., Taylor, J., & Hovig, E. (2013). Ten Simple Rules for Reproducible Computational Research. PLoS Computational Biology, 9(10), e1003285. doi:10.1371/journal.pcbi.1003285
  • A. Shoshani e D. Rotem (Editores). Scientific Data Management: Challenges. Technology, and Deployment. Chapman & Hall/CRC, 2010. [Exemplar Biblioteca LNCC]
  • Taylor, I. J., Deelman, E., Gannon, D. B., Shields, M. (2007). Workflows for e-Science: Scientific Workflows for Grids. Springer. [Exemplar Biblioteca LNCC]
  • Wilde, M., Hategan, M., Wozniak, J. M., Clifford, B., Katz, D. S., Foster, I. (2011). Swift: A language for distributed parallel scripting. Parallel Computing, 37(9), 633–652.
  • Wilson, G., Aruliah, D. A., Brown, C. T., Chue Hong, N. P., Davis, M., Guy, R. T., … Wilson, P. (2014). Best practices for scientific computing. PLoS Biology, 12(1), e1001745. doi:10.1371/journal.pbio.1001745