GB-500 Tópicos Especiais em Modelagem Computacional: Introdução a Workflows Científicos e suas Aplicações

Programa de Pós-Graduação de Modelagem Computacional, P2/2018
Laboratório Nacional de Computação Científica
Professores: Luiz Gadelha e Kary Ocaña
Horário e local: 3ª e 5ª de 15:00 às 16:30h, Sala 05

Objetivos. Apresentar os principais conceitos relacionados a workflows científicos e ao ciclo de vida de um experimento. Mostrar técnicas e ferramentas para a gerência de experimentos científicos computacionais em suas diversas etapas que exijam a coordenação de muitas tarefas computacionais ou o processamento de grandes massas de dados. Apresentaremos alguns dos principais sistemas de gerência de workflows científicos, (SGWfC) eg. SciCumulus, VisTrails, Swift, Hadoop, Galaxy, com demonstrações de uso aplicadas à bioinformática, processamento de imagens de satélite, renderização. Esses sistemas servirão de base para as avaliações a serem desenvolvidas ao longo do curso. Também serão descritas técnicas para a gerência de informações de proveniência, que dão suporte à análise destes experimentos. Os sistemas DfAnalyzer, noWorkflow, SciCumulus e Swift serão utilizados nas atividades práticas. Discutiremos as oportunidades de pesquisa em bancos de dados quanto à gerência de dados científicos, aos aspectos de distribuição de dados e processos em workflows, e à combinação de dados de proveniência com dados científicos, dentre outros.

Ementa.

  1. Introdução à computação intensiva em dados e e-Science.
  2. Workflows científicos.
    • Ciclo de vida de workflows científicos.
      • Composição: representação (gráfica, textual), padrões de composição.
      • Execução: gerenciamento de dados, paralelismo e distribuição.
      • Análise: gerenciamento de informações de proveniência.
    • Aspectos de segurança de workflows científicos.
    • Exemplos de sistemas de gerenciamento de workflows científicos: Galaxy, Taverna, Hadoop/MapReduce, Kepler, Vistrails, Chiron, SciCumulus, Swift.
  3. Gerência de dados de proveniência.
    • Introdução ao W3C PROV.
    • Validação de dados de proveniência.
    • Qualidade de dados de proveniência.
    • Ferramentas para gestão de dados de proveniência.
  4. Estudos de caso com DfAnalyzer, noWorkflow, SciCumulus e Swift.

Avaliação. Consistirá de apresentações de artigos sobre o estado-da-arte em pesquisa na área e de um projeto.

O projeto será composto por uma implementação, um relatório e uma apresentação.

A nota será baseada nas apresentações (40%), no projeto (50%) e na participação (10%).

  • 13/03: Apresentação dos objetivos, ementa e forma de avaliação do curso. Introdução à computação intensiva em dados e e-Science. [PDF]
  • 15/03: noWorkflow. [PPT]
  • 20/03: dfAnalyzer.
  • 22/03: SciCumulus. [PDF]
  • 27/03: SciPhy. [PDF]
  • 29/03: Introdução a workflows científicos. [PDF]
  • 03/04: Modelos computacionais para workflows científicos. Programação funcional e Swift. [PDF]
  • 05/04: Tutorial do Swift.
  • 10/04: Proveniência no Swift. [PDF]
  • 12/04: Segurança em e-Science. [PDF]
  • 17/04: Swift/T, PARSL, CWL, Toil, Lab. Swift. [PDF]
  • 19/04: Apresentação de artigo sobre workflows e de proposta de implementação (Marcio). Tovar, B. et al. (2018). A Job Sizing Strategy for High-Throughput Scientific Workflows. IEEE Transactions on Parallel and Distributed Systems, 29(2), 240–253. [DOI: 10.1109/TPDS.2017.2762310]
  • 24/04: Apresentação de artigo sobre workflows e de proposta de implementação (Ronniery). Starlinger, J. et al. Effective and efficient similarity search in scientific workflow repositories. Future Generation Computer Systems, 56, 584–594. [DOI: 10.1016/J.FUTURE.2015.06.012]
  • 26/04: Apresentação de artigo sobre workflows e de proposta de implementação (Hermano). Silva, V. et al. (2017). Raw data queries during data-intensive parallel workflow execution. Future Generation Computer Systems, 75, 402–422. [DOI: 10.1016/j.future.2017.01.016]
  • 03/05: Apresentação de artigo sobre workflows e de proposta de implementação (Leonardo). Rodrigo Duro, F. et al. (2017). Experimental evaluation of a flexible I/O architecture for accelerating workflow engines in ultrascale environments. Parallel Computing, 61, 52–67. [DOI: 10.1016/J.PARCO.2016.10.003]
  • 08/05: Atendimento projetos.
  • 10/05: Introdução a proveniência, OPM, PROV, HPSW-Prof.
  • 15/05: Discussão sobre as apresentações de proveniência.
  • 17/05: Apresentação sobre Bioworkbench (Maria Luiza), padrão W3C PROV.
  • 22/05: Apresentação de artigo sobre proveniência e de projeto (Leonardo). Thomas, P. et al. (2018). Sharing and Preserving Computational Analyses for Posterity with encapsulator. [arXiv:1803.05808]
  • 24/05: Apresentação de artigo sobre proveniência (Ronniery). Brinckman, A. et al. (2018). Computing Environments for Reproducibility: Capturing the “Whole Tale.” Future Generation Computer Systems. [DOI: 10.1016/j.future.2017.12.029]
  • 29/05:
    • Apresentação de artigo sobre proveniência (Marcio). Oliveira W. et al. (2017). Querying Provenance along with External Domain Data Using Prolog. Journal of Information and Data Management, 8(1):3–18. [PDF]
    • Apresentação de artigo sobre proveniência (Hermano). Freire, J., Chirigati, F. (2018). Provenance and the Different Flavors of Computational Reproducibility. Bulletin of the Technical Committee on Data Engineering, 41(1), 15–26. [PDF]
  • 05/06: Apresentação do projeto.
  • Armstrong, T., Wozniak, J. M., Wilde, M., & Foster, I. T. (2015). Swift: Extreme-scale, Implicitly Parallel Scripting. In P. Balaji (Ed.), Programming Models for Parallel Computing (pp. 219–245). MIT Press. [PDF]
  • Braguetto, K., & Cordeiro, D. (2014). Introdução à Modelagem e Execução de Workflows Científicos. In XXXIII Jornadas de Atualização em Informática (JAI). XXXIV Congresso da Sociedade Brasileira de Computação (CSBC 2014). [PDF]
  • Carata, L., Akoush, S., Balakrishnan, N., Bytheway, T., Sohan, R., Selter, M., & Hopper, A. (2014). A primer on provenance. Communications of the ACM, 57(5), 52–60. doi:10.1145/2596628
  • Freire, J., Koop, D., Santos, E., Silva, C. T., (2008), "Provenance for Computational Tasks: A Survey", Computing in Science and Engineering, v.10, n. 3, p. 11–21.
  • Gadelha, L. M. R., Wilde, M., Mattoso, M., Foster, I. (2012). MTCProv: a practical provenance query framework for many-task scientific computing. Distributed and Parallel Databases, 30(5-6), 351–370.
  • Gadelha, L., Mattoso, M. (2014). Applying Provenance to Protect Attribution in Distributed Computational Scientific Experiments. In Provenance and Annotation of Data and Processes - The Fifth Provenance and Annotation Workshop (IPAW). Cologne, Germany. Lecture Notes in Computer Science, v. 8628, 139-151. Springer.
  • Hey, T., Tansley, S., Tolle, K., (2009), The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research. [PDF]
  • Moreau, L., Groth, P. (2013). Provenance: An Introduction to PROV. Synthesis Lectures on the Semantic Web: Theory and Technology (Vol. 3). Morgan and Claypool. [Exemplar Biblioteca LNCC]
  • Liu, J., Pacitti, E., Valduriez, P., Mattoso, M. (2015). A Survey of Data-Intensive Scientific Workflow Management. Journal of Grid Computing. doi:10.1007/s10723-015-9329-8
  • Miles, S., Groth, P., Munroe, S., & Moreau, L. (2011). PrIMe: A Methodology for Developing Provenance-Aware Applications. ACM Transactions on Software Engineering and Methodology, 20(3), 1–42. doi:10.1145/2000791.2000792
  • Murta, L., Braganholo, V., Chirigati, F., Koop, D., Freire, J. (2015). noWorkflow: Capturing and Analyzing Provenance of Scripts. In B. Ludäscher & B. Plale (Eds.), Provenance and Annotation of Data and Processes (Vol. 8628, pp. 71–83). Springer International Publishing. [PDF]
  • Ocaña, K. A. C. S., Oliveira, D., Ogasawara, E., Dávila, A. M. R., Lima, A. A. B., Mattoso, M., (2011), "SciPhy: A Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan Genomes". In: BSB, p. 66–70, Berlin, Heidelberg.
  • Ogasawara, E., Dias, J., Oliveira, D., Porto, F., Valduriez, P., Mattoso, M., (2011), "An Algebraic Approach for Data-Centric Scientific Workflows", PVLDB Endowment, v. 4, n. 12, p. 1328–1339.
  • Oliveira, D., Ogasawara, E., Baião, F., Mattoso, M., (2010), "SciCumulus: A Lightweight Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows". In: 3rd International Conference on Cloud Computing, p. 378–385, Washington, DC, USA.
  • A. Shoshani e D. Rotem (Editores). Scientific Data Management: Challenges. Technology, and Deployment. Chapman & Hall/CRC, 2010. [Exemplar Biblioteca LNCC]
  • Silva, V., Leite, J., Camata, J. J., de Oliveira, D., Coutinho, A. L. G. A., Valduriez, P., & Mattoso, M. (2017). Raw data queries during data-intensive parallel workflow execution. Future Generation Computer Systems, 75, 402–422. []
  • Taylor, I. J., Deelman, E., Gannon, D. B., Shields, M. (2007). Workflows for e-Science: Scientific Workflows for Grids. Springer. [Exemplar Biblioteca LNCC]