Portal Científico desenvolvido pelo LIneA

26 de agosto de 2014 | LIneA

O volume de dados sem precedentes acumulado pelos levantamentos SDSS, DES e futuramente DESI e LSST exige uma infra estrutura computacional capaz de analisar grandes volumes de dados e distribuir os resultados dessas análises de forma eficiente. O Portal Científico desenvolvido pelo LineA oferece as seguintes facilidades:

  • um repositório de códigos centralizado (git);
  • manutenção de bibliotecas científicas e pacotes de software;
  • instalação e verificação automatizada da qualidade dos dados;
  • ferramentas para inspeção visual de imagens e catálogos associados;
  • um banco de dados de catálogos astronômicos integrando catálogos de outros levantamentos;
  • um sistema end­-to-­end para produção de catálogos com a possibilidade de combinar dados de outros levantamentos;
  • integração de algoritmos científicos na forma de workflows;
  • interfaces para acesso uniforme aos dados, meta dados e resultados.

Os algoritmos desenvolvidos pelos diferentes grupos de trabalho são mantidos num repositório de códigos centralizado onde mudanças são versionadas, o que permite a contribuição de diferentes desenvolvedores de forma organizada. Esta metodologia garante que algoritmos desenvolvidos por alunos e pós­-doutorandos sejam preservados, que melhorias sejam introduzidas e que novas versões sejam construídas usando versões anteriores. Esses aspectos são de fundamental importância para programas de longo prazo.

SciencePortalGrandView

Figura 1 -­ Visão end­-to-­end do Portal Científico

A figura 1 ilustra os principais conceitos do Portal Científico:

  • inter operabilidade de diferentes data sets como dados e simulações;
  • proveniência dos dados de entrada, configuração e versão dos algoritmos utilizados em cada etapa da análise;
  • validação dos resultados em cada etapa da análise;
  • reproducibilidade;
  • comunicação e compartilhamento dos resultados.

Nesse modelo, a instalação e a etapa de preparação dos dados, que representam uma fração substancial do tempo gasto na análise de dados convencional, é realizada de forma estruturada e eficiente. A base de dados centralizada e a integração dos algoritmos científicos ao portal é crucial para minimizar a movimentação de grandes volumes de dados. O algoritmos científicos integrados se beneficiam da infra estrutura computacional disponível. Do ponto de vista operacional, a separação entre distribuição de dados e processamento permite melhor controle dos recursos computacionais.

SciencePortalComponentsAndComponentsDataserver

Figura 2.­ Principais componentes do Portal Científico

Além dos algoritmos científicos, o sistema de gerenciamento de workflows e a camada de orquestração são os principais componentes de software do portal. Associados a esses componentes estão o banco de dados administrativo, o banco de dados de catalogo, o cluster de processamento e o sistema de armazenamento.

O desenvolvimento do Portal Científico tem sido avaliado ao longo dos últimos quatro anos numa série de reviews internacionais:

1. Out 2010 (Fermilab) – Introdução, workflows científicos [1]
2. Out 2011 (UPenn) – Precam, Quick Reduce, workflows científicos [2]
3. Maio 2012 (MPA) – Quick Reduce
4. Jul 2013 (Fermilab) ­ – Visão end-­to-­end e validação de dados [3]
5. Nov 2013 (Fermilab) – Validação de dados e inspeção visual de imagens [4]
6. Ago 2014 (Fermilab) ­ – Data server

Aplicações para o DES incluem o Quick Reduce (QR), software usado para diagnóstico em tempo real das exposições da câmera do DES (DECam). O QR está em operação no Cerro Tololo Interamerican Observatory (CTIO) desde 1/11/2012 atendendo também a projetos como o DESI e outros que usam dados da DECam. O NOAO/CTIO tem interesse em garantir o suporte do QR através do LIneA, de forma independente do DES. [5, 6]

Além da instância de desenvolvimento no LIneA, está prevista a instalação do portal no site de P&D do LNCC e no CEFET para testar soluções como o banco de dados paralelo QServ desenvolvido pelo LSST usando dados do DES. [7]

Atualmente, o portal de produção opera no Fermilab/EUA onde a colaboração do DES tem acesso de forma integrada aos resultados do QR, aos releases de dados e a ferramentas de visualização e data mining.

O LIneA também assumiu compromisso com o National Center for Supercomputing Applications (NCSA) para validação dos releases anuais do DES [8]. A instalação Portal Científico no NCSA está em negociação e preve a integração com o banco de dados do DES para agilizar a etapa de validação dos releases que deve ocorrer de forma regular nos próximos 6 anos.

A manutenção do Portal Científico em diferentes sites mostra a complexidade da operação do LIneA e a necessidade de recursos alocados especificamente para o seu gerenciamento.

Embora o desenvolvimento do Portal Científico tenha sido motivado pelas necessidades do DES a infraestrutura é genécia e adaptável a outros projetos. O conhecimento acumulado pela equipe de TI do LIneA permite alavancar o desenvolvimento de soluções para outros levantamentos como SOAR, OPD atendendo necessidades locais. [9,10]

Demos

Infraestrutura disponível

O LIneA mantém atualmente um centro de dados para as atividades associadas ao DES e SDSS­III que inclui transferência, armazenamento, processamento e distribuição de dados, desenvolvimento de software, operação do Portal Científico e Helpdesk.

Atualmente o centro de dados do LineA conta com cerca de 90 equipamentos (incluindo servidores, acks, switches, no­breaks) e 22 serviços necessários para a operação do laboratório.

LIneADataCenterInfrastructure

Figura 3 – ­ Equipamentos do centro de dados do LIneA

A figura 3 mostra a infraestrutura disponível no centro de dados do LIneA de onde destacamos:

  • arquitetura DMZ para transferência de dados com taxa de transferência media de ~250 Mbps entre os principais parceiros internacionais desenvolvida em conjunto com a RNP;
  • banco de dados do SDSS­III disponibilizando os releases DR8, DR9 e DR10 para o público geral através dos serviços Skyserver e CASJobs. Este é um importante acervo, cujos dados tem sido usados em pesquisas nas mais diversas áreas da astronomia [11];
  • banco de dados do DES PostreSQL + PGpool­II com replicação da base de dados para balanceamento de carga em dois servidores;
  • sistema de armazenamento (500 TB);
  • cluster SGI (500 núcleos) dedicado ao processamento do Portal Científico;
  • cluster para alto desempenho de I/O durante o processamento (LustreFS);
  • servidor de desenvolvimento e respositórios de código;
  • cluster de VMs para hospedagem dos serviços.

Com base nos testes de performance apresentados no documento Science Portal Technical Readiness for Y1A1[12] identificamos limitações na infraestrutura atual e planejamos a compra de mais equipamentos com o seguinte objetivo:

  • aumentar a capacidade de processamento aumentando o número de núcleos e desta forma a paralelização de processos;
  • aumentar a capacidade de armazenamento e redundância, para evitar sérias paralisações que podem compremeter as atividades de pesquisa;
  • melhorar o desempenho do banco de dados.

Além dos equipamentos disponíveis no centro de dados, no site de P&D do LIneA no LNCC são estudadas solução de banco de dados e workflows científicos. A UNESP conta com facilidades como o gridUNESP que será usado para cálculos de alto desempenho em Cosmologia. O CEFET­RJ conta com um cluster de 360 cores que será usado para testes de workflows científicos.

Referências

[1] Resultado do review do Portal Científico em Out 2010 no Fermilab/EUA
[2] Resultado do review do Portal Científico em Out 2011 na UPenn/EUA
[3] Resultado do review do Portal Científico em Jul 2013 no Fermilab/EUA
[4] Resultado do review do Portal Científico em Nov 2013 no Fermilab/EUA
[5] Carta de apoio do NOAO ao Quick Reduce
[6] Carta de apoio do AURA ao Quick Reduce
[7] Carta de interesse em cooperação técnica LSST-LIneA
[8] Carta de interesse do NCSA nas ferramentas de validação do LIneA
[9] Carta de interesse em colaboração LNA
[10] Carta de apoio do Observatório do Valongo ao LIneA
[11] Carta de interesse do SDSS-III em manter o mirror site no LIneA
[12] Science Portal Technical Readiness for Y1A1

Deixe um comentário