Descrição
Portal Científico desenvolvido pelo LIneA
O volume de dados sem precedentes acumulado pelos levantamentos SDSS, DES e futuramente DESI e LSST exige uma infraestrutura computacional capaz de analisar grandes volumes de dados e distribuir os resultados dessas análises de forma eficiente. Para isto, ao longo dos últimos anos, o LIneA vem atuando em duas frentes. A primeira montando um centro de dados cuja arquitetura visa atender as necessidades específicas destes projetos. A segunda desenvolvendo um portal científico que oferece os seguintes serviços:
- um repositório de códigos centralizado (git);
- manutenção de bibliotecas científicas e pacotes de software;
- instalação e verificação automatizada da qualidade dos dados;
- ferramentas para inspeção visual de imagens e catálogos associados;
- um banco de dados de catálogos astronômicos integrando dados de outros levantamentos;
- automação da criação de catálogos para análise científica;
- integração de algoritmos científicos na forma de workflows;
- interfaces para acesso uniforme aos dados, metadados e resultados.
Os algoritmos desenvolvidos pelos diferentes grupos de trabalho são mantidos em repositórios de código onde as mudanças são versionadas, permitindo a contribuição de diferentes desenvolvedores de forma organizada e garantindo que algoritmos desenvolvidos por alunos e pós-doutorandos sejam preservados. Esse aspecto é de fundamental importância para programas de longo prazo.

A Figura 1 ilustra os principais conceitos do Portal Científico:
- interoperabilidade de diferentes conjuntos de dados, como por exemplo, os oriundos de observações e simulações;
- proveniência dos dados de entrada, configuração e versão dos algoritmos utilizados em cada etapa da análise;
- validação dos resultados em cada etapa da análise;
- reprodutibilidade dos resultados;
- comunicação e compartilhamento dos resultados.
Nesse modelo, a instalação e a etapa de preparação dos dados, que representam uma fração substancial do tempo gasto na análise de dados convencional, é realizada de forma estruturada e eficiente. A base de dados centralizada e a integração dos algoritmos científicos ao portal é crucial para minimizar a movimentação de grandes volumes de dados. Os algoritmos científicos integrados ao portal se beneficiam da infra estrutura de processamento e acesso aos dados disponíveis.

Além dos algoritmos científicos, o sistema de gerenciamento de workflows e a camada de orquestração são os principais componentes de software do portal. Associados a esses componentes estão o banco de dados administrativo, o banco de dados de catálogos, o cluster de processamento e o sistema de armazenamento, como mostrado na Figura 2.
Avaliações Internacionais
O desenvolvimento do Portal Científico tem sido avaliado ao longo dos últimos anos por um painel internacional. O resultado dessa avaliação pode ser visto aqui.
Metodologia de Trabalho
O desenvolvimento de software no LIneA segue alguns conceitos das metodologias ágeis com reuniões diárias no formato stand up onde os membros dos times técnico e científico fazem um breve relato sobre as atividades e identificam interdependências nas suas tarefas. A partir de reuniões semanais por projeto, as tarefas são identificadas e planejadas ao longo de sprints. O detalhamento e acompanhamento das tarefas é feito através do software Trello e o planejamento a médio e longo prazo através da ferramenta SmartSheet. Para melhorar a comunicação entre os membros do time é utilizada a ferramenta Slack que permite canais de conversação permanentes, mensagens instantâneas, e integração com os demais softwares utilizados.
As principais áreas de desenvolvimento de software no LIneA incluem desenvolvimento web, visualização de dados, gerenciamento de dados em banco de dados relacionais e em sistema de arquivos distribuídos, processamento de dados em paralelo e desenvolvimento de workflows científicos, alem de atividades de correção de erros, testes e operação. O Vídeo 1 ilustra o desenvolvimento do portal científico no LIneA.