Infraestrutura
O LIneA mantém atualmente um centro de dados multi-usuário dedicado as atividades associadas aos levantamentos DES e SDSS que incluem transferência, armazenamento, processamento e distribuição de dados, desenvolvimento de software, operação do Portal Científico e serviço de Helpdesk.
Atualmente o centro de dados do LIneA conta com cerca de 90 equipamentos (incluindo servidores, racks, switches, nobreaks) e 22 serviços necessários para a operação do laboratório.
A Figura 1 mostra a infraestrutura disponível no centro de dados do LIneA de onde destacamos:
- arquitetura DMZ para transferência de dados com taxa de transferência média de ~250 Mbps entre os principais parceiros internacionais desenvolvida em conjunto com a RNP;
- banco de dados do SDSS-III disponibilizando os releases DR8, DR9 e DR10 para o público geral através dos serviços Skyserver e CASJobs. Este é um importante acervo, cujos dados tem sido usados em pesquisas nas mais diversas áreas da astronomia;
- banco de dados do DES PostreSQL + PGpoolII com replicação da base de dados para balanceamento de carga em dois servidores;
- sistema de armazenamento (500 TB);
- cluster SGI (1000 núcleos) dedicado ao processamento do Portal Científico;
- cluster para alto desempenho de I/O durante o processamento (LustreFS);
- servidor de desenvolvimento e repositório de códigos;
- cluster de VMs para hospedagem dos serviços.
Em 2015 a infraestrutura sofreu algumas importantes modificações, entre as quais:
- Para último conjunto de dados do SDSS-III liberado em 07/2015 foi montado um novo esquema (ver notícia) baseado na aquisição de um servidor de grande capacidade de armazenamento interno evitando desta forma a dependência da rede na solução adotada anteriormente. Esta mudança teve um impacto importante no desempenho. O objetivo final é emular a infraestrutura disponível em Johns Hopkins University onde são usados quatro servidores para cada conjunto de dados.
- A solução PGpool utlizada apara armazenar o banco de dados de catálogos do projeto DES também foi substituída por apenas um servidor;
- Ao lustre foi adicionado mais um servidor;
- Um novo servidor foi disponibilizado para uso na transferência de dados;
Plano de Crescimento
Com base nos testes de desempenho do portal científico realizados com dados do primeiro ano do DES identificamos as seguintes necessidades:
- ampliar a capacidade de processamento aumentando o número de núcleos e desta forma a paralelização de processos;
- aumentar a capacidade de armazenamento e redundância, para evitar sérias paralisações que podem comprometer as atividades de pesquisa;
- melhorar o desempenho do banco de dados;
Além disso devemos atender as crescentes demandas de processamento e armazenamento devido:
- A entrada de novos usuários e de novos projetos.
- Ao fato que o levantamento DES, já se encontrar no seu terceiro ano de observações, cobrindo a área total prevista de 5.000 graus quadrados, e o SDSS-IV em seu segundo ano.
- Ao início da participação brasileira no projeto LSST envolvendo análise de simulações cobrindo 20.000 graus quadrados, e redução de dados com algoritmos desenvolvidos pelo LSST.
- A necessidade de se criar um Centro Regional de Dados para o projeto LSST até 2020, o que será feito com o apoio do LNA, LNCC e RNP, fundamental para permitir a eficiente participação brasileira na exploração científica dos dados do LSST.
- Aos compromisso internacionais assumidos.
O LIneA, em consulta com seus colaboradores e fornecedores, desenvolveu um plano de crescimento para os próximos cinco anos. Em linhas gerais este plano prevê:
- A aquisição de um cluster de processamento com uma interface infiniband.
- A reutilização do cluster atual para a implementação de um banco de dados distribuído, um trabalho que será feito em colaboração com tecnologistas do SLAC envolvidos no projeto LSST.
- Um aumento da capacidade de armazenamento da ordem de 1 PB por ano, de forma a atingir 5 PB no início de comissionamento do LSST previsto para 2020.
- A expansão do número de servidores usados para a distribuição de dados do projeto SDSS visando aprimorar o desempenho do serviço.
- A renovação periódica das estações de trabalho sendo utilizadas pela equipe de TI.
O custo total e o perfil de gastos ao longo dos próximos anos é apresentado na tabela abaixo.
Equipamentos | I | II | III | IV | V |
---|---|---|---|---|---|
Espelho SDSS | 60 | 60 | 60 | ||
Cluster | 65 | 490 | 490 | ||
Armazenamento | 65 | 520 | 520 | 520 | 520 |
Estação de trabalho | 6 | 6 | 6 | ||
Total em 1000 US$ | 196 | 1070 | 586 | 520 | 1016 |
Além destes investimentos a equipe técnica do LIneA em colaboração com a RNP, UFCG e separadamente com o NCSA começa a explorar tecnologias para o processamento em nuvem . O domínio desta tecnologia é fundamental para viabilizar a migração do portal científico para o NCSA como previsto. Em paralelo, com o LNCC se estuda o possível uso do supercomputador Santos Dumont recentemente adquirido e sua possível integração ao modelo de operação do Centro de dados do LSST.