Como parte do acordo com o Stanford Linear Accelerator Laboratory (SLAC), o LIneA iniciou em 2021 a implantação de um centro de dados conhecido no ecossistema do projeto LSST como Independent Data Access Center (IDAC). O IDAC-Brasil fará parte de uma rede mundial formada por uma dezena de centros em todos os continentes, hospedando parte dos dados, distribuindo o acesso às ferramentas de análise e fornecendo para a colaboração mais ciclos de máquina.
Ter um IDAC no Brasil é estrategicamente importante pois facilita o acesso aos dados e à infraestrutura computacional por pesquisadores brasileiros, além de estimular o desenvolvimento local de plataformas científicas e pipelines de análise, favorecendo o intercâmbio tecnológico com os outros centros da rede.
O IDAC brasileiro será do tipo “Lite” e irá hospedar catálogos gerados a partir de imagens “co-adicionadas” cujo número de colunas, e portanto o volume, ainda a serem definidos. Além deste catálogo, está também prevista a hospedagem de outros produtos necessários para análise, como mapas de profundidade, footprint e tabelas de redshift fotométricos que serão compartilhados com a colaboração. Estas tabelas fazem parte da contribuição in-kind do LIneA para o LSST. Apesar de não ser um requisito da modalidade Lite IDAC, há possibilidade de que o IDAC Brasil também armazene as imagens FITS co-adicionadas para servir a aplicações que necessitem dessas imagens ou para oferecer localmente acesso às imagens através das ferramentas de visualização da plataforma LIneA Science Platform..
O IDAC manterá pelo menos três versões do catálogo. Duas delas com acesso restrito aos membros do LSST (a que foi liberada no ano vigente e a do ano anterior), e a terceira, que tenhar sido liberada há mais de dois anos, ficará disponível para o público em geral de acordo com as regras internas do Rubin Observatory. Os dados ficarão disponíveis de duas maneiras:
- no banco de dados para exploração através do LIneA Science Platform. Esta plataforma vai oferecer um ambiente de JupyterHub para análise dos dados, ferramentas para a visualização de imagens e catálogos, serviços de “cutout” (imagens recortadas mostrando objetos alvo) e “cross-match” (combinação cruzada entre dois catálogos que cobrem a mesma região do céu).
- em arquivos salvos em disco, seja no formato original ou no formato “hipscat” — formato desenvolvido pelo LSST Interdisciplinary Network for Collaboration and Computing (LINCC) visando a otimização do serviço de cross-match.
Além do portfólio de serviços oferecidos por um IDAC Lite definidos pelo projeto LSST, , o LIneA fará a curadoria de dados adicionais de projetos legados obtidos em diferentes comprimentos de onda. Entre eles, estarão disponíveis os catálogos do Dark Energy Survey e do Sloan Digital Sky Survey, já mantidos pelo LIneA, bem como outros de interesse da comunidade (e.g. GAIA, VISTA, 2MASS) a serem definidos através de enquetes junto a comunidade.
A infraestrutura do IDAC fará parte do centro multiusuário de e-ciência operado pelo LIneA que dará prioridade aos membros do projeto LSST em certos equipamentos adquiridos como parte do acordo com o Rubin Observatory. A infraestrutura específica do IDAC consistirá dos seguintes equipamentos:
- Banco de dados – dois servidores postgres com 500 GB de memoria e 500 TB de armazenamento e um servidor dedicado a ingestão
- Sistema de armazenamento Lustre de ~1 PB
- Sistema NAS de armazenamento de ~4 PB
- 500 cores do cluster Apollo 2000 da HPE
- Kubernetes cluster hospedando Jupyter Notebooks
Para membros do Grupo de Participação Brasileiro (BPG), o LIneA oferecerá 500 cores de processamento do cluster HPC Apollo e coordenará a submissão de propostas dando assistência técnica para o uso do Santos Dumont. O serviço de HPC poderá ser também disponibilizado para membros da comunidade em geral mediante solicitações específicas.
Para garantir a qualidade do serviço, o LIneA encomendou à RNP um plano de melhorias de sua rede externa e interna prevendo conexões de 100 Gbps. Para isso, está sendo adquirido um novo roteador, o upgrade do equipamento sendo usado para a solução DMZ para transferências internacionais, e novas switches e transceivers para a rede interna.
O IDAC manterá além do LIneA Science Platform outras plataformas, entre elas:
- PZ server
- LIneA Occultation Prediction Database
- Cluster Analysis and Visualization Service (CAnVAS)
Todas atualmente em desenvolvimento pelo time de TI do LIneA apoiado pelo INCT do e-Universo.
O início da operação do IDAC está previsto para 2026 quando os primeiros dados do levantamento estiverem disponíveis. Portanto, os próximos dois anos serão usados para a implantação gradual do centro, comissionamento usando dados de simulações, testes realizados no telescópio e treinamento da comunidade brasileira.
O IDAC está sendo implantado com o apoio da FINEP e do CNPq e Faperj através do INCT do e-Universo.