A Meta Platforms escolheu a NVIDIA para contribuir na construção do um sistema de pesquisa que pode ser considerado o mais poderoso até hoje. O AI Research SuperCluster (RSC) já está treinando novos modelos para avançar a Inteligência Artificial (IA). Uma vez totalmente implantado, espera-se que o RSC da Meta seja a maior instalação do cliente de sistemas NVIDIA DGX A100.
"Esperamos que o RSC nos ajude a construir sistemas de IA totalmente novos que possam, por exemplo, fornecer traduções de voz em tempo real para grandes grupos de pessoas, cada uma falando em um idioma diferente, para que possam colaborar perfeitamente em um projeto de pesquisa ou jogar um game de realidade aumentada juntos", afirma a Meta em anúncio recente.
Treinando os maiores modelos de IA
Quando o RSC estiver totalmente construído, ainda este ano, a Meta pretende usá-lo para treinar modelos de IA com mais de um trilhão de parâmetros. O sistema avançará em diversos campos como o de processamento de linguagem natural para trabalhos de identificação de conteúdo prejudicial em tempo real.
Além do desempenho em escala, a Meta cita extrema confiabilidade, segurança, privacidade e flexibilidade para lidar com "uma ampla variedade de modelos de IA" como seus principais critérios para o RSC.
O AI Research SuperCluster da Meta apresenta centenas de sistemas NVIDIA DGX vinculados a uma rede NVIDIA Quantum InfiniBand para acelerar o trabalho de suas equipes de pesquisa de IA
O novo supercomputador de IA atualmente utiliza 760 sistemas NVIDIA DGX A100 como seus nós de computação. Eles incluem um total de 6.080 GPUs NVIDIA A100 conectadas em uma rede NVIDIA Quantum 200Gb/s InfiniBand para fornecer 1.895 petaflops de desempenho TF32.
Apesar dos desafios da Covid-19, o RSC levou apenas 18 meses para passar de uma ideia no papel a um supercomputador de IA funcional, graças em parte à tecnologia NVIDIA DGX A100 na base do Meta RSC.
Ganhos de desempenho de 20 vezes
É a segunda vez que a Meta escolhe as tecnologias NVIDIA como base para sua infraestrutura de pesquisa. Em 2017, a empresa construiu a primeira geração dessa infraestrutura para pesquisa de IA com 22 mil GPUs NVIDIA V100 Tensor Core que lidam com 35 mil trabalhos de treinamento de IA por dia.
Os primeiros benchmarks da Meta mostraram que o RSC pode treinar grandes modelos de PNL três vezes mais rápido e executar trabalhos de visão computacional 20 vezes mais rápido que o sistema anterior.
Em uma segunda fase ainda este ano, a RSC expandirá para 16 mil GPUs que a Meta acredita que fornecerão cinco exaflops de desempenho de IA de precisão mista. Além disso, a Meta pretende expandir o sistema de armazenamento da RSC para fornecer até um exabyte de dados a 16 terabytes por segundo.
"Nós comemoramos mais essa parceria com a Meta em todo mundo. Será um grande desenvolvimento para toda a área tecnológica, contribuindo em vários quesitos do mercado", conta Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.