Nesta quarta-feira, 15, no Microsoft Ignite, a empresa revelou dois chips personalizados e sistemas integrados que resultaram nos projetos Microsoft Azure Maia AI Accelerator, otimizado para tarefas de inteligência artificial (IA) e IA generativa, e o Microsoft Azure Cobalt CPU, um Arm- processador baseado em dados adaptado para executar cargas de trabalho de computação de uso geral na nuvem da Microsoft.
Os chips representam a última peça do quebra-cabeça para a Microsoft fornecer sistemas de infraestrutura – que incluem tudo, desde opções de silício, software e servidores até racks e sistemas de refrigeração – que foram projetados de cima a baixo e podem ser otimizados tendo em mente as cargas de trabalho internas e dos clientes.
Os chips começarão a ser implementados no início do próximo ano nos datacenters da Microsoft, inicialmente alimentando os serviços da empresa, como o Microsoft Copilot ou o Azure OpenAI Service. Eles se juntarão a uma gama crescente de produtos de parceiros do setor para ajudar a atender à crescente demanda por poder de computação eficiente, escalável e sustentável e às necessidades dos clientes ansiosos por aproveitar as vantagens dos mais recentes avanços em nuvem e IA.
"A Microsoft está construindo a infraestrutura para apoiar a inovação em IA e estamos reimaginando todos os aspectos de nossos datacenters para atender às necessidades de nossos clientes", disse Scott Guthrie, vice-presidente executivo do Grupo Cloud + AI da Microsoft. "Na escala em que operamos, é importante otimizar e integrar todas as camadas da pilha de infraestrutura para maximizar o desempenho, diversificar nossa cadeia de fornecimento e oferecer aos clientes opções de infraestrutura."
Otimizando cada camada da pilha
Assim como construir uma casa permite controlar todas as opções e detalhes do projeto, a Microsoft vê a adição de chips próprios como uma forma de garantir que cada elemento seja adaptado para a nuvem da Microsoft e cargas de trabalho de IA. Os chips serão aninhados em placas de servidor personalizadas, colocadas em racks feitos sob medida que cabem facilmente nos datacenters existentes da Microsoft. O hardware funcionará em conjunto com o software – concebidos em conjunto para desbloquear novas capacidades e oportunidades.
O objetivo final é um sistema de hardware Azure que ofereça flexibilidade máxima e também possa ser otimizado em termos de potência, desempenho, sustentabilidade ou custo, disse Rani Borkar, vice-presidente corporativo de Sistemas e Infraestrutura de Hardware Azure (AHSI).
"O software é o nosso principal ponto forte, mas, francamente, somos uma empresa de sistemas. Na Microsoft, estamos projetando e otimizando hardware e software juntos para que um mais um seja maior que dois", disse Rani Borkar, vice-presidente corporativo de Sistemas e Infraestrutura de Hardware do Azure (AHSI) da Microsoft. "Temos visibilidade de toda a pilha e o silício é apenas um dos ingredientes."
No Microsoft Ignite, a empresa também anunciou a disponibilidade geral de um desses ingredientes principais: Azure Boost , um sistema que torna o armazenamento e a rede mais rápidos, transferindo esses processos dos servidores host para hardware e software específicos.
Para complementar os seus esforços de silício personalizado, a Microsoft também anunciou que está a expandir as parcerias da indústria para fornecer mais opções de infraestrutura aos clientes. A Microsoft lançou uma prévia da nova série de máquinas virtuais NC H100 v5 construída para GPUs NVIDIA H100 Tensor Core , oferecendo maior desempenho, confiabilidade e eficiência para treinamento de IA de médio alcance e inferência de IA generativa. A Microsoft também adicionará a mais recente GPU NVIDIA H200 Tensor Core à sua frota no próximo ano para suportar inferência de modelos maiores sem aumento na latência.
A empresa também anunciou que adicionará VMs aceleradas AMD MI300X ao Azure. As máquinas virtuais ND MI300 foram projetadas para acelerar o processamento de cargas de trabalho de IA para treinamento de modelos de IA de alto alcance e inferência generativa, e contarão com a mais recente GPU da AMD, a AMD Instinct MI300X.
"Ao adicionar silício original a um ecossistema crescente de chips e hardware de parceiros da indústria, a Microsoft poderá oferecer mais opções de preço e desempenho para seus clientes", disse Borkar.
"A obsessão pelo cliente significa que oferecemos o que há de melhor para nossos clientes, e isso significa aproveitar o que está disponível no ecossistema e também o que desenvolvemos", disse ela. "Continuaremos a trabalhar com todos os nossos parceiros para entregar ao cliente o que ele deseja."
Hardware e software em co-evolução
O novo acelerador Maia 100 AI da empresa alimentará algumas das maiores cargas de trabalho internas de IA em execução no Microsoft Azure. Além disso, a OpenAI forneceu feedback sobre o Azure Maia e os insights profundos da Microsoft sobre como as cargas de trabalho da OpenAI são executadas em infraestrutura adaptada para seus grandes modelos de linguagem estão ajudando a informar os projetos futuros da Microsoft.
"Desde a primeira parceria com a Microsoft, colaboramos para co-projetar a infraestrutura de IA do Azure em todas as camadas para nossos modelos e necessidades de treinamento sem precedentes", disse Sam Altman, CEO da OpenAI. "Ficamos entusiasmados quando a Microsoft compartilhou pela primeira vez seus designs para o chip Maia e trabalhamos juntos para refiná-lo e testá-lo com nossos modelos. A arquitetura de IA ponta a ponta do Azure, agora otimizada até o silício com Maia, abre caminho para o treinamento de modelos mais capazes e para tornar esses modelos mais baratos para nossos clientes."
O Maia 100 AI Accelerator também foi projetado especificamente para a pilha de hardware Azure, disse Brian Harry, técnico da Microsoft que lidera a equipe Azure Maia. Essa integração vertical – o alinhamento do design do chip com a infraestrutura maior de IA projetada tendo em mente as cargas de trabalho da Microsoft – pode gerar enormes ganhos em desempenho e eficiência, disse ele.
Enquanto isso, a CPU Cobalt 100 é construída na arquitetura Arm, um tipo de design de chip com eficiência energética, e otimizada para oferecer maior eficiência e desempenho em ofertas nativas da nuvem, disse Wes McCullough, vice-presidente corporativo de desenvolvimento de produtos de hardware. A escolha da tecnologia Arm foi um elemento-chave no objetivo de sustentabilidade da Microsoft. O seu objetivo é otimizar o "desempenho por watt" em todos os seus datacenters, o que essencialmente significa obter mais poder de computação para cada unidade de energia consumida.
"A arquitetura e a implementação foram projetadas tendo em mente a eficiência energética", disse ele. "Estamos fazendo o uso mais eficiente dos transistores no silício. Multiplicando esses ganhos de eficiência em servidores em todos os nossos datacenters, o resultado é um número bastante grande."
Hardware personalizado, do chip ao datacenter
Antes de 2016, a maioria das camadas da nuvem da Microsoft eram compradas imediatamente, disse Pat Stemen, gerente de programa de parceiros da equipe AHSI. Então a Microsoft começou a construir seus próprios servidores e racks de forma personalizada, reduzindo custos e proporcionando aos clientes uma experiência mais consistente. Com o tempo, o silício tornou-se a principal peça que faltava.
A capacidade de construir seu próprio silício personalizado permite que a Microsoft atinja certas qualidades e garanta que os chips tenham um desempenho ideal em suas cargas de trabalho mais importantes. Seu processo de teste inclui determinar como cada chip funcionará sob diferentes condições de frequência, temperatura e energia para desempenho máximo e, mais importante, testar cada chip nas mesmas condições e configurações que experimentaria em um datacenter da Microsoft no mundo real.
A arquitetura de silício revelada no Ignite também permite que a Microsoft não apenas melhore a eficiência do resfriamento, mas também otimize o uso de seus ativos atuais de datacenter e maximize a capacidade do servidor dentro de sua área atual, disse a empresa.
Por exemplo, não existiam racks para acomodar os requisitos exclusivos das placas para servidores Maia 100. Então a Microsoft os construiu do zero. Esses racks são mais largos do que normalmente ficam nos datacenters da empresa. Esse design expandido oferece amplo espaço para cabos de alimentação e de rede, essencial para as demandas exclusivas das cargas de trabalho de IA.
Essas tarefas de IA apresentam demandas computacionais intensivas que consomem mais energia. Os métodos tradicionais de resfriamento a ar são insuficientes para esses chips de alto desempenho. Como resultado, o arrefecimento líquido – que utiliza fluidos circulantes para dissipar o calor – surgiu como a solução preferida para estes desafios térmicos, garantindo que funcionam de forma eficiente sem sobreaquecimento.
Mas os atuais datacenters da Microsoft não foram projetados para grandes refrigeradores de líquidos. Por isso desenvolveu um "sidekick" que fica ao lado do rack Maia 100. Esses companheiros funcionam um pouco como o radiador de um carro. O líquido frio flui do companheiro para as placas frias que estão fixadas na superfície dos chips Maia 100. Cada placa possui canais através dos quais o líquido circula para absorver e transportar calor. Isso flui para o ajudante, que remove o calor do líquido e o envia de volta à prateleira para absorver mais calor, e assim por diante.
O design conjunto de rack e sidekick ressalta o valor de uma abordagem de sistemas para infraestrutura, disse McCullough. Ao controlar todas as facetas – desde o espírito de baixo consumo de energia do chip Cobalt 100 até as complexidades do resfriamento do datacenter – a Microsoft pode orquestrar uma interação harmoniosa entre cada componente, garantindo que o todo seja realmente maior do que a soma de suas partes na redução do impacto ambiental.
A Microsoft compartilhou seus aprendizados de design de seu rack personalizado com parceiros da indústria e pode usá-los independentemente do pedaço de silício contido nele, disse Stemen. "Todas as coisas que construímos, seja infraestrutura, software ou firmware, podemos aproveitar, quer implementemos nossos chips ou os de nossos parceiros da indústria", disse ele. "Essa é uma escolha que o cliente pode fazer, e estamos tentando oferecer o melhor conjunto de opções para eles, seja em termos de desempenho, custo ou qualquer outra dimensão que lhes interesse."
A Microsoft planeja expandir esse conjunto de opções no futuro; ela já está projetando versões de segunda geração da série Azure Maia AI Accelerator e da série Azure Cobalt CPU. A missão da empresa permanece clara, disse Stemen: otimizar cada camada de sua pilha tecnológica, desde o núcleo de silício até o serviço final.
"A inovação da Microsoft está indo ainda mais longe com esse trabalho de silício para garantir o futuro das cargas de trabalho de nossos clientes no Azure, priorizando desempenho, eficiência energética e custo", disse ele. "Escolhemos esta inovação intencionalmente para que nossos clientes obtenham a melhor experiência que podem ter com o Azure hoje e no futuro."