A IBM revelou detalhes da arquitetura do próximo processador IBM Telum II e acelerador IBM Spyre no Hot Chips 2024. As novas tecnologias são projetadas para escalar significativamente a capacidade de processamento nos sistemas de mainframe IBM Z de última geração, ajudando a acelerar o uso de modelos tradicionais de IA e os emergentes grandes modelos de linguagem (LLM) em conjunto, por meio de um novo método de combinação de IA.
Com muitos projetos de IA generativa alavancando grandes modelos de linguagem (LLMs) passando da prova de conceito para produção, as demandas por soluções escaláveis, seguras e com baixo consumo de energia surgiram como principais prioridades. Uma pesquisa do Morgan Stanley, publicada em agosto, projeta que as demandas de energia da IA generativa aumentarão 75% ao ano nos próximos anos, direcionando-a a consumir tanta energia em 2026 quanto a Espanha em 2022.
Muitos clientes IBM indicam que as decisões de arquitetura para suportar os modelos de base com tamanho apropriado e às abordagens híbridas por design para cargas de trabalho de IA são cada vez mais importantes.
As principais inovações apresentadas hoje incluem:
• Processador IBM Telum II: projetado para alimentar sistemas IBM Z de última geração, o novo chip IBM apresenta maior frequência, capacidade de memória, um crescimento de 40 por cento no armazenamento em cache e núcleo acelerador de IA integrado, bem como uma Unidade de Processamento de Dados (DPU) conectada de forma coerente em comparação com o chip Telum I. Espera-se que o novo processador ofereça suporte a soluções de computação corporativa para LLMs, atendendo às complexas necessidades de transações do setor.
• Unidade de aceleração de E/S: uma Unidade de Processamento de Dados (DPU) completamente nova no chip do processador Telum II foi projetada para acelerar protocolos complexos de E/S para redes e armazenamento no mainframe. A DPU simplifica operações do sistema e pode melhorar o desempenho do componente principal.
• Acelerador IBM Spyre: fornece capacidade adicional de computação de IA para complementar o processador Telum II. Trabalhando juntos, os chips Telum II e Spyre formam uma arquitetura escalável para suportar a combinação de métodos de modelagem de IA – a prática de combinar vários modelos de IA de deep learning e aprendizado de máquina com LLMs codificadores. Ao alavancar os pontos fortes de cada arquitetura modelo, a combinação de modelos pode fornecer resultados mais precisos e robustos em comparação com os modelos individuais. O chip do acelerador IBM Spyre será entregue como uma opção complementar. Cada chip do acelerador é conectado por meio de um adaptador PCIe de 75 watts e é baseado em tecnologia desenvolvida em colaboração com o IBM Research AI Hardware Center. Assim como outras placas PCIe, o acelerador Spyre é escalável para se ajustar às necessidades do cliente.
"Nosso roteiro nos posiciona para permanecer à frente das tendências tecnológicas, incluindo as crescentes demandas de IA", disse Tina Tarquinio, vice-presidente de gerenciamento de produtos IBM Z e LinuxONE. "O processador Telum II e o acelerador Spyre são construídos para entregar soluções de computação corporativa de alto desempenho, seguras e com maior eficiência de energia. Após anos de desenvolvimento, essas inovações serão introduzidas em nossa plataforma IBM Z de última geração para que os clientes possam alavancar LLMs e IA generativa em escala."
O processador Telum II e o acelerador IBM Spyre são fabricados pelo parceiro fabricação de longa data da IBM, Samsung Foundry, e construídos com base em seu nó de processamento de 5nm de alto desempenho e eficiência energética. Trabalhando em conjunto, eles oferecem suporte a uma variedade de casos de uso avançados orientados por IA, projetados para desbloquear valor de negócios e criar novas vantagens competitivas. Com os métodos combinados de IA, os clientes podem obter resultados mais rápidos e precisos em suas previsões. A energia de processamento combinada anunciada hoje irá disponibilizar uma rampa de acesso para a aplicação de casos de uso de IA generativa, como a detecção de fraudes na cobrança de seguros, a prevenção à lavagem de dinheiro e a implementação acelerada de assistentes de inteligência artificial.
O processador Telum II será o processador central que alimentará as plataformas IBM Z e IBM LinuxONE de última geração da IBM. Espera-se que o Telum II e o acelerador IBM Spyre, fornecidos por meio de placas PCIe de interface padrão de alta velocidade, estejam disponíveis para clientes IBM Z e LinuxONE em 2025.