Resfriar um data center era um desafio mesmo antes do atual boom impulsionado pela IA na computação acelerada esquentar. Os servidores esquentam, com projetos térmicos de processadores atingindo 500 watts até 2025. Adicione GPUs à mistura, algumas das quais se aproximam de 700 W hoje, e os problemas de consumo de energia e dissipação de calor começam a se expandir exponencialmente. As tecnologias de resfriamento tradicionais limitam a capacidade de uma organização de TI de implantar soluções. Isso impacta o negócio.
Esse impacto vai além do simples aumento da densidade de computação em um rack; pode impactar fundamentalmente o resultado final. Os analistas estimam que os data centers, globalmente, respondem por 1,5 a 2% do consumo mundial de energia. Essa é uma pegada de carbono significativa pendurada no pescoço das empresas, quase todas com metas de sustentabilidade. Além da sustentabilidade, no entanto, há custos. Até 40% do uso de energia de um data center está diretamente relacionado ao resfriamento. É uma conta pesada para pagar.
ANÚNCIO
O Departamento de Energia dos Estados Unidos, por meio de seus esforços da Agência de Projetos de Pesquisa Avançada-Energia (ARPA-E), anunciou seu programa COOLERCHIPS no final do ano passado para resolver o problema de resfriamento do data center. No mês passado, a agência concedeu doações totalizando US$ 40 milhões a 15 organizações.
Cada beneficiário do subsídio está buscando uma nova abordagem para resolver o problema de resfriamento do data center. As doações variaram em tamanho de US$ 1,2 milhão a US$ 5 milhões. A NVIDIA ganhou a maior dessas doações, US$ 5 milhões, para buscar uma combinação única de conceitos que prometem abordar o resfriamento dentro do chassi de um computador.
NVIDIA, a empresa de infraestrutura de data center
Não é nenhuma surpresa que a NVIDIA esteja interessada em resfriamento de data center. Seu CEO, Jensen Huang, fala frequentemente sobre a NVIDIA se tornar uma empresa de data center, postulando que o data center é o nova computação unidade. Esta não é apenas uma linguagem visionária; A NVIDIA tem reunido (e adquirido) agressivamente quase todos os elementos tecnológicos necessários para oferecer essa visão.
ANÚNCIO
Os esforços da NVIDIA estão valendo a pena. é mais recente ganhos revelou que seus negócios de data center respondem por mais de 68% de sua receita total, gerando $ 4,3 bilhões no primeiro trimestre de 2023. O atual boom na infraestrutura relacionada à IA, juntamente com a NVIDIA trazendo vários novos produtos relevantes para o mercado, fez com que a empresa previsão de crescimento não linear no curto prazo.
A abordagem tradicional da NVIDIA para fornecer computação acelerada tem sido por meio de um modelo de cartão adicional tradicional, com GPUs NVIDIA e produtos de rede acelerada vendidos independentemente e montados em um servidor construído por outra pessoa. A NVIDIA expandiu esse modelo quando introduziu seu sistema DGX em 2018. DGX é uma solução de computação acelerada pronta para uso de IA. No entanto, DGX foi apenas o começo, pois a empresa continua a aumentar seus esforços em nível de sistema.
No último trimestre, no entanto, a NVIDIA anunciou outras soluções prontas para uso em nível de plataforma, incluindo sua nova DGX Cloud para hiperescaladores e sua próxima OmniVerse Cloud. A refrigeração desses sistemas será um desafio contínuo, mesmo com as soluções de refrigeração líquida direta se tornando populares entre os fornecedores de servidores. Resolver grandes desafios de IA requer muitos processadores quentes agrupados o mais próximo possível para atingir a densidade máxima. É um problema que precisa de solução.
ANÚNCIO
Abordagem de resfriamento híbrido da NVIDIA
A NVIDIA é extraordinariamente discreta sobre seus esforços de resfriamento, recusando vários pedidos para responder a perguntas sobre a concessão ou falar sobre o resfriamento de aceleradores de alto desempenho em geral. Mesmo assim, há informações suficientes publicamente disponíveis para entender a direção que a NVIDIA está seguindo – e é uma abordagem fascinante que se baseia em várias tecnologias de resfriamento existentes.
O aplicativo NVIDIA COOLERCHIPS descreve um sistema que combina duas abordagens comprovadas: resfriamento líquido direto (DLC) e resfriamento por imersão. O DLC é um terreno bem trilhado, com inúmeras soluções no mercado. NO ENTANTO, a abordagem DLC é limitada em sua eficácia para manter à medida que a densidade de energia aumenta.
O resfriamento por imersão, em que os componentes eletrônicos são submersos em uma dialética ou outro fluido, pode efetivamente permitir a computação de alta densidade. No entanto, as abordagens atuais de resfriamento por imersão geralmente requerem servidores submersos em grandes tanques cheios de fluido. Embora essa abordagem funcione em muitos cenários, como instalações de borda, pode ser complicada de implementar em um data center tradicional orientado a rack.
ANÚNCIO
A NVIDIA descreve sua abordagem COOLERCHIPS como uma mistura dessas tecnologias. A NVIDIA usará DLC tradicional anexado às CPUs e aceleradores do sistema, além de preencher o chassi com fluido que transforma o servidor em um tanque de imersão. Isso permite que as zonas de temperatura dentro do sistema sejam gerenciadas de forma independente, tudo dentro de uma única solução que vive em um rack tradicional.
A NVIDIA não está realizando esse projeto sozinha, mas aproveitando a experiência de sete parceiros de tecnologia e pesquisa. A equipe interna da NVIDIA de cerca de uma dúzia de engenheiros está trabalhando com a BOYD Corporation para sua tecnologia de placa fria, Durbin Group para o sistema de bombeamento, Honeywell para ajudar a selecionar fluidos e Vertiv Corporation para sua tecnologia de rejeição de calor. Além disso, a empresa está usando as universidades de Binghamton e Villanova para ajudar na análise, teste e simulação, enquanto também trabalha com o Sandia National Laboratory para avaliação de confiabilidade.
ANÚNCIO
NVIDIA disse em um postagem no blog que seu projeto COOLERCHIPS alcançará três marcos anuais. O primeiro ano verá os testes de componentes concluídos. No ano seguinte, um rack parcial será avaliado, com uma solução totalmente testada no sistema pronta no final do terceiro.
Comentário do Analista
É necessário encontrar novas abordagens para resfriar o data center habilitado para IA rico em aceleradores. As práticas atuais levam a complexidades operacionais genuínas, adicionando custos que podem impactar dramaticamente os resultados de uma empresa. Portanto, solucionar os desafios de resfriamento do datacenter é fundamental para o futuro da computação acelerada.
A NVIDIA está longe de ser a única a explorar soluções inovadoras para os desafios de resfriamento de data centers. O Open Compute Project (OCP) há muito tem um grupo de trabalho focado na tecnologia de refrigeração, com várias ramificações interessantes surgindo. Cada OEM de servidor de nível um oferece alguma variante de uma solução de refrigeração líquida em nível de rack. E há vários jogadores focados em resfriamento de imersão monofásico e bifásico.
ANÚNCIO
No entanto, a NVIDIA está quase sozinha entre seus pares em busca de novas soluções de resfriamento. Enquanto a Intel Corporation é explorando várias abordagens, incluindo resfriamento por imersão em líquido, a empresa cancelado a instalação de pesquisa de refrigeração líquida de $ 700 milhões que planejava construir em Oregon no início deste ano.
A NVIDIA e os outros beneficiários do COOLERCHIPS entendem que as soluções atuais para os desafios de resfriamento do data center são limitadas, fornecendo, na melhor das hipóteses, uma solução paliativa. A abordagem COOLERCHIPS da NVIDIA combina elementos de abordagens de resfriamento eficazes conhecidas, como resfriamento líquido direto, com uma nova abordagem interessante para resfriamento por imersão.
Se a NVIDIA puder oferecer uma solução que acompanhe o aumento das densidades de energia sem forçar os arquitetos de TI a repensar a infraestrutura, a empresa vencerá. Estou ansioso para ver o que a NVIDIA e seus parceiros COOLERCHIPS entregam. Assim como muitos arquitetos de data centers.
ANÚNCIO
Divulgação: Steve McDowell é um analista do setor e a NAND Research é uma empresa de análise do setor que se envolve ou se envolveu em pesquisa, análise e serviços de consultoria com muitas empresas de tecnologia, que podem incluir as mencionadas neste artigo. O Sr. McDowell não possui nenhuma posição acionária em nenhuma das empresas mencionadas neste artigo.