Como a ciência de edifícios em chamas abre caminho para avanços em IA
Por trás dos criadores: Rajiv Mongia e a equipe térmica da Intel estão ultrapassando os limites para manter o calor longe da Lei de Moore e dos grandes chips de IA, que estão ficando cada vez maiores e mais poderosos.
Por trás dos criadores: Rajiv Mongia e a equipe térmica da Intel estão ultrapassando os limites para manter o calor longe da Lei de Moore e dos grandes chips de IA, que estão ficando cada vez maiores e mais poderosos.
“IA já está causando estragos nos sistemas de energia global”, destacou a Bloomberg no verão passado. E não dá sinais de desaceleração.
Um relatório recente da Agência Internacional de Energia previu que “o consumo de eletricidade por data centers deve mais que dobrar, chegando a cerca de 945 TWh até 2030”, impulsionado pela IA. Isso equivale, aproximadamente, à necessidade de energia gerada por mais cinco Represas das Três Gargantas da China nos próximos cinco anos.
Essa energia é necessária não apenas para operar frotas de computadores potentes, mas também para evitar o superaquecimento. GPUs e aceleradores que preenchem os data centers de IA atuais podem gerar bem mais de 1 quilowatt de calor cada. Os únicos dispositivos de consumo com esse nível de potência são, literalmente, aquecedores – aquecedores de ambiente, secadores de cabelo, micro-ondas ou chaleiras elétricas turbinadas.
E os chips de IA de alta potência vão continuar ficando maiores e mais quentes. “À medida que atingirmos 1 trilhão de transistores em uma GPU e dois a três quilowatts de potência até 2030”, diz Rajiv Mongia, da Intel, “vai ser bem divertido resolver o problema térmico”.
Como resolver esse dilema energético e desbloquear o futuro potencial da IA? A resposta de Mongia para seu “problema divertido” é resfriar os chips de IA de maneiras que – e aqui parece alquimia – aumentem o desempenho e economizem energia ao mesmo tempo.
Uma carreira mantendo o calor longe da Lei de Moore
Mongia é engenheiro principal sênior e líder do Grupo de Competência Central Térmica na divisão de Desenvolvimento de Tecnologia de Teste e Montagem (ATTD) da Intel Foundry. Essa equipe “garante que a questão térmica não atrapalhe a Lei de Moore”, explica.
Em outras palavras, a ATTD cria novas formas de combinar cada vez mais pastilhas de silício em pacotes mais rápidos e avançados para a Intel e seus clientes de fundição, e Mongia e sua equipe encontram maneiras de gerenciar o calor resultante.
Antes de ingressar na Intel, Mongia trabalhou com pequenas turbinas a gás (transformando calor em eletricidade) e como consultor em análise de falhas (focado em incêndios e explosões), incluindo o estudo do colapso das torres do World Trade Center em 11 de setembro de 2001. “Decidi que já tinha tido mortes e destruição o suficiente – queria criar algo”, reflete, e entrou na Intel inicialmente para tornar os laptops mais confortáveis para uso no colo.
Ele passou a maior parte dos últimos 22 anos dedicado à missão de manter a Lei de Moore resfriada, com desvios para ajudar a construir câmeras Intel RealSense e para apoiar a incursão da Intel no mercado maker em meados da década de 2010.
“Estive em praticamente todas as grandes funções térmicas da Intel de alguma forma”, diz Mongia. Pode parecer uma mudança estranha sair de edifícios em chamas para chips frios, mas “são as mesmas equações – há diferentes condições de contorno, mas ainda são mecânica dos fluidos, termodinâmica e transferência de calor”.
Mongia aceitou cargos “menos térmicos” porque achava que “a área térmica já não era mais tão desafiadora de se resolver. Para mim, tudo se resume a ter um problema interessante para solucionar e a capacidade de tentar fazer a diferença de alguma forma”.
O próximo desafio térmico: resfriando pacotes empilhados com múltiplos chips
Com a ascensão da IA e a crescente ubiquidade de pacotes com múltiplos chips – onde várias ou até dezenas de pastilhas de silício são combinadas em um único dispositivo – o desafio térmico está de volta.
“Agora parece que esse problema térmico está ficando bem complexo”, diz Mongia. “Há muito o que podemos fazer aqui.”
O cardápio de soluções começa com a integração antecipada de considerações térmicas nos projetos de chips. “Reestruturamos nosso fluxo de ferramentas para realizar muito trabalho de co-projeto mais cedo”, explica Mongia, como a realização de quase 100.000 simulações térmicas por mês.
Sua equipe desenvolveu o que se tornou o padrão da indústria para modelagem térmica da memória de alta largura de banda empilhada (HBM), e agora aplica abordagens semelhantes para empilhar todos os tipos de chips. “Quando se tem múltiplas pilhas e alta potência, torna-se ainda mais importante compreender com precisão as características térmicas dos materiais.”
Em um exemplo recente, a equipe térmica salvou um projeto da Intel para um chip de cliente sensível à temperatura depois que o design inicial ficou quente demais. Em duas semanas, a equipe interdepartamental modelou centenas de opções de design diferentes, reformulou completamente a distribuição de propriedade intelectual (IP) de silício e o layout multichip, e acabou com um projeto que superou as especificações.
“O que as pessoas esquecem é como tudo é interdependente, desde o silício até o sistema completo, para garantir a co-otimização em todo esse espectro”, observa Mongia. Por mais contraintuitivo que pareça, “eu poderia até aumentar a potência de uma peça e torná-la mais fácil de resfriar”.
Trocando tampas metálicas por placas líquidas – e outras soluções ‘exóticas’
O restante do cardápio térmico inclui um conjunto crescente de tecnologias para melhorar diretamente o processo de resfriamento.
Como, por exemplo, substituir o dissipador de calor padrão ou tampa metálica que cobre os chips por algo que Mongia chama de “placa fria integrada” – basicamente um pequeno radiador com dezenas de aletas internas e líquido circulando por dentro.
Testes iniciais sugerem que uma grande GPU com uma placa fria integrada pode operar até 20% mais fria (e, portanto, 15% mais rápida) em comparação com uma com placa fria convencional – uma melhoria significativa que está chamando atenção de potenciais clientes da fundição, diz Mongia.
Além disso, “as coisas estão ficando bem exóticas”, afirma. “Estamos investigando como levar líquido para dentro da própria pilha de silício.” Imagine líquido não apenas na tampa, mas circulando dentro da pilha 3D de silício. Que incrível seria isso?
Sobre Rajiv Mongia: o criador em resumo Local: Hillsboro, Oregon Cargo: Engenheiro principal sênior Equipe: Grupo de Competência Térmica Central, Desenvolvimento de Tecnologia de Teste e Montagem Anos na Intel: 21 Habilidade mais importante: “Estar confortável com o desconforto e desafiar o que nos fez bem-sucedidos no passado – ter coragem de questionar o plano e o status quo.” Atividade preferida para relaxar: Passar meio dia do fim de semana fotografando vida selvagem ou paisagens noturnas. Livro atual na cabeceira: Einstein’s Fridge, de Paul Sen. “Uma história maravilhosa sobre a motivação e o desenvolvimento do campo da termodinâmica desde a revolução industrial até Stephen Hawking.” |