O que é o MLPerf? Entendendo o principal benchmark da IA

Intel Xeon 6 processors deliver exceptional performance for the widest range of workloads and are engineered for efficiency and low total cost of ownership. On Feb. 24, 2025, Intel launched the Intel Xeon 6 SoCs with P-cores – more power-efficient, edge servers with Intel vRAN Boost and media acceleration, and networking built in. (Credit: Intel Corporation)
Um conjunto em constante evolução de testes de IA no mundo real impulsiona os especialistas da Intel a melhorar o desempenho, nivelar o campo de jogo e tornar a IA mais acessível para todos.
O MLPerf é o conjunto de benchmarks de IA sobre o qual você provavelmente já ouviu falar, mas talvez ainda não compreenda totalmente.
Embora eu não tenha encontrado uma definição inequívoca do nome em si - ele foi comparado ao “SPEC da aprendizagem de máquina” em sua estreia pública em maio de 2018 - meu prático assistente de IA tem uma resposta confiante. Ela diz: “O nome ‘MLPerf’ é um amálgama derivado de ‘ML’, de machine learning (aprendizado de máquina), e ‘Perf’, de performance (desempenho).”
E tem mais a dizer: “Embora não exista um relato público detalhado sobre o processo de nomeação, o nome em si é bastante descritivo e provavelmente foi escolhido por representar de forma direta o propósito dos benchmarks.” (Exatamente o tipo de resposta acolhedora que se esperaria de uma IA construída e aprimorada por pesquisadores da própria área.)
Resultados reais ilustram esse ponto: na semana passada, a Intel manteve sua posição como a única fornecedora a enviar resultados de CPUs para servidores ao MLPerf. Esses testes incluíram o desempenho em tarefas comuns de IA, como inspeção de imagens e análise de informações, utilizando os processadores Intel® Xeon® 6.
As pessoas e os processos por trás dos "playoffs" da IA
“O MLPerf é atualmente o principal benchmark para IA”, diz Ramesh Chukka, que atua no grupo de software para Data Center e IA da Intel.
Chukka representa a Intel no conselho do MLCommons, um consórcio

Sobre Ramesh Chukka: Ramesh Chukka: é gerente de engenharia de software de IA no grupo de software para Data Center e IA da Intel e membro do conselho do consórcio MLCommons.
formado no final de 2020 para expandir o esforço inicial do MLPerf com o objetivo de “promover o desenvolvimento e o acesso aos mais recentes conjuntos de dados e modelos de inteligência artificial e aprendizado de máquina, melhores práticas, benchmarks e métricas.”
MLPerf se refere a todos os benchmarks em si, que “evoluem muito rapidamente, assim como a tecnologia”, diz Chukka, cumprindo essa missão de avanço na área por meio de “protótipos rápidos de novas técnicas de IA.” Cada benchmark mede o quão rápido uma determinada tarefa de IA - dado um nível de qualidade estabelecido - pode ser concluída.
Os benchmarks são divididos em duas categorias principais: treinamento, onde os modelos de IA são construídos a partir de dados; e inferência, onde os modelos de IA são executados como aplicações. Para ilustrar com um modelo de linguagem grande (LLM): o treinamento é quando o LLM aprende a partir de um conjunto de informações, e a inferência ocorre toda vez que você pede para ele realizar alguma tarefa.
O MLCommons publica duas rodadas de resultados de benchmarks por ano para cada uma das duas categorias. Por exemplo, a Intel compartilhou recentemente resultados de treinamento em junho e resultados de inferência neste mês.
Os especialistas em IA da Intel contribuem com o MLPerf (e, portanto, com o MLCommons) desde o início. A participação da Intel sempre foi em duas frentes: ajudando a moldar e evoluir todo o esforço, e também compilando e submetendo resultados de benchmarks utilizando processadores, aceleradores e soluções Intel.
Os problemas que os benchmarks do MLPerf resolvem
Modelos de IA são programas complexos, e uma variedade ampla e crescente de computadores pode executá-los. Os benchmarks do MLPerf foram criados para permitir comparações mais precisas entre esses computadores, ao mesmo tempo em que impulsionam pesquisadores e empresas a avançarem o estado da arte.
Cada benchmark é projetado para ser o mais representativo possível de situações do mundo real, e os resultados se enquadram em uma de duas divisões. A divisão “fechada” padroniza o modelo de IA e a pilha de software, permitindo as melhores comparações de hardware entre si. Em outras palavras, cada sistema utiliza a mesma aplicação para atingir o mesmo resultado (por exemplo, uma medida de acurácia em processamento de linguagem natural).
Já a divisão “aberta” permite inovação - cada sistema deve alcançar o mesmo resultado desejado, mas pode explorar ao máximo o desempenho, utilizando os recursos e otimizações que quiser.
O que torna o MLPerf admirável é que tudo é compartilhado e os benchmarks são de código aberto. Os resultados precisam ser reproduzíveis - não pode haver mistério. Essa transparência permite comparações mais dinâmicas além da simples velocidade lado a lado, como desempenho por consumo de energia ou custo.
Como o MLPerf funciona e evolui
Como Chukka mencionou, o MLPerf mantém sua relevância em parte por estar em constante evolução e por adicionar novos benchmarks regularmente. Esse processo acontece principalmente por meio de debates e discussões abertos dentro da comunidade MLCommons, que inclui grandes empresas, startups e instituições acadêmicas.
Novos benchmarks são propostos e debatidos, e os que são aprovados precisam ter um conjunto de dados aberto para treinamento - que pode ou não já existir. Os colaboradores se voluntariam para formar equipes, desenvolver o benchmark, identificar ou coletar dados e definir um cronograma para o lançamento.
Qualquer empresa que deseje publicar resultados precisa cumprir o prazo estabelecido para a próxima rodada de lançamentos. Se perder o prazo, precisa aguardar até a rodada seguinte.
O que o mundo ganha com uma IA mais rápida e eficiente
Embora o fato de haver mais pessoas no mundo resolvendo mais problemas com o uso de semicondutores traga um benefício claro e abrangente para a Intel (sem falar em mais material para os setores de vendas e marketing), existem outros ganhos importantes com a participação da Intel no MLPerf.
A Intel está sempre contribuindo com frameworks de código aberto para IA, como o PyTorch e suas extensões. À medida que os engenheiros da Intel aprimoram esses códigos em seus esforços para acelerar os resultados no MLPerf, todos que utilizam esse tipo de IA com chips Intel acabam se beneficiando dessas melhorias - sem precisar fazer nada.
“Para novos benchmarks, estamos sempre buscando otimizações que podemos implementar”, diz Chukka, “e seguimos em busca de melhorias para as próximas submissões.”
A equipe de Chukka mobiliza colaboradores de toda a empresa para construir e aprimorar os resultados da Intel, às vezes alcançando melhorias impressionantes de uma rodada para outra (como um ganho de 80% em um benchmark de inferência de sistema de recomendação em 2024, e um aumento de 22% no benchmark do GPT-J neste mês).
Portanto, toda vez que você ouvir que a Intel publicou uma nova rodada de resultados do MLPerf, pode comemorar: diversos sistemas de IA acabaram de se tornar mais rápidos e eficientes. Talvez até o seu modelo de linguagem favorito (LLM) esteja agora respondendo de forma mais ágil e inteligente a cada novo comando.
Jeremy Schultz é redator e editor na equipe de Comunicação Global e Eventos da Intel.
O desempenho pode variar conforme o uso, configuração e outros fatores. Saiba mais em www.Intel.com/PerformanceIndex.
Os resultados de desempenho são baseados em testes realizados nas datas indicadas nas configurações e podem não refletir todas as atualizações disponíveis publicamente. Visite o https://mlcommons.org/ para mais detalhes. Nenhum produto ou componente é absolutamente seguro.