Início Tecnologia A Apple mostra o quão mais rápido o M5 executa LLMs locais...

A Apple mostra o quão mais rápido o M5 executa LLMs locais em comparação com o M4

18
0
A coisa mais impressionante sobre o chip M5 não é encontrada dentro do MacBook Pro | Layout do chip M5 mostrado no gráfico da Apple

Uma nova postagem no blog Machine Learning Research da Apple mostra o quanto o silício M5 da Apple melhorou em relação ao M4 quando se trata de executar um LLM local. Aqui estão os detalhes.

Um pouco de contexto

Há alguns anos, a Apple lançou o MLX, que a empresa descreve como “uma estrutura de array para aprendizado de máquina eficiente e flexível no silício da Apple”.

Na prática, o MLX é uma estrutura de código aberto que ajuda os desenvolvedores a construir e executar modelos de aprendizado de máquina nativamente em seus Macs Apple Silicon, com suporte de APIs e interfaces familiares ao mundo da IA.

Aqui está a Apple novamente no MLX:

MLX é uma estrutura de array de código aberto eficiente, flexível e altamente ajustada para silício da Apple. Você pode usar o MLX para uma ampla variedade de aplicações, desde simulações numéricas e computação científica até aprendizado de máquina. O MLX vem com suporte integrado para treinamento e inferência de redes neurais, incluindo geração de texto e imagem. O MLX facilita a geração de texto ou o ajuste fino de modelos de linguagem grandes em dispositivos Apple Silicon.

MLX aproveita a arquitetura de memória unificada do silício da Apple. As operações no MLX podem ser executadas na CPU ou na GPU sem a necessidade de movimentação de memória. A API segue de perto o NumPy e é familiar e flexível. O MLX também possui pacotes de redes neurais e otimizadores de nível superior, juntamente com transformações de funções para diferenciação automática e otimização de gráficos.

Um dos pacotes MLX disponíveis hoje é o MLX LM, que se destina à geração de texto e ao ajuste fino de modelos de linguagem em Macs Apple Silicon.

Com o MLX LM, desenvolvedores e usuários podem baixar a maioria dos modelos disponíveis no Hugging Face e executá-los localmente.

Essa estrutura ainda oferece suporte à quantização, que é um método de compactação que permite que modelos grandes sejam executados usando menos memória. Isso leva a uma inferência mais rápida, que é basicamente a etapa durante a qual o modelo produz uma resposta a uma entrada ou prompt.

M5 x M4

Em sua postagem no blog, a Apple mostra os ganhos de desempenho de inferência do novo chip M5, graças aos novos aceleradores neurais de GPU do chip, que a Apple diz “fornecem operações dedicadas de multiplicação de matrizes, que são críticas para muitas cargas de trabalho de aprendizado de máquina”.

Para ilustrar os ganhos de desempenho, a Apple comparou o tempo que vários modelos abertos levaram para gerar o primeiro token após receber um prompt em um MacBook Pro M4 e M5, usando MLX LM.

Ou, como disse a Apple:

Avaliamos Qwen 1.7B e 8B, na precisão BF16 nativa, e modelos Qwen 8B e Qwen 14B quantizados de 4 bits. Além disso, comparamos dois Mixture of Experts (MoE): Qwen 30B (parâmetros ativos de 3B, quantizados de 4 bits) e GPT OSS 20B (em precisão MXFP4 nativa). A avaliação é realizada com mlx_lm.generate e relatada em termos de tempo para a primeira geração de token (em segundos) e velocidade de geração (em termos de token/s). Em todos esses benchmarks, o tamanho do prompt é 4.096. A velocidade de geração foi avaliada ao gerar 128 tokens adicionais.

Estes foram os resultados:

Um detalhe importante aqui é que a inferência LLM adota abordagens diferentes para gerar o primeiro token, em comparação com como funciona nos bastidores para gerar tokens subsequentes. Resumindo, a primeira inferência de token é vinculada à computação, enquanto a geração subsequente de token é vinculada à memória.

É por isso que a Apple também avaliou a velocidade de geração de 128 tokens adicionais, conforme descrito acima. E, em geral, o M5 mostrou um aumento de desempenho de 19 a 27% em comparação com o M4.

Aqui está a Apple sobre esses resultados:

Nas arquiteturas que testamos neste post, o M5 oferece aumento de desempenho de 19-27% em comparação com o M4, graças à sua maior largura de banda de memória (120GB/s para o M4, 153GB/s para o M5, que é 28% maior). Em relação ao consumo de memória, o MacBook Pro de 24 GB pode facilmente conter 8B com precisão BF16 ou 30B MoE quantizado de 4 bits, mantendo a carga de trabalho de inferência abaixo de 18 GB para ambas as arquiteturas.

A Apple também comparou a diferença de desempenho para geração de imagens e disse que o M5 fez o trabalho 3,8x mais rápido que o M4.

Você pode ler a postagem completa do blog da Apple aqui e aprender mais sobre o MLX aqui.

Ofertas de acessórios na Amazon

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.

Fuente