Início Tecnologia Ollama adota MLX para desempenho de IA mais rápido em Macs de...

Tecnologia

Ollama adota MLX para desempenho de IA mais rápido em Macs de silício da Apple

março 31, 2026

Uma das melhores ferramentas para executar modelos de IA localmente em um Mac ficou ainda melhor. Veja por que e como executá-lo.

Modelos locais de IA agora rodam mais rápido no Ollama em Macs de silício da Apple

Se você não está familiarizado com o Ollama, este é um aplicativo para Mac, Linux e Windows que permite aos usuários executar modelos de IA localmente em seus computadores.

Ao contrário de aplicativos baseados em nuvem, como o ChatGPT, cujos modelos não são executados localmente e requerem conexão com a Internet, o Ollama permite que os usuários carreguem e executem modelos diretamente em suas máquinas.

Esses modelos podem ser baixados de comunidades de código aberto, como Hugging Face, ou até mesmo diretamente do fornecedor do modelo, conforme abordamos aqui.

No entanto, executar um LLM localmente pode ser bastante desafiador, pois mesmo LLMs pequenos e leves tendem a consumir memória RAM e GPU substanciais.

Para tentar combater isso, Ollama lançou uma versão prévia (Ollama 0.19) de seu aplicativo que “agora é construído sobre a estrutura de aprendizado de máquina da Apple, MLX, para aproveitar as vantagens de sua arquitetura de memória unificada”, fazendo com que os modelos locais de IA sejam executados mais rapidamente em Macs de silício da Apple.

Aqui está Ollama:

Isso resulta em uma grande aceleração do Ollama em todos os dispositivos Apple Silicon. Nos chips M5, M5 Pro e M5 Max da Apple, Ollama aproveita os novos aceleradores neurais de GPU para acelerar o tempo até o primeiro token (TTFT) e a velocidade de geração (tokens por segundo).

Com esta atualização, Ollama diz que agora é mais rápido executar assistentes pessoais como OpenClaw, bem como agentes de codificação “como Claude Code, OpenCode ou Codex”.

A ressalva é que Ollama recomenda aos usuários “certifique-se de ter um Mac com mais de 32 GB de memória unificada”, o que pode não ser o caso atualmente para muitos usuários interessados em executar LLMs localmente.

Seja como for, para saber mais sobre Ollama, siga este link. E se quiser saber mais sobre o projeto MLX da Apple, você pode encontrar todos os detalhes aqui.