Eu uso o Ollama para executar LLMs nativos no meu Mac e funciona muito bem. No entanto, o desempenho geral do meu Mac foi prejudicado porque os LLMs locais consomem muitos recursos. Eu tenho um MacBook Air M5 com 16 GB de RAM. Pode não ser a máquina mais poderosa para tal carga de trabalho, mas tem sido boa o suficiente para executar modelos com menos de 7 bilhões de parâmetros.
Isso mudou completamente depois que atualizei para o novo mecanismo MLX da Ollam. Vejo melhorias significativas de desempenho. Tudo parece muito mais responsivo e a inferência agora é quase duas vezes mais rápida.
Se você já executa LLMs nativos no Mac com Ollama, esta é uma das maiores inovações desde que o Apple Silicon se tornou uma plataforma de inferência séria. O mecanismo MLX mais recente altera a representação do modelo, o uso de memória e o cache dos fluxos de trabalho dos agentes, o que também afeta bastante os auxiliares de codificação, como Claude Code, OpenClaw, Aider e outras configurações multiagentes.
Finalmente encontrei um LLM local que realmente quero usar para codificação
O Qwen3-Coder-Next é um ótimo modelo e fica ainda melhor com Claude Code como arnês.
O mecanismo MLX finalmente faz melhor uso do Apple Silicon
Faz excelente uso do Apple Silicon
A maioria dos usuários locais do LLM já sabe que o Apple Silicon tem um desempenho surpreendentemente bom, apesar de ter um hardware relativamente modesto. Meu MacBook Air M5 com 16 GB de RAM lidou com modelos menores sem muitos problemas, mas a experiência sempre trazia desvantagens. A execução do modelo nativo muitas vezes tornava todo o resto do sistema mais lento.
O novo mecanismo MLX da Ollama muda isso, dependendo muito mais do sistema MLX da própria Apple e da arquitetura de memória unificada. Como você sabe, o Apple Silicon permite que CPU e GPU compartilhem o mesmo pool de memória em vez de tratá-los como peças de hardware separadas. O mecanismo atualizado faz um uso muito melhor desse design, reduzindo movimentos desnecessários de memória durante a inferência.
As melhorias vão além de um melhor gerenciamento de memória. Ollama agora combina múltiplas operações de GPU em núcleos metálicos maiores usando o compilador em tempo real MLX, reduzindo custos de inferência. O mecanismo também melhora a amostragem assistida por GPU, permitindo que os marcadores sejam gerados muito mais rápido do que antes. Ollama afirma que o mecanismo atualizado pode fornecer velocidade de saída cerca de 20% maior do que a implementação Q4_K_M anterior, o que está de acordo com o que observei durante o uso diário.
Meu fluxo de trabalho nunca envolve a execução de grandes benchmarks. Normalmente passo meu tempo fazendo perguntas de programação, gerando scripts ou testando ideias de automação. Essas cargas de trabalho consistem em muitas solicitações curtas ao longo do dia, cada uma delas agora parece mais responsiva.
Modelos menores agora fornecem melhores respostas
Finalmente
As melhorias de desempenho tendem a receber mais atenção, mas acho que as melhorias de qualidade são igualmente importantes. O mecanismo MLX atualizado da Ollam agora suporta o formato de quantização NVFP4 otimizado para modelo da NVIDIA. A quantização reduz a memória necessária para executar o modelo, mas também remove algumas informações dos pesos originais. O menor uso de memória geralmente ocorre às custas de menor qualidade de saída.
O NVFP4 reduz significativamente esta compensação. De acordo com as medições do próprio Ollam com o Gemma 4 12B, o novo formato reduz a perda de qualidade pela metade em comparação com o formato Q4_K_M amplamente utilizado, enquanto mantém requisitos de memória semelhantes. O benchmark mostra menos confusão do que Q4_K_M, o que no geral indica que o modelo tem um desempenho muito mais próximo da versão original do BF16.
Meu Mac não suporta confortavelmente modelos muito grandes, então passo a maior parte do tempo usando modelos menores. Uma melhor quantização permite que modelos menores produzam resultados mais fortes sem a necessidade de hardware adicional. Esta é uma atualização importante para quem usa um MacBook Air ou outro sistema Apple Silicon com memória limitada.
Agora percebo que o código gerado segue as instruções de forma mais consistente e que prompts adicionais exigem menos correções do que antes. As respostas permanecem consistentes mesmo durante conversas mais longas, reduzindo o tempo gasto na reescrita de solicitações.
Os agentes de codificação oferecem um benefício ainda maior
Ollama transformou os fluxos de trabalho dos agentes
O recurso que mais me surpreendeu não tem nada a ver com a velocidade de inferência bruta. Ollama também redesenhou a forma como seu mecanismo MLX lida com o estado do modelo em cache durante os fluxos de trabalho dos agentes. Isso é muito importante porque os auxiliares de codificação enviam constantemente grandes quantidades de contexto de volta ao modelo. Cada chamada de ferramenta inclui um prompt do sistema, definições de ferramentas, histórico de conversas anteriores e arquivos carregados recentemente.
O cache de prefixo tradicional funciona somente quando cada solicitação continua diretamente da anterior. Os agentes de codificação modernos raramente fazem isso, pois muitas vezes se ramificam em subagentes, repetem solicitações com falha ou removem tokens de argumento da conversa visível. Essas alterações geralmente fazem com que o modelo reprocesse o mesmo contexto, embora a maior parte dele nunca mude.
Ollama resolve esse problema com um novo sistema de snapshots. Em vez de depender inteiramente de um cache de prefixo, o mecanismo armazena estados de modelo reutilizáveis em pontos importantes da conversa. Sessões individuais de agentes podem ser reiniciadas a partir desses estados salvos, em vez de reconstruir tudo do zero. Os modelos de pensamento também se beneficiam porque os instantâneos preservam um estado útil antes que os tokens de raciocínio desapareçam do histórico de conversas.
Ollama está muito melhor agora
A nova atualização melhora tudo o que você usa LLMs nativos, seja conversando com um modelo ou usando-o como assistente de codificação. Meus fluxos de trabalho nativos parecem muito mais rápidos porque chamadas repetidas de ferramentas não gastam mais tanto tempo atualizando o contexto. Tempos de resposta mais rápidos combinados com melhor qualidade de saída tornam o novo mecanismo MLX uma das atualizações mais valiosas que fiz em uma configuração de IA nativa.
Ollama ainda é a maneira mais fácil de iniciar LLMs locais, mas a pior maneira de mantê-los funcionando
Ollama é ótimo para começar… só não perca tempo.







