Já faz algum tempo que uso o Claude Code vinculado a um servidor LLM local e tenho certeza de que essa é a configuração a ser buscada. Você não precisa de uma caixa de IA dedicada ou de uma GPU de estação de trabalho pesada (embora eu tenha usado ambos) e mudei para servir meu LLM do meu computador para jogos.

Descobri que, para a codificação que realmente faço, não preciso de modelos grandes que sobrecarreguem até mesmo um RTX Pro 6000; Posso usar muitos modelos 4B, o que significa que meu RTX 5090 não parece mais estar aumentando ao carregar o código. E se eu precisar de algo maior, posso usar os modelos de nuvem da Nvidia ou minha assinatura Claude.

Oh sim. Sobre isso. Não vou retirar minha assinatura do Claude Max de cena. Seja o Cowork ajudando você a ajustar a configuração do seu assistente doméstico ou o Opus resolvendo problemas complexos, é muito útil. Mas sou um pouco mais cuidadoso ao dividir meus tokens em tarefas que exigem o poder dos modelos de nuvem e usar LLMs locais para todo o resto.

Adaptei o Código Claude para me interromper com sons de Warcraft e agora percebo quando termina

Trabalhe, trabalhe…

Não estou aqui para argumentar contra os modelos de Claude

Eles são bons, fim da história

Executar LLMs locais para compensar o uso de Claude foi uma jogada inteligente, mas não posso negar que os modelos de Claude são fantásticos. Opus tem sido o melhor em raciocínio entre todos os LLMs que utilizei, mesmo em modelos de outras empresas.

Modelo

Melhor para

Velocidade

Custos

Notas

Fechar trabalho 4.7

Raciocínio complexo, agentes de codificação, tarefas de longo prazo

Moderado

O mais alto

O modelo mainstream mais capaz da Antrópico.

Soneto de Claude 4.6

Trabalho geral, codificação, análise, fluxos de trabalho de negócios

Rapidamente

Médio

O melhor equilíbrio entre velocidade e inteligência.

Claude Haiku 4.5

Respostas rápidas, tarefas de alto volume, uso sensível ao custo

O mais rápido

O mais baixo

Desempenho próximo do limite pelo preço mais barato.

Sonnet é meu carro-chefe e Haiku é bom se eu quiser uma resposta rápida, mas atingo regularmente os limites diários e semanais, mesmo no plano Max. O plano de $ 100 para ser exato, embora eu tenha atualizado para o plano de $ 200 e já esteja atingindo o limite diário, especialmente com Claude Design.

SO

Windows, macOS

Preços individuais

Plano gratuito disponível; Plano Pro de US$ 17/mês


Tudo é um prego quando tudo que você tem é um martelo

Os desenvolvedores de modelos são os que mais impulsionam seus carros-chefe, porque por que não começar com os melhores? Mas você não precisa do poder desses modelos para realizar a enorme variedade de tarefas para as quais são usados. Não vou generalizar e descartar algumas porcentagens aleatórias, mas com base no meu uso pessoal, os LLMs locais melhoraram significativamente.

Eles podem estar um ano ou mais atrasados ​​na qualidade de execução de tarefas complexas, mas para coisas simples, como refatoração ou pequenas correções de bugs, eles são igualmente capazes. É incrível quando você pensa sobre isso, porque o modelo local é executado na VRAM da sua GPU (ou uma mistura de VRAM e RAM do sistema, dependendo da sua configuração), enquanto o modelo na nuvem é executado em literalmente milhares de servidores, cada um com milhares de GPUs.

Pegue Qwen3.6-27Bpor exemplo: ele pode ser alimentado por um AMD APU ou Apple Mac com 32 GB de memória unificada ou uma placa gráfica de 24 GB, no entanto possui “grande poder de codificação”. Isso era inimaginável há não muito tempo, e o tempo até o próximo salto continua a diminuir.

Finalmente encontrei um LLM local que realmente quero usar para codificação

O Qwen3-Coder-Next é um ótimo modelo e fica ainda melhor com Claude Code como arnês.

Escolha é fundamental

Você não precisa pagar por tokens se sua tarefa puder ser realizada localmente

Eu poderia usar Claude tudoe eu tenho no passado. Mas não preciso queimar marcadores agregando documentos ou mesmo selecionando conexões entre vários documentos e fornecendo uma justificativa. Isso é algo que pode ser feito em modelos 4B que rodam em sua CPU, ou mesmo em um smartphone.

A variedade de modelos também torna o campo mais interessante. Os modelos inteligentes podem “pensar” por mais tempo para compensar seu tamanho menor. Os modelos Mixture of Experts (MoE) podem parecer grandes, mas com apenas alguns bilhões de parâmetros ativos por vez, você pode executá-los em pouco hardware e ainda ter uma experiência interativa.

Também notei que Claude não é ideal para algumas tarefas. A geração de imagens até mesmo para gráficos simples está atrasada e posso usar FLUX.1.Dev ou SDXL, ou usar Qwen 2.5VL ou Llama 3.2 Vision para tarefas de design. Os modelos Deepseek são ótimos para raciocinar e também codificam bem com o Qwen Coder.

A parte final é que, ao executar vários LLMs nativos para cada caso de uso, posso executar o mesmo prompt para eles e fazer com que critiquem o trabalho uns dos outros. Descobri que ele oferece os melhores resultados mesmo com modelos modernos, e regularmente recebo o ChatGPT para conferir as criações de Claude.

Meu LLM local pode ligar para Claude quando estiver preso e isso fez toda a diferença para minha primeira configuração local.

LLMs domésticos não são muito bons por si só

A liberdade de escolher modelos melhora os fluxos de trabalho de IA

Usar modelos de fronteira para cada tarefa é um desperdício de tokens. Você não faria compras com um hipercarro, mas é isso que você faz quando pede à Opus para fazer alterações simples no código. A família de modelos Coder da Qwen é igualmente capaz de realizar a maioria das tarefas de codificação e roda em hardware muito mais acessível. E você não precisa que Claude escaneie sua caixa de entrada de e-mail e forneça um resumo, mesmo que isso facilite.

O que estou tentando enfatizar é que escolher a ferramenta certa para o trabalho é importante e se tornará ainda mais importante à medida que os custos de API e token aumentarem. Sim, aumente. As subscrições actuais são fortemente subsidiadas e penso que todos ficarão em choque quando os subsídios acabarem. Acostumar-se com as peculiaridades e a velocidade dos LLMs locais é uma jogada inteligente agora.

Link da fonte