Dado que as ferramentas de IA podem lidar com tarefas incrivelmente falsas, não há como negar que elas são uma bênção para a produtividade. Mas com quase todas as plataformas de computação em nuvem cobrando uma taxa de assinatura regular por seus serviços baseados em clanker, estamos começando a chegar ao ponto em que você poderia pagar centenas de dólares para evitar atingir os limites de taxas nas plataformas de codificação.

Na verdade, o uso massivamente limitado de tokens nas versões gratuitas do Cursor e do Antigravity me fez evitar suas ofertas, já que os tempos limite deste último, em particular, são um grande obstáculo para projetos nos quais tenho que pedir ao LLM várias vezes para obter algo significativo deles. Nesse ínterim, comecei a experimentar modelos EM e, com a extensão VS Code correta, eles substituíram completamente seus equivalentes baseados em nuvem para minhas tarefas de desenvolvedor.

Executei LLMs locais usando o iGPU mais barato da Intel e os resultados foram surpreendentemente decentes

Não é como uma GPU dedicada, mas você pode executar alguns LLMs leves com o N100.

A extensão Lama-vscode contribui para minha fuga de codificação

Combinei-o com os modelos EM que hospedo nos nós do meu laboratório doméstico

Quando entrei no LLM, optei principalmente pelos modelos 9B e 12B. E embora sejam muito bons para gerar texto OCR ou marcar meus documentos, hiperlinks e notas, estão longe de serem ideais para tarefas de codificação – e não apenas para codificação vibratória. O caso de uso mais comum para LLM em meu laboratório doméstico é consultar projetos com falha, verificar logs de terminal e verificar meu código em busca de vulnerabilidades. Modelos pequenos que caberiam em GPUs de consumo não têm o poder de computação para essas tarefas, especialmente quando comparados às potências de raciocínio que você pode usar com cursor e antigravidade.

No entanto, os modelos de mistura de especialistas invertem toda a situação. Afinal, ser capaz de hospedar modelos massivos de 35B em uma GPU VRAM fraca de 12GB sem causar um grande impacto no desempenho ou reduzir a velocidade de quantização os torna uma força a ser reconhecida. E depois de testar o GPT-OSS-20B, Gemma-4-26B-A4B e Qwen3.6-35B-A3B com minha instância do VS Code nos últimos meses, posso confirmar que eles são ótimos para tarefas de desenvolvedor, já que o Qwen3.6 se destaca contra concorrentes na nuvem.

Quanto ao meu kit de ferramentas de codificação, o VS Code – o próprio aplicativo a partir do qual o Cursor e o Antigravity são construídos – é a peça central da minha configuração. Originalmente, usei o Continue nos meus dias de Ollama, mas depois de me familiarizar com os padrões EM, mudei para o llama-vscode, que interage incrivelmente bem com as instâncias do servidor llama em execução no meu servidor Proxmox e na estação de trabalho de jogos.

Como a extensão lama-vscode aceita tudo, desde arquivos de código até documentos aleatórios, a possibilidade de minhas alucinações LLM é ainda mais reduzida. Combine-o com o LLM certo e ele poderá gerar trechos de código totalmente funcionais, enquanto seus recursos de preenchimento automático são igualmente confiáveis. No entanto, tive mais sorte com o Qwen 2.5 Coder (variantes de especificações mais baixas) como modelo de preenchimento automático, já que Qwen3.6 e Gemma 4 levarão alguns segundos para gerar o código. Mas para bate-papo ou solução de problemas simples baseados em RAG, esses LLMs geralmente fornecem resultados precisos em menos de um minuto.

Sua GPU antiga ainda pode executar grandes LLMs – você só precisa dos ajustes certos

Você pode fazer muito com esses modelos

Incluindo utilitários descobertos usando servidores MCP

Outro aspecto interessante do lama-vscode é que ele oferece suporte a fluxos de trabalho de agente, e o agente padrão é versátil o suficiente para acomodar a maioria das situações de codificação. No entanto, a verdadeira diversão começa quando você começa a criar agentes para tarefas específicas. Existe até um agente para criar outros agentes (e subagentes) e funciona bem desde que eu dê uma descrição detalhada do que quero na seção de chat.

Além disso, lama-vscode me permite ajustar vários aspectos do agente e posso escolher o número exato de ferramentas que ele possui. Falando em ferramentas, o lama-vscode funciona com servidores MCP, o que significa que posso usar meus LLMs para controlar aplicativos adicionais, em vez de depender apenas deles para tarefas de codificação.

A melhor parte? Não preciso pagar uma taxa de assinatura para esta configuração

Curiosidade: tarefas de inferência serial não consomem muita energia

Em comparação com o LLM na nuvem, que pode gerar arquivos de código inteiros em segundos, o tempo um pouco mais longo que meus modelos EM levam para responder às consultas não é ruim de forma alguma. Na verdade, eu aceitaria essa pequena desvantagem de desempenho em comparação com o esgotamento dos limites de taxas todos os dias, especialmente porque meus LLMs locais são economizados com a taxa extra de assinatura mensal.

Se você está se perguntando sobre o consumo de energia das minhas estações de trabalho de hospedagem LLM, não, meus modelos auto-hospedados mal pagam minhas contas de energia. Veja, há um grande equívoco sobre o uso de LLMs nos círculos geeks – embora os modelos de IA possam drenar uma quantidade absurda de energia durante a fase de treinamento, as tarefas de inferência são uma história completamente diferente. Quando executo tarefas executando LLM, minha GPU ganha vida por alguns segundos, processa as tarefas e volta ao modo inativo. Na verdade, a execução de servidores 24 horas por dia, 7 dias por semana, consome mais watts do que tarefas de inferência, mas já uso uma estação de trabalho para meus experimentos Proxmox e a outra como minha principal máquina de jogos/edição de vídeo/codificação.

Além disso, a vantagem da privacidade é atrair LLMs locais para meus trabalhos de laboratório doméstico, bases de código de acesso antecipado e projetos confidenciais. Na verdade, vale a pena manter minha configuração local do VS Code privada e sem assinatura pelas poucas compensações de desempenho.

Link da fonte