A IA encontrou seu caminho em quase todos os fluxos de trabalho imagináveis. Grandes padrões de linguagem e imagens tornaram-se quase inseparáveis ​​da criatividade, programaçãoe trabalho baseado em investigação, e para muitos profissionais as melhorias de produtividade são tão convincentes que a sua utilização já não é obrigatória. Também é verdade que os melhores modelos líderes do Google, OpenAI e Anthropic estão entre os mais caros de operar, e usá-los no dia a dia para aumentar a produtividade rapidamente se torna um exercício de gerenciamento de recursos.

No entanto, existem alguns modelos de código aberto muito capazes disponíveis gratuitamente hoje e, embora alguns usuários tenham conseguido substituir completamente suas assinaturas pagas, descobri que há algumas compensações envolvidas quando se adota o código totalmente aberto. Na minha experiência, o ponto ideal está na abordagem híbrida. Veja como combinei o modelo premium com dois modelos de código aberto e por que a combinação funciona melhor do que usar um ou outro.

Meu LLM local pode ligar para Claude quando estiver preso e isso fez toda a diferença para minha primeira configuração local.

LLMs domésticos não são muito bons por si só

O que cada modelo faz em um fluxo de trabalho

Modelo de limite, codificador e burro de carga generativo

Se você leu meus comentários anteriores sobre fluxos de trabalho híbridos de LLM, saberá que tenho sido um forte defensor da combinação de um modelo premium com um modelo hospedado localmente. Desde então descobri o fato de que dois modelos não eram suficientes. A peça que faltava, pelo menos para o meu fluxo de trabalho, era um modelo de codificação dedicado, e é aí que o Qwen 3-Coder 30B entra em cena.

A “divisão do trabalho” é bastante simples de entender, principalmente porque se baseia nos pontos fortes individuais de cada modelo. Claude Pro, é claro, ainda é a âncora premium para tarefas que exigem raciocínio limítrofe e recursos exclusivos da plataforma (como recursos visuais e artefatos interativos) nos quais confio. Qwen 3-Coder assume a linha de codificação, lidando com os ciclos iterativos de geração de código, clichê e depuração de ida e volta que, de outra forma, consumiriam minha permissão de Claude.

Gemma 4 24B é encarregada de outras tarefas criativas, como primeiros rascunhos, sinopse, brainstorming e tudo mais. Neste ponto você deve estar se perguntando por que não uso o ChatGPT para isso. A resposta é realmente muito simples, e é o fato de que o Gemma 4 roda na mesma interface nativa do Ollama que o Qwen 3-Coder, o que significa que ambos os modelos de código aberto funcionam no mesmo fluxo de trabalho unificado. Quase não há sobreposição entre os três, o que significa que cada modelo funciona na faixa para a qual é mais adequado.

Como esses três modelos funcionam juntos

Menos como multitarefa, mais como relés

A melhor maneira de ilustrar como esse fluxo de trabalho funciona é observar a aparência de uma sessão típica. Se estou construindo um utilitário Python do zero, o primeiro lugar para começar é Gemma 4, onde descreverei o que o utilitário deve fazer, gerenciarei as expectativas iniciais, projetarei a estrutura e farei com que ele avalie as restrições e possibilidades associadas à ideia. O Gemma 4 24B é rápido, responsivo e mais leve que o 31B, o que o torna perfeitamente capaz de criar um primeiro rascunho funcional que eu possa apreciar e seguir em frente.

Qwen 3-Coder vem em seguida e insere o projeto em uma fase iterativa. Isso inclui geração de código, adição de recursos, testes e depuração. É aqui que acontecem as idas e vindas, e é também o tipo de carga de trabalho que costumava ditar meu limite de 5 horas para Claude. Qwen lida com isso localmente, e o fato de funcionar na mesma interface Ollam do Gemma 4 significa que a transição entre os dois é tão fácil quanto mudar de marcha no carro que você está dirigindo.

Claude entra no fluxo de trabalho bem no final, como uma camada de “garantia de qualidade”, o que é bastante deliberado, dada a sua função no fluxo de trabalho. Quando um projeto é funcional e precisa de um empurrão final, ajustes na GUI, correção de um bug particularmente teimoso que Qwen não consegue resolver ou tem um recurso que poderia se beneficiar de recursos visuais interativos, é hora de usar os marcadores reservados de Claude.

A instalação tem suas desvantagens

Mas os que tem são bastante gerenciáveis

A rejeição mais comum que recebi ao detalhar essa abordagem é o fato de que ela requer hardware capaz, e isso é justo. Com Qwen-3 Coder 30B e Gemma 4 localmente, você precisará de pelo menos 16 GB de VRAM para velocidades de geração confortáveis. Embora os modelos sejam gratuitos, a GPU não é, e esse é um custo que vale a pena considerar.

Há também a questão relevante da passagem de contexto. Para utilitários menores e leves, passar o bastão entre os três modelos é perfeito, mas à medida que a base de código cresce, cada transferência significa perder o histórico de conversação e o contexto que mantiveram o ritmo do projeto. Descobri que salvar um projeto resumido em um arquivo de texto é benéfico para minimizar isso, mas também é uma etapa extra exigida pelo fluxo de trabalho.

Outra crítica comum é que usar os três modelos juntos é eficaz exagerado quando o Gemma 4 24B pode lidar com a própria codificação de luz. Em alguns projetos este é definitivamente o caso, e nem todas as sessões garantirão o uso dos três modelos ao mesmo tempo. Mas se a tarefa de codificação se beneficiar de um modelo direcionado, a diferença na qualidade de saída entre Qwen e Gemma que lidam com o prompt é perceptível o suficiente para justificar a mudança, e se ambos os modelos já foram baixados para a mesma interface, o custo de manter esta opção é efetivamente zero.

Um modelo econômico que custa apenas um pouco de esforço

Infelizmente, os motivos mais comuns pelos quais os assinantes de IA na nuvem evitam modelos locais são a complexidade do processo de configuração (que muitos ainda consideram tedioso), dúvidas sobre suas capacidades e limitações de hardware que atrapalham. Na verdade, serviços como o Ollama já reduziram a configuração a alguns comandos de terminal, e ambos os modelos nativos têm variantes mais leves de Mixture-of-Experts disponíveis, o que significa que você não precisa de hardware principal para começar. Embora nenhum dos padrões que discuti substitua imediatamente sua assinatura Claude, se você usá-los junto com ela, eles garantirão que você gaste seus tokens onde eles são mais importantes e, talvez mais importante, você não perderá o ímpeto para redefinir o uso.

Link da fonte