Se você tem uma GPU de consumidor comum e deseja executar um LLM nativo, há uma boa chance de você ter pensado que não funcionaria ou tentado e se esforçado. A maioria dos padrões de peso aberto maiores não funcionam, e aqueles que funcionam são tão fortemente quantizados que a ação não é muito suave. Então, modelos como o Qwen 3.5 9B começaram a chegar, e a barra para “IA nativa utilizável em hardware modesto” na verdade ficou um pouco mais baixa. Estou usando-o com 8 GB de VRAM há meses.
Mas mesmo o 9B vem com ressalvas. Freqüentemente, você usa tudo em sua GPU, então qualquer outra coisa em execução ao mesmo tempo fica comprimida e a janela de contexto permanece pequena, a menos que você faça concessões em outro lugar. Essa foi a minha situação. E então percebi uma coisa: os modelos menores, aqueles projetados especificamente para hardware limitado, na verdade faziam o trabalho melhor.
Quer se manter atualizado sobre as últimas IA? O boletim informativo XDA AI Insider é publicado semanalmente com análises aprofundadas, recomendações de ferramentas e informações práticas que você não encontrará em nenhum outro lugar do site. Assine alterando suas preferências de boletim informativo!
Por que parei de maximizar meu VRAM
O maior modelo que seu hardware pode acomodar nem sempre é o melhor
O “B” no nome de qualquer modelo é apenas o número de parâmetros – os bilhões de botões que o modelo ajusta durante o treinamento. Mais botões tecnicamente significam mais capacidade de nuances, mas apenas se você estiver realmente pedindo ao modelo para fazer algo com nuances. Na maioria das vezes eu uso a IA nativa para explicar conceitos, resumir coisas, falar por meio de uma captura de tela, ir e vir em geral – vejo isso mais como um chatbot do que como um assistente. E a questão é que você atinge esse objetivo antes de precisar dos parâmetros 9B.
Para modelos maiores, o verdadeiro sucesso é a codificação densa, fluxos de trabalho de agentes em várias etapas, saída estruturada de formato longo e coisas nesse sentido. Então, se você não fizer isso, basicamente estará pagando por opções que não está usando. Quando pago, quero dizer figurativamente: ele aparece como tokens mais lentos por segundo, maior espaço em disco e compensações de quantização que muitas vezes fazem com que um modelo maior tenha um desempenho pior do que um modelo menor rodando com qualidade total. Então se o seu hardware é modesto como o meu, às vezes o 9B Q3 é realmente pior que o 2B Q8.
Conheça os modelos petite que superam seu peso
Eles são projetados para hardware comum
Gema 4 E2B faz parte da família Google Gemma 4, que foi descontinuada no final de março de 2026. Layer Embedding (PLE) permite que cada camada decodificadora contenha sua própria pequena incorporação para cada token, que é usada como uma pesquisa em vez de um cálculo completo. Assim, o número efetivo de parâmetros permanece baixo, embora o modelo tenha mais na parte inferior. É naturalmente multimodal com entrada visual, de texto e de áudio. Janela de contexto de 128K, mais de 140 idiomas, chamada de ferramentas e modos de pensamento configuráveis. O Google está claramente posicionando E2B e E4B como edge, ou seja, telefones, laptops, Android, AI Edge Gallery.
Qwen 3.5 2B foi lançado algumas semanas antes, em março de 2026, pela equipe Alibaba Qwen como parte da pequena série junto com 0,8B, 4B e 9B. É um modelo denso de linguagem de visão 2B que usa uma arquitetura híbrida Gated DeltaNet, o mesmo truque usado em 9B para manter um pequeno cache KV em contextos longos. A parte selvagem é uma janela de 262.000 contextos locais que pode ser expandida para mais de 1 milhão de tokens. Para 2B. Ele suporta os modos de pensar e não pensar (sem pensar por padrão para variantes pequenas), e o Alibaba considera a chamada de ferramenta um de seus pontos fortes.
Qwen3.5-9B atualmente supera todos os benchmarks de IA, mas esta não é a maneira de escolher um modelo
Há muito mais no modelo do que benchmarks.
Como eles realmente se comportam
Onde a classe 2B vence e onde não
Gemma 4 E2B é meu chatbot local no celular e, curiosamente, no meu Chromebook (um pouco lento, mas funciona). A personalidade é a parte que gosto nisso; é coloquial e detalhado e explica como um chatbot na nuvem faria (até mostra emoticons sem dizer nada). A visão é maior para mim. Estou constantemente enviando capturas de tela quando estou configurando um novo aplicativo ou aprendendo algo visualmente, e ele realmente lê o que está nele, desde elementos da interface do usuário e referências de design até diagramas e notas manuscritas. Só isso já faz valer a pena mantê-lo no meu telefone.
Qwen 3.5 2B é mais recente em minha rotação e parece diferente. Um assistente menos caloroso, mais fundamentado e mais focado do que um chatbot amigável. Ele é armazenado quando se trata de tarefas estruturadas, como classificação de textos e segmentação de informações densas. Também o usei para criar um curso Python 101 de fim de semana para mim. A visão funciona aqui também, mas ainda prefiro o trabalho de imagem de Gemma.
Comparado com seus irmãos maiores, o 2B perde terreno nas coisas difíceis. Quando se trata de raciocínio multinível e resultados estruturados de formato longo, o Qwen 3.5 9B e o Gemma 4 E4B são bem-sucedidos. O Gemma 4 12B também deveria, mas na verdade amplia um pouco mais meu hardware, o que significa que não posso rodar muito mais com ele. A outra diferença são os tokens por segundo – os modelos maiores geram mais rápido no PC do que os 2B rodando no meu telefone, mas não é uma comparação justa e não importa muito no chat.
LLMs locais são bons agora e perdi meses sem perceber
Eu estava errado sobre eles e talvez você também estivesse
2B cobre a maior parte do que preciso
O modelo 2B não é uma versão diluída do 9B. O Gemma 4 E2B e o Qwen 3.5 2B foram projetados desde o início para dispositivos de ponta, com opções de eficiência integradas em sua arquitetura, bem como como eles lidam com o foco e o carregamento de parâmetros. Portanto, chamá-los de versões “simples” não entende o que são. Eles são projetados especificamente para hardware que não está tentando executar um modelo de estação de trabalho. No entanto, ainda mantenho os maiores para cargas mais pesadas.








