Resumo
-
A IA nativa funciona em PCs modestos – não é necessário RTX; modelos pequenos e eficientes rodam em CPUs e iGPUs.
-
Os modelos Sub-1B são imediatamente adequados para tarefas simples; Os modelos 1-4B aumentam a coerência, mas geram mais lentamente.
-
Os modelos 4-7B de maior qualidade fornecem raciocínio forte e saída limpa, mas a CPU é muito lenta.
Executar um modelo local de IA sempre parece um hobby reservado para quem tem mais placas gráficas do que bom senso. Desde que os modelos de IA em nuvem dominaram o mundo (e os preços de hardware), a ideia de modelos de IA auto-hospedados cresceu exponencialmente. No entanto, quase todos os guias on-line presumiam que você tinha uma ou duas GPUs RTX com mais VRAM do que todo o café de jogos combinado.
Este era certamente um problema maior há alguns anos, mas o cenário local de IA evoluiu significativamente atualmente. Agora temos modelos menores e mais eficientes que funcionam em conjunto com melhores ferramentas de otimização. Isso garante que você não precise necessariamente possuir um PC para jogos que custe mais de meio ano de aluguel se quiser começar com LLMs locais.
Muitos dos modelos de IA nativos menores também são ridiculamente utilizáveis. CPUs modernas, gráficos integrados e uma quantidade razoável de RAM do sistema muitas vezes podem fornecer assistentes de IA nativos que podem escrever, compilar, fazer brainstorming e até ajuda com codificação. Claro, eles não são assassinos do ChatGPT ou do Gemini, mas esse também não é o ponto.
Quando tentei hospedar o LLM sozinho, percebi que a IA nativa era um problema de atrito, não de qualidade
Pense nisso como o problema do desktop Linux novamente
Qwen3 0,6B
O menor trampolim para um LLM auto-hospedado
Sem dúvida você já ouviu falar disso Variante Qwen 3 0,6 Bconsiderando que é a barreira de entrada mais baixa para quem deseja mergulhar na IA nativa sem qualquer compromisso real. A linha Qwen do Alibaba construiu uma reputação de eficiência surpreendentemente alta a partir de especificações minúsculas, rodando apenas com CPU, transmitindo respostas em torno de 28 a 32 tokens por segundo. Isso significa que é rápido o suficiente para que, mesmo em laptops mais antigos com pouca RAM e sem GPU, não haja diferença entre pressionar Enter no prompt e o texto aparecer. Na forma quantizada, tudo pesa cerca de 500 MB em disco.
O laptop que estou usando é um Mi Notebook 14 com 8 GB de RAM, um Intel i5-10210U com 1,60 GHz e 128 MB de VRAM integrado.
Claro que esta velocidade também tem limites. Você não pode usar Modelo Qwen 3 0.6B esperando um raciocínio profundo em vários níveis. Nem fornecerá respostas ricas, matizadas e longas. Mas quando se trata de perguntas factuais rápidas, paráfrases simples ou apenas uma ideia de como a inferência nativa funciona em sua pequena máquina, é realmente útil e quase absurdamente fácil de manter.
- RAM recomendada: 4 GB é suficiente
- Para quem é melhor: pesquisa rápida, bate-papo fácil, verifique a configuração local
- O que eu gosto nisso: parece instantâneo e não há atraso perceptível
- Contra o que luta: qualquer coisa que exija profundidade, cadeias de raciocínio, respostas longas e estruturadas
Finalmente encontrei um LLM nativo de código aberto que realmente compete com a IA da nuvem
O código aberto está chegando
Gema 3 1B
Espaço facilmente adequado para instalações de hardware de baixo custo
A família do Google Gemma tende a ficar no ponto ideal entre capaz e lento, e Gema 3 1B é um ótimo exemplo da mesma compensação funcionando para você. Saindo do grupo 1B, você notará imediatamente a estrutura maior da saída. Seus modelos lidarão com explicações, respostas multiníveis e precificação de contexto com muito mais elegância do que modelos menores que tinham metade do número de parâmetros.
Na CPU, este modelo funciona a cerca de 18 tokens por segundo, o que é definitivamente mais lento do que outros modelos de penas. Então você notará que está um pouco mais letárgico, mas o Gemma 3 1B ainda está confortavelmente em território interativo. Depois de baixada, a versão quantizada deste modelo ocupará cerca de 815 MB do seu armazenamento. Ao dar ao Gemma 3 1B gerações mais longas, você definitivamente sentirá uma pequena pausa. No entanto, raramente se aventurará em território irritante. Para mim, esse é o padrão que eu buscaria quando quisesse algo pequeno que ainda pudesse ter um pensamento coerente. Isso torna o Gemma 3 1B um dos melhores modelos versáteis para máquinas de baixo custo.
- RAM recomendada: 8GB
- Para quem é melhor: redação, explicações, bate-papo diário, brainstorming leve
- O que eu gosto nisso: um salto em coerência e estrutura em relação aos modelos do Subgrupo 1B sem abrir mão da alta velocidade
- Contra o que luta: tem uma tendência significativa para resultados longos e ainda não é um mecanismo de raciocínio pesado
Substituí ChatGPT, Claude e Gemini no meu telefone por LLM nativo e é uma atualização móvel que eu não esperava.
A IA nativa agora está no meu telefone
Phi 4 Mini 3.8B
Um modelo de raciocínio sólido, mas leva tempo
A série Microsoft Phi certamente ganhou a reputação de superar sua categoria de peso e Modelo Phi 4 Mini 3.8B mantém essa tradição bem viva na classe sub-4B. Estamos começando a trabalhar com mais do que apenas alguns bilhões de parâmetros aqui, por isso é importante tirar uma coisa do caminho – um modelo que funciona com sucesso sem uma GPU não significa necessariamente que ele corra bem. Porém, se e quando você precisar de melhor qualidade de raciocínio, mesmo às custas da velocidade bruta, o modelo Phi 4 Mini 3.8B entregará resultados muito melhores.
O problema, claro, é a taxa de geração. Executando apenas na CPU, ele produz texto a cerca de 7 tokens por segundo, o que significa que uma resposta longa e detalhada pode levar alguns minutos ou mais para ser renderizada completamente. Por outro lado, o processamento instantâneo ainda é bastante rápido, com aproximadamente 20 tokens por segundo. Usando cerca de 2,5 GB em disco com quantização Q4_K_M padrão, este modelo ainda caberá e funcionará confortavelmente em sistemas de 8 GB de RAM. Isso, claro, se você puder tolerar a espera.
- RAM recomendada: 8GB
- Para quem é melhor: raciocínio, ajuda de codificação, exercícios estruturados e passo a passo
- O que eu gosto nisso: a qualidade do raciocínio realmente parece maior do que o número de parâmetros sugere
- Contra o que luta: geração lenta e respostas longas testarão sua paciência
Três razões pelas quais gráficos integrados às vezes podem ser uma compra mais inteligente do que uma GPU dedicada
iGPUs são muito melhores do que costumavam ser
OpenHermes 7B (construído em Mistral)
Ótima qualidade com um custo de tempo igualmente enorme
Quando se trata de inteligência artificial nativa, é impossível ter uma discussão completa sem que Mistral se junte à festa. OpenHermes é uma das melhores e mais populares formas de aproveitá-lo, pois é especificamente adaptado para uma execução mais limpa das instruções. O modelo base bruto ainda pode parecer bastante áspero nas bordas, mas Modelo OpenHermes de parâmetro 7B se comporta como um companheiro polido desde o início. Você obterá explicações organizadas e formatação de resumos, e as respostas passo a passo ficarão melhores do que as do seu professor de matemática favorito.
A maior parte do trabalho pesado por baixo é feita pelo design eficiente do Mistral. Porque eu só o uso na minha CPU em uma máquina com tecnologia Intel i5 10210UEu literalmente tive que ir embora depois de fazer a pergunta. A geração flutua em torno de 4 tokens por segundo, portanto, qualquer resposta com mais de uma frase leva algum tempo real. Novamente, mesmo com o OpenHermes, o processamento instantâneo parecia muito rápido – apenas aquela geração me deu tempo suficiente para rolar o apocalipse online antes de obter uma resposta.
- RAM recomendada: 8 GB (idealmente 10 GB)
- Para quem é melhor: resumos, explicações bem elaboradas, tarefas que seguem instruções
- O que eu gosto nisso: a saída é limpa e bem estruturada imediatamente
- O que luta: Muito geração lenta de tokens – não é bom para um bate-papo rápido com o modelo
GPUs com alto VRAM não são o futuro da IA nativa – memória unificada e designs de mixagem especializados são
As GPUs são rápidas, mas têm RAM limitada. As unidades de estado sólido são grandes, mas têm largura de banda menor.
A IA nativa não precisa necessariamente de hardware caro Esses modelos provam que a IA nativa não é apenas um clube de hardware para entusiastas.
O mais importante a notar é que estes quatro modelos são apenas a ponta do iceberg. Há centenas, senão milhares de LLMs locais que hoje não quer economizar toda a memória do computador. Muitos deles fornecem um equilíbrio extremamente impressionante entre velocidade, inteligência e eficiência. Claro, eles são apenas um trampolim para um hobby maior que eventualmente hospedará modelos completos de 30 parâmetros B, mas não há melhor gateway do que aquele que não requer nada do seu hardware.
Em um laptop que já tem seis anos e nunca foi fornecido com gráficos discretos, foi surpreendentemente surpreendente ver esses modelos funcionando tão bem. Os modelos maiores ainda me deram tempo suficiente para tomar uma xícara de chá enquanto geravam respostas, mas cada modelo nesta lista ainda prova que a IA nativa é não clube de hardware apenas para entusiastas.







