Os LLMs locais tornaram-se agora ferramentas úteis e podem facilmente lidar com tarefas que você não teria imaginado há um ano. O mais recente do Google é o Gemma 4 e, embora existam quatro modelos na família, cada um é feito sob medida para tarefas diferentes.

Isso os torna interessantes de usar: você pode escolher aquele que atende às suas necessidades de hardware, e todos eles são lançados sob a licença Apache 2.0, tornando-os seguros para construção. Os modelos menores funcionam com laptops ou telefones celulares, enquanto os dois maiores são projetados para obter resultados de melhor qualidade com hardware mais potente.

O Google Gemma 4 não é o LLM local mais inteligente que já administrei, mas é o que mais alcancei

Os modelos Gemma 4 mais recentes do Google são poderosos e úteis.

Gemma 4 está disponível com diferentes opções

Provavelmente, seu dispositivo pode executar pelo menos um deles

Na maioria das vezes, quando quatro escalas de modelos diferentes são lançadas, eles são o mesmo modelo, apenas quantificados em tamanhos menores. Isso faz com que eles se comportem de maneira semelhante, mas com precisão reduzida à medida que os modelos ficam menores.

Gemma 4 faz algo diferente. Todos os quatro modelos são multimodais, mas são projetados para diferentes casos de uso adequados ao hardware em que podem ser executados.

Modelo

Q4 (4 bits) VRAM

VRAM de 8 bits

FP16 VRAM

Melhor para

E2B (2B)

~3GB

~5GB

~5GB

Bate-papo fácil, incorporado

E4B (4B)

5GB

7,5GB

15 GB

Bate-papo geral, resumo

26B EM (A4B)

~ 16 GB

25GB

48GB

RAG, assistência de codificação

31B Apertado

24GB

34GB

62-80GB

Geração de alta qualidade

O modelo 31B Dense é o modelo líder e está facilmente acessível aos benchmarks de IA em todo o setor. Tão bons que podem superar modelos com 10 vezes o número de parâmetros, o que é impressionante, mas não é um modelo que a maioria das pessoas usará. Ainda requer hardware que está fora do alcance de muitos, mas é aí que entram outros modelos.

O modelo 26B MoE é ainda menor em recursos do sistema e servirá como seu assistente de codificação. Mas os modelos E2B e E4B são mais interessantes. Eles podem ser executados em smartphones ou laptops de baixo consumo de energia para permitir resumos para PDFs, bate-papo para entender o armazenamento local ou outras tarefas leves que você não teria realizado em um LLM na nuvem há não muito tempo.

Pode ser baixado e usado com o servidor LLM de sua escolha

Você pode executar o Gemma 4 em seu telefone usando o aplicativo Google AI Edge Gallery ou em PCs com Ollama, vLLM, llama.cpp, LM Studio ou qualquer outro servidor LLM de sua escolha. Isso significa que você pode escolher facilmente o modelo LLM certo para o seu dispositivo, ao mesmo tempo que fornece recursos suficientes para uma janela de contexto decente e outras configurações importantes.

Gemma 4 é perfeito para hardware antigo local

Você já pode ter o que precisa

Gemma 4 não precisa de grandes GPUs de cinco dígitos. Claro, você pode executá-lo neles, mas eles não são absolutamente necessários, a menos que você queira executar um modelo 31B com precisão FP16.

O modelo 26B MoE com baixa quantização funciona muito bem com RTX 5090 ou RX 7900 XTX; com descarregamento de CPU você pode executá-lo com 16 GB de VRAM. Isso ocorre porque apenas alguns bilhões de parâmetros estão em uso a qualquer momento, portanto, o descarregamento não causa uma grande queda no desempenho como acontece com outros tipos de modelos.

A Apple Silicon pode rodar o E4B com 8 GB de RAM, ou o 26B MoE com 16 GB (embora seja mais confortável com 32 GB), e 64 GB de RAM rodarão com prazer o modelo 31B Bense. Não será tão rápido quanto uma GPU dedicada, mas destaca os benefícios de arquiteturas de memória unificadas como Silicon da Apple, Strix Halo da AMD e DGX Spark da Nvidia.

A única coisa a lembrar é que você também precisará de RAM de sistema suficiente, já que a velocidade de geração de token requer mais do que apenas VRAM. 24 GB é um bom começo, se você tiver, qualquer coisa a mais é um bônus.

Você nem precisa estressar o hardware

Se você usar Gemma 4 31B para Estúdio de IA do GoogleA API Gemma 4 oferece 1.500 solicitações gratuitas por dia, desde que você não exceda 15 solicitações por minuto. É um número ilimitado de tokens para usar, então você pode usar o que quiser para criar com o modelo Gemma 4.

Não sabemos quanto tempo isso vai durar, já que todas as outras APIs de IA do Google mudaram para faturamento de token, mas vale a pena usar enquanto você pode. É um modelo completo que normalmente requer uma GPU de US$ 10.000 para funcionar localmente.

Sua GPU antiga ainda pode executar grandes LLMs – você só precisa dos ajustes certos

Você pode fazer muito com esses padrões

Modelos ainda menores podem aumentar a produtividade

Assim que você parar de tratá-los como um chatbot

O menor modelo E2B da Gemmafoi projetado para uso em um laptop ou telefone celular. É minúsculo, consome cerca de 5 GB de RAM no total e pode funcionar perfeitamente na CPU em vez da GPU. Ele fornece uma janela de contexto de 128K e ainda possui chamadas de ferramentas funcionais, modos de pensamento e suporte instantâneo ao sistema para fazer com que seu LLM pareça seu.

É o tamanho certo usar o Assistente Domésticopara automação predial, solução de problemas e outras tarefas gerais. Provavelmente é suficiente que ele também atue como um assistente de voz nativo, o que significa que nenhum dado é enviado de volta ao Google, Amazon ou Apple no processo.

Já testamos o E2B antes e, embora tenha funcionado, ele tem algumas peculiaridades. Parte disso pode ser devido à execução por meio do LM Studio, ou seja, YMMV, mas às vezes ele ignora os prompts que dizem para não mostrar o pensamento ou trocar símbolos de temperatura. No entanto, estes são problemas menores se ainda fizer o que afirma e a partir de um modelo 2B.

Meus LLMs auto-hospedados são mais do que apenas um substituto do bate-papo – veja como eles melhoram minha produtividade

Meus LLMs locais são suficientes para substituir plataformas em nuvem para minhas tarefas de produtividade

Você não precisa de hardware poderoso para executar LLMs nativos como Gemma 4

Com o lançamento do Gemma 4, o Google tornou possível executar LLMs capazes com requisitos de hardware muito modestos. Este é um grande avanço porque, embora os quatro modelos sejam projetados para aplicações diferentes, todos compartilham os mesmos dados de treinamento e recursos básicos. Isso também significa que você pode realizar tarefas de IA de forma privada, sem transferir dados do seu dispositivo e com requisitos de energia mais modestos, porque elas só são executadas quando você solicita.

Link da fonte