As duas GPUs antigas que salvei fazem mais trabalho de IA do que uma placa nova de US$ 2.000, e não irei atualizar tão cedo.

Apesar dos benefícios de grandes modelos de linguagem focados na produtividade, existe um equívoco de que os LLMs nativos exigem muita potência computacional para serem executados. Isso é verdade até certo ponto, pois você precisará de uma quantidade razoável de VRAM para executar modelos de IA auto-hospedados. Sem mencionar que LLMs regulares também exigem uma GPU rápida ou você pode acabar com velocidades de geração incrivelmente lentas.

Mas, ao contrário do que você imagina, você não precisa de uma placa de última geração para executar LLMs massivos – e foi isso que aprendi depois de construir um pipeline de IA totalmente local com GPUs desatualizadas que não são tecnicamente adequadas para hospedar modelos pesados.

Sua GPU antiga ainda pode executar grandes LLMs – você só precisa dos ajustes certos

Você pode fazer muito com esses modelos

Meu RTX 3080 Ti lida com tarefas complexas de hospedagem de IA

É o principal responsável por executar o Qwen 3.6 (35B) para minhas tarefas de codificação

O RTX 3080 Ti era bastante poderoso naquela época, mas seus 12 GB de VRAM são um problema para modelos volumosos. Afinal, os modelos 7B-9B são o melhor lugar para tanta VRAM, e eu teria que ajustar as taxas de quantização se quisesse ir para os modelos 14B. No entanto, esta limitação aplica-se apenas a LLMs regulares e não a modelos de mistura especializada. Em vez de depender de todo o modelo para processar prompts como os LLMs convencionais, os clankers EM usam um roteador e uma arquitetura especializada para reduzir significativamente a quantidade de VRAM necessária para inferência. Veja, o roteador passa a entrada para especialistas específicos, e essas redes neurais independentes são especializadas em cargas de trabalho específicas.

Então, eu poderia acrescentar –n-cpu-moe sinalizar para meus comandos llama.cpp para descarregar as camadas MoE menos usadas para minha CPU e RAM, enquanto os mecanismos de atenção e pesos do roteador são executados na VRAM da minha GPU. Graças a essa arquitetura revolucionária, posso executar algo tão massivo quanto o Qwen3.6-35B-A3B em meu RTX 3080 Ti de 5 anos na geração de 24 t/s!

Para referência, estou usando llama.cpp para hospedar este LLM em meu sistema Windows, que possui apenas uma CPU Ryzen 5 5600x e 32 GB de RAM DDR4. E mesmo com o rei do sistema operacional inchado, ainda tenho alguma RAM para usar em outros aplicativos como o VS Code. Já que estamos no assunto, eu uso meu Qwen3.6-35B-A3B principalmente como companheiro de programação do VS Code usando a extensão lama-vscode. Tendo usado-o para tudo, desde depuração de arquivos de log e verificação de bugs de segurança em repositórios, até reformatação de arquivos YAML/JSON e refatoração de funções Python, posso confirmar que ele pode encontrar um obstáculo com modelos de computação em nuvem. Até comecei a usá-lo com o kit de agente Pi e é igualmente impressionante ao criar plug-ins e executar comandos complexos usando esses plug-ins.

Mas é igualmente útil para meus fluxos de trabalho Krita + ComfyUI com tecnologia de IA

Quando você pensa em tarefas baseadas em IA, geralmente imagina pipelines LLM. Mas também executo modelos centrados em imagem em meu RTX 3080 Ti e, apesar da percepção geral das imagens geradas por IA, alguns dos fluxos de trabalho do ComfyUI são surpreendentemente úteis. Por exemplo, eu uso 4xNomos8kDAT para aprimorar imagens antigas de baixa resolução e funciona muito bem para fotos de dez anos atrás.

Caramba, os modelos de imagem nativos podem até substituir as ferramentas de preenchimento generativo da Adobe, o que só percebi depois de executar os plug-ins krita-ai-diffusion e krita-vision-tools. Em termos de desempenho, geralmente demoram um ou dois minutos para processar minhas instruções no RTX 3080 Ti. Mesmo que a primeira tentativa às vezes dê resultados menos que satisfatórios, a insanidade dos padrões de imagem desaparece quando eu regenero a saída 2 a 3 vezes. Eu os uso há algumas semanas para criar protótipos de poses, remover fundos e fazer pequenas edições, e desde que não seja muito vago com minhas instruções, os plug-ins de IA do Krita são surpreendentemente úteis para manipular imagens.

Minha antiga GTX 1080 executa LLM o resto da minha pilha FOSS auto-hospedada

Metade do meu conjunto de produtividade depende desta GPU de 10 anos

Como estou usando meu RTX 3080 Ti em minha máquina de jogos, não posso colocá-lo em tarefas de processamento LLM 24 horas por dia, 7 dias por semana. Na verdade, eu até desliguei o servidor lhama que hospeda Qwen3.6-35B-A3B quando preciso editar imagens com o Krita. Portanto, não posso usá-lo com ferramentas como os plug-ins do Home Assistant AI, que prefiro continuar funcionando 24 horas por dia, 7 dias por semana. Em vez disso, minha GTX 1080 hospeda incorporação, TTS/STT e MoE LLM para o restante dos meus serviços de contêiner. E por mais difícil que pareça, esta placa gráfica com uma década de existência é uma joia escondida para tarefas de processamento LLM, mesmo que não tenha núcleos tensores.

Obrigado mais uma vez à EM Architecture por trazer minha GTX 1080 de volta à vida. Embora eu não o tenha usado para executar o Qwen3.6-35B-A3B, a GPU VRAM de 8 GB e a memória DDR4 de 32 GB são suficientes para o Gemma-4-26B-A4B. Combinei-o com um processador Ryzen 5 1600 igualmente antigo executando Proxmox com llama.cpp configurado como LXC. A velocidade de geração de token é obviamente mais lenta do que a do meu RTX 3080 Ti, mas obter 14 t/s não é ruim de forma alguma. Eu o conectei ao Blinko, Karakeep, Home Assistant, Open Notebook, Open WebUI e meu pipeline Paperless-ngx. Eu também uso esta GPU para executar texto incorporado nonomic como um modelo incorporado, e o contêiner de fala hospeda Kokoro-82M-v1.0-ONNX para tarefas STT e sussurro pequeno mais rápido para minhas necessidades de TTS.

Executei LLMs locais usando o iGPU mais barato da Intel e os resultados foram surpreendentemente decentes

Não é como uma GPU dedicada, mas você pode executar alguns LLMs leves com o N100.

LLMs locais requerem muito menos energia do que você pensa

Antes de começar a hospedar meus modelos de IA, eu tinha medo de que eles aumentassem minhas contas de luz. Felizmente, ao contrário das operações de treinamento LLM que consomem milhares de watts de energia, tarefas simples de inferência acionam minha GPU em rajadas curtas. Portanto, mesmo que eu mantivesse os LXCs hospedando os modelos de IA 24 horas por dia, 7 dias por semana, eles ficariam ociosos a maior parte do tempo e ativariam minha placa gráfica apenas por alguns minutos, no máximo, quando eu acionasse as cargas de trabalho pesadas de IA.

Link da fonte