Quer seja a natureza confiável e transparente do Perplexity ou os recursos de programação do Claude Code, não há como negar que os grandes modelos de linguagem da computação em nuvem podem ser uma vantagem para a produtividade. A maioria dos LLMs em nuvem vem com interfaces de usuário amigáveis para iniciantes, e o fato de você não precisar fazer nenhum trabalho extra para colocá-los em funcionamento os torna bastante convenientes para o usuário médio.
Mas passei os últimos meses me afastando do Cloud LLM para tarefas diárias, em parte porque não quero que servidores externos acessem meus dados, mas também porque prefiro evitar a sobrecarga de usar uma API paga. Depois de migrar uma série de configurações, tenho usado um servidor LLM local em execução em minha antiga estação de trabalho Proxmox e funciona surpreendentemente bem para tudo, desde simples prompts até análise de OCR, back-end de inferência de assistente de voz e pipelines de automação.
Sua GPU antiga ainda pode executar grandes LLMs – você só precisa dos ajustes certos
Você pode fazer muito com esses modelos
Proxmox LXC é incrivelmente adequado para hospedar llama.cpp
Com um pouco de magia de rendimento de GPU, posso usar minhas placas gráficas antigas
Como a maioria dos entusiastas de hospedagem LLM, comecei minha jornada hospedando modelos locais no Ollama e funcionou para mim nas primeiras semanas. Afinal, atrair e implantar LLMs para Ollama é uma questão simples, já que muitos aplicativos auto-hospedados suportam esse mecanismo de inferência. No entanto, seu desempenho adicional e a falta de ferramentas avançadas tornaram-se bastante aparentes quando comecei a procurar maneiras de aumentar a eficiência dos meus modelos nativos. Quando comecei a querer executar modelos volumosos (e falarei sobre isso um pouco mais tarde), ficou claro que Ollama não iria funcionar para minhas necessidades, então mudei para llama.cpp.
Em vez disso, comecei a usar a funcionalidade do llama-server para criar um servidor LLM que funciona 24 horas por dia, 7 dias por semana e está conectado ao resto do meu arsenal FOSS graças à sua API compatível com OpenAI. Também uso o Proxmox LXC porque ainda posso compartilhar minha placa gráfica antiga com Immich, Fregate e outros aplicativos de computação intensiva quando meus LLMs estão ociosos. Graças ao rendimento da GPU, meu servidor lhama LXC obtém desempenho básico e aumentei seus recursos de RAM para 24 GB (de 32 GB) para garantir que ele atenda aos modelos do Ministério do Meio Ambiente (que abordarei um pouco mais tarde). No meu sistema legado acabei de executar ls -l /dev/nvidia* comando para obter o ID do dispositivo (195, 235 e 237 para minha GPU), colei a seguinte sintaxe no arquivo de configuração LXC e instalei os drivers da placa gráfica LXC para configurar a passagem da GPU antes de compilar a variante Vulkan de llama.cpp.
lxc.cgroup2.devices.allow: c 195:* rwm
lxc.cgroup2.devices.allow: c 235:* rwm
lxc.cgroup2.devices.allow: c 237:* rwm
lxc.mount.entry: /dev/nvidia0 dev/nvidia0 none bind,optional,create=file
lxc.mount.entry: /dev/nvidiactl dev/nvidiactl none bind,optional,create=file
lxc.mount.entry: /dev/nvidia-uvm dev/nvidia-uvm none bind,optional,create=file
lxc.mount.entry: /dev/nvidia-uvm-tools dev/nvidia-uvm-tools none bind,optional,create=file
lxc.mount.entry: /dev/nvidia-modeset dev/nvidia-modeset none bind,optional,create=file
Alguns modelos nativos possuem excelentes capacidades de raciocínio
E suas taxas de geração de tokens são muito melhores do que você imagina
Durante Ollam, comecei a ficar frustrado com a precisão (ou melhor, a falta dela) dos modelos locais. Claro, os modelos 4B, 7B e até mesmo 9B poderiam lidar com solicitações de inferência simples, mas qualquer coisa que exigisse solução de problemas detalhada ou raciocínio complexo seria demais para eles e, em alguns casos, eles diriam um absurdo completo. Foi quando comecei a procurar modelos mais volumosos – LLMs que pudessem lidar com 20 parâmetros B+. Mas dado que meu eu quebrado só tem uma placa Pascal (especificamente uma GTX 1080), não consegui rodar os modelos normais sem usar — Inglês sinalizador para descarregar camadas inteiras da minha GPU e causar degradação do desempenho.
No entanto, os modelos Mixture of Expert me permitem descarregar os recursos disponíveis com menos frequência para minha CPU e RAM e ainda deixar escalas de atenção e outras unidades exigentes em minha GPU. Isso me permite hospedar GPT-OSS-20B e Gemma4-26B-A4B em minha placa com fome de VRAM com taxas de token respeitáveis, esta última obtendo até mais de 15 t/s com uma janela de contexto bastante grande.
Quanto às suas capacidades de raciocínio, eu diria que são concorrentes sólidos em modelos de nuvem. Embora eu ainda prefira o Qwen3.6-35B-A3B para tarefas de codificação rígida, o Gemma4 é bastante eficiente para reescrever código, fornecer sugestões automáticas e ajudar nas minhas necessidades de solução de problemas. Além disso, ele ainda não teve alucinações ou forneceu informações irrelevantes quando eu o uso para análise RAG em Paperless AI, Open Notebook e Blinko. Já que estamos no assunto…
A IU da web do servidor lhama é muito legal na minha opinião
Embora Open WebUI seja melhor para layout semelhante ao ChatGPT
Além de seu ótimo desempenho, o llama-server também hospeda uma interface para acessar o LLM por meio de um navegador web, o que é bastante útil para solicitações e consultas simples. Ele ainda suporta servidores MCP, e contanto que eu defina a janela de contexto bem alta (e execute –webui-mcp-proxy flag), não tenho problemas em controlar Obsidian, Home Assistant, TrueNAS e muitos outros aplicativos usando as ferramentas MCP na interface web do servidor lhama.
No entanto, prefiro o Open WebUI para a maioria das minhas tarefas, e sua interface semelhante ao ChatGPT o torna bastante acessível. Mas a vantagem real do Open WebUI é o grande número de opções de personalização e integrações com as quais posso combiná-lo (e, portanto, meu LLM de servidor lhama). Existe uma opção de terminal aberto que permite executar código Python no navegador e, quando conectado ao SearXNG, minha instância Gemma4 pode acessar sites na Internet em vez de depender apenas de sua base de conhecimento treinada. Ele ainda oferece suporte ao ComfyUI, e costumo usar o Open WebUI para acionar fluxos de trabalho de escalonamento que configurei no aplicativo.
Troquei o Copilot pelo VS Code por esta extensão gratuita e ela está muito à frente
Também é totalmente auto-suficiente!
Os LLMs locais não devem ser subestimados
Estou construindo meus pipelines de LLM há alguns meses e é realmente impressionante o quanto você pode fazer com eles. Depois de ultrapassar a marca de 20B, os recursos de raciocínio dos modelos auto-hospedados aumentam rapidamente até o ponto em que são bons o suficiente para substituir seus equivalentes baseados em nuvem para cargas de trabalho de codificação. Com os modelos MOE se tornando mais populares, é possível executar clankers competentes sem arriscar taxas lentas de geração de tokens em uma GPU antiga ou gastar milhares de dólares em um novo sistema.










