SwarmUI faz o que o Midjourney custa US$ 20/mês e roda no meu hardware

Eu não estou aqui para discutir sobre a polêmica em torno da imagem ou geração de vídeo processada por modelos generativos de IA. Os artistas deveriam ser pagos pelo seu trabalho, no final. Mas se você for usar o LLM e similares, é uma boa ideia usar as ferramentas localmente. Ele mantém seus dados privados, permite gerar imagens que as ferramentas comerciais não permitem e não exige o pagamento de assinatura mensal.

Você nem precisa de uma placa gráfica superpoderosa para fazer isso. A ferramenta que uso funciona melhor Placas gráficas Nvidia com 8-12 GB de VRAM, mas como acontece com qualquer IA, quanto mais VRAM, melhor. Você só pode usar a geração de CPU, mas é lenta. Por exemplo, não “vá fazer um chá devagar”, mas “vá para a cama e verifique se de manhã foi feito devagar”. Mas mesmo com essa limitação, é divertido aprender sobre os diferentes parâmetros que permitem gerar imagens, algo que você não conseguirá testar tanto com uma assinatura limitada.

Quer se manter atualizado sobre as últimas IA? O boletim informativo XDA AI Insider é publicado semanalmente com análises aprofundadas, recomendações de ferramentas e informações práticas que você não encontrará em nenhum outro lugar do site. Assine alterando sua newsletter.

Transformei meu computador antigo em um servidor de geração de imagens de IA – foi assim que fiz

Não é um grande fã dos modelos Stable Diffusion apenas online? Este guia irá ajudá-lo a hospedá-lo em seu computador antigo!

O que é SwarmUI e por que você o usaria?

Use seu hardware para tarefas de geração de imagens

SwarmUI é o front-end do popular gerador de imagens ComfyUI. Mas é mais do que isso, porque o ComfyUI é complexo e baseado em nós, enquanto o SwarmUI mantém as coisas simples, como os geradores de imagens que você vê online. Ele oferece o melhor dos dois mundos, já que você pode usar o painel simples para imagens rápidas ou mergulhar nas ervas daninhas com os gráficos ComfyUI.

O que você obtém ao instalar o SwarmUI é um servidor de imagem configurado e instalado para você. Você obtém uma guia Gerar que funciona como todos os geradores de imagens simples, então você não precisa gerar um diagrama ComfyUI toda vez que quiser uma imagem rápida. É importante aprender a programar, mas você não quer perder todo esse tempo se não precisar.

Você também obtém ferramentas poderosas que o ComfyUI não possui, como o Grid Generator, que permite ajustar os parâmetros lado a lado para ver como as alterações na receita afetam diferentes aspectos da imagem gerada. Editor de imagens integrado com coloração e repintura, navegador de histórico de imagens com pesquisa de metadados e navegador de modelos para obter novos modelos do Hugging Face e Civitai sem sair da interface do usuário.

É tão fácil quanto usar o Midjourney na web, mas funciona no seu hardware. Sem chamadas para servidores externos, sem telemetria e sem venda de seus dados a quem pagará por eles. Basta gerar imagens de acordo com suas condições.

SwarmUI facilita a geração de imagens nativas

O pacote de instalação faz todo o trabalho pesado para você

SwarmUI facilita a instalação e o funcionamento. Um arquivo .bat está disponível para Windowsou um script para extrair para usuários Linux e pronto. O script extrai todo o código necessário, instala o servidor e as dependências necessárias e, em seguida, abre o servidor em uma guia do navegador que você pode usar.

O script do Windows levou menos de cinco minutos para ser concluído e o servidor SwarmUI exigiu alguns pequenos detalhes para ser concluído. Por exemplo, qual tema eu queria, quais modelos usar e qual backend (se já tiver algo instalado).

Stable Diffusion XL 1.0 Base tem cerca de 6,5 GB para download e funciona bem, ou Flux.1 Schnell é maior e mais rápido, mas requer 12 GB ou mais VRAM para funcionar. Você também não precisa de modelos gigantes, a menos que queira gerar vídeo. É isso, o servidor extrai os modelos e os configura, e você pode ficar sentado por meia hora enquanto eles baixam em segundo plano.

Experimentei o Gemini Omni e é tão bom que parece saído de ficção científica

Há um novo rei da geração do vídeo na cidade, e não é brincadeira

Você pode manipular manualmente a interface do usuário confortável se desejar

Está tudo lá para ser levado

A guia Criar simplificada é mais parecida com serviços online fáceis de usar. Você escolhe qual padrão usar, coloca uma ou duas frases descritivas na caixa de prompt e adiciona algumas coisas a serem evitadas na seção negativa. Em seguida, defina alguns outros parâmetros, como quantas imagens gerar por clique, quantas etapas executar e a proporção desejada.

O mais importante aqui é a escala CFG, que mede o quão fielmente o modelo segue as suas instruções. Números mais altos são mais restritos, números mais baixos são mais toleráveis ​​e qualquer coisa entre 5 e 8 lhe dará os melhores resultados (principalmente). E Seed geralmente é definido como -1 para um número aleatório, mas se quiser reproduzir o resultado, você pode configurá-lo para qualquer número que desejar.

Mas o diagrama de construção baseado em nós do ComfyUI nunca está muito longe, e você pode mergulhar no fluxo de trabalho complexo como quiser. Você pode ser muito detalhado aqui, já que o fluxo básico do texto para a imagem tem cerca de sete nós. Poderia haver muito mais imagens envolvidas e o conteúdo de cada nó é importante para a imagem geral.

Você tem muito mais controle aqui do que pagar pelo Midjourney ou outras ferramentas com todas as opções à sua disposição. Às vezes é divertido passar algumas horas movendo nós e adicionando valores para ver o que acontece, e isso me dá um pouco mais de compreensão de como os modelos e as ferramentas em torno deles funcionam.

6 dicas importantes do ComfyUI que todo iniciante deve saber

ComfyUI é tão vasto que é fácil perder algo simples

Por que pagar US$ 20 por mês pela geração de imagens quando você pode fazer isso localmente

Quando o GenAI era novo, pagar por ferramentas de geração de imagens era uma ideia decente porque os modelos nativos tinham dificuldades. Esse não é mais o caso, e o SwarmUI auto-hospedado fornece resultados comparáveis ​​sem custar um centavo. Além disso, você pode executar os prompts quantas vezes quiser para obter os resultados desejados, independentemente do limite. Agora é um dos meus serviços preferidos, ajudando a parte do meu cérebro que vê palavras, não imagens, a contextualizar o que está sonhando.

Link da fonte