Até alguns meses atrás, você provavelmente conseguiria usar apenas os níveis gratuitos de ferramentas de IA. A maioria das ferramentas não tinha limites rígidos e, se você os atingisse, poderia simplesmente mudar para outra ferramenta e continuar. Se você atingiu seu limite de Claude no nível gratuito, basta mudar para sua conta ChatGPT gratuita. Se você acabou (ou não conseguiu o que precisava via ChatGPT), Gemini estava esperando. Na maior parte, era o fluxo de trabalho para a maior parte.
Os níveis premium oferecem limites mais generosos e acesso a modelos poderosos (e recursos anteriores à maioria). A primeira parte foi classificada saltando entre os níveis gratuitos de várias ferramentas, e a pessoa comum não se importava muito com o acesso antecipado aos recursos. O material gratuito funcionou e isso foi suficiente. Avançando até hoje, os níveis gratuitos para a maioria das ferramentas não são mais suficientes. O nível gratuito de Claude tem limites brutais, Gemini agora também tem limites semanais, e o mesmo pode ser dito do ChatGPT. A rotação gratuita de níveis funciona tecnicamente, mas cada ferramenta agora tem seus próprios pontos fortes, e pular entre elas significa abrir mão do melhor de cada uma.
Outra questão é o quão caro se tornou o uso de múltiplas assinaturas de IA. Embora seja aceitável pagar pela versão básica de um plano Pro, esses níveis não desbloqueiam realmente os recursos que realmente justificam o pagamento. Eles estão atrás dos níveis superiores e geralmente custam mais de US$ 100 por mês para obtê-los. Afinal, você provavelmente já viu muitas pessoas executando modelos de IA localmente em seus servidores. O que a maioria das pessoas ignora é que administrar um LLM localmente não é para todos, inclusive eu.
Primeiro, você precisa de algum hardware muito poderoso
Espero que gostem do som dos fãs
A forma como os LLMs funcionam é que eles são treinados em conjuntos de dados massivos. Quanto maior o conjunto de dados e mais parâmetros o modelo tiver, mais inteligente ele geralmente é. Mais parâmetros também significam um arquivo de modelo muito maior. Agora, com o LLM baseado em nuvem, todos esses dados são armazenados e processados na própria infraestrutura do provedor de serviços. São data centers enormes equipados com hardware projetado para esse tipo de carga de trabalho. Cada vez que você envia um prompt, o hardware faz todo o trabalho e você obtém a resposta desejada. Não há carga no dispositivo, o que significa que tudo que você realmente precisa é de um navegador e uma conexão com a Internet.
Quer se manter atualizado sobre as últimas IA? O boletim informativo XDA AI Insider é publicado semanalmente com análises aprofundadas, recomendações de ferramentas e informações práticas que você não encontrará em nenhum outro lugar do site. Assine alterando suas preferências de boletim informativo!
No entanto, usar esse mesmo modelo localmente é uma história completamente diferente. Em vez de enviar seu trabalho para um servidor remoto, você deve hospedar o modelo inteiro em seu computador. Basicamente, isso significa que sua CPU, GPU e RAM estão fazendo o trabalho que todo o data center fazia em seu nome. Cada parte do processo, incluindo carregar o modelo, processar o prompt e gerar a resposta, deve acontecer no seu hardware. E embora as empresas estejam agora claramente a transferir os seus esforços para modelos mais pequenos e mais eficientes que possam funcionar em hardware de consumo, a realidade é que os modelos que valem a pena executar ainda requerem hardware sério. Na verdade, você provavelmente precisará de um hardware mais poderoso do que o já necessário para executar alguns dos modelos menores que são realmente utilizáveis.
Os modelos “pequenos” que as pessoas recomendam para iniciantes geralmente ainda precisam de pelo menos 16 GB de RAM para funcionar confortavelmente, e isso é apenas para fazer qualquer coisa funcionar. E embora os resultados possam corresponder às suas expectativas dependendo da tarefa em questão, a velocidade com que o modelo gera respostas depende inteiramente do seu hardware. Eu tenho um Apple Silicon Mac e, embora eles geralmente sejam bons para executar o LLM localmente, também tenho apenas 8 GB de RAM porque a Mahnoor anterior não sabia que um dia gostaria de executar o LLM localmente nele.
Mesmo os modelos menores que experimentei são visivelmente mais lentos (e geralmente ficam sem memória de aplicativo no meu Mac no meio) do que eu obteria com qualquer ferramenta baseada em nuvem. Qualquer coisa além do prompt rápido me faz olhar para a tela esperando que os marcadores apareçam. Portanto, a menos que você já tenha hardware capaz o suficiente ou esteja disposto a desembolsar milhares de dólares, executar LLMs locais simplesmente não é uma opção viável.
A configuração por si só é suficiente para desanimar a maioria das pessoas
Cinco horas e ainda nenhum aviso enviado
Como sou literalmente alguém que ganha a vida escrevendo sobre tecnologia e também sou formado em ciência da computação, estou muito mais confortável do que a maioria das pessoas. Estou satisfeito com linhas de comando, arquivos de configuração e apenas com o estranho caso de execução de software desconhecido em meu computador. Geralmente consigo consertar problemas quando eles inevitavelmente quebram e não me importo de pesquisar a documentação e descobrir as coisas quando preciso.
No entanto, apesar dessa familiaridade, ainda me sinto como uma criança de três anos que nunca viu um computador quando ouço meus colegas falarem sobre a execução de LLMs locais em seus servidores. A toca do coelho local da IA é mais profunda do que a maioria das pessoas imagina, e tudo que você precisa fazer é ler um dos artigos do XDA sobre configurações de auto-hospedagem para entender o que quero dizer. As pessoas usam todas as pilhas de IA em servidores domésticos e dedicam Mac Minis para esses fins.
E embora eu pudesse me imaginar fazendo tudo isso se meu trabalho exigisse todos os benefícios de privacidade dos LLMs locais, sem limites de taxas e controle total sobre o que administro, a realidade é que a maior parte do que faço no dia a dia não exige nada disso. Minha própria carga de trabalho não justifica o esforço, e essa constatação foi suficiente para me trazer de volta à IA na nuvem sem muita culpa.
Você perde todos os recursos que tornam a IA na nuvem realmente útil
Parabéns, você tem um chatbot de 2022
Como mencionei antes, a forma como os LLMs nativos funcionam é que tudo o que eles precisam para funcionar é literalmente instalado e colocado no seu computador. Inclui o conhecimento que possui, as coisas que pode fazer e os limites daquilo a que pode reagir. Embora os modelos mais recentes agora tenham suporte ao servidor MCP e todas as sutilezas, nem todo LLM local os oferece suporte, e fazer com que qualquer um deles funcione localmente é um projeto em si. Além disso, com LLMs locais, você também perde todo o ecossistema obtido com provedores de IA baseados em nuvem.
Meu LLM local pode ligar para Claude quando estiver preso e isso fez toda a diferença para minha primeira configuração local.
LLMs domésticos não são muito bons por si só
Por exemplo, um dos meus recursos de IA favoritos ultimamente são os projetos. Claude e ChatGPT têm isso, e NotebookLM é baseado em toda a ideia de projetos baseados em conhecimento. A capacidade de fazer upload de artigos de pesquisa, rascunhos, transcrições e documentos de referência em um só lugar e fazer com que a IA trabalhe em todos eles é exatamente o tipo de aplicação de IA de que preciso em minha vida. Neste caso, porém, não é realmente o modelo que faz o trabalho pesado. Em vez disso, é todo o fluxo de trabalho construído em torno dele. E os projetos são apenas um exemplo. Com ferramentas de IA em nuvem que são constantemente atualizadas e trabalhadas por grandes equipes, você obtém muito mais do que apenas acesso a um modelo. Você obtém tudo o que os provedores de nuvem criaram para ele, e é aqui que realmente reside a maior parte do que torna um chatbot algo útil para o trabalho real.
Eu realmente não preciso da promessa de privacidade dos LLMs locais
Atualmente, as maiores vantagens dos LLMs locais parecem ser a ausência de limites de taxas e a total privacidade. Como o modelo reside no seu computador e nunca se conecta aos servidores de outra pessoa, nada do que você digita sai do seu dispositivo. Para as pessoas que trabalham com dados confidenciais, isso por si só pode ser motivo suficiente para aceitar todas as outras compensações. Agora uso IA para aprendizagem, como um substituto ocasional para ferramentas gramaticais, para ferramentas de codificação e automação para meu fluxo de trabalho, como parceiro de pesquisa, para ideias enquanto escrevo, etc.
Nada disso cobre dados que sejam remotamente sensíveis ou que eu não seria capaz de ver para o negócio. Embora os limites de velocidade sejam certamente um problema, prefiro pagar por um nível mais alto de ferramentas de nuvem que já uso do que lutar com hardware local para evitá-los. Mesmo custando US$ 100 por mês, ainda estou gastando menos do que gastaria em uma máquina capaz de executar os modelos que eu realmente gostaria de usar localmente. Posso mudar de ideia quando os LLMs locais ficarem ainda melhores, mas, por enquanto, a IA na nuvem vence para mim.









