Depois de meses executando LLMs nativos em meu desktop, finalmente comecei a testá-los em meu telefone e acabou sendo mais útil do que eu esperava. Já comparei modelos e corredores para as mesmas tarefas antes, mas nunca coloquei meu telefone contra meu PC para jogos, principalmente porque não é exatamente uma luta justa. Mas como acontece com toda ferramenta que experimento, sempre há algo que me surpreende.
O plano era simples. Um ou os mesmos prompts em ambos os ambientes por uma ou duas semanas para ver o que aconteceu na prática. Isso incluiu a elaboração de um artigo de pesquisa e também o trabalho com capturas de tela dos meus designs. Mas as tarefas em si não eram realmente a minha prioridade; foi assim que meu LLM local no meu telefone e computador os tratou.
Quer se manter atualizado sobre as últimas IA? O boletim informativo XDA AI Insider é publicado semanalmente com análises aprofundadas, recomendações de ferramentas e informações práticas que você não encontrará em nenhum outro lugar do site. Assine alterando suas preferências de boletim informativo!
Inserindo conteúdo em um bate-papo
O manuseio de documentos é o primeiro lugar onde os dois diferem dramaticamente
Em primeiro lugar, não dei aos meus clientes regulares por isso. Isso significa Qwen 3.5 9B e Gemma 4 E4B LM Studio no meu PC (RTX 3070) e Qwen 3.5 4B e Gemma E2B no celular PocketPal (iPhone 16). E meu primeiro critério foi a análise documental.
O LM Studio aceita uma ampla variedade de formatos de documentos e possui um poderoso sistema RAG integrado. O PocketPal, por outro lado, não aceita upload de documentos. O botão de anexo abre apenas sua galeria de imagens e não há nenhum tipo de seletor de documentos. Presumi que perdi alguma coisa nas configurações. Mas o GitHub do projeto, na verdade, tem uma solicitação de recurso aberta para o anexo do documento, que ainda está intacta, portanto ainda não está disponível.
Minha solução no meu telefone foi copiar e colar o texto do PDF da pesquisa em pedaços. Foi tão alegre quanto parece, embora eu tenha ido mais longe do que esperava antes de desistir. Portanto, o computador claramente vence aqui.
Contudo, a tarefa da imagem é outra história. O PocketPal aceita fotos, na verdade permite que você tire uma foto no local para que você possa perguntar diretamente ao seu modelo sobre qualquer coisa que encontrar. Na verdade, eu diria que é bom na área de trabalho porque só posso trabalhar com capturas de tela ou fotos que enviei do meu celular.
Janela de contexto
Números semelhantes para ambos os modelos, realidade muito diferente
Ambos os modelos Qwen anunciam 262K de contexto no papel, e ambos os modelos Gemma têm 128K. Mas a realidade do que realmente carrega no seu hardware é diferente. Com 8 GB de VRAM, posso facilmente levar Qwen e Gemma para 30K, já que 60K e acima é o limite superior do meu PC. Não é nem um quarto do que eles são capazes. Mas no celular recebo ainda menos. 4-8K é uma janela realista dependendo do que mais estou fazendo no meu telefone.
Para a tarefa Resumo de pesquisa, a área de trabalho percorreu rapidamente um arquivo PDF de 40 páginas sem muita dificuldade. O telefone começou a esquecer as curvas anteriores quando a conversa durou algumas mensagens. O modelo não é realmente o problema aqui – o gargalo é o cache KV que reside na memória, que eu não tenho. Dito isto, não tenho certeza do quanto disso é justo chamar de comparação de modelos.
7 coisas que eu gostaria de saber quando comecei a hospedar meu LLM por conta própria
Já faço meu LLM há algum tempo e essas são todas as coisas que aprendi ao longo do tempo e que gostaria de ter sabido no início.
Experiência do usuário
Depende de que hora do dia é
Reduções de conveniência em algumas direções. O telefone supera qualquer coisa que aconteça fora da minha mesa ou fora do horário de trabalho. Na verdade, acabei alcançando meu LLM local usando o modelo de nuvem de dados móveis quando estou fora de casa, o que diz algo sobre como me acostumei com isso. Porém, quando estou na minha mesa, o telefone se torna a pior escolha para quase tudo. Basicamente, não há cenário em que eu possa conseguir isso com o LM Studio carregado bem ao meu lado. É apenas uma versão mais lenta do que já está na minha frente.
A outra coisa sobre a qual ninguém fala é o calor. Ao executar o Qwen 3.5 4B para geração sustentada, o telefone aquece significativamente e a bateria descarrega mais rápido do que o uso normal. Não é insuportável, mas fechei o aplicativo e desliguei o telefone várias vezes para deixá-lo esfriar.
O que ele pode realmente executar
Ambas as configurações têm limitações
Minha GPU de desktop menor parece limitante, mas tem sido capaz de lidar com o que lancei até agora. Meu primeiro modelo local foi na verdade um gpt-oss 20B e consegui fazê-lo rodar em 8 GB porque o LM Studio tem uma configuração de descarregamento de GPU que divide o modelo entre VRAM e RAM do sistema. Foi um pouco lento.
O Qwen 3.5 9B é aquele que funciona perfeitamente, e acho que a arquitetura Gated DeltaNet faz a maior parte disso. O Gemma 4 E4B funciona perfeitamente com uma abordagem diferente, o foco da janela deslizante híbrida, junto com um truque de parâmetro eficiente onde o modelo ocupa menos memória do que a contagem bruta de parâmetros sugere. Não tentei nada acima de 20B, pois duvido que conseguiria velocidades utilizáveis.
No telefone, os equivalentes de baixo custo funcionam de maneira mais suave do que eu esperava. Claro, meu telefone esquenta um pouco após o uso intenso, mas raramente o uso por tanto tempo quanto o faço com frequência. Por outro lado, o mini instrutor Phi 3.5 continuava travando o aplicativo e, a certa altura, meu telefone, mesmo com a menor quantidade e metade da quantidade de Gemma e Qven. Ainda não faz sentido para mim.
Troquei o Claude Pro por um modelo 9B local por uma semana e finalmente descobri pelo que estava pagando US$ 20 por mês.
A diferença foi menor do que eu esperava
A própria interface
Isso é mais para o corredor do que para dispositivos móveis versus desktop
O prompt do sistema do LM Studio fica ao lado do bate-papo, o que percebi depois de anos usando aplicativos em nuvem que escondem tudo atrás de menus. Também fornece uma longa lista de controles de parâmetros. llama.cpp também merece menção aqui, pois oferece um controle ainda mais preciso sobre a saída e DRY (não repita) é o meu favorito.
PocketPal também possui todos os parâmetros regulares, como temperatura e P mínimo, bem como controles deslizantes XTC (excluir escolha superior) para controlar os marcadores mais prováveis. Ele também possui uma janela de benchmark projetada para medir o desempenho do seu dispositivo ao executar o LLM.
Embora o LM Studio tenha uma GUI bastante simples, ainda acho que o PocketPal é a experiência mais fácil de usar, embora isso possa ser apenas porque sou inclinado a aplicativos móveis, já que a maior parte da minha vida acontece no meu telefone.
Onde algumas semanas de testes me deixaram
Ainda uso LLMs nativos no meu computador, mas, para ser sincero, desde que foram lançados no meu telefone, tenho procurado opções móveis com muito mais frequência. É mais fácil retirar o telefone do que iniciar um aplicativo no computador. O Desktop LLM ainda tem seu lugar ao trabalhar com grandes quantidades de informações, testar modelos mais recentes ou trabalhar com combinações de parâmetros.






