Conseguir um LLM requer uma abordagem diferente do que digitar uma consulta de pesquisa no Google, mas geralmente as pessoas os tratam da mesma maneira. O processo geralmente é mais ou menos assim: digite uma frase, obtenha uma resposta e, em seguida, faça perguntas esclarecedoras ou forneça contexto adicional para orientar a IA até as informações que você procura. Se você está pedindo apenas uma resposta simples, então perguntas simples geralmente funcionam bem. Mas para tarefas que envolvem contexto mais profundo ou múltiplas ações, normalmente são necessárias duas ou três trocas antes que o modelo comece a entender o que você realmente queria.
Especialmente para LLMs locais que já estão atrasados em relação aos modelos de nuvem, iniciar uma interação com um prompt vago os coloca em um buraco do qual é difícil sair. Você pode tentar escrever instruções mais claras (sempre uma boa prática), mas ainda há uma chance de que o LLM não consiga adivinhar exatamente o que você quer dizer. O que resolveu para mim foi pedir aos modelos locais que fizessem perguntas esclarecedoras antes de tentar alguma tarefa trivial. Agora, em vez de eu ter que adivinhar, a IA me avisa se alguma parte do meu prompt precisa de mais explicações. Tarefas que costumavam exigir múltiplas trocas adicionais agora levam apenas uma ou duas.
Comecei a auto-hospedar o LLM e gostei muito
Quem precisa do OpenAI quando seu laboratório doméstico pode pensar por você?
Prompts obscuros são a criptonita do LLM local
Especialmente em tarefas que possuem múltiplas etapas
Modelos de nuvem como Claude e ChatGPT são ótimos para ler nas entrelinhas e inferir a intenção subjacente das solicitações do usuário. Mesmo perguntas vagas recebem, surpreendentemente, uma resposta prática. Mas isso só funciona porque os modelos de nuvem têm a vantagem única de serem treinados em enormes conjuntos de dados, e os milhões de perguntas que são feitas todos os dias também contribuem para os dados de treinamento. Os modelos domésticos não têm esse luxo.
Na minha experiência com os modelos Llama e Qwen usando Ollama, qualquer ambiguidade na minha sugestão leva a interpretações inconsistentes. Uma simples solicitação como “escreva um resumo para este documento” não informa ao modelo qual o tom ou extensão que você espera, a que público o resumo se destina ou que formato ele deve assumir. Todas essas suposições devem ser feitas antes de prosseguir com o modelo. As chances de o resultado retornar exatamente como você esperava são mínimas ou nulas. Se isso lhe devolver um parágrafo quando você queria marcadores, é mais para acertar tudo e fica chato.
Instruções que fornecem melhores respostas
Essas poucas linhas fazem o modelo perguntar em vez de assumir
As instruções personalizadas são melhor colocadas em um arquivo de modelo para que possam persistir entre as sessões. Caso contrário, você ficará preso copiando e colando instruções em cada novo bate-papo. Esta é a aparência do meu arquivo de modelo:
FROM llama4
SYSTEM """
When tasked with coding, writing, editing, or summarizing, ask the user up to three targeted clarifying questions. Proceed with the task once you've received answers and understand the prompt fully. If the task is a simple factual question or conversational message, respond directly.
"""Bastante simples, mas levei algumas iterações para chegar ao conjunto atual de instruções. Frases como “até três” são importantes porque versões de instruções personalizadas funcionaram contra mim no passado e alguns modelos fizeram muitas perguntas extras. Uma parte importante também é “direcionada”. Antes de ser adicionado, o modelo fazia perguntas vagas, em vez de coisas específicas de que realmente precisava para realizar seu trabalho.
Para integrar essas instruções personalizadas ao Ollama, você pode colá-las em um novo arquivo chamado “Modelfile” (sem extensão). Depois que o arquivo for salvo, execute ollama create my-assistant -f Modelfile. Depois disso, seu novo modelo com instruções personalizadas está pronto para uso ollama run my-assistantou no seletor suspenso de modelo se você estiver usando a GUI.
Mais perguntas, mas interação mais rápida
Quando a maioria das solicitações pede que você responda a várias perguntas de esclarecimento, pode parecer mais provável que isso desacelere as coisas do que as acelere. Essa suposição provavelmente é verdadeira para modelos de nuvem porque eles já são bons o suficiente para adivinhar sua intenção na primeira tentativa. Para meus modelos locais, as respostas às perguntas de acompanhamento fazem um ótimo trabalho na solução desse problema, o que economiza tempo de forma positiva. Sempre achei uma resposta inválida mais frustrante do que algumas perguntas complementares.
Tudo isso também tem um efeito colateral positivo que inicialmente não previ. Ao responder perguntas esclarecedoras, muitas vezes tenho que pensar mais sobre a tarefa e esclarecer exatamente o que quero realizar com ela. Houve algumas vezes em que as perguntas da modelo me fizeram perceber que eu não havia pensado bem em algo. Isso faz com que o modelo pareça mais um assistente que me ajuda a pensar no processo.
Pare de deixar a modelo adivinhar o que você estava pensando
Se você está cansado de receber respostas inválidas de modelos locais, talvez eles simplesmente não tenham informações suficientes para fazer o trabalho corretamente. Ensiná-lo a pedir esclarecimentos é uma solução única que leva apenas alguns minutos, e você começa a colher os benefícios logo na próxima solicitação.










