Claude Codex recebe a maior parte da atenção atualmente, mas o Codex merece muito mais crédito do que recebe. Já uso o plano Pro de US$ 20 há algum tempo e um dos fluxos de trabalho mais úteis que encontrei é usá-lo para testes de produtos. Adoro construir coisas, mas quando você passa dias ou semanas trabalhando em um projeto, fica difícil vê-lo pelos olhos de um novo usuário.
Você já sabe onde está cada botão, quais funções estão inacabadas e quais arestas devem ser ignoradas. Recentemente, pedi ao Codex para testar o aplicativo como um usuário real faria. Ele clicou no aplicativo, explorou seus recursos sem orientação e relatou algo quebrado, confuso ou inconsistente. As análises foram detalhadas o suficiente para identificar problemas que não perdi completamente durante minha análise.
Eu uso Claude Code e Codex juntos e a combinação faz algo que nenhum dos dois consegue fazer sozinho
Uma combinação feita no céu.
Codex é um testador muito bom
Isso pode lhe dar alguns insights valiosos
Você pode fazer todas as revisões de código que desejar, mas os problemas que surgem quando um usuário real interage com a plataforma nunca são totalmente previsíveis. Essas coisas também não aparecem com muita frequência durante as revisões de código. Recentemente, estou construindo uma ferramenta SaaS e, como estou trabalhando sozinho nela, o desenvolvimento e os testes nem sempre são tão rigorosos quanto eu gostaria. Pontos cegos podem se desenvolver facilmente após semanas observando o mesmo produto. Você sabe como cada função deve funcionar, então inconscientemente preenche as lacunas sempre que algo não está claro.
Para ter uma nova perspectiva, pedi ao Codex para testar o aplicativo como um novo cliente. Em vez de olhar para a base de código, eu queria que ela interagisse com o produto desde o front-end e o avaliasse com base no que viu. A solicitação foi bem simples:
"Test this application using the existing logged-in session. Act as a first-time customer. Create a new project, complete the primary workflow from start to finish, and identify bugs, UX issues, UI inconsistencies, confusing copy, broken flows, trust issues, and anything that would prevent adoption. Focus on the most important findings and provide clear reproduction steps where applicable."
O Codex encontrou problemas com estados de carregamento, funcionalidade quebrada, comportamento inconsistente entre telas, implementações confusas e diversas áreas onde o produto não comunicava informações suficientes para inspirar confiança. Também destacou locais onde a interface pressupunha conhecimentos que um novo usuário simplesmente não teria.
Mais do que apenas destacar os problemas, o Codex também fornece os passos necessários para reproduzi-los, o que facilita muito a minha vida. Posso revisar rapidamente suas descobertas, verificar se o problema existe e, em seguida, fazer as alterações necessárias, se necessário.
Quase pode imitar um usuário real
Ao contrário das ferramentas de teste tradicionais
O Codex não lê seu código-fonte e deduz erros magicamente. Com um computador, ele pode literalmente interagir com o aplicativo como um ser humano faria, vendo a interface do usuário, clicando em botões, digitando campos, navegando em menus, aguardando o carregamento das telas e observando resultados. A OpenAI descreve esse recurso como “olhar, clicar e digitar” em vários aplicativos.
Um fluxo típico é mais ou menos assim: você diz ao Codex o que fazer. Codex irá em frente e abrirá o aplicativo. Ele examinará a tela atual e decidirá qual ação faz sentido. Em seguida, ele clicará em um botão. Se houver formulários, ele preencherá o formulário e percorrerá o fluxo de trabalho. Então observará o que acontece após cada ação. Ele registra qualquer coisa inesperada, quebrada ou confusa. Em seguida, ele continua explorando até concluir a tarefa ou ficar sem itens para verificar.
Ao contrário dos scripts tradicionais que você pode executar com Playwright ou Selenium, que envolvem clicar no botão A e depois no B e depois examinar o texto C, o Codex é muito mais exploratório. Se você definir como objetivo usar o aplicativo como um usuário iniciante e informar o que está quebrado, ele decidirá por si mesmo quais botões clicar, quais fluxos de trabalho explorar e quais caminhos parecem importantes. Como resultado, muitas vezes são detectados problemas que não são explorados por conjuntos de testes automatizados.
Você pode expandir as habilidades do Codex
Adicionando o Playwright CLI e a extensão Codex Chrome
Embora o aplicativo de desktop tenha sido útil, também precisei verificar a versão web do mesmo produto. Tal como acontece com a maioria das ferramentas SaaS, os usuários devem estar logados para acessar qualquer funcionalidade significativa. Por motivos de segurança, só apoio o login do Google e a autenticação OTP baseada em e-mail. Sem nome de usuário e senha de login.
Isso cria um desafio para os testes automatizados, já que muitas ferramentas de teste enfrentam dificuldades com os fluxos de autenticação. Eles podem abrir o site e verificar as páginas públicas, mas muitas vezes ficam presos quando é necessário fazer login.
Codex resolve isso com uma extensão do Chrome. Uma vez instalada, a extensão pode compartilhar o estado do navegador com o Codex. Isso significa que o Codex pode ver a guia atualmente aberta, acessar uma sessão autenticada que você já estabeleceu e continuar interagindo com o aplicativo a partir daí. O aplicativo de desktop e a extensão funcionam juntos, permitindo que o Codex inspecione páginas, navegue em fluxos de trabalho, clique em botões, preencha formulários e avalie experiências sem ignorar a autenticação.
Um desafio que enfrentei rapidamente foi o consumo de tokens. O teste entre navegadores gera muito contexto, especialmente quando o agente precisa reexaminar páginas, interagir com elementos e raciocinar sobre o que vê. A execução desses testes com frequência pode queimar tokens muito mais rápido do que tarefas normais de codificação.
Passei a confiar na CLI do Playwright para tornar meu fluxo de trabalho mais eficiente. O Playwright pode salvar o estado do navegador, incluindo cookies e informações de sessão, permitindo que os testes continuem a partir de um estado autenticado sem repetir todo o processo de login. Ele também oferece suporte a perfis de navegador separados para projetos diferentes, facilitando o isolamento de ambientes.
Mais importante ainda, os fluxos de trabalho baseados em CLI são geralmente mais eficientes para agentes de codificação. Em vez de carregar grandes definições de ferramentas, árvores de disponibilidade e metadados do navegador na janela de contexto do modelo, um agente pode chamar comandos focados que executam uma tarefa específica e retornam apenas as informações necessárias.
Codex merece mais atenção
Embora Claude Codex receba a maior parte da atenção atualmente, o Codex silenciosamente se tornou um dos agentes de codificação mais impressionantes disponíveis. Combine-o com o modelo certo e a experiência será surpreendentemente próxima do que Claude Code oferece.
Um dos maiores motivos para experimentar o Codex é a quantidade de cálculos que você obtém. Não tenho ideia de quanto tempo as restrições atuais permanecerão em vigor, mas neste momento elas parecem muito mais generosas do que o que Claude Code está oferecendo. Este espaço extra permite-lhe realizar projetos maiores, realizar múltiplas tarefas e experimentar sem se preocupar constantemente com os limites de utilização.
Estou usando Claude Code, Google Antigravity e Codex há um mês e tenho um vencedor claro
Encontrando o assistente de codificação perfeito






