Primakov/Shutterstock

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais vantagens do ZDNET

  • Claude Opus 4.8 promete respostas de IA mais honestas.
  • Fluxos de trabalho dinâmicos podem executar centenas de subagentes Claude.
  • O Modo Rápido fica mais barato, enquanto os preços normais do Opus permanecem os mesmos.

Diógenes foi um filósofo grego do século IV aC conhecido por sua arte performática. Diz-se que ele percorreu o Nas ruas de Atenas no meio do dia, carregando uma lanterna acesa, gritando: “Procuro um homem honesto”. Se este mito fosse modernizado até aos dias de hoje, todos estaríamos à procura de uma IA honesta.

A Anthropic anuncia e lança Claude Opus 4.8, um grande modelo da linguagem que acredita ter satisfeito a busca de Diógenes.

“Uma das melhorias mais notáveis ​​no Opus 4.8 é a sua imparcialidade”, disse a empresa em um blog na quinta-feira.

Seus agentes Claude agora também podem ‘sonhar’ – como funciona o novo recurso do Anthropic

Agora, talvez este novo modelo de fronteira funcione melhor. A Antrópica relata que o Opus 4.8 tem menos probabilidade de fazer afirmações falsas. Também é mais provável que lhe diga se não está claro sobre uma resposta.

“Isso foi confirmado em nossas avaliações, que mostram que o Opus 4.8 tem cerca de 4x menos probabilidade do que seu antecessor de permitir que bugs no código escrito nele passem despercebidos”, disse a empresa.

No código de Claude, descobri que o Opus 4.7 é uma grande melhoria em relação ao 4.6. Embora o 4.6 muitas vezes interprete mal as instruções ou produza resultados errôneos, o Opus 4.7 regularmente me diz que a forma como originalmente abordou o problema não funcionou e usa uma tática diferente. As atribuições de projetos recentes demonstraram um grau de compreensão muito mais elevado do que com 4.6.

Portanto, dado o salto na qualidade de 4,6 para 4,7 que foi subjetivamente bastante perceptível em muitas sessões, espero que veremos o mesmo passando de 4,7 para 4,8.

Além disso: 5 mitos sobre o apocalipse da codificação do agente

Esse parece ser o caso, pelo menos de acordo com Tom Pritchard, engenheiro da equipe do Spotify que já testou o Opus 4.8.

“Claude Opus 4.8 tem um julgamento significativamente melhor. No Claude Code, ele faz as perguntas certas, detecta seus erros, recua quando o plano não faz sentido e cria confiança em pesquisas complexas e multiserviços antes de fazer grandes mudanças. É um ótimo modelo para construir”, disse ele em uma postagem no blog.

Vai ser legal.

Uma questão de esforço

Claude Code tem a capacidade de definir esforço desde pelo menos 4.7 (pelo menos eu percebi isso pela primeira vez). O esforço é essencialmente uma medida de quanto impulso um modelo de IA coloca em um problema, medido em tokens.

No Opus 4.8, muito esforço de Claude Koda oferece o que a empresa afirma ser “o melhor equilíbrio geral entre qualidade e experiência do usuário”. Em tarefas de codificação, esse padrão consome um número de tokens semelhante ao padrão fornecido pelo Claude Code Opus 4.7, mas com melhor desempenho.

Além disso: o Mythos da Anthropic está evoluindo mais rápido do que o esperado, relata a agência de segurança de IA

Esta habilidade de esforço agora é usada Claude.ai e Cowork. Com configurações de esforço mais altas, Claude “pensará com mais frequência e mais profundamente”. Com menos esforço, Claude responde mais rapidamente e os usuários descobrirão que sua experiência com IA é menos limitada.

Fluxos de trabalho dinâmicos

Este recurso não foi totalmente definido no lançamento, mas é interessante. Executando como uma visualização exploratória, o Opus 4.8 pode agendar trabalhos, executar centenas de subagentes paralelos em uma única sessão e testar os resultados antes de gerar relatórios. Este recurso destina-se a tarefas de grande escala. Um exemplo dado pela Anthropic foi uma migração em escala de base de código de centenas de milhares de linhas.

Claude parece ser capaz de gerar e gerenciar o fluxo de trabalho à medida que a tarefa evolui. Em vez de seguir um plano fixo, os agentes podem alterar as suas prioridades e tarefas com base no que descobrem enquanto realizam o seu trabalho. Poderia ser poderoso.

Além disso: a nova ferramenta Claude Security da Anthropic verifica sua base de código em busca de falhas e ajuda você a decidir o que consertar primeiro.

A Anthropic disse que os subagentes verificam seus resultados antes de reportar aos usuários. Com Claude coordenando centenas de subagentes, os usuários precisam perceber incertezas, suposições erradas e resultados fracassados.

Curiosamente, isto está de acordo com as reivindicações de justiça discutidas no início do artigo. Se Claude vai comandar “milhares de agentes”, obter resultados confiáveis ​​e verificados é realmente importante, porque não há como o monitoramento humano conseguir lidar com isso sozinho.

Recursos de fluxo de trabalho dinâmico estarão disponíveis para usuários do Claude Code nos planos Enterprise, Team e Max.

Preço e disponibilidade

A Anthropic disse que Claude Opus 4.8 estará disponível em todos os lugares na quinta-feira por meio de Claude e da API Claude como Claude-opus-4-8.

Na prática, especialmente se você usar o código de Claude, talvez seja necessário reiniciar sua sessão ou esperar um ou dois dias para que o código de Claude seja notado. Quando o Anthropic saltou do Opus 4.6 para o 4.7, fiquei perguntando ao Claude Code qual modelo ele estava usando, e só na manhã seguinte ele parou de reportar o Opus 4.6 e começou a reportar o Opus 4.7.

O preço total não mudou desde o Opus 4.7. O preço normal baseado em tokens ainda é de US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída.

Além disso: este artista oferece 4 maneiras de ser um inovador de sucesso na era do agente AI

A empresa afirmou que o modo rápido, que permite ao modelo rodar 2,5 vezes mais rápido que o modo normal, será “três vezes mais barato que os modelos anteriores”. Embora não esteja usando o modo rápido, posso ver o apelo. Eu assisti um bastante YouTube, esperando hora após hora que Claude Code respondesse à solicitação.

Você quer que Claude reaja mais rápido com menos esforço ou pense mais com mais esforço? Deixe-nos saber nos comentários abaixo.


Você pode acompanhar as atualizações diárias do meu projeto nas redes sociais. Certifique-se de se inscrever meu boletim informativo semanal de atualizaçãoe siga-me no Twitter/X em @DavidGewirtzFacebook em Facebook.com/DavidGewirtzInstagram em Instagram.com/DavidGewirtzno Bluesky em @DavidGewirtz.come no YouTube em YouTube.com/DavidGewirtzTV.



Link da fonte