O Gemini Omni faz quase tudo, mas há uma tarefa na qual ainda não confio nele

O Google tem entregado produto após produto após experimento ultimamente, e eu experimentei a maioria deles. Alguns deles são bastante impressionantes de uma forma ou de outra, outros acham que foram eliminados muito cedo (ou talvez apenas façam jus ao seu nome como um experimento de laboratório, então não posso ser muito duro). E alguns realmente me surpreenderam, como o Google Stitch, que está muito à frente do jogo de criação de clima. Google Flow e Google Opal também são muito legais e completos. Então, quando cheguei ao Omni, o gerador de vídeo supostamente superior do Google, já tive a sensação de que acabaria mudando tudo.

Não sou muito fã de genAI quando se trata de geração de imagens e vídeos. Há questões éticas que acho que ninguém respondeu adequadamente ainda. Mas eu já tenho uma assinatura do Google AI Plus, então experimentar o Omni não me custou nada que eu já não tivesse pago.

Quer se manter atualizado sobre as últimas IA? O boletim informativo XDA AI Insider é publicado semanalmente com análises aprofundadas, recomendações de ferramentas e informações práticas que você não encontrará em nenhum outro lugar do site. Assine alterando suas preferências de boletim informativo!

Omni é o novo modelo de vídeo do Google e funciona nos aplicativos que você já usa

Uma rápida olhada no modelo e minha primeira tentativa de usá-lo

O Google revelou o Gemini Omni Flash no I/O 2026 em maio, e agora é o principal modelo de vídeo do aplicativo Gemini, substituindo o Veo. A essência é que qualquer entrada (texto, imagens, áudio, vídeo ou uma combinação de todas) é alimentada e o vídeo é emitido com áudio sincronizado.

Você pode acessá-lo por meio da guia de geração de vídeo do aplicativo Gemini, do Google Flow (seu estúdio criativo) ou do YouTube Shorts Remix e do YouTube Create. As rotas Shorts e Create são as únicas rotas verdadeiramente gratuitas. Em todos os outros lugares, você precisa de um plano pago do Google AI, com preço de Google AI Plus – US$ 5/mês com 200 créditos Flow.

A proposta do Google é que o Omni não é apenas um modelo geracional, mas também uma questão de razões. Ele é construído sobre a arquitetura multimodal do Gemini, portanto contém contexto em todas as edições, mantém os personagens consistentes e possui uma camada física de modelo de mundo projetada para fazer com que sua saída pareça menos com um clipe de IA e mais com algo que um ser humano real filmou ou editou. A equipe DeepMind do Google fala sobre “conhecimento do mundo” que a Veo não tinha, que é a versão educada de “nós treinamos sobre mais coisas”.

É nesse “mais coisa” que a ética fica um pouco estranha. O Google confirmou à CNBC no ano passado que treina seus modelos de vídeo, incluindo o Veo, no YouTube. O Omni herda esta linhagem. Os criadores do YouTube podem cancelar o treinamento de IA de terceiros de empresas como Anthropic ou Amazon, mas não podem cancelar o Google por meio de uploads para os modelos do Google – está nos termos do YouTube. Então, basicamente, Omni obtém alguns de seus dados de criadores de conteúdo que nunca foram capazes de dizer sim.

Na minha primeira tentativa, adicionei um gráfico e pedi para adicionar movimento a um objeto específico enquanto mantinha o resto imóvel. A primeira tentativa foi rejeitada com uma mensagem de “muitas solicitações neste momento”, o que parecia um mau começo para um plano pago. No entanto, a segunda tentativa foi gerada rapidamente. A saída foi incrivelmente suave e dinâmica; o tipo de qualidade que eu esperaria de alguém que ganha a vida fazendo isso. Mostrou realismo na iluminação e leve movimento conforme o assunto se movia. Mas ignorou completamente minhas instruções e animou as partes que eu não queria. Eu não sabia se havia incitado errado ou se seguir as instruções ainda não era um ponto forte. Provavelmente um pouco de ambos.

A coisa para a qual não usarei o Omni é algo que faço quase todos os dias

Alguns processos devem ser lentos

Uma coisa para a qual não usarei o Omni é qualquer coisa relacionada ao meu trabalho de design ou gráficos em movimento. O estudo de caso e as partes do portfólio do design não são negociáveis ​​para mim. Eu estudo design e, em todos os cursos que fiz, a pontuação visual é talvez 10% da nota. O resto é pesquisa de usuário, arquitetura de informação, análise de concorrentes, testes de usabilidade e iterações que ocorrem durante semanas ou meses antes mesmo de qualquer coisa visual existir.

Quando um revisor ou executivo analisa um estudo de caso, a pergunta nunca é “parece bom?” é “por que você tomou essas decisões?” Uma animação gerada não pode responder isso porque você não tomou as decisões que a animação representa. Mesmo uma camada de polimento, um gráfico de personagem animado, uma ilustração em movimento da landing page, uma explicação do conceito de um produto ainda é uma decisão de design que você precisa justificar.

Há também um argumento claramente técnico contra o uso do Omni para esse propósito. Meu primeiro teste provou isso. Pedi para um elemento se mover e todo o resto ficar parado, e o Omni não conseguiu segurar tantos elementos travados ao mesmo tempo. Os revisores observam a mesma coisa: ele lida com segurança com um ou dois objetos rastreados, mais do que isso e se desvia. Uma maquete de design geralmente tem mais de quatro elementos, então isso por si só exclui a maior parte do que eu gostaria de testar.

A edição de conversas também tem seus limites, com o contexto supostamente se deteriorando após apenas alguns turnos. E algumas voltas não são nada comparadas com quantas iterações o trabalho de design realmente leva. E a resolução de saída é atualmente superior a 720p, abaixo do que seria necessário para uma gravação de protótipo adequada. Portanto, mesmo que eu quisesse passar a animação do estudo de caso para ele, a ferramenta em si não está pronta para funcionar.

Às vezes, posso usar genAI para material de referência ou geração de ativos, tudo bem, mas os editores manuais ainda são importantes porque pensar no tempo e no ritmo é um trabalho de design.

O lado dos gráficos em movimento é mais pessoal. Aprendi sozinho gráficos em movimento e postando em uma pequena conta social e sempre foi uma questão de editar tudo sozinho, então até posto meu trabalho para mostrar às pessoas o que estou editando. Eu criaria meus gráficos com ferramentas como After Effects ou Alight Motion no celular. E às vezes uso genAI para elementos individuais; Vou gerar um ativo, colocá-lo no projeto como uma camada, mas o movimento e a animação ainda vêm de mim. É a personalização do quadro-chave onde está a arte.

A outra coisa que vale a pena dizer não

A tecnologia pode fazer isso, e é exatamente por isso que a resposta deveria ser não

Crédito: Google

Eu sei que adicionar outra tarefa quebra a premissa do título, mas isso vale para quase qualquer ferramenta geradora de imagem ou vídeo.

Omni é muito capaz de gerar pessoas. As imagens de referência podem incluir a imagem de alguém em uma cena, a consistência dos personagens os preserva durante as edições e o recurso AI Avatar permite clonar seu rosto e voz usando registro guiado. O Google claramente restringiu a edição de fala em clipes de terceiros, o que basicamente significa que eles estão admitindo que a tecnologia é poderosa o suficiente para ser perigosa, na minha opinião.

Eu nunca o usaria para amigos ou familiares. Carregar a foto de alguém para gerar um vídeo, mesmo que seja uma piada, é uma violação do consentimento, e as marcas d’água SynthID não são visíveis para os espectadores reais, portanto, um clipe que evita seu bate-papo em grupo não vem com um rótulo de aviso. Eu também não o usaria para criar parentes desaparecidos ou mortos. A tecnologia gestacional é literalmente uma categoria inteira agora, e o Omni a torna trivial, mas assistir a uma versão ficcional de alguém que você ama pode substituir sua verdadeira memória dessa pessoa e não pode ser desfeita.

E não gere filhos, reais ou falsos. Os menores gerados enquadram-se numa categoria que as plataformas e as autoridades responsáveis ​​pela aplicação da lei visam cada vez mais, por boas razões, e as crianças geradas são treinadas para aceitar as crianças da IA ​​como conteúdo normal.

Experimentei o Gemini Omni e o Google Opal e eles são a prova de que o Google descobriu a tecnologia, mas experimentou o jogo.

Dois produtos estão à frente de seu próprio marketing

Estou bem com a permanência do Omni

O Omni é impressionante, admito. Existe uma versão de exploração que considero muito boa. Gráficos legais para diversão, gerando pequenas animações para tópicos que não envolvem pessoas reais, e já vi isso feito para a educação – poderia demonstrar uma reação química melhor do que qualquer livro poderia explicar.

No entanto, para tudo o que descrevi acima, não. Não para trabalhos de design nos quais serei avaliado, não para gráficos em movimento que eu mesmo preferiria criar, e certamente não para gerar pessoas. Acho que essas linhas serão ainda mais importantes à medida que o Omni melhorar.

Link da fonte