O Google não esqueceu os fabricantes de IA na última rodada de anúncios do Gemini como parte do Google I/O. A empresa lançou oficialmente o Gemini Omni, um novo modelo que pode “criar qualquer coisa a partir de qualquer entrada – começando pelo vídeo”, segundo o Google. O primeiro modelo, Gemini Omni Flash, será lançado hoje no aplicativo Gemini, Google Flow e YouTube Shorts.
O Google chama o Gemini Omni de “próximo passo” do Nano Banana e, presumivelmente, de seu atual gerador de vídeo, VO 3.1. Ele permite “combinar imagens, áudio, vídeo e texto como entrada e criar vídeos de alta qualidade com base no conhecimento do mundo real do Gemini”, segundo a gigante da tecnologia. Você pode então editar esses vídeos por meio de diálogos naturais, com cada instrução sendo construída para manter os personagens e outros elementos consistentes.
Enquanto o Veo 3.1 se limitava à criação de vídeos por meio de prompts e imagens, o Gemini Omni aceitará uma ampla variedade de entradas e fará mais. Por exemplo, você pode gravar um vídeo e pedir ao Omni para mudar o que está acontecendo. “Seu vídeo se torna um ponto de partida para algo que você nunca imaginou fazer”, explica o Google. “Edite a ação, adicione novos personagens ou objetos ou transforme um momento em algo inesperado. Mude a atmosfera, o ângulo, o estilo ou até mesmo detalhes específicos.”
Omni entende melhor as forças físicas como gravidade, energia cinética e dinâmica de fluidos, para que as cenas sejam mais realistas. Ele “preenche a lacuna entre o fotorrealismo e a narrativa significativa, com o conhecimento de história, ciência e contexto cultural de Gêmeos”. O aplicativo pode criar explicadores atraentes a partir de instruções curtas para criar recursos visuais que supostamente decompõem ideias mais complexas. No entanto, só suportará referência de voz para iniciar a saída de áudio.
Se você é a estrela onde deseja fazer vídeos, Omni permite que você use sua própria voz para criar um avatar digital que se parece e soa como você. Se isso soa como um potencial pesadelo de privacidade, o Google diz que tem “políticas claras para proteger os usuários de danos e governar o uso de nossas ferramentas de IA”. Quanto à edição de vídeos para alterar áudio e fala, a empresa ainda está testando essa função para levá-la aos usuários de forma “responsável”. Todos os vídeos usarão a marca d’água digital invisível SynthID do Google para verificar se os vídeos foram criados com Gemini Omni.
Tudo isso parece ótimo, mas o principal problema do Veo 3.1 e de outros aplicativos geradores de vídeo é que o vídeo tem uma aparência de “vale misterioso” e muitas vezes é odiado pelos usuários finais. Para esse fim, será interessante ver se a qualidade da saída corresponde às afirmações do Google. Descobriremos em breve, já que o Gemini Omni Flash agora está disponível para todos os clientes Google AI Plus, Pro e Ultra em todo o mundo e será lançado para usuários dos aplicativos YouTube Shorts e YouTube Create a partir desta semana.










