O Google Cloud anuncia hoje que o Veo, o LLM do Google para geração de vídeos, conversão de texto-para-vídeo e imagem-para-vídeo, e o Imagen 3, modelo texto-para-imagem, já estão disponíveis para clientes em todo o mundo por meio do Vertex AI. O Veo está disponível em versão preview e o Imagen 3 com disponibilidade geral.
O Veo é o modelo de geração de vídeo mais avançado do Google até o momento, sendo o primeiro hyperscaler a oferecer um modelo imagem-para-vídeo para seus clientes. Com uma compreensão profunda de linguagem natural e semântica visual, gera vídeos que representam de perto a visão criativa de um usuário. Com 24 ou 30fps (quadros por segundo), o Veo cria filmagens consistentes e coerentes, para que pessoas, animais e objetos se movam de forma realista pelas cenas. O Veo também pode gerar vídeos a partir de uma imagem como entrada, junto com um prompt de texto. Ao fornecer uma imagem de referência em combinação com um prompt de texto, o Veo é condicionado a gerar um vídeo que siga o estilo da imagem e as instruções do prompt do usuário.
O Imagen 3 é o modelo texto-para-imagem de alta qualidade do Google. Produz imagens fotorrealistas e realistas, com muito menos artefatos visuais distrativos do que os modelos anteriores.