Meta anunciou seu novo modelo de inteligência artificial, MovieZen, para gerar vídeo e áudio a partir de prompts de texto. Competindo com o Sora da OpenAI, o modelo Movie Gen AI da Meta pode gerar vídeo com base nas descrições do usuário e criar áudio de acompanhamento. A empresa disse que pode criar vídeos personalizados usando fotos reais de pessoas para retratá-las em diferentes situações. Os vídeos criados usando entrada de texto podem ser aprimorados ou editados ainda mais. No entanto, ao contrário da série Llama de modelos de IA, é improvável que a Meta libere o Movie Gen para uso aberto pelos desenvolvedores, informou a Reuters.
Meta Movie Gen: o que é e como funciona
Em um artigo de pesquisa detalhando o novo modelo de IA, Meta explicou que o modelo MovieGen foi treinado para tarefas de texto para imagem e texto para vídeo. Quando solicitado, cria diversas imagens coloridas, cada uma servindo de moldura para o vídeo.
Meta afirma que o MovieGen pode produzir até 16 segundos de vídeo de alta definição (1080p) a 16 quadros por segundo (FPS). Entre seus parâmetros, o modelo pode produzir vídeos de diversas resoluções e durações em diferentes proporções. A empresa observa que o modelo aprende imagens do mundo real “assistindo” ao vídeo e pode raciocinar sobre o movimento do objeto, movimento da câmera, interações sujeito-objeto e muito mais.
Para geração de áudio, Meta observa que o modelo MovieGen pode gerar o áudio correspondente usando técnicas de vídeo para áudio e texto para áudio. A empresa afirma que pode produzir áudio de 48kHz sincronizado com efeitos sonoros cinematográficos e entradas de videoclipes. Embora os recursos de produção de vídeo do modelo sejam limitados a alguns segundos, ele pode produzir “áudio coerente de formato longo para vídeos de até vários minutos”.
Meta Movie Gen: recursos notáveis
Meta disse que o modelo MovieGen é treinado tanto em texto quanto em imagens, permitindo criar vídeos apresentando uma pessoa selecionada a partir de uma imagem real. A empresa garantiu que o vídeo preservará a identidade da pessoa enquanto as ações são baseadas nas instruções do usuário.
Além disso, o modelo possui recursos de edição de vídeo tanto para conteúdo gerado quanto para vídeo real. A empresa afirma que o MovieZen pode fazer “edições precisas e criativas” em um determinado vídeo com base nas descrições dos usuários. Em uma prévia mostrada pela empresa, a modelo editou com sucesso o fundo de um vídeo e adicionou elementos adicionais ao assunto principal.
Publicado pela primeira vez: 07 de outubro de 2024 | 12h52 É