Nova ferramenta da dona do ChatGPT gera vídeos curtos, de até 20 segundos, a partir de comandos de texto

Nova ferramenta da dona do ChatGPT gera vídeos curtos, de até 20 segundos, a partir de comandos de texto

Compartilhe esta postagem

Índice do Conteúdo

Receba nosso boletim

Novos contatos

nossa newsletter

Nova ferramenta da dona do ChatGPT gera vídeos curtos, de até 20 segundos, a partir de comandos de texto

O anúncio da ferramenta Sora foi feito pela OpenAI em fevereiro de 2024, mas a ferramenta só foi liberada para uso público em dezembro. (Foto: Reprodução)

Mãos magras de pele clara estão encostadas sob uma mesa. As unhas estão pintadas de vermelho. Uma delas segura um o pincel de esmalte e tenta, sem sucesso, acertar as unhas – as cerdas passam pela mesa e pelos dedos, de forma desordenada, mas não deixa manchas de esmalte. Um detalhe adiciona um toque nonsense à cena: as duas mãos saem de um único braço.

O vídeo foi criado pelo jornal O Globo no Sora, a ferramenta da OpenAI, dona do ChatGPT, que promete gerar vídeos ultrarrealistas a partir de comandos de textos, em apenas alguns segundos. Para criar a cena das mãos, a reportagem pediu que o sistema de inteligência artificial gerasse a imagem de uma mulher pintando as unhas de vermelho. Não deu certo.

O recurso foi lançado para criar cenas rápidas, de até 20 segundos, em três formatos (vertical, horizontal e quadrada). O anúncio do Sora foi feito pela OpenAI em fevereiro de 2024, mas a ferramenta só foi liberada para uso público em dezembro. Desde a apresentação dos primeiros vídeos criados pela inteligência artificial, levantou-se a preocupação de como o sistema elevaria riscos da tecnologia, como de desinformação.

Algumas imagens impressionam pela riqueza de detalhes e realismo. O pedido da reportagem para a IA criar uma imagem aérea do Congresso americano, por exemplo, gera uma cena que parece de um vídeo real. As amostras exibidas pelo Sora na aba “recentes”, que reúnem criações de usuários, também mostram vídeos convincentes, alguns de cenas ultrarrealistas.

Semanas após o lançamento, no entanto, a ferramenta apresenta uma série limitações, especialmente para criar movimentos humanos. Um vídeo com o pedido de um “senhor cortando a unha do pé” mostra um homem (com rosto bem definido) pincelando a perna e o dedão com algo que parece um alicate, que se deforma ao longo do vídeo. Já a cena de um bebê tocando a mão da mãe vira uma confusão de peles e formas, com uma mão que chega a sair do pescoço da criança.

A IA também tem dificuldades de entender como Oscar Niemeyer pôde projetar um edifício (do Congresso Nacional) com duas cúpulas, sendo uma convexa e outra côncava. Mesmo com essa especificação no prompt (como é chamado o comando em texto para a IA), as duas cúpulas aparecem para baixo.

O mar parece também desafiador para a IA. O pedido de uma cena em que uma onda gigante atinge a praia de Copacabana, no Rio de Janeiro, gera uma onda de poucos metros e banhistas confusos. Um vídeo com comando simples (“uma mulher mergulha no mar na praia de Ipanema”) gera uma sequência que desafia a gravidade.

Apesar das limitações do sistema recém aberto ao público, a tendência é que o Sora, assim como outros modelos de IA generativa, evolua à medida que acumula dados e passa por refinamento com base no uso.

O lançamento do sistema vem um momento de ampliação da disponiblidade de sistemas de IA que geram vídeos. No mesmo mês do lançamento do Sora, o Google anunciou o Veo 2, modelo para criação de vídeos realistas. A ferramenta está em fase de testes.