Na última quinta, dia 15 de Fevereiro, o mundo das inteligências artificiais novamente mudou com o novo anúncio da OpenAI.
Em seu Twitter, Sam Altman, o CEO da OpenAI anunciou seu mais novo projeto, o Sora, que deve transformar por completo tudo o que conhecemos sobre criação audiovisual.
Técnicas de pesquisa
Sora é um modelo de difusão, que gera um vídeo começando com um que se parece com ruído estático e gradualmente o transforma, removendo o ruído ao longo de várias etapas.
Sora é capaz de gerar vídeos inteiros de uma só vez ou estender os vídeos gerados para torná-los mais longos. Ao fornecer ao modelo a previsão de muitos quadros ao mesmo tempo, resolvemos um problema desafiador de garantir que um objeto permaneça o mesmo quando sai temporariamente de vista.
Semelhante aos modelos GPT, Sora usa uma arquitetura de transformador, desbloqueando desempenho de escalabilidade superior.
Representamos vídeos e imagens como coleções de unidades menores de dados chamadas patches, cada uma delas semelhante a um token no GPT. Ao unificar a forma como representamos os dados, poderá treinar transformadores de difusão em uma gama mais ampla de dados visuais do que era possível antes, abrangendo diferentes durações, resoluções e proporções de aspecto.
Sora baseia-se em pesquisas anteriores em modelos DALL·E e GPT. Utiliza a técnica de recaptação do DALL·E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado.
Além de poder, gerar um vídeo apenas a partir de instruções de texto, o modelo é capaz de pegar uma imagem estática existente e gerar um vídeo a partir dela, animando o conteúdo da imagem com precisão e atenção aos pequenos detalhes. O modelo também pode pegar um vídeo existente e estendê-lo ou preencher os quadros ausentes. Saiba mais no relatório técnico da openai.
Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar a AGI.
Em um primeiro momento, essa ferramenta pode parecer comum, já que seu objetivo é gerar vídeos a partir de texto, assim como o Pika Labs, que já falamos em outras news.
A diferença entre elas, é a qualidade dos vídeos.
O Sora não é apenas uma melhoria na criação de vídeos, é uma revolução.
Com o foco em ajudar as pessoas a resolver problemas que exigem interação no mundo real, a IA foi e está sendo treinada para compreender e simular o mundo físico em movimento.
Além disso, a ferramenta é capaz de gerar vídeos de até um minuto, com cenas complexas de vários personagens, tipos específicos de movimento e detalhes precisos.
O modelo tenta entender não apenas o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico, como podemos ver no exemplo abaixo:
Pelo fato de só conseguir gerar três segundos, a Pika não conseguiu fazer metade do prompt, além de não ter levado em conta que o capacete precisa ser de lã, e não a roupa…
Outro ponto é a textura do personagem, que não parece realista.
Fizemos outro comparativo com o seguinte prompt divulgado pela OpenAI: “Um close extremo de um homem de cabelos grisalhos e barba na casa dos 60 anos, […]”
Como você pode ver, o Sora é MUITO superior.
Um ano atrás, uma IA de vídeo fazia isso:
Hoje, ela faz produções sensacionais e realistas, como essas que você viu.
E apesar dos seus resultados impressionantes, precisamos ter em mente uma coisa: essa é só a primeira versão dela.
Assim como o Midjourney evoluiu de forma impressionante, esse novo modelo deve ir no mesmo ritmo, trazendo resultados cada vez mais realistas.
Estamos empolgados para o lançamento dessa tecnologia, que, atualmente, está disponível somente a um grupo seleto de artistas visuais, designers e cineastas – e a tendência é que só fique disponível para o público após as eleições americanas, para evitar fake news.
Gemini Google: O futuro da inteligência artificial ao seu alcance(Abre numa nova aba do navegador)
Como a inteligência artificial ajuda você a aumentar as vendas(Abre numa nova aba do navegador)
O que é o perfil comercial do Google? Guia do iniciante para GMB em 2023
Quando você faz parceria conosco para nossos serviços de marketing digital, ajudaremos você a aumentar suas classificações de pesquisa, tráfego do site, vendas e muito mais. Interessado em trabalhar com MidiaPro? Basta ligar para 21 97322-1936 ou entrar em contato on-line hoje mesmo!