Nvidia lança modelo de inteligência artificial para geração de áudio e música

joabe antonio de oliveira
novembro 26, 2024

Compartilhe esta postagem

Receba nosso boletim

Stephen Nellis

2 minutos de leitura

A Nvidia apresentou nesta segunda-feira (dia 25) um novo modelo de inteligência artificial para gerar música e áudio que pode modificar vozes e criar sons novos – uma tecnologia voltada para produtores de música, filmes e videogames.

Maior fornecedora mundial de chips e softwares usados para criar sistemas de IA, a empresa disse que não tem planos imediatos de liberar publicamente a tecnologia, que chama de Fugatto, abreviação de Foundational Generative Audio Transformer Opus 1 (Transformador Generativo de Áudio Fundamental Opus 1).

Ela se junta a outras tecnologias apresentadas por startups como a Runway e por grandes empresas como a Meta Platforms, que podem gerar áudio ou vídeo a partir de um prompt de texto. A versão da Nvidia gera efeitos sonoros e música a partir de uma descrição de texto, incluindo sons novos, como fazer uma trombeta soar como um latido de cachorro.

O que a diferencia de outras tecnologias de IA é sua capacidade de receber e modificar áudio existente, por exemplo, pegando um trecho tocado em um piano e transformando em um trecho cantado por uma voz humana, ou pegando um áudio de voz e mudando o sotaque e o tom da fala.

“Se pensarmos sobre áudio sintético nos últimos 50 anos, a música soa diferente agora por causa dos computadores, por causa dos sintetizadores”, disse Bryan Catanzaro, vice-presidente de pesquisa de aprendizado profundo aplicado da Nvidia. “Acredito que a IA generativa trará novas capacidades para a música, para os videogames e para as pessoas comuns que querem criar coisas.”

Empresas como a OpenAI estão negociando com estúdios de Hollywood sobre se e como a IA poderia ser usada na indústria do entretenimento, mas a relação entre a tecnologia e indústria do audiovisual tornou-se tensa, especialmente após a estrela de Hollywood Scarlett Johansson acusar a OpenAI de imitar sua voz.

O novo modelo da Nvidia foi treinado com dados de código aberto. A empresa disse que ainda está discutindo se e como liberá-lo ao público. “Qualquer tecnologia generativa traz alguns riscos, porque as pessoas podem usá-la para gerar coisas que seria melhor que não fizessem”, disse Catanzaro. “Precisamos ser cuidadosos, assim não temos planos imediatos de lançar isso.”

Os criadores de modelos de IA generativa ainda não descobriram como prevenir o uso indevido da tecnologia – como a geração de desinformação ou de conteúdos protegidos por direitos autorais. A OpenAI e a Meta também não disseram quando planejam liberar para o público seus modelos que geram áudio ou vídeo.

Source link