O presidente Lula 26 de agosto de 2024 | 06:51
Especialistas contestam originalidade de IA ‘brasileira’ no radar de Lula
O anúncio de uma “inteligência artificial brasileira” por parte de empresa próxima ao Ministério da Ciência, Tecnologia e Inovação (MCTI) causa estranheza no setor de IA.
A startup Widelabs lançou o Amazônia IA, definido como “o primeiro modelo de linguagem grande (LLM) conversacional robusto em português brasileiro” no mesmo evento que o governo federal divulgou o Plano Brasileiro de Inteligência Artificial (Pbia), em 30 de julho.
Pesquisadores acusam a empresa de ignorar iniciativas de IAs brasileiras já existentes ao se firmar como pioneira. Além disso, afirmam que a startup vende ideia falsa de produto 100% nacional e surfa no desejo governamental —impraticável no curto prazo, de acordo com especialistas— de construir uma IA “soberana”.
À Folha, Nelson Leoni, CEO da Widelabs, afirmou que aperfeiçoou modelo existente para a construção do Amazônia IA, algo que nunca teria negado.
“A gente não treinou do zero. Seria impossível”, disse. “A gente nunca afirmou que era um modelo feito do zero.”
O processo de aperfeiçoamento de um LLM já existente, como o GPT-4, da OpenAI, ou Gemini, do Google, para a criação de um novo modelo, focado na resolução de problemas específicos, é chamado por especialistas de “fine tuning”.
Em comunicações institucionais, a Widelabs coloca o Amazônia IA como modelo que “nasceu no Brasil”, com “língua 100% brasileira” e “nativo em português”, o que abre margem para interpretação de que modelos criados em outros países não seriam utilizados.
Em um vídeo publicado no Instagram da Widelabs, a ministra da Ciência, Tecnologia e Inovação Luciana Santos classifica o Amazônia IA como o “primeiro produto da inteligência artificial genuinamente brasileira”.
Ela também diz que cooperações para o desenvolvimento de tecnologias do tipo estão de acordo com agendas do presidente Luís Inácio Lula da Silva (PT).
“Tenho certeza que vocês vão ser recebidos pelo presidente Lula, eu já falei para ele e ele está em festa”, afirma.
O fine tuning, treinamento superficial milhares de vezes menos robusto do que o treinamento original de um modelo, cria versões personalizadas, “mas não se encaixa de jeito nenhum no conceito de um modelo 100% original”, de acordo com Flávio Nakasato, sócio da empresa de análise de dados NoveloData.
O especialista alega que problemas comuns em sistemas de IA, como vieses e alucinações, não são totalmente excluídos pelo processo.
“Fica mais barato, mas a estrutura muda pouco. É mais para moldar a maneira com que o robô se comunica”, diz.
Treinar um modelo do zero “seria impossível em termos de capacidade financeira e, sinceramente falando, é algo contraintuitivo em estratégia de negócio e meio ambiente”, diz o CEO da Widelabs.
“Fizemos pré-treino e fine tuning. É um mix de modelo que se apropria como se fosse do zero.”
A vantagem de ter uma IA “brasileira”, segundo a empresa, seria evitar vieses de outros países durante o uso do modelo. No site do Amazônia IA, Widelabs afirma não depender de outras visões de mundo impostas por tecnologias estrangeiras.
A startup não revelou qual grande modelo de linguagem pré-treinado foi usado para construir o Amazônia IA.
“Hoje, no Brasil, até onde tenho conhecimento, não existe um LLM que tenha sido desenvolvido a partir de infraestrutura nacional e treinado do zero”, afirma o professor da PUC e especialista em IA Diogo Cortiz.
A criação de um grande modelo de inteligência artificial a partir do zero exige investimento na casa das dezenas de milhões de dólares, milhares de computadores com alta capacidade de processamento e corpo técnico extremamente especializado —algo até então restrito a gigantes como OpenAI, Meta e Google.
Pesquisas sugerem que o GPT-4, da OpenAI, teria custado US$ 78 milhões. O preço estimado do Google Gemini ultrapassa US$ 191 milhões.
Além disso, o pré-treino de um LLM exige quantidade massiva de dados, mais do que está disponibilizado em português em toda a internet, de acordo com pesquisadores. Por isso, é comum que modelos sejam treinados com dados de diversas línguas.
A Widelabs empregou no Amazônia IA dados públicos, sintéticos—traduzidos de outro idioma para o português— e adquiridos comercialmente, todos de acordo com a LGPD (Lei Geral de Proteção de Dados), segundo a empresa.
No mesmo evento em que foi lançado o Amazônia IA, horas antes, a ministra Luciana Santos afirmou que o Brasil produz dados, cobiçados pelas big techs, capazes de alimentar uma cadeia produtiva de inteligência artificial. Por isso, o país precisaria de alternativas.
O plano de IA lançado pelo governo cita como objetivo “modelos avançados de linguagem em português, com dados nacionais que abarcam nossa diversidade cultural, social e linguística, para fortalecer a soberania em IA”. Um orçamento de mais de R$ 1 bilhão é previsto para esse fim.
A Widelabs foi recebida pelo MCTI para reuniões em Brasília ao menos quatro vezes nos últimos três meses, com a ministra participando em duas ocasiões. Procurada, a pasta afirmou não ter vínculo com a startup.
Leoni recebeu críticas nos mais de 80 comentários em uma publicação que fez no dia 6 de agosto sobre o Amazônia IA no LinkedIn. Em sua maioria, profissionais do setor de tecnologia questionam a capacidade da empresa em criar a tecnologia anunciada e pedem mais transparência quanto ao projeto.
O comentário mais popular, com 283 curtidas, é do empresário Rodrigo Nogueira, CEO da Maritaca AI, que também desenvolve produtos de inteligência artificial focados em português.
“A Maritaca AI já existia muito antes de vocês surgirem, então, por favor, retire o selo de ‘primeira IA brasileira’ e ‘única IA brasileira’”, diz.
Outro comentário, do CEO da empresa de inteligência artificial YAITEC Solutions João Oliveira, mostra uma caputra de tela de uma conversa com o chat do Amazônia IA na qual o modelo lista leis brasileiras que podem ser desrespeitadas.
A instrução para que modelos não respondam conteúdos nocivos, mesmo quando provocados, é prática de segurança comum em treinamentos de LLMs.
Leoni afirmou que a empresa trabalha para diminuir e desvios cometidos pela IA, mas que breves alucinações são problemas enfrentados por todos os modelos.
Nogueira, da Maritaca AI, faz publicações no próprio perfil do LinkedIn sobre a corrida por uma “IA brasileira”. Na mais recente, de 15 de agosto, ele desafia a Widelabs a participar de um teste de autenticidade do Amazônia IA. O objetivo seria averiguar se o sistema era realmente isolado de outros provedores, ou se dependia de modelos externos.
“Nós da Maritaca AI nos dispomos a fazer o mesmo teste com nosso modelo Sabiá-3”, diz a publicação.
Questionada pela Folha sobre o assunto, a Widelabs afirmou que seguirá com o plano estratégico original de divulgação de informações sobre o Amazônia IA.
“No inicio de setembro, disponibilizaremos o Amazonia IA para desenvolvedores e no marketplace da Oracle, bem como, os benchmarks de performance. Baseado nisso, qualquer desenvolvedor poderá fazer todos os testes que quiserem, não privilegiando um ou outro profissional ou empresa”, disse a empresa.
A Widelabs ainda não liberou dados sobre o código do Amazônia IA, mas está nos planos da empresa divulgar detalhes sobre a construção do modelo, segundo o CEO da startup.
Apesar de ter anunciado o Amazonia IA como um produto desenvolvido em parceria com as globais da tecnologia Oracle e Nvidia, Leoni também encara o projeto como uma conquista de profissionais brasileiros.
“Conseguimos fazer algo que poucas pessoas no mundo fizeram, com ciência brasileira, utilizando parcerias brasileiras. Dentro das multinacionais, a gente falou só com brasileiros”, disse.
Procurada, a Oracle afirmou que não se pronunciaria por se tratar de uma relação com um cliente.
A Nvidia esclareceu que não tem participação financeira no projeto.
“Somos uma empresa americana, com atuação global, focada em entregar novos conceitos”, afirmou o diretor de enterprise da Nvidia na América Latina, Marcio Aguiar.
“Temos o programa Nvidia Incepcion, com mais de 20 mil startups no mundo todo, que, visa passar conhecimento sobre as plataformas de nossos softwares. A Widelabs é uma das parceiras”, disse.
Laura Intrieri/Folhapress