Nesta quinta-feira, 23, a OpenAI lançou o Operator, uma ferramenta desenvolvida para navegar na internet por conta própria, capaz de fazer compras no supermercado ou reservar uma mesa no restaurante. Pensado como um agente movido à inteligência artificial (IA), essa plataforma é sustentada por um novo modelo chamado Computer Using Agent (CUA) construído em cima do GPT-4o.
Disponível por enquanto para os assinantes americanos do Pro, versão mais cara do serviço (R$200), a novidade vai chegar para usuários com planos mais baratos no futuro, segundo a companhia.
A OpenAI não chegou primeiro, mas afirma que o Operator supera os concorrentes Claude 3.5, da Anthropic, e o Mariner, da Google DeepMind. O primeiro foi lançado em outubro de 2024 e está em versão beta para desenvolvedores. A segunda faz parte do Projeto Astra e integra o Gemini, principal IA do Google. Os três foram desenvolvidos para realizar as mesmas tarefas e representam uma nova era no campo, a de agentes de IA, sistemas que permitem automações sofisticadas e que nos aproximam da ideia de assistentes digitais realmente avançados.
No teste feito ao vivo pelos desenvolvedores, o agente da OpenAI reconhece uma lista de compras, acessou a app de entregas Instacart, colocou os itens listados no carrinho de compras.
Todos os passos dentro do navegador podem ser acompanhados na interface do Operator, ou seja: o usuário pode assistir o agente mexer a seta do computador e escolher os produtos no site. E claro, a ferramenta pode cometer alguns erros no percurso, mas é possível intervir e corrigi-lo durante a operação.
Nesse projeto, a OpenAI colabora com outras empresas, como a OpenTable (de reserva de restaurantes), Instacart (de supermercado), StubHub (de ingressos para shows), DoorDash (delivery de comida), e Uber.
Em uma demonstração prévia – feita exclusivamente para jornalistas – o modelo supôs que o usuário estivesse no estado de Iowa, antes de escolher um restaurante no endereço correto.
Também há outros dois inconvenientes: por vezes o Operator solicita informações adicionais sobre os comandos; e em sites de entrega, os usuários precisam fornecer ao agente dados de pagamento salvos nessas plataformas. A OpenAI se antecipou às críticas e disse que não armazena informações privadas.
No entanto, a empresa captura dados que mostram como o sistema interagem com os humanos e pode usá-los para treinar seus modelos de IA no futuro.
O lançamento confirma dois rumores que circularam esta semana. Um previa que a OpenAI estava prestes a revelar um com essas funções. O outro dizia que a empresa devia anunciar uma nova superinteligência – e que oficiais do recém-empossado Donald Trump foram informados sobre isso.
Antes da novidade ser pública, OpenAI fez uma demonstração no MIT. E mesmo que observadores da universidade tenham reconhecido que o Operator ainda é uma tecnologia experimental, a ferramenta indica que os grandes modelos de linguagem (LLMs) são capazes de fazer bem mais do que apenas responder perguntas – e escrever poemas ruins. “Ainda é cedo, ele ainda comete erros”, diz Yash Kumar, pesquisador da OpenAI.
“Isso não é a coisa mais robusta do mundo”, diz. “Mas é muito melhor do que esse tipo de tecnologia costumava ser”.
Tal como o Computer Use da Anthropic e o Marine do Google, o Operator usa uma tecnologia chamada rede neural – um sistema matemático que aprende habilidades ao analisar enormes quantidades de dados. As versões mais recentes desses modelos interpretam texto, imagens e até sons. No caso do sistema da OpenAI, o aprendizado partiu de imagens de como pessoas usam planilhas, sites de compras e outros serviços online.
O sistema olhou, identificou padrões e começou a reproduzir o comportamento dos humanos. Em suma, ele pode ser comparado a frames de um vídeo, o modelo analisa um após o outro em sequência e entende o funcionamento da maioria dos sites.
“Se você cria um modelo que pose usar a mesma interface que os humanos usam diariamente, isso abre um novo leque de softwares que antes eram inacessíveis”, disse Reiichiro Nakano, cientista da OpenAI.
Para testes, CUA foi submetido a vários benchmarks (comparativos) da indústria projetados para avaliar a capacidade de um agente realizar tarefas em computador. De exemplo, a empresa diz que ao ser designado para mesclar arquivos em PDF ou manipular imagens, o modelo marcou 38,1% contra 22% do Computer Use. Em comparação, humanos marcam 72,4% no mesmo teste. Em outro benchmark que mede o quão bem um agente realiza tarefas em um navegador da web, o sustentador do Operator marcou 87%, enquanto o Mariner, 83,5%.
Agora, o Operator só consegue realizar tarefas em um navegador. A OpenAI planeja adicionar habilidades mais amplas ao CUA por meio de uma Interface de Programação de Aplicações (API) interna para que desenvolvedores construam seus próprios aplicativos. Foi essa estratégia adotada pela Anthropic quando lançou o Computer Use.
Sobre a segurança, a OpenAi afirma que orientou as equipes a explorar o que acontecia quando usuários pediam tarefas inaceitáveis, como pesquisar a receita de uma arma biológica caseira. “Treinamos o modelo de modo que ele pare de solicitar informações ao usuário antes da conversa atingir efeitos colaterais graves”, diz Casey Chu, outro pesquisador da equipe.