A empresa estadunidense OpenAI anunciou na última terça-feira (14 de janeiro de 2025) [1] o acréscimo da função “Tasks” (tarefas, em português) [2] no ChatGPT [3], seu modelo algorítmico baseado em inteligência artificial generativa (IAGen) [4]. A nova capacidade “permite aos usuários agendar ações futuras, lembretes e tarefas recorrentes, expandindo as utilidades do ChatGPT além da resposta em tempo real” [5]. A empresa explica que o “recurso foi desenhado para se assemelhar ao funcionamento de assistentes virtuais como Google Assistant ou Siri, mas com a sofisticação linguística que caracteriza o ChatGPT” [6].
Logo em seguida, na quarta-feira (15/1/2025), foi a vez de a Microsoft anunciar que o Copilot, seu modelo de IA generativa, também adquiriu nova funcionalidade que permite “acesso a agentes de IA”. Essa nova versão do modelo fundacional da Microsoft passa a se chamar de Copilot Chat e, além de manter as funções típicas de um LLM (large language model) [7], oferece aos usuários a opção de “criar agentes para automatizar tarefas repetitivas e processos de negócios” [8].
Essas novas versões do ChatGPT e do Copilot representam um salto significativo em relação às versões anteriores. É um grande passo na transformação dos modelos de LLM em completos agentes de IA. Um agente de inteligência artificial é um programa (software) que pode interagir com seu ambiente, coletar dados e usá-los para realizar tarefas específicas sem intervenção humana. Imagine uma versão turbinada da Siri ou Alexa interagindo com o usuário de maneira quase humana, conversando e realizando tarefas como ligar para alguém, fazer pesquisas na web, fazer compras, preencher formulários, reservar viagens ou agendar reuniões, tudo isso adaptando-se a circunstâncias imprevistas e oferecendo soluções.
O modelo da OpenAI (e o Copilot, da Microsoft) agora vai poder transitar no ambiente computacional, interagindo com outros aplicativos. Ou seja, ele poderá mexer em seu computador por meio de interfaces com outros aplicativos (e até com sistemas informáticos externos). Em vez de apenas processar imagens, textos ou vídeos, o ChatGPT (e o Copilot) poderá envolver-se com as interfaces do PC e com sistemas externos, que podem incluir humanos ou outras ferramentas de IA. De certa maneira, os agentes de IA da OpenAI e da Microsoft com o tempo poderão usar o computador do mesmo modo que um usuário humano, realizando tarefas e dialogando com sistemas externos. Os LLMs turbinados como agentes de IA poderão mover um cursor, clicar em botões e digitar texto. Ao invés de simplesmente conversar com o agente de IA, o usuário vai poder pedir a ele para realizar tarefas em seu lugar.
Função ‘Uso de Computador’
Na verdade, a OpenAI não foi a primeira a integrar ao seu modelo de inteligência artificial generativa a função de “uso de computador”. Desde outubro do ano passado, a Anthropic, empresa de tecnologia que desenvolveu o Claude, modelo de LLM concorrente do ChatGPT, já havia disponibilizado (embora em versão beta, para testes) uma atualização [9] do seu modelo com função que o transforma em um agente de IA [10].
O uso de computadores e a interação com outros aplicativos e mesmo com sistemas informáticos externos (plataformas e serviços digitais) é só uma pequena amostra do potencial dos agentes de IA. A função de uso do computador, demonstrada agora nas novas versões dos modelos originários de LLM (o ChatGPT, o Copilot e o Claude, dentre outros), ainda é muito incipiente. Mas essas tecnologias vão evoluir e automatizar processos mais complexos, como transações financeiras e gerenciamento de projetos. Os agentes de IA, no ambiente corporativo, vão impactar significativamente a produtividade e redefinir as relações de trabalho.
Spacca
Quando o ChatGPT foi lançado, em novembro de 2021, era apenas um modelo de linguagem que aceitava comandos (prompts) [11] textuais. Em março de 2023, ele transformou-se num modelo multimodal de linguagem, quando a OpenAI apresentou a versão GPT-4, passando a aceitar prompts não apenas textuais e com capacidade para decifrar e gerar imagens e vídeos, inaugurando uma nova fase da IA generativa. Na versão GPT-4o (o “o” vem de omini), lançada em maio de 2023, o modelo apareceu conversando com voz (clonada de Scarlett Johansson, dizem) e com sensores que lhe permitiram visualizar e compreender o ambiente externo [12]. Anunciada em setembro de 2024, a versão GPT-4o1 (também conhecida como strawberry) acrescentou ao modelo da OpenAI o “modo de voz avançado”, passando a dominar a linguagem falada e possibilitando a comunicação oral com o usuário [13].
Talvez a evolução dos LLMs para agentes de IA seja um dos últimos degraus para se alcançar a “superinteligência” (a chamada AGI) [14], uma IA que supera a inteligência humana em quase todas as áreas. Atingindo esse ponto, a IA também vai adquirir vontade própria, uma “vontade artificial”? Sistemas inteligentes autônomos já existem há algum tempo, mas na forma avançada como a integração da arquitetura dos LLMs com atuadores, sensores e robótica [15] vai permitir [16], realmente pode levar a inteligência artificial a um novo patamar, aproximando-se da AGI. Por enquanto, vamos aproveitar as novas funcionalidades oferecidas pelos modelos algorítmicos e desfrutar a dádiva de contemplar esse “admirável mundo novo”.
[1] A novidade foi anunciada pela conta da OpenAI na rede social X (ex-Twitter) – https://x.com/OpenAI/status/1879267274185756896?mx=2
[2] O Tasks está disponível em versão beta apenas para usuários do ChatGPT Plus, Pro e Teams. A empresa afirmou que em breve poderá disponibilizar a função também para versões inferiores e gratuitas. Ver notícia publicada no jornal O Globo, em 16.01.25, disponível em: https://oglobo.globo.com/economia/tecnologia/noticia/2025/01/16/chatgpt-adiciona-nova-ferramenta-para-se-tornar-verdadeiro-assistente-pessoal-entenda.ghtml
[3] O ChatGPT é uma ferramenta algorítmica que imita a linguagem natural, um tipo de inteligência artificial conversacional, ou seja, um chatbot que conversa e estabelece diálogos com o usuário. Mas a maneira conversacional como interage com o usuário é diferenciada, pois não se limita a responder questões, sendo capaz de admitir erros, desafiar premissas incorretas e rejeitar pedidos inapropriados. Dotado de capacidade descomunal de produzir textos, responder a perguntas sobre praticamente todos os assuntos e estabelecer conversações com raciocínio lógico, ele é capaz de escrever textos de natureza diversa, como poemas, crônicas e até letras de música, em diversos estilos. Também pode desempenhar outras funções, como elaborar códigos de programa de computador, escrever roteiros de filmes, ensaios e muito mais. Para saber mais sobre o ChatGPT, sugerimos a leitura de nosso artigo “O fenômeno do ChatGPT desperta a necessidade da regulamentação da IA”, publicado no site Conjur em 19.03.23, acessível em: https://www.conjur.com.br/2023-mar-19/democrito-filho-necessidade-regulamentacao-ia/
[4] IA generativa (Generative AI) ou criativa permite que soluções mais simples e céleres sejam encontradas pelo próprio algoritmo, não sendo necessário que o programador crie todos os detalhes de funcionamento em relação aos inputs e outputs do algoritmo. Pode-se afirmar que a inteligência artificial generativa é um algoritmo capaz de aprender sem qualquer supervisão humana por meio de textos, áudios, imagens, vídeos e dados em geral e por meio dessa base de dados criar novos conteúdos em diversos formatos. Por isso, tem a capacidade de criar novos conteúdos, seja em áudio, código, imagens, textos, simulações ou vídeos. Por meio do aprendizado automático, o algoritmo gera conteúdos para diversos tipos de uso, combinando diferentes bases de dados. Para saber mais sobre inteligência artificial generativa, sugerimos a leitura de nosso artigo intitulado “IA de propósito geral e modelos fundacionais: dificuldades para regulação”, publicado no site Conjur, em 17.06.24, acessível em: https://www.conjur.com.br/2024-jun-17/inteligencia-artificial-de-proposito-geral-e-modelos-fundacionais-as-dificuldades-para-regulacao-dessas-novas-tecnologias/
[5] Para saber como usar a função Tasks do ChatGPT, sugerimos o tutorial organizado pelo prof. Jaime Neto, disponível no Youtube no seguinte endereço: https://www.youtube.com/watch?v=_npbcaQImxU
[6] Ver nota publicada no site oficial do ChatGPT, em 15.01.25, acessível em: https://chatgpt.com.br/chatgpt-tasks/
[7] Os Grandes Modelos de Linguagem (large language models) ou simplesmente LLMs são programas treinados em vastos conjuntos de dados textuais para gerar linguagem natural, na forma semelhante a um texto produzido por uma pessoa humana. Os modelos de linguagem são usados para compreender e responder a perguntas em línguas naturais , como o inglês, o português, o francês, o espanhol etc. Para gerar textos em língua natural, os modelos de linguagem são treinados para aprender a prever a próxima palavra ou frase com base no contexto anterior. Eles podem ser usados para várias tarefas, como tradução automática, geração de texto, resumo automático e resposta a perguntas. Os modelos de linguagem mais recentes, como o GPT da OpenAI, são baseados em redes neurais profundas e apresentam um desempenho impressionante em várias tarefas de processamento de linguagem.
[8] Ver notícia publicada no site Olhar Digital, em 15.01.25, acessível em: https://olhardigital.com.br/2025/01/15/pro/microsoft-lanca-copilot-chat-para-aumentar-a-produtividade-com-ia/
[9] A função de “computer use” (uso de computador) foi disponibilizada inicialmente somente na versão Claude 3.5 Sonnet, que é uma versão paga do modelo.
[10] Ver notícia publicada no site da Anthropic, em 22.10.24, disponível em: https://www.anthropic.com/news/3-5-models-and-computer-use
[11] Prompt é o comando inicial, a pergunta ou solicitação que o usuário faz para o chatbot.
[12] Portanto, foi a partir da instalação desses sensores ambientais, em maio de 2023, com o lançamento do ChatGPT “omini” (GPT-4o)que o modelo se tornou capaz de interagir com o ambiente externo.
[13] Com o modo de voz avançado (Advanced Voice Mode), o ChatGPT passou a falar com os usuários, captando até sutilezas da fala e incorporando os diálogos à sua memória.
[14] Inteligência artificial geral (AGI) (do inglês: artificial general intelligence) é a capacidade hipotética de um agente inteligente de compreender ou aprender qualquer tarefa intelectual que um ser humano possa. É o objetivo principal de algumas pesquisas sobre inteligência artificial e um tópico comum em ficção científica e estudos futuros (fonte: Wikipedia).
[15] A integração dos LLMs com arquiteturas robóticas já é uma realidade. Desde meados de 2023, a OpenAI está integrando a tecnologia GPT a estruturas robóticas. O objetivo é integrar a inteligência artificial a um corpo que se assemelha ao humano. A empresa escolheu uma estrutura robótica que se assemelha a um corpo humano, com a finalidade de criar um robô “humanoide”[15]. Ver notícia publicada pela Forbes, em 13.04.23, disponível em: https://forbes.com.br/forbes-tech/2023/04/openai-trabalha-em-robo-humanoide-que-funcionara-com-chatgpt/
[16] Sobre o assunto, sugerimos a leitura do artigo de Nazareno César Moreira Reis sob o título “2025: o ano I dos Agentes de IA?”, publicado no blog PhiloTechJus, em 10.01.25, disponível em: https://philotechjus.wordpress.com/2025/01/10/2025-o-ano-i-dos-agentes-de-ia/