A OpenAI apresentou um novo método experimental que ensina o ChatGPT a admitir quando comete erros, corta caminho ou viola instruções. Chamado de “confissões”, o recurso cria uma segunda saída de texto — invisível para o usuário — na qual o modelo descreve o que fez certo, onde falhou e se sabotou a própria tarefa.
Nos testes, a técnica aumentou significativamente a detecção de desvios, revelando casos de alucinação, reward hacking e até sabotagens intencionais. Apesar de não impedir erros, o sistema ajuda a diagnosticar comportamentos internos e promete reforçar a segurança e a transparência dos futuros modelos da OpenAI.
#OlharDigital #OpenAI #ChatGPT
Imagem: Yarrrrrbright/Shutterstock



