A proliferação de modelos de linguagem generativa, tendo o ChatGPT como carro-chefe atual, revolucionou a comunicação digital. E ainda assim há uma preocupação crescente com a propagação de informações falsas e a falsificação de conteúdos acadêmicos. Esforços têm sido feitos para desenvolver detectores para distinguir o conteúdo gerado por IA do conteúdo escrito por humanos, mas já sabemos que a confiabilidade de tais detectores ainda é, na melhor das hipóteses, incerta.
Nesta linha, um estudo realizado por pesquisadores da renomada Universidade de Stanford, nos Estados Unidos, detectou distorções graves em sete dessas aplicações de “detectores” de texto gerados por IA. Depois de avaliar seu desempenho analisando um conjunto de dados com exemplos de conteúdo gerado por humanos, falantes nativos e não nativos de inglês, surgiram resultados preocupantes.
Falante não nativo de inglês não é humano?
Embora esses detectores tenham identificado com precisão o conteúdo escrito por humanos falantes nativos de inglês, eles classificaram consistentemente amostras de escrita em inglês não nativos como “geradas por inteligência artificial”. A taxa média de falsos positivos para não nativos revelou-se, de fato, muito elevada: 61,22%.
Além disso, os sete detectores identificaram por unanimidade 18 dos 91 textos como escritos por IA, enquanto a grande maioria (97,80%) foi identificada como gerada por IA por pelo menos um detector. Esse viés foi exacerbado pelo fato de que as amostras mal classificadas apresentaram menor perplexidade, indicando expressões linguísticas limitadas.
Riqueza de vocabulário como medida (manipulável)
Para investigar a origem desse preconceito, os pesquisadores empregaram o ChatGPT para enriquecer o idioma nas redações de inglês não nativo, tornando-as mais semelhantes ao vocabulário e às escolhas de palavras dos falantes nativos. Surpreendentemente, esta intervenção levou a uma redução significativa nos erros de classificação, com uma diminuição de 49,45% na taxa média de falsos positivos.
Apenas uma em 91 amostras foi detectada por unanimidade como escrito pela IA após a intervenção. Por outro lado, quando as escolhas de palavras em redações de inglês nativo foram ajustadas para imitar a escrita de falantes não nativos, a taxa de erros de classificação aumentou dramaticamente. Ignorar este preconceito pode marginalizar involuntariamente os falantes não nativos em ambientes educacionais e de avaliação, o que constitui uma preocupação ética significativa.
Mas, além disso, este último também demonstrou que – além da discriminação de não nativos – os detectores GPT são suscetíveis de serem contornados por simples avisos de autocorreção. Ao fazer uso deles no ChatGPT-3.5, os pesquisadores conseguiram reduzir significativamente as taxas de detecção. Por exemplo, solicitações de redação para admissão em faculdades – típicas do sistema universitário americano – geraram redações que inicialmente mostraram baixa ‘perplexidade’ (uma unidade de medida em IA que avalia até que ponto um modelo é capaz de prever a próxima palavra em uma sequência de palavras).
No entanto, o uso de um prompt de edição na área de trabalho levou a um aumento notável na perplexidade, tornando-os mais difíceis de detectar. Em outro experimento, foram utilizados prompts para gerar resumos científicos, e resultados semelhantes foram observados. Isto mostra quão vulneráveis são os métodos de detecção baseados em “perplexidade” à manipulação.
Inscreva-se no canal do IGN Brasil no Youtube e visite as nossas páginas no Facebook, Twitter, Instagram e Twitch!