Um sistema baseado em algoritmos que identifica sinais lingüísticos reveladores em notícias falsas pode fornecer aos agregadores de notícias e sites de mídia social como o Google Notícias uma nova arma na luta contra a desinformação, de acordo com uma nova pesquisa.
Os pesquisadores que desenvolveram o sistema demonstraram que é comparável e, às vezes, melhor do que o ser humano na identificação correta de notícias falsas.
Em um estudo recente, o sistema encontrou com êxito falhas até 76 por cento do tempo, em comparação com uma taxa de sucesso humano de 70 por cento. Além disso, sua abordagem de análise lingüística pode ser usada para identificar artigos de notícias falsos que são novos demais para serem desmascarados ao fazer referência cruzada de seus fatos com outras histórias.
Rada Mihalcea, professora de ciência da computação e engenharia da Universidade de Michigan que está por trás do projeto, diz que uma solução automatizada pode ser uma ferramenta importante para sites que estão lutando para lidar com um ataque de notícias falsas, que as pessoas costumam criar para gerar cliques ou manipular a opinião pública.
Capturar histórias falsas antes que elas tenham consequências reais pode ser difícil, pois hoje os sites agregadores e de mídia social dependem muito de editores humanos que geralmente não conseguem acompanhar o fluxo de notícias. Além disso, as técnicas atuais de desmistificação geralmente dependem da verificação externa dos fatos, o que pode ser difícil nas histórias mais recentes. Muitas vezes, quando uma história é comprovadamente falsa, o dano já está feito.
A análise lingüística adota uma abordagem diferente, analisando atributos quantificáveis, como estrutura gramatical, escolha de palavras, pontuação e complexidade. Funciona mais rápido que os humanos e pode ser usado com uma variedade de diferentes tipos de notícias.
"Você pode imaginar qualquer número de aplicativos para isso no front ou no back-end de um site de notícias ou mídia social", diz Mihalcea. “Isso poderia fornecer aos usuários uma estimativa da confiabilidade de histórias individuais ou de um site de notícias inteiro. Ou poderia ser uma primeira linha de defesa no back-end de um site de notícias, sinalizando histórias suspeitas para uma análise mais aprofundada. Uma taxa de sucesso de 76 por cento deixa uma margem de erro bastante grande, mas ainda pode fornecer informações valiosas quando usada ao lado de humanos. ”
Algoritmos linguísticos que analisam a fala escrita são bastante comuns hoje, diz Mihalcea. O desafio de construir um detector de notícias falsas não está na criação do algoritmo em si, mas na busca dos dados certos para treinar esse algoritmo.
As notícias falsas aparecem e desaparecem rapidamente, o que dificulta a coleta. Ele também vem em muitos gêneros, complicando ainda mais o processo de coleta. Notícias satíricas, por exemplo, são fáceis de coletar, mas seu uso de ironia e absurdo a tornam menos útil para o treinamento de um algoritmo para detectar notícias falsas que devem induzir em erro.
Por fim, a equipe de Mihalcea criou seus próprios dados, fornecendo uma equipe on-line para uma equipe on-line que produziu engenharia reversa de notícias genuínas verificadas em falsificações. É assim que a maioria das notícias falsas é criada, por indivíduos que as escrevem rapidamente em troca de uma recompensa monetária, diz Mihalcea.
Os pesquisadores recrutaram participantes com a ajuda do Amazon Mechanical Turk e pagaram para transformar notícias curtas e reais em notícias semelhantes, mas falsas, imitando o estilo jornalístico dos artigos. No final do processo, a equipe de pesquisa possuía um conjunto de dados de notícias reais e falsas do 500.
Eles então alimentaram esses pares de histórias rotulados com um algoritmo que realizou uma análise linguística, ensinando-se a distinguir entre notícias reais e falsas. Por fim, a equipe transformou os algoritmos em um conjunto de dados de notícias reais e falsas extraídas diretamente da web, gerando uma taxa de sucesso percentual 76.
Os detalhes do novo sistema e o conjunto de dados que a equipe usou para construí-lo estão disponíveis gratuitamente. Mihalcea diz que sites de notícias ou outras entidades poderiam usá-los para criar seus próprios sistemas de detecção de notícias falsas. Ela diz que a incorporação de metadados, como os links e comentários associados a um determinado item de notícias on-line, pode aprimorar ainda mais os sistemas futuros.
Os pesquisadores detalharão o sistema em um artigo que apresentarão na 27ª Conferência Internacional de Linguística Computacional em Santa Fe, Novo México.