Las Universidades de Michigan (Estados Unidos) y Ámsterdam (Países Bajos) han colaborado en la creación de un algoritmo que identifica de forma automática contenido falso en Internet, a través de la construcción de bases de datos que comparan las diferencias lingüísticas existentes entre noticias falsas ('fake news') y verdaderas, con una precisión comparable a la de una persona.
El presente trabajo, al contrario que otros anteriores, no se centra en el uso de noticias satíricas ni de noticias que han sido comprobadas por organizaciones especializadas. Por el contrario, como explican sus responsables en el texto de la investigación, publicado en ArXiv, han empleado noticias falsas y verdaderas para, mediante un sistema de procesamiento de lenguaje natural (NLP System, en inglés) desarrollar un algoritmo que las pueda diferencias.
Los investigadores han establecido ciertos aspectos necesarios para separar contenido verdadero y falso dentro de noticias, entre los que destacan tener disponibles ejemplos tanto veraces como engañosos para comparar, que las noticias estén en formato de texto digital, recoger contenido que tenga una base de verdad verificable, que los textos a comparar mantengan una extensión y estructura similares o considerar los factores lingüísticos y culturales, ya que pueden modificar el contenido de una publicación.
Después de marcar estos parámetros de identificación, los investigadores han creado dos bases de datos donde recoger las noticias que sirven para configurar el algoritmo. La primera de estas contiene noticias verdaderas de seis temáticas (deportes, negocios, entretenimiento, política, tecnología y educación) procedentes de medios de comunicación legítimos, como CNN, New York Times, entre otros, que los investigadores comprobaron de forma manual. También contiene noticias falsas procedentes la comunidad de Amazon Mechanical Turk (AMT).
Necesidad de bases de datos
Las noticias falsas se crearon a partir de las noticias verdaderas ya presentes en la base de datos. Los participantes de AMT retocaron ciertos aspectos de esas noticias pero manteniendo la estructura y la mayoría de los rasgos con el objetivo de que permaneciera al máximo el estilo periodístico para facilitar las comparaciones.
Una vez creada la primera base, se creó la segunda base de datos, integrada exclusivamente por contenido extraído directamente de la web. El objetivo de esta era encontrar 'fake news' que se habían generado directamente en Internet. El contenido proviene en gran medida de cuentas de compañías y personalidades famosas. También se trabajó con dos pares de noticias: con el titular falso y el legítimo.
Los investigadores realizaron una comparación de eficiacia entre la habilidad de las personas para identificar estas noticias falsas y las de NLP. Concluyen así que los humanos identifican con mayor facilidad las noticias falsas relacionadas con personas famosas, mientras que el algoritmo detecta con una mayor precisión las noticias falsas relacionadas con temas serios.