Een op algoritmen gebaseerd systeem dat veelzeggende taalkundige signalen in nepnieuwsverhalen identificeert, zou nieuwsaggregator en sociale mediasites zoals Google Nieuws volgens nieuw onderzoek een nieuw wapen kunnen bieden in de strijd tegen verkeerde informatie.
De onderzoekers die het systeem ontwikkelden, toonden aan dat het vergelijkbaar is met en soms beter dan mensen bij het correct identificeren van nepnieuwsverhalen.
In een recent onderzoek vond het systeem met succes vervalsingen tot 76 procent van de tijd, vergeleken met een menselijk succespercentage van 70 procent. Bovendien zou hun taalkundige analysebenadering kunnen worden gebruikt om nepnieuwsartikelen te identificeren die te nieuw zijn om te worden ontkracht door hun feiten te vergelijken met andere verhalen.
Rada Mihalcea, professor informatica en techniek aan de Universiteit van Michigan, die achter het project zit, zegt dat een geautomatiseerde oplossing een belangrijk hulpmiddel kan zijn voor sites die worstelen met een aanval van nepnieuwsverhalen, die mensen vaak maken om klikken te genereren of om de publieke opinie te manipuleren.
Valse verhalen vangen voordat ze echte gevolgen hebben, kan moeilijk zijn, omdat aggregator- en sociale mediasites tegenwoordig sterk afhankelijk zijn van menselijke editors die de instroom van nieuws vaak niet kunnen bijhouden. Bovendien zijn de huidige debunkingstechnieken vaak afhankelijk van externe verificatie van feiten, wat moeilijk kan zijn met de nieuwste verhalen. Tegen de tijd dat een verhaal als nep wordt bewezen, is de schade al aangericht.
Taalkundige analyse heeft een andere benadering, het analyseren van kwantificeerbare attributen zoals grammaticale structuur, woordkeuze, interpunctie en complexiteit. Het werkt sneller dan mensen en kan worden gebruikt met verschillende soorten nieuws.
"Je kunt je een groot aantal toepassingen hiervoor voorstellen op de voor- of achterkant van een nieuws- of sociale mediasite," zegt Mihalcea. “Het kan gebruikers een schatting geven van de betrouwbaarheid van individuele verhalen of een hele nieuwssite. Of het kan een eerste verdedigingslinie zijn op de achterkant van een nieuwssite, waarbij verdachte verhalen worden gemarkeerd voor nader onderzoek. Een 76 percentage slagingspercentage laat een vrij grote foutmarge, maar het kan nog steeds waardevol inzicht bieden wanneer het samen met mensen wordt gebruikt. "
Taalkundige algoritmen die geschreven spraak analyseren, komen tegenwoordig vrij vaak voor, zegt Mihalcea. De uitdaging om een nepnieuwsdetector te bouwen, ligt niet in het bouwen van het algoritme zelf, maar in het vinden van de juiste gegevens om dat algoritme te trainen.
Nepnieuws verschijnt en verdwijnt snel, waardoor het moeilijk te verzamelen is. Het komt ook in vele genres, waardoor het verzamelproces verder wordt gecompliceerd. Satirisch nieuws is bijvoorbeeld gemakkelijk te verzamelen, maar het gebruik van ironie en absurditeit maakt het minder nuttig voor het trainen van een algoritme om nepnieuws te detecteren dat bedoeld is om te misleiden.
Uiteindelijk creëerde het team van Mihalcea zijn eigen gegevens, crowdsourcing van een online team dat geverifieerde geverifieerde echte nieuwsverhalen ombouwde tot namaak. Dit is hoe het meeste nepnieuws wordt gemaakt door mensen die ze snel schrijven in ruil voor een geldelijke beloning, zegt Mihalcea.
Onderzoekers rekruteerden deelnemers met de hulp van Amazon Mechanical Turk en betaalden ze om korte, actuele nieuwsverhalen om te zetten in vergelijkbare maar nepnieuwsitems, die de journalistieke stijl van de artikelen nabootsten. Aan het einde van het proces had het onderzoeksteam een dataset van 500 echte en valse nieuwsverhalen.
Vervolgens voerden ze deze gelabelde verhalenparen aan een algoritme dat een taalkundige analyse uitvoerde en zichzelf leerde onderscheid te maken tussen echt en nepnieuws. Ten slotte heeft het team de algoritmen omgezet in een dataset van echt en nepnieuws dat rechtstreeks van internet is gehaald, waardoor het succespercentage van 76 werd verrekend.
De details van het nieuwe systeem en de gegevensset die het team gebruikte om het te bouwen, zijn gratis beschikbaar en Mihalcea zegt dat nieuwssites of andere entiteiten ze kunnen gebruiken om hun eigen nepnieuwsdetectiesystemen te bouwen. Ze zegt dat het opnemen van metadata, zoals de links en opmerkingen bij een bepaald online nieuwsitem, toekomstige systemen verder zou kunnen verbeteren.
De onderzoekers zullen het systeem in detail beschrijven in een paper die ze presenteren op de 27th International Conference on Computational Linguistics in Santa Fe, New Mexico.