OneOutOfTen

The start


Een reactie plaatsen

Tweet Analyse

Twitter is een mini-blog service die gebruikt kan worden als bron voor het vinden van up-to-date informatie over alle onderwerpen waar haar gebruikers maar over schrijven. De informatie die op Twitter wordt gepost kan door haar volgers real time worden gelezen. Behalve dat dit een eindeloze bron van informatie is, levert het ook de mogelijkheid op om real time het sentiment te peilen over bepaalde onderwerpen.

Het peilen van het sentiment kan interessant zijn tijdens bijvoorbeeld evenementen. Zo zou er beter ingespeeld kunnen worden op de behoefte van de evenementgangers .Ook kan het ontstaan van problemen worden voorkomen. Ook tijdens verkiezingen lijkt het een interessante bron te zijn voor het peilen van het draagvlak van uitspraken of de populariteit van partijen.

Het doen van onderzoek op Twitter kent vele problemen.Een aantal belangrijke zijn: haar bloggers zitten overal en spreken vele talen, gebruikers profielen zijn incompleet, niet beschikbaar of incorrect en de mensen die posten zijn over het algemeen geen afspiegeling van de demografie van de bevolking van een land waarnaar onderzoek wordt gedaan.

Ondanks deze problemen bestaat er toch zeker interesse naar het doen van onderzoek over het sentiment onder de Twitter gebruikers. Waarschijnlijk omdat het een hoop tijd en moeite ,die anders gedaan moet worden voor dergelijke onderzoeken scheelt.

Als Twitter als informatie bron voor onderzoek word omarmd, heb je wel het probleem dat de stroom van informatie die Twitter aanbiedt te groot is om handmatig te onderzoeken. Tools die de informatie die je binnen haalt categoriseert en kwalificeert zijn nodig om iets zinnigs te kunnen zeggen over wat het algemene sentiment over een bepaald onderwerp in de Twitter community is.

Aan de Rijksuniversiteit Groningen (RUG) zijn ze met een project bezig dat binnengehaalde Tweets indeelt om te zien of het positieve, negatieve dan wel neutrale post is. Om de artificiële intelligentie (AI) die achter de software zit te trainen heeft de RUG een sentiment analyse tool gemaakt.

Deze tool traint de AI om, aan de hand van text bestanden waarin Tweets ingedeeld zijn, de sentimentele waarde van nieuw aangeleverde tweets te bepalen. Gebruikers hun input wordt een score toegekend en het idee is om een zo hoog mogelijke score te behalen. Er wordt een competitie factor toegevoegd door een lijst met highscores bij te houden, dit in de hoop dat mensen harder hun best gaan doen om juiste input te voorzien en tegelijkertijd meer bij te dragen aan de training van de AI.

De AI is bedoeld voor het herkennen van het sentiment in Nederlandstalige Tweets. Om een mooie score te krijgen geven ze je op deze pagina een aantal tips. Het lijkt allereerst belangrijk te zijn om een verhouding aan te houden van 1 positieve,1 negatieve en 2 neutrale Tweets. Daarom heb ik tien positieve, tien negatieve en twintig neutrale, in het totaal 40 Tweets, bij elkaar in een bestand gezet.

Voor het vinden van Tweets leek het mij interessant om een actueel onderwerp te nemen waar veel discussie over is. Het toekennen van de Nobelprijs voor de vrede aan de Europese Unie leek mij een onderwerp dat genoeg post op Twitter zou moeten genereren om een goed experiment mee uit te voeren.

In de geavanceerde zoekfunctie van Twitter ging ik opzoek naar Nederlandse Tweets met de tekst “nobelprijs voor de vrede”. Hiernaast wou ik dat de post een of meerdere van de volgende woorden bevatte: vieren, blij, goed en wel door Twitter als positief werden aangemerkt. Dit leverde slechts vier berichten op. Door bij het zoeken het vinkje “positive” uit te zetten kreeg ik een hele stroom bruikbare Tweets die ik in een text bestand heb gezet met een “+” aan het begin van de regel.

Vervolgens heb ik het zelfde trukje uitgevoerd voor de negatieve Tweets. Hier heb ik echter aangegeven dat ik negatieve output wou en de volgende woorden die aanwezig moeten zijn opgegeven: absurd, verbaasd, geen, belachelijk. De zoekresultaten waren in dit geval leeg. Ook hier ben ik terug gegaan naar het criteria scherm en heb het vinkje “negative” uit gezet en opnieuw gezocht. Dit maal kwam er wel een hele stroom aan bruikbare berichten. Deze heb ik onder de Tweets voorafgegaan door een “-” in mijn text bestand geplakt.

Na het doorspitten van al deze Tweets (voornamelijk de negatievere zoekresultaten) was mij opgevallen dat vele berichten die ik als neutraal zou bestempelen vragen waren. Al tijdens het vinden van de positieve en negatieve Tweets had ik negen neutrale posts gevonden. Om meer neutrale post te vinden leek het mij een goed idee om te zoeken op Tweets die een “?” bevatten. Dit leverde echter teveel positieve en negatieve resultaten op. Als extra criteria heb ik toen opgegeven dat de post geen van de woorden waarvan een eerder in de posts moesten zitten mocht bevatten.

Tijdens het doorlopen van de zoekresultaten kwam ik nog woorden tegen die ik heb toegevoegd om een beter resultaat te krijgen: niet, onzin, farce, Athene en Madrid. Uiteindelijk leverde dit een aardig gefilterd zoekresultaat op die zonder al te veel post over te hoeven te slaan toegevoegd kon worden aan de verzameling. Wat mij opviel is dat dingen als sarcasme erg moeilijk te vangen zullen zijn door de analyse tool. Ik ben dus ook weg gebleven bij berichten die deze vorm van humor toepasten.

Mijn resultaat was volgens de Sentimentanalyse tool van de RUG 7.11 en dit plaatste mij op het moment van uitvoering slechts op plaats 47 in de ranglijst. Mijn selectie criteria leken dus niet heel succesvol te zijn. Echter het feit dat ik geen toegekende waarde per door mij aangedragen Tweet kon bekijken, maakte dat ik het experimenteren met wat zou werken en wat niet, al snel heb opgegeven.

Mijn tip voor de RUG voor volgend jaar zou dan ook luiden om een tool te geven aan de cursisten waar ze per bericht de toegekende waarden kunnen achterhalen, dit zou mij in ieder geval een grotere motivatie hebben gegeven om een hogere score te behalen.