
La Sentiment Analysis è una disciplina che mira a determinare l’atteggiamento di una persona rispetto ad una determinata cosa (per esempio un prodotto, un servizio, un argomento).
Tale atteggiamento può essere un giudizio o una valutazione, lo stato affettivo (= lo stato emotivo che prova la persona stessa) o la comunicazione emozionale (= ciò che la persona cerca di trasmette agli altri).
Con l’avvento dei social media e quindi l’esplosione vorticosa di recensioni, voti e raccomandazioni di ogni tipo, l’interesse nei confronti della disciplina è cresciuto a dismisura, così come gli strumenti – più o meno seri – che provano ad analizzare questo “feeling”.
Oggi vorrei parlare nello specifico di Twitter, perché è il social che probabilmente consente di esprimere e diffondere nel modo più rapido e conciso tutto ciò che passa per la testa del twittatore, sentiment incluso.
Esistono online 3 servizi che permettono di fare una sentiment analysis molto basilare su Twitter, oserei dire “binaria”, imperniata quindi su 2 soli valori: positivo e negativo. I 3 siti sono:
• Twitter Sentiment
• Tweetfeel
• twitrratr
Inserendo una qualsiasi parola chiave (possibilmente legata ad un prodotto o a un servizio) viene eseguita una veloce analisi dei tweet correlati, con relativa ripartizione percentuale fra positivi e negativi (nel caso di twitrratr, anche dei “neutrali”).
Da quello che si può facilmente notare non viene eseguita una analisi semantica del contenuto, ma i 3 strumenti si basano principalmente su alcune paroline (generalmente aggettivi) che associate alla keyword possono far pendere la bilancia da una parte piuttosto che dall’altra.
Alcuni esempi di parole positive sono love, great, awesome, best, amazing, can’t wait, need, mentre fra quelle negative ho notato sucks, fail, negative, terrible, waste of, won’t.
Anche le emoticons possono esserci d’aiuto: come suggerito da twittercism, inserire una faccina allegra (=
) o una triste (=
) subito dopo una keyword può immediatamente far emergere i cinguettii positivi e quelli negativi. E curiosamente sembra che Twitter riesca ad interpretare in qualche modo queste query: inserire : ) nella ricerca mostra anche i tweet che includono : – ) e : D
9 Risposte
giovanni cerminara
marzo 31st, 2011 at 00:09
1Molto interessante il post, anche se devo dire la verità sono un pò scettico per il motivo che molte volte una parola negativa in una frase può avere un’accezione positiva! Cosa ne pensate?
Mik
marzo 31st, 2011 at 01:56
2Un test sul primo servizio con i primi nomi che mi sono venuti in mente, senza escluderne alcuno:
Obama 96% negativo
Bush 53% positivo
Gheddafi 58% positivo
Berlusconi 54% positivo
Merkel 72% positivo
Bin Laden 53% negativo
Ferrari 67% positivo
Italy 76% positivo
boobs 67% positivo
cigarettes 51% positivo
Obama battuto nei consensi da Gheddafi e Bin Laden la dice lunga.
Una monetina ci indovina di più.
Sono come i vecchi progetti di chatbot “intelligenti”, curiosi da provare, ma talmente inaffidabili che sono stati tutti abbandonati.
Dario
marzo 31st, 2011 at 10:21
3Vero: “da provare ma inaffidabili”. Per la key “italia”, ad esempio, questo tweet viene contrassegnato come negativo per il termine “tired”: “Tired today and lot of time without writing on twitter. working at 16 dvds about 1st century of giro d’italia.”
Tagliaerbe
marzo 31st, 2011 at 10:26
4Come giustamente avete fatto notare, usare solo keyword e faccine non ha molto senso: il futuro della sentiment analysis è nella semantica…
Emanuela
marzo 31st, 2011 at 11:51
5… senza considerare il fatto che l’analisi è valida solo per la lingua inglese. Anch’io ho fatto un test, che si è rivelato fallimentare. Twitter Sentiment non trova nulla, TweetFeel mi mostra tweet che non c’entrano nulla con la parola chiave cercata e twitrratr mi dà un generico 11%neutral mostrandomi tweet che ancora una volta non hanno alcuna attinenza con il termine ricercato.
Grazie Taglia, per avermi fatto perdere un quarto d’ora
)
PS: Questo commento che contiene ‘grazie’ e la faccina sorridente, sarebbe considerato positivo?
Trovare domini scaduti
marzo 31st, 2011 at 19:18
6Concordo in toto, il futuro e la semantica anche in questo contesto
micscarpinato
marzo 31st, 2011 at 19:38
7Anche io ho fatto un test a partire dal cognome del nostro amato premier e secondo me il più affidabile è tweetfeel
Paolo
aprile 1st, 2011 at 16:24
8discorso complesso quello della semantica, poi magari a davide mando mail, dato che c’eravamo già sentiti in passato su qs punti, anche se in fretta. E vorrei ora approfondirli. cmq esistono diversi articoli di ricerca sul sentiment su twitter, tra cui qs del mi amico marco pennnacchiotti, che lavora a yahoo! http://www.marcopennacchiotti.com/pro/publications/CIKM_2010.pdf che abbraccia tematiche sentiment e controversial da vicino. in breve la sentiment a livello industriale in italia è scarsa, non entro in dettaglio su qs punto x’ ci lavoro, cmq i tools che ci sono, sebbene in certi casi ben proposti, non hanno copertura vasta (cioè possono essere anche precisi in determinati casi, ma quando analizzi qualsiasi post, quindi anche di domini non certificati, di qualsiasi categoria, magari di livello anche dettagliato, … è tutt’altra partita). I problemi sono molteplici: usando solo il lessico è difficile, anche con buoni algoritmi (tipo i vari compattatori di spazi vettoriali: LSA, LDA etc etc) anche in abbin con buoni classificatori con buoni kernel con buono tutto. Usando anche parser grammaticali non è così immediato riconoscere gli attributi/contesti/sintagmi come good/bad , e ci sono anche problemi di tempi e di complessità del servizio …. quindi in soldoni: se, dato il web generalista, vuoi fare sentiment su il 50% dei casi in maniera buona ti bastano un po’ di lessici, kwds e matricette. Se invece vuoi coprire l’80-90% in maniera equivalent buona, occorre utilizzare algo complessi e costosi, in altre parole progetti come quello del jeapardy ibm http://www-03.ibm.com/innovation/us/watson/what-is-watson/index.html (una cosa che tra macchine, persone, banda e roba varia, costa una madonna..basti dire che i 50 ricercatori di nlp, machine learning in quel progetto guadagnano dai 150K-400K $ / years)
heppni love webmarketing
maggio 6th, 2011 at 10:26
9Sto lavoricchiando sul discorso di Paolo. Purtroppo è solo in inglese per ora, ma i risultati sono davvero interessanti.
RSS dei commenti per questo post · TrackBack URI
Lascia un commento
post recenti
commenti recenti
connettiti col tagliaerbe
L'autore di questo blog e' Davide "Tagliaerbe" Pozzi. Dal 1995 si occupa a tempo pieno di Internet, e i suoi interessi attuali spaziano nei campi del:
Il TagliaBlog (P.I. 02914290123) è realizzato su WordPress - Il tema di base è BloggingPro, modificato da Mirko D'Isidoro di Blographik.it