Twahpic (prononcé twa:pik), un portemanteau de Twitter et de sujet, est un projet de démonstration de Microsoft Research qui combine la modélisation de sujet semi-supervisée avec des flux Twitter pour permettre aux gens d'explorer ce qu'est un ensemble de tweets (d'un utilisateur, correspondant à une requête) est tout sur.
Les sujets de Twahpic sont générés en analysant environ une semaine de tweets de Twitter, puis en créant des modèles spéciaux qui encapsulent le langage utilisé pour décrire divers concepts. Souvent, ces concepts se fondent clairement autour de noms tels que personnes et lieux. Les sujets peuvent également être moins bien définis, comme les adjectifs positifs ou les mots d'accueil. Il identifie ensuite si chaque sujet est social, statut, substance ou style.
Twahpic ou Twitter Topic Modeling est donc un projet visant à modéliser des tweets. Selon Microsoft, "Twahpic" montre de quoi parlent les tweets sur Twitter. Twahpic utilise l'analyse de dirichlet latent partiellement étiquetée (PLDA) pour identifier 200 sujets utilisés sur Twitter. C'est vraiment incroyable en termes de résultats, car avant cela, je n'ai jamais trouvé quelque chose qui puisse vraiment modéliser mes intérêts avec la substance, le social, le statut et le style.
Ce qui m'impressionne encore plus c'est qu'il est hébergé sur Windows Azure. Oui, il s'agit d'une application basée sur le cloud qui justifie l'investissement que Microsoft fait dans les services cloud.
Laissez-moi vous en donner un aperçu :
Visite Twahpic et saisissez le nom de la personne dont vous souhaitez modéliser les tweets ou écrivez simplement une requête. Ici, nous avons pris l'exemple des tweets @TheWindowsClub.
Vous pouvez voir sur quoi nous tweetons! Ceci est juste une interprétation de nos tweets qui aide les gens à comprendre notre contenu. Il peut aussi être amusant d'essayer de rechercher avec des mots-clés comme la mode, les films, les vêtements, etc. Je suis sûr que vous apprécierez cela!