sociographie.net

Aller au contenu | Aller au menu | Aller à la recherche

mardi 9 avril 2013

préparer un corpus de tweets avec open/google Refine pour le visualiser dans Gephi

Il existe différentes méthodes pour analyser le graphe documentaire/social issu des flux de tweets. Pegasusdata propose une méthode basée sur l'usage du logiciel de statistiques R et de la librairie Igraph dans un tutoriel réalisé par Yannick Rochat, Martin Magdinier, dans son blog dédié à la maitrise de Open/google Refine consacre plusieurs posts au traitement des tweets, dont un qui m'a longtemps servi pour manipuler les tweets sans utiliser d'expressions régulières, et un autre qui explique comment préparer les données pour gephi. Ce que je vais présenter plus loin, n'est pas une synthèse des deux posts, et offre une autre approche toujours sous Open/ggggle Refine, la première des solutions collectées par Martin étant trop lourde parfois, et la seconde ne permettant pas de produire un fichier très élaboré, offrant simplement un graphe trop sommaire à mon goût.

Celle que je présente ici me parait être la plus simple en nombre de manipulations, et la plus efficace si l'on ne connaît rien à R / Rstudio et si l'on travaille pourtant sur un fichier comportant un très grand nombre de lignes (autour de 500.000 tweets par ex.), dans la mesure où elle est économe sur l'usage des fonctions "split into several columns" & co, et n'étouffe pas l'ordinateur sous les opérations de calcul... Elle demande d'utiliser des expressions régulières, ce qui peut déstabiliser un instant ceux qui ignorent leur existence. En fait, comme beaucoup de choses, au début ça fait peur, mais en fait c'est pas grave... Pour ma part, je n'y connais pas grand chose, mais en tâtonnant, comme souvent avec l'informatique ou les maths, j'ai trouvé les deux ou trois regex qui me facilitaient le travail. C'est l'objet de ce post, fournir les expressions qu'il suffira de copier/coller dans Open/google Refine, ceci revenant à faire à peine plus que cliquer sur un bouton qui dirait "extrait tous les hashtags pour moi steuplé" ;-)


Prérequis, récupération du corpus de tweets et ouverture dans OpenRefine

prérequis : avoir installé gephi, mais surtout avoir installé open/gggle refine.

Concernant l'usage d'une base de données de tweets destinée à la production d'un graphe dans Gephi, la forme du fichier à produire est simple, il suffit juste d'anticiper deux ou trois choses : - il faut produire une table des relations avec une colonne 'Source' & une colonne 'Target' (avec des majuscules dès le départ, ça évite d'y revenir ensuite) - il faut conserver un identifiant unique pour chaque tweet,( c'est déjà le cas dans la base de données ou le phirehose de twitter) - il faut conserver la date pour pouvoir établir un graphe dynamique (au cas ou, la conserver ne prend pas énormément de place)

Lire la suite...

mercredi 7 septembre 2011

#ede2011 : LIVETWEETs in Porquerolles [UPDATE]

Cette semaine, je me trouve sur l'ïle de Porquerolles (paradisiaque, c'est indéniable), pour expérimenter les possibilités, les limites, et les enjeux du live-tweet de manifestations scientifiques. Ma cible : l'école doctorale d'été regroupant des étudiants de l'EHESS et d'Institut Telecom. Cette année ce sont AA Casillli, PA Chardel et P. Tubaro qui sont aux commandes, et il s'agit d'aborder la thématique... de l'analyse des réseaux (SNA). Le programme est particulièrement dense, et se réparti en conférences théoriques le matin et l'après-midi et ateliers méthodo en soirée.

Le live-tweet a donc commencé lundi matin, par la conférence de P. Musso, et se poursuit depuis. À noter : le wifi est indisponible, ce qui créé des conditions très particulières pour l'activité de LT. Tout le LT se fait donc grâce à mon inestimable téléphone et son clavier physique, en 3G. Les interventions sont normalement filmées, mais sans wifi, pas de live-stream vidéo. D'où l'intérêt du LT comme palliatif et roue de secours à la diffusion live de par la légèreté de son dispositif technique.

[UPDATE :] je n'ai pas, toujours pas, rédigé les trois posts que je comptais écrire sur les LIVEtweets, alors en attendant, il reste possible d'apprendre bien des choses sur la question des SNA en consultant les vidéos qui ont été enregistrées lors du séminaire, et qui auraient du, si ORange avait tenu ses promesses de fournisseurs d'accès (#wififail), être livestreamées. Parce qu'après tout, c'était pour en rédiger les synthèses qui accompagnent ces vidéos que j'avais pris tant de soin à livetwitter les sessions. L'adresse est la suivante : http://ede2011.wp.institut-telecom.fr/ressources/ et le programme :

Sommaire des vidéos des interventions de l’École Doctorale d’Été 2011 EHESS / Institut télécom

 Cliquez sur un intitulé pour accéder aux ressources
Si vous ne voyez pas les vidéos mettez à jour votre lecteur Flash

Bon visionnage ;-)