sociographie.net

Aller au contenu | Aller au menu | Aller à la recherche

mardi 9 avril 2013

préparer un corpus de tweets avec open/google Refine pour le visualiser dans Gephi

Il existe différentes méthodes pour analyser le graphe documentaire/social issu des flux de tweets. Pegasusdata propose une méthode basée sur l'usage du logiciel de statistiques R et de la librairie Igraph dans un tutoriel réalisé par Yannick Rochat, Martin Magdinier, dans son blog dédié à la maitrise de Open/google Refine consacre plusieurs posts au traitement des tweets, dont un qui m'a longtemps servi pour manipuler les tweets sans utiliser d'expressions régulières, et un autre qui explique comment préparer les données pour gephi. Ce que je vais présenter plus loin, n'est pas une synthèse des deux posts, et offre une autre approche toujours sous Open/ggggle Refine, la première des solutions collectées par Martin étant trop lourde parfois, et la seconde ne permettant pas de produire un fichier très élaboré, offrant simplement un graphe trop sommaire à mon goût.

Celle que je présente ici me parait être la plus simple en nombre de manipulations, et la plus efficace si l'on ne connaît rien à R / Rstudio et si l'on travaille pourtant sur un fichier comportant un très grand nombre de lignes (autour de 500.000 tweets par ex.), dans la mesure où elle est économe sur l'usage des fonctions "split into several columns" & co, et n'étouffe pas l'ordinateur sous les opérations de calcul... Elle demande d'utiliser des expressions régulières, ce qui peut déstabiliser un instant ceux qui ignorent leur existence. En fait, comme beaucoup de choses, au début ça fait peur, mais en fait c'est pas grave... Pour ma part, je n'y connais pas grand chose, mais en tâtonnant, comme souvent avec l'informatique ou les maths, j'ai trouvé les deux ou trois regex qui me facilitaient le travail. C'est l'objet de ce post, fournir les expressions qu'il suffira de copier/coller dans Open/google Refine, ceci revenant à faire à peine plus que cliquer sur un bouton qui dirait "extrait tous les hashtags pour moi steuplé" ;-)


Prérequis, récupération du corpus de tweets et ouverture dans OpenRefine

prérequis : avoir installé gephi, mais surtout avoir installé open/gggle refine.

Concernant l'usage d'une base de données de tweets destinée à la production d'un graphe dans Gephi, la forme du fichier à produire est simple, il suffit juste d'anticiper deux ou trois choses : - il faut produire une table des relations avec une colonne 'Source' & une colonne 'Target' (avec des majuscules dès le départ, ça évite d'y revenir ensuite) - il faut conserver un identifiant unique pour chaque tweet,( c'est déjà le cas dans la base de données ou le phirehose de twitter) - il faut conserver la date pour pouvoir établir un graphe dynamique (au cas ou, la conserver ne prend pas énormément de place)

Lire la suite...

mardi 27 décembre 2011

bigdata, la nécessité d'un débat [trad. de boyd & Crawford]

J'avais complètement oublié de mentionner ici la traduction du texte "6 provocations for bigdata" de d boyd et K Crawford, effectuée en septembre 2011 en compagnie de P Grosdemouge et d'internautes bénévoles, le tout, featuré par L Allard. Cette traduction a été publiée sur Internetactu, puis sur Framasoft (je n'en retrouve pas le lien, du coup, je doute...). En voici les premiers paragraphes :

L’ère de Big Data a commencé. Les informaticiens, physiciens, économistes, mathématiciens, politologues, bio-informaticiens, sociologues, et beaucoup d’autres réclament l’accès aux quantités massives d’informations produites par et à propos des gens, des choses, et de leurs interactions. Divers groupes discutent des coûts et des bénéfices de l’analyse de l’information issue de Twitter, Google, Verizon, 23andMe, Facebook, Wikipedia, et de tous les espaces dans lesquels de grands nombres de personnes laissent des traces numériques et déposent des données. D’importantes questions émergent. Les analyses de l’ADN à grande échelle aideront-elles à guérir les maladies ? Ou bien cela aboutira-t-il à une nouvelle vague d’inégalités médicales ? L’analyse des données rendra-t-elle l’accès des gens à l’information plus efficace et effectif ? Ou sera-t-elle plutôt utilisée pour pister les manifestants dans les rues des grandes villes ? Améliorera-t-elle la manière dont nous étudions la communication et la culture humaine, ou va-t-elle rétrécir la palette des options qui s’offrent à la recherche et altérer ce que “recherche” veut dire ? Tout ou partie de ces possibilités ?

Parler en termes de Big Data est, de bien des manières, restrictif. Comme l’observe Lev Manovitch (2011), ce terme a été utilisé en sciences pour désigner les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs, et bien que, désormais, de grands ensembles de données puissent être analysés sur des ordinateurs de bureau avec des logiciels standards. Il n’y a aucun doute sur le fait que les quantités de données disponibles aujourd’hui soient en effet très grandes, mais ce n’est pas la caractéristique la plus pertinente de ce nouvel écosystème des données. Les Big Data sont remarquables, non en raison de leurs tailles, mais pour leurs capacités à être articulées à d’autres données. En raison des efforts pour exploiter et agréger les données, Les Big Data sont fondamentalement liées aux réseaux. Leurs valeurs viennent des patterns qui peuvent être tirés du fait de connecter entre eux des jeux de données, concernant un individu, des individus liés à d’autres, des groupes de gens, ou simplement concernant la structure de l’information elle-même.

Plus encore, les Big Data sont importantes parce qu’elles renvoient à des analyses ayant cours à la fois à l’université et dans l’industrie. Au lieu de suggérer un terme nouveau, nous utilisons le terme Big Data ici en raison de sa prégnance populaire et parce que c’est le phénomène entourant les Big Data que nous souhaitons aborder. Ces Big Data amènent certains chercheurs à croire qu’ils peuvent tout voir d’une hauteur de 30 000 pieds. C’est le genre de données qui encourage la pratique de l’apophénie : voir des tendances là où il n’y en a aucune, simplement parce que des quantités massives de données peuvent offrir des connexions qui irradient dans toutes les directions. Pour cette raison, il est crucial de commencer à interroger les hypothèses qui vont gouverner l’analyse, les cadres méthodologiques, et les préjugés qui sous-tendent le phénomène Big Data.

la suite ici est donc sur Internetactu...

jeudi 24 novembre 2011

Réflexions sur l'hypothèse documentaire dans l'étude du web de l'intime

Ces derniers jours, sur twitter et IRL, m'a été posé une série de questions que la formule de @politechnicart peut résumer simplement : "mais pourquoi, dans ton travail sur le web, employer la notion de documents ?" La première impression que laisse peser cette question serait que la notion de document est obsolète ou ringarde, et dans les deux cas, inadéquate à une lecture du web d'aujourd'hui. j'ai d'abord pensé être capable de répondre à cette question en 140 caractères, Toutefois, rien n'est venu d'assez succinct pour loger dans un seul tweet. Cette impossibilité de la super-synthèse twittesque m'a permis de comprendre une première chose : la notion de document est une notion-pivot qui a accompagné mes déplacements sur le terrain, mais aussi mes errements entre différentes méthodes et différentes épistémologies depuis le début de cette étude en 1999. C'est à peu de choses près, la seule notion qui n'ait pas été remplacée ni éjectée, même temporairement, de ma boîte à outils sociographiques. Parler de documents m'a permis de lier différents champs d'interrogations habituellement séparés, en sciences sociales du moins, par des lexiques étrangers voire contradictoires. Voilà donc la première piste : les documents ont traversé ma description sinueuse du terrain, ils ont entériné le passage d'une méthode traditionnelle d'analyse d'un corpus de pages web à un compte-rendu ethnographique. Pour finir, ils ont accompagné et appuyé la problématisation du rôle du chercheur dans le choix du vocabulaire aussi bien sur un plan technique que sur le plan des cultures sexuelles et sentimentales, et, précisément, sur ces deux plans-là ensemble.

Lire la suite...

mercredi 7 septembre 2011

#ede2011 : LIVETWEETs in Porquerolles [UPDATE]

Cette semaine, je me trouve sur l'ïle de Porquerolles (paradisiaque, c'est indéniable), pour expérimenter les possibilités, les limites, et les enjeux du live-tweet de manifestations scientifiques. Ma cible : l'école doctorale d'été regroupant des étudiants de l'EHESS et d'Institut Telecom. Cette année ce sont AA Casillli, PA Chardel et P. Tubaro qui sont aux commandes, et il s'agit d'aborder la thématique... de l'analyse des réseaux (SNA). Le programme est particulièrement dense, et se réparti en conférences théoriques le matin et l'après-midi et ateliers méthodo en soirée.

Le live-tweet a donc commencé lundi matin, par la conférence de P. Musso, et se poursuit depuis. À noter : le wifi est indisponible, ce qui créé des conditions très particulières pour l'activité de LT. Tout le LT se fait donc grâce à mon inestimable téléphone et son clavier physique, en 3G. Les interventions sont normalement filmées, mais sans wifi, pas de live-stream vidéo. D'où l'intérêt du LT comme palliatif et roue de secours à la diffusion live de par la légèreté de son dispositif technique.

[UPDATE :] je n'ai pas, toujours pas, rédigé les trois posts que je comptais écrire sur les LIVEtweets, alors en attendant, il reste possible d'apprendre bien des choses sur la question des SNA en consultant les vidéos qui ont été enregistrées lors du séminaire, et qui auraient du, si ORange avait tenu ses promesses de fournisseurs d'accès (#wififail), être livestreamées. Parce qu'après tout, c'était pour en rédiger les synthèses qui accompagnent ces vidéos que j'avais pris tant de soin à livetwitter les sessions. L'adresse est la suivante : http://ede2011.wp.institut-telecom.fr/ressources/ et le programme :

Sommaire des vidéos des interventions de l’École Doctorale d’Été 2011 EHESS / Institut télécom

 Cliquez sur un intitulé pour accéder aux ressources
Si vous ne voyez pas les vidéos mettez à jour votre lecteur Flash

Bon visionnage ;-)

lundi 25 juillet 2011

FaceGlat et le binarisme de genre

orientations sexuelles vs. pratiques de documentation : le spin-off

Je viens de voir passer sur twitter la mention par @bodyspacesoc d'un site qui a pour titre Faceglat et qui se trouve présenté par les journaux comme la "réponse juive" ou encore "l'alternative kasher" à Fb. La chose remarquable sur ce site, par rapport à nombre de réseaux sociaux qui considèrent les internautes comme des individus équivalents, se situe dans le fait que dès la première page les internautes sont distingués en fonction de leur genre. Ce site est exemplaire pour illustrer un point que je n'avais pas pu aborder dans l'article sur les orientations sexuelles et les pratiques de documentations : tout réside dans l'accès, dans les politiques d'autorisations à accéder aux documents que choisissent de développer les sites de rencontre ou les SNS.

Lire la suite...