sociographie.net

Aller au contenu | Aller au menu | Aller à la recherche

mardi 9 avril 2013

préparer un corpus de tweets avec open/google Refine pour le visualiser dans Gephi

Il existe différentes méthodes pour analyser le graphe documentaire/social issu des flux de tweets. Pegasusdata propose une méthode basée sur l'usage du logiciel de statistiques R et de la librairie Igraph dans un tutoriel réalisé par Yannick Rochat, Martin Magdinier, dans son blog dédié à la maitrise de Open/google Refine consacre plusieurs posts au traitement des tweets, dont un qui m'a longtemps servi pour manipuler les tweets sans utiliser d'expressions régulières, et un autre qui explique comment préparer les données pour gephi. Ce que je vais présenter plus loin, n'est pas une synthèse des deux posts, et offre une autre approche toujours sous Open/ggggle Refine, la première des solutions collectées par Martin étant trop lourde parfois, et la seconde ne permettant pas de produire un fichier très élaboré, offrant simplement un graphe trop sommaire à mon goût.

Celle que je présente ici me parait être la plus simple en nombre de manipulations, et la plus efficace si l'on ne connaît rien à R / Rstudio et si l'on travaille pourtant sur un fichier comportant un très grand nombre de lignes (autour de 500.000 tweets par ex.), dans la mesure où elle est économe sur l'usage des fonctions "split into several columns" & co, et n'étouffe pas l'ordinateur sous les opérations de calcul... Elle demande d'utiliser des expressions régulières, ce qui peut déstabiliser un instant ceux qui ignorent leur existence. En fait, comme beaucoup de choses, au début ça fait peur, mais en fait c'est pas grave... Pour ma part, je n'y connais pas grand chose, mais en tâtonnant, comme souvent avec l'informatique ou les maths, j'ai trouvé les deux ou trois regex qui me facilitaient le travail. C'est l'objet de ce post, fournir les expressions qu'il suffira de copier/coller dans Open/google Refine, ceci revenant à faire à peine plus que cliquer sur un bouton qui dirait "extrait tous les hashtags pour moi steuplé" ;-)


Prérequis, récupération du corpus de tweets et ouverture dans OpenRefine

prérequis : avoir installé gephi, mais surtout avoir installé open/gggle refine.

Concernant l'usage d'une base de données de tweets destinée à la production d'un graphe dans Gephi, la forme du fichier à produire est simple, il suffit juste d'anticiper deux ou trois choses : - il faut produire une table des relations avec une colonne 'Source' & une colonne 'Target' (avec des majuscules dès le départ, ça évite d'y revenir ensuite) - il faut conserver un identifiant unique pour chaque tweet,( c'est déjà le cas dans la base de données ou le phirehose de twitter) - il faut conserver la date pour pouvoir établir un graphe dynamique (au cas ou, la conserver ne prend pas énormément de place)

Lire la suite...

samedi 28 avril 2012

Parcours ethnographique en ligne et politiques d'accès aux documents

Voici le texte rédigé d'une communication que j'ai faite à l'automne dernier au congrès de l'AFEA. Elle s'insérait dans un panel qui traitait des ethnographies en ligne. La question, qui peut sembler entendue dans les web studies et les digital humanities ainsi qu'en socio et en info-com, a provoqué, à notre grande surprise, un mini-tollé en... ethnologie. Rien de grave, toutefois. Cette communication, alors même qu'elle fut plutôt poussive en live et que ce sont les questions des auditeurs qui la sauvèrent à mes yeux, m'a permis d'engager la réflexion qui a généré plus tard le plan de la conférence HiNT en mars 2012, et notamment l'idée qu'il est impossible de distinguer dispositif technique et matériau culturel, et de ne s'attache à l'étude que l'un des deux, dès lors que l'on travaille à une ethnographie du web.

Technology is neither good nor bad; nor is it neutral... technology's interaction with the social ecology is such that technical developments frequently have environmental, social, and human consequences that go far beyond the immediate purposes of the technical devices and practices themselves. M. Kranzberg (Kranzberg, 1986, p. 545) cité par d. boyd & K. Crawford (boyd & Crawford, 2011 p. 1)

I. Deux troubles ethnographiques et un parcours documentaire

Comment un ethnographe peut-il produire des données lorsqu'il enquête sur le web de l'intime, de la rencontre et de la pornographie ? Pour développer cette question de méthode, il me faut aborder entre les lignes l'existence de deux troubles liés profondément à l'activité des ethnographes. D'abord, un trouble lié au compte-rendu, à la description en ce qu'elle draine de vocabulaire, de rhétorique, d'enjeux à la représentation, etc. et, plus précisément, à l'accountability des ethnométhodologues qui implique que le terrain soit observable, rapportable, descriptible et « résumable à toute fin pratique » (Garfinkel, 2007). Grossièrement on peut illustrer ce point par la question de savoir ce que l'on décrit lorsque l'on « explore » un réseau social sur le web, et que pour cela, on se trouve seul face à l'écran d'un ordinateur. Le second trouble, lié au premier de façon assez directe dans le contexte du web, est celui de l'écriture (Jeanneret et al. 2003), et de la documentation (Georges, 2010, p.148) ou plutôt du « déjà-documenté » qui provient du fait que les pratiques en lignes ont quelque chose à voir avec la manipulation de documents, une manipulation supplémentaire et antérieure à celle qui caractérise l'activité ethnographique, ce qui, dans le fond, doit pousser l'ethnographe qui travaille en ligne à ne jamais se retrancher derrière un rôle passif d'archivage des données numériques, mais à interroger la possibilité et les manières mêmes de cet archivage.

Ces deux troubles ont à la fois paralysé et nourrit mon travail d'enquête et de compte rendu pendant de longues années parce qu'ils n'apparaissaient jamais directement comme les problèmes que je rencontrais sur le terrain, problèmes que j'associais toujours plutôt aux contenus des discours tenus par les internautes, affaires de sexualité, de conceptions de la relation amoureuse, de savoir/découvrir qui ment, qui est sincère, etc., qu'à des problèmes de documentation et de compte rendu ethnographique. D'une certaine façon, il m'a fallu considérer mon travail comme une activité ethnographique plutôt qu'une simple collecte de données pour pouvoir enfin commencer à rendre compte du terrain ; avant cela, avec la meilleure volonté du monde, je ne trouvais jamais la bonne manière de présenter dans son ensemble le corpus que j'étais en train de produire, et me contentait d'en présenter des portions minuscules.

Faire une ethnographie en ligne, c'est d'abord se donner pour objectif d'effectuer un parcours en ligne avec des moyens à peu près équivalents à ceux dont disposent la majorité des internautes (« no bigdata, no backoffice, just a mouse, my eyes and a keyboard »). Il s'agit donc d'avancer de page web en page web, de profil en discussion, de site perso en plateforme de partage ou en réseau social, au point de comprendre que l'activité des internautes, comme celle de l'ethnographe, peut être interprétée comme une suite de circulations (Boutet, 2008, p.448-449), de parcours de documentation. Surtout, en procédant ainsi, on réalise qu'il leur arrive régulièrement d'interpréter eux-mêmes leur parcours comme lié à de la documentation, et à d'autres moments d'être confrontés à ce type d'interprétation par d'autres internautes ou bien par les interfaces des sites web, sans qu'ils l'aient choisie de leur plein gré.

Lire la suite...

mardi 27 décembre 2011

bigdata, la nécessité d'un débat [trad. de boyd & Crawford]

J'avais complètement oublié de mentionner ici la traduction du texte "6 provocations for bigdata" de d boyd et K Crawford, effectuée en septembre 2011 en compagnie de P Grosdemouge et d'internautes bénévoles, le tout, featuré par L Allard. Cette traduction a été publiée sur Internetactu, puis sur Framasoft (je n'en retrouve pas le lien, du coup, je doute...). En voici les premiers paragraphes :

L’ère de Big Data a commencé. Les informaticiens, physiciens, économistes, mathématiciens, politologues, bio-informaticiens, sociologues, et beaucoup d’autres réclament l’accès aux quantités massives d’informations produites par et à propos des gens, des choses, et de leurs interactions. Divers groupes discutent des coûts et des bénéfices de l’analyse de l’information issue de Twitter, Google, Verizon, 23andMe, Facebook, Wikipedia, et de tous les espaces dans lesquels de grands nombres de personnes laissent des traces numériques et déposent des données. D’importantes questions émergent. Les analyses de l’ADN à grande échelle aideront-elles à guérir les maladies ? Ou bien cela aboutira-t-il à une nouvelle vague d’inégalités médicales ? L’analyse des données rendra-t-elle l’accès des gens à l’information plus efficace et effectif ? Ou sera-t-elle plutôt utilisée pour pister les manifestants dans les rues des grandes villes ? Améliorera-t-elle la manière dont nous étudions la communication et la culture humaine, ou va-t-elle rétrécir la palette des options qui s’offrent à la recherche et altérer ce que “recherche” veut dire ? Tout ou partie de ces possibilités ?

Parler en termes de Big Data est, de bien des manières, restrictif. Comme l’observe Lev Manovitch (2011), ce terme a été utilisé en sciences pour désigner les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs, et bien que, désormais, de grands ensembles de données puissent être analysés sur des ordinateurs de bureau avec des logiciels standards. Il n’y a aucun doute sur le fait que les quantités de données disponibles aujourd’hui soient en effet très grandes, mais ce n’est pas la caractéristique la plus pertinente de ce nouvel écosystème des données. Les Big Data sont remarquables, non en raison de leurs tailles, mais pour leurs capacités à être articulées à d’autres données. En raison des efforts pour exploiter et agréger les données, Les Big Data sont fondamentalement liées aux réseaux. Leurs valeurs viennent des patterns qui peuvent être tirés du fait de connecter entre eux des jeux de données, concernant un individu, des individus liés à d’autres, des groupes de gens, ou simplement concernant la structure de l’information elle-même.

Plus encore, les Big Data sont importantes parce qu’elles renvoient à des analyses ayant cours à la fois à l’université et dans l’industrie. Au lieu de suggérer un terme nouveau, nous utilisons le terme Big Data ici en raison de sa prégnance populaire et parce que c’est le phénomène entourant les Big Data que nous souhaitons aborder. Ces Big Data amènent certains chercheurs à croire qu’ils peuvent tout voir d’une hauteur de 30 000 pieds. C’est le genre de données qui encourage la pratique de l’apophénie : voir des tendances là où il n’y en a aucune, simplement parce que des quantités massives de données peuvent offrir des connexions qui irradient dans toutes les directions. Pour cette raison, il est crucial de commencer à interroger les hypothèses qui vont gouverner l’analyse, les cadres méthodologiques, et les préjugés qui sous-tendent le phénomène Big Data.

la suite ici est donc sur Internetactu...

jeudi 24 novembre 2011

Réflexions sur l'hypothèse documentaire dans l'étude du web de l'intime

Ces derniers jours, sur twitter et IRL, m'a été posé une série de questions que la formule de @politechnicart peut résumer simplement : "mais pourquoi, dans ton travail sur le web, employer la notion de documents ?" La première impression que laisse peser cette question serait que la notion de document est obsolète ou ringarde, et dans les deux cas, inadéquate à une lecture du web d'aujourd'hui. j'ai d'abord pensé être capable de répondre à cette question en 140 caractères, Toutefois, rien n'est venu d'assez succinct pour loger dans un seul tweet. Cette impossibilité de la super-synthèse twittesque m'a permis de comprendre une première chose : la notion de document est une notion-pivot qui a accompagné mes déplacements sur le terrain, mais aussi mes errements entre différentes méthodes et différentes épistémologies depuis le début de cette étude en 1999. C'est à peu de choses près, la seule notion qui n'ait pas été remplacée ni éjectée, même temporairement, de ma boîte à outils sociographiques. Parler de documents m'a permis de lier différents champs d'interrogations habituellement séparés, en sciences sociales du moins, par des lexiques étrangers voire contradictoires. Voilà donc la première piste : les documents ont traversé ma description sinueuse du terrain, ils ont entériné le passage d'une méthode traditionnelle d'analyse d'un corpus de pages web à un compte-rendu ethnographique. Pour finir, ils ont accompagné et appuyé la problématisation du rôle du chercheur dans le choix du vocabulaire aussi bien sur un plan technique que sur le plan des cultures sexuelles et sentimentales, et, précisément, sur ces deux plans-là ensemble.

Lire la suite...

mercredi 19 octobre 2011

CHATROULETTE : AND SEX BECAME THE MISTAKE OF WEB 2.0

This paper was first published in POLI #4, a young french review wich offers to understand politics of images in a way directly related to cultural studies. the #4 's table of content was split in 3 parts : "bodies experiencing/facing sports" , " sex & social networks" and interviews, the first one with sociologist A. A. Casillli about online representations of the body, and the last one with B. Ruby RItch about queer cinema.

THis paper was translated from french by Sam Ripault. (thanks for his really high reactivity.)

Between the end of 2009 and the beginning of 2010, a dazzling publicity was made around the website Chatroulette.com. By the summer of 2010, however, it is not yet clear if its future might be that of a reappearance under a new form or a disappearance for good. Over one winter, Chatroulette has been causing a few problems to internet users, especially to those involved in commenting and describing the Web, whether they be journalists, sociologists or medias experts. This is one of these problems we will be discussing here. Chatroulette is a website offering to anyone equipped with a webcam to be audiovisually connected with a stranger. If it remains possible not to activate our own webcam, it is customary to authorize the computer to film us as our interlocutor is himself filmed. The main screen in the interface of Chatroulette is split into two parts of equivalent sizes. On the right half of the screen is a box for typing up messages, looking like an online chat service in which interlocutors would type in turns. The left half of the screen displays two webcam video frames, the interlocutor's at the top, our own at the bottom. The interface of Chatroulette thus allows connected users to simultaneously see, talk and send text messages to each other, displaying something that is very unlikely to be found offline: visualizing the shot, reverse shot and dialogue script at once or, in other words: displaying the documentary representation of the face-to-face we are taking part in.

As its name states, Chatroulette takes effect on a visual surprise, and its originality lies there. The connection with the interlocutor is random: we do not know who he will be and, until first glance at the screen, neither does he. We are discovering the other through the video he is showing of himself, even before any word can be read or typed. The interface assigns a specific use to the F9 key, which is attributed the “next” function that discards an interlocutor and immediately switch to the next video, showing another stranger with whom to engage a discussion. Most of the time, this is actually what a first experience of Chatroulette is made of: we experience the power of others of allowing or discarding our image on their screen, and we usually start with being discarded. Even though it would be easy to, in our turn, hit the “next” button hectically, soon arises the necessity of performing, of displaying an appealing element so as to catch the attention of interlocutors. The more we are pro-posing, the more likely we are to extract from the stroboscopic stream of successive discarded videos1. Then, people will react with imitations or contributions of their own, on Chatroulette, it is catching up or it is not.

Lire la suite...

- page 2 de 3 -