sociographie.net

Aller au contenu | Aller au menu | Aller à la recherche

mardi 9 avril 2013

préparer un corpus de tweets avec open/google Refine pour le visualiser dans Gephi

Il existe différentes méthodes pour analyser le graphe documentaire/social issu des flux de tweets. Pegasusdata propose une méthode basée sur l'usage du logiciel de statistiques R et de la librairie Igraph dans un tutoriel réalisé par Yannick Rochat, Martin Magdinier, dans son blog dédié à la maitrise de Open/google Refine consacre plusieurs posts au traitement des tweets, dont un qui m'a longtemps servi pour manipuler les tweets sans utiliser d'expressions régulières, et un autre qui explique comment préparer les données pour gephi. Ce que je vais présenter plus loin, n'est pas une synthèse des deux posts, et offre une autre approche toujours sous Open/ggggle Refine, la première des solutions collectées par Martin étant trop lourde parfois, et la seconde ne permettant pas de produire un fichier très élaboré, offrant simplement un graphe trop sommaire à mon goût.

Celle que je présente ici me parait être la plus simple en nombre de manipulations, et la plus efficace si l'on ne connaît rien à R / Rstudio et si l'on travaille pourtant sur un fichier comportant un très grand nombre de lignes (autour de 500.000 tweets par ex.), dans la mesure où elle est économe sur l'usage des fonctions "split into several columns" & co, et n'étouffe pas l'ordinateur sous les opérations de calcul... Elle demande d'utiliser des expressions régulières, ce qui peut déstabiliser un instant ceux qui ignorent leur existence. En fait, comme beaucoup de choses, au début ça fait peur, mais en fait c'est pas grave... Pour ma part, je n'y connais pas grand chose, mais en tâtonnant, comme souvent avec l'informatique ou les maths, j'ai trouvé les deux ou trois regex qui me facilitaient le travail. C'est l'objet de ce post, fournir les expressions qu'il suffira de copier/coller dans Open/google Refine, ceci revenant à faire à peine plus que cliquer sur un bouton qui dirait "extrait tous les hashtags pour moi steuplé" ;-)


Prérequis, récupération du corpus de tweets et ouverture dans OpenRefine

prérequis : avoir installé gephi, mais surtout avoir installé open/gggle refine.

Concernant l'usage d'une base de données de tweets destinée à la production d'un graphe dans Gephi, la forme du fichier à produire est simple, il suffit juste d'anticiper deux ou trois choses : - il faut produire une table des relations avec une colonne 'Source' & une colonne 'Target' (avec des majuscules dès le départ, ça évite d'y revenir ensuite) - il faut conserver un identifiant unique pour chaque tweet,( c'est déjà le cas dans la base de données ou le phirehose de twitter) - il faut conserver la date pour pouvoir établir un graphe dynamique (au cas ou, la conserver ne prend pas énormément de place)

Lire la suite...

vendredi 21 décembre 2012

Fucksonomy : l'identité sexuelle next-door. (par @cultord)

Voici, en #cadeaubonux, la copie du texte rédigé par P. Grosdemouge sur son blog (entre temps hacké) à l'occasion de la diffusion d'une émission "Place de la Toile" sur france culture où j'étais intervenu aux côté de M. Cervulle pour parler des transformations esthétiques du porno à l'heure du web et du numérique. Je copie le post de PG. tel quel, c'est avant tout par souci d'archivage que je le poste ici, le temps qu'il relance son propre blog.

Le 19 Mars 2010 était diffusé sur France Culture l'émission "Place de la Toile", ayant pour thème : "Porno sur internet : esthétique de l'amateurisme".

Il a bien été question d'une influence esthétique des pratiques amateur sur la pornographie. Mais les intervenants ont également défendu l'idée selon laquelle l'influence de l'amateurisme peut se caractériser d'avantage encore par l'efficacité de ses procédures. J'aimerais insister sur ce point puisqu'il croise mes propres questionnements : la pornographie en ligne fournit une occasion de voir ces procédures amateur à l'œuvre, au travers notamment de leur impact sur l'organisation même des documents à caractère sexuels, et plus largement sur la construction et la répartition des identités sexuelles.

Lire la suite...

samedi 7 juillet 2012

#Xroads2012 + quelques remarques sur l'organisation des LT

Voici que se termine le Crossroads in Cultural Studies 2012, il a eu lieu à Paris cette année, et j'en ai parlé sur culturevisuelle tout simplement parce que j'y intervenais avec deux collègues F. Voros et KP Hofer pour une session sur les affects discutée par S. Paasonen. Le crossroads s'est déroulé sans encombres grâce à une organisation sans failles. Il a accueilli je ne sais plus combien de centaines de sessions, avec son pesant d'interventions de haut vol et de speeches hilarants, de rencontres heureuses et de boulets, d'échanges frénétiques de cartes de visites, et de personnes que l'on a croisées sans jamais comprendre ni d'où elles sortaient ni qui elles étaient. Bref, un congrès scientifique de grande taille,

logoCS201218oct.png

Un seul regret pour moi, qui ne change pas grand chose à l'intérêt de l'événement en lui-même, reste la qualité moyenne du livetweet, alors que c'est un mode de diffusion qui pourrait, il me semble, être largement mieux encadré et surtout préparé en amont... Voici le pdf qui rassemble les tweets du LT (récupéré par le site tweetdoc.org et recomposé dans la mesure du possible par mes soins).

Lire la suite...

samedi 28 avril 2012

Parcours ethnographique en ligne et politiques d'accès aux documents

Voici le texte rédigé d'une communication que j'ai faite à l'automne dernier au congrès de l'AFEA. Elle s'insérait dans un panel qui traitait des ethnographies en ligne. La question, qui peut sembler entendue dans les web studies et les digital humanities ainsi qu'en socio et en info-com, a provoqué, à notre grande surprise, un mini-tollé en... ethnologie. Rien de grave, toutefois. Cette communication, alors même qu'elle fut plutôt poussive en live et que ce sont les questions des auditeurs qui la sauvèrent à mes yeux, m'a permis d'engager la réflexion qui a généré plus tard le plan de la conférence HiNT en mars 2012, et notamment l'idée qu'il est impossible de distinguer dispositif technique et matériau culturel, et de ne s'attache à l'étude que l'un des deux, dès lors que l'on travaille à une ethnographie du web.

Technology is neither good nor bad; nor is it neutral... technology's interaction with the social ecology is such that technical developments frequently have environmental, social, and human consequences that go far beyond the immediate purposes of the technical devices and practices themselves. M. Kranzberg (Kranzberg, 1986, p. 545) cité par d. boyd & K. Crawford (boyd & Crawford, 2011 p. 1)

I. Deux troubles ethnographiques et un parcours documentaire

Comment un ethnographe peut-il produire des données lorsqu'il enquête sur le web de l'intime, de la rencontre et de la pornographie ? Pour développer cette question de méthode, il me faut aborder entre les lignes l'existence de deux troubles liés profondément à l'activité des ethnographes. D'abord, un trouble lié au compte-rendu, à la description en ce qu'elle draine de vocabulaire, de rhétorique, d'enjeux à la représentation, etc. et, plus précisément, à l'accountability des ethnométhodologues qui implique que le terrain soit observable, rapportable, descriptible et « résumable à toute fin pratique » (Garfinkel, 2007). Grossièrement on peut illustrer ce point par la question de savoir ce que l'on décrit lorsque l'on « explore » un réseau social sur le web, et que pour cela, on se trouve seul face à l'écran d'un ordinateur. Le second trouble, lié au premier de façon assez directe dans le contexte du web, est celui de l'écriture (Jeanneret et al. 2003), et de la documentation (Georges, 2010, p.148) ou plutôt du « déjà-documenté » qui provient du fait que les pratiques en lignes ont quelque chose à voir avec la manipulation de documents, une manipulation supplémentaire et antérieure à celle qui caractérise l'activité ethnographique, ce qui, dans le fond, doit pousser l'ethnographe qui travaille en ligne à ne jamais se retrancher derrière un rôle passif d'archivage des données numériques, mais à interroger la possibilité et les manières mêmes de cet archivage.

Ces deux troubles ont à la fois paralysé et nourrit mon travail d'enquête et de compte rendu pendant de longues années parce qu'ils n'apparaissaient jamais directement comme les problèmes que je rencontrais sur le terrain, problèmes que j'associais toujours plutôt aux contenus des discours tenus par les internautes, affaires de sexualité, de conceptions de la relation amoureuse, de savoir/découvrir qui ment, qui est sincère, etc., qu'à des problèmes de documentation et de compte rendu ethnographique. D'une certaine façon, il m'a fallu considérer mon travail comme une activité ethnographique plutôt qu'une simple collecte de données pour pouvoir enfin commencer à rendre compte du terrain ; avant cela, avec la meilleure volonté du monde, je ne trouvais jamais la bonne manière de présenter dans son ensemble le corpus que j'étais en train de produire, et me contentait d'en présenter des portions minuscules.

Faire une ethnographie en ligne, c'est d'abord se donner pour objectif d'effectuer un parcours en ligne avec des moyens à peu près équivalents à ceux dont disposent la majorité des internautes (« no bigdata, no backoffice, just a mouse, my eyes and a keyboard »). Il s'agit donc d'avancer de page web en page web, de profil en discussion, de site perso en plateforme de partage ou en réseau social, au point de comprendre que l'activité des internautes, comme celle de l'ethnographe, peut être interprétée comme une suite de circulations (Boutet, 2008, p.448-449), de parcours de documentation. Surtout, en procédant ainsi, on réalise qu'il leur arrive régulièrement d'interpréter eux-mêmes leur parcours comme lié à de la documentation, et à d'autres moments d'être confrontés à ce type d'interprétation par d'autres internautes ou bien par les interfaces des sites web, sans qu'ils l'aient choisie de leur plein gré.

Lire la suite...

vendredi 9 mars 2012

Histoires de Rencontres / Séminaire HiNT - cnrs [UPDATE]

Je recopie plus bas l"information concernant le séminaire HINT "hitoires de rencontres" auquel V. Schafer et F. Georges m'ont convié à participer aux côtés de M. Pastinelli et M. Gourarier. Une capture audio a été faite, et il est donc possible d'écouter en mp3 les 3 présentations à l'adresse suivante : http://www.iscc.cnrs.fr/spip.php?article1599 ou seulement la mienne avec le petit player en-dessous.

Je recopie ici les résumés des interventions :

Histoires de rencontres

Mercredi 21 mars 2012, de 14h à 17h, Institut des Sciences de la Communication du CNRS

La quatrième séance du séminaire Hint - Histoires de l’internet aura pour thème Histoires de rencontres. Cette séance croisera comme les précédentes les regards scientifiques pour commencer à éclairer un champ encore peu historicisé de l’histoire de l’Internet : les outils de discussion et les sites de rencontre. Sommaire :

Programme

« Histoire de rencontres d’IRC à Match.com : ressorts et enjeux d’une transformation du rapport à l’autre », par Madeleine Pastinelli, professeure agrégée, Département de sociologie de l’Université de Laval, Québec.

On ne peut aborder la rencontre dans IRC que dans une perspective historique, c’est-à-dire en tenant compte des changements qu’elle a connus dans le temps et de la manière dont elle a évolué. Cette évolution s’est faite dans le contexte de la démocratisation des accès à Internet, qui a donné lieu à la multiplication des canaux et à leur localisation toujours plus étroite, jusqu’à la quasi-disparition d’IRC, alors que les réseaux de rencontres amoureuses prenaient le relais en offrant un dispositif qui était parfaitement adapté à ce qu’étaient devenus les usages d’IRC. Madeleine Pastinelli retracera les grandes lignes de cette histoire, en faisant valoir la pertinence de la perspective historique, qui permet d’échapper à une lecture déterministe des pratiques observables.

« Rencontre en ligne et sites de rencontre : comment les pratiques en ligne trans-, bi- et queer réinterrogent la notion de site de rencontre », par Fred Pailler, sociologue, ingénieur d’études à l’École des hautes études en sciences sociales et doctorant à l’Université de Nantes.

L’opinion courante voudrait qu’un « site de rencontre » soit une architecture technique culturellement neutre spécifiée ensuite par des contenus fournis par des internautes de différentes orientations sexuelles. Or, D. Cardon montre que la conception technique des sites de rencontre varie suivant les communautés auxquelles ils s’adressent : les sites de rencontre généralistes et les sites gays et lesbiens n’offrent pas les mêmes fonctionnalités techniques (Cardon 2008), au point que les seconds n’utilisent pratiquement pas l’appellation "site de rencontre". De plus, les attendus et la définition même de la rencontre varient selon les interfaces utilisées, au point d’exiger une déconstruction de cette notion (le fait qu’elle ait "lieu" hors-ligne, par ex.). Par l’approche historique d’un corpus de sites qui déclarent mettre en relation des internautes (sites de rencontre conjugalistes, sites de webcam, sites de concours d’anatomies, réseaux sociaux, sites de partages de vidéos pornographiques), nous mettrons en évidence les implicites culturels qui président à leur conception et à leur usage et tenterons de spécifier certaines des manières de faire associées à des identifications minoritaires, notamment trans, bi et queer, au cours des années 2000.

« Les espaces de la séduction masculine. Une analyse comparée de la séduction en ligne et hors ligne au sein de la Communauté de la séduction en France » par Mélanie Gourarier, sociologue, doctorante au Laboratoire d’anthropologie sociale (LAS) de l’EHESS.

À partir d’un terrain ethnographique mené en France entre 2007 et 2010 dans les différents espaces de la Communauté de la séduction, groupe apparu en Californie à la fin des années 90, composé d’hommes intéressés par l’apprentissage de la séduction des femmes, Mélanie Gourarier interrogera les ressorts heuristiques d’une enquête menée conjointement sur Internet et en dehors. Les réseaux de sociabilités entre hommes générés par la Communauté, induisent une présence à la fois sur Internet, par le biais de forums, de blogs ou d’articles postés par les membres sur les principaux sites du groupe, et en dehors, lors des réunions et des séminaires organisés par les coaches de la Communauté ou lors des sessions d’entrainement à la séduction dans les espaces publics. Travaillant sur des questions relatives à la production de la masculinité, comment penser ces espaces spécifiques, sans les isoler dans l’analyse ?

- page 1 de 4