Tout est parti pour moi d'un concours de circonstances : fin janvier 2013, Maxime Cervulle me parle de ses dernières recherches : dans un article qu'il vient de rédiger, il décortique les discours et les argumentations ciselées des opposants au "mariage pour tous" depuis l'automne 2012, à la fois sur un corpus d'articles de presse et à la fois avec un terrain ethnographique mêlant des données numériques et des observations d'événements principalement parisiens. Quelques jours plus tard, Frédéric Clavert laisse entendre dans twitter qu'il vient de collecter des tweets autour de la manifestation du 27 janvier 2013, manifestation en faveur de la proposition de loi, cette fois-ci. Sa collecte s'est structurée autour des tweets comportant les hashtags #manifpourtous et #mariagepourtous. Je joue un temps les intermédiaires entre les deux chercheurs, convaincu que les données collectées par l'un pourraient servir à l'autre. Finalement, les débats à l'Assemblée Nationale suscitent un certain engouement chez les internautes, notamment des LiveTweets-marathon tenus par les partisans du #mariagepourtous ; il devient, à ce moment, vraiment opportun d'organiser une collecte plus systématique et plus assurée de tous ces tweets, et partant, de réfléchir à ce que l'on peut en observer globalement.

Au mois de février 2013, lorsque l'on s'engage lentement dans l'organisation de cette collecte, trois niveaux de crise sont déjà discernables : une couche, perceptible depuis longtemps mais pas toujours débattue ouvertement, de sexisme, de LGBTQIA-phobie et de racisme de la société française et la difficulté à déployer des problèmes liés à l'organisation républicaine elle-même, une couche intermédiaire liée à la présidence socialiste et à la difficile "re-complexion" d'une droite qui venait de se "décomplexer" sous le mandat sarkozyste, et enfin une couche plus "en surface", l'événement formel en quelques sortes, qui consistait en la mise au débat public et médiatique par le gouvernement d'une question explicitement perçue comme portant sur les modes de vie des citoyens du pays, en l'occurrence maritaux et conjugaux, autant dire tout de suite, avec un filtre hétéronormatif, des modes de vie sexuels. Ces trois niveaux ne nous étaient pas vraiment inconnus, puisque M. Cervulle travaille sur les politiques sexuelles et raciales depuis des années, et que F. Clavert se penche sur l'usage des archives numériques en sciences sociales, notamment produites par les réseaux sociaux, depuis un moment aussi. Pour le coup, F. Clavert s'est intéressé directement à la collecte, mais, a priori, ne participera pas à la suite de l'étude. Pour ma part, mes intérêts sociologiques se répartissent en 50/50, à l'articulation de ces deux champs d'études et de réflexions des technologies numériques et des politiques sexuelles et affectives. Pour autant, si cela explique une sensibilité et une accuité dans la perception des événements de début 2013, cela ne permet pas de présager forcément de la bonne conduite de cette collecte.

En effet, d'un claquement de doigts, mi-février, il était possible déjà de lister les problèmes : nous n'avions pas d'archive réellement exploitable des mois précédents, nous venions à peu près de rater la sauvegarde des tweets se rapportant au débat à l'Assemblée Nationale, et, enfin, le serveur utilisé par F. Clavert pour collecter les tweets relatifs à la manifestation du 27 janvier avait eu des problèmes de stabilité relativement importants, laissant planer un doute sur la solidité du programme qu'il avait alors utilisé. Les méthodes alternatives de collecte que nous connaissions pour les avoirs déjà utilisées n'étaient pas très intéressantes, que ce soient les tweetdocs (pourtant pratiques pour archiver un LT de conférence) et autes dignes descendants plus ou moins payants de twapperkeeper devenu un service payant depuis (#RIP). De plus, aucun d'entre nous n'était plus "miraculeusement compétent" que les autres ni ne connaissait de développeur disponible gratuitement dans les 24h pour nous coder un script faisant office de panier à ramasser les tweets. Du coup, nous nous sommes débrouillés tout seuls. Et ça nous a pris du temps, en fait, beaucoup de temps. Jusqu'ici, je n'avais jamais touché ni serveur, ni API, ni base de données SQL, ni expression régulière, ni n'avais vraiment de connaissances pour manipuler des données tabulaires en lignes de commandes. Mais l'un des principes du D.I.Y. veut que, quand on ne sait pas, il faut 1/ "ne pas avoir peur" 2/ "ne pas éviter d'apprendre". Dès le départ, on sait que ça va coûter du temps, de la curiosité et des centaines de carreaux de chocolat.

S'il est possible d'aborder des situations d'enquête de façon impromptue, ou bien dans l'urgence, à l'aide d'outils que l'on maîtrise parfaitement, il est tout à fait courant que, soit les outils ne correspondent pas aux temporalités de l'événement étudié, soit qu'ils ne s'accordent pas du tout avec le type de données qu'il est possible d'obtenir à ce moment-là. Ce n'est pas un secret, mais c'est essentiel dans ce cas, les méthodes de production des données déterminent et sont déterminées en retour par les interrogations des chercheurs et les points de vue qu'ils pourront occuper sur le terrain. Autant, les questions techniques deviennent des questions hautement problématiques, et comprendre la manière de répondre à ces questions techniques, aussi fragile soit-elle, devient essentiel dans la compréhension des axes suivis par l'étude (je reviendrai sur ce point dans le post suivant). D'une certaine façon, cette collecte de données sur twitter autour des débats sur la proposition de loi sur le mariage des personnes de même sexe constitue un véritable cas de just-in-time sociology. Cette notion de "just-in-time" a été définie lors du workshop organisé en décembre 2012 à l'EPFL (random post for homepage) à Lausanne par Frédéric kaplan autour de l'étude mêlant ethnographie et simulations informatiques de Paola Tubaro et Antonio A. Casilli sur les émeutes de Londres. En effet, notre petite enquête à moitié improvisée croise bien des enjeux et des problèmes qui ont fait l'objet de présentations par les intervenants du workshop. Aussi, avant de continuer sur le déroulement de notre collecte de tweets dans mon prochain post, je voudrais revenir sur les principaux enjeux concernant la manipulation des données qu'ont pu relever les intervenants à jitso.org :

- les données sont principalement numériques ou liées à l'économie du numérique. On pourrait dire que les données font partie d'un "déjà-numérisé" par les internautes eux-mêmes, par des entreprises, des institutions, etc. Il est essentiel alors d'être en mesure de situer le corpus, sans extrapolations ni réductions déplacées vis-à-vis d'une étude qui pourrait plus simplement établir des articulations entre des événements, ou des "portions d'événement" médiatisés et d'autres qui ne le seront pas, ou ne le seront pas de la même façon, etc. ou bien tout simplement engager des moyens pour collecter des données complémentaires, suivant des critères distincts (cf. lorsque Hynek Jerabek a construit en urgence un questionnaire visant à repérer des modèles de réactions affectives et médiatiques après les attentats du 11/09/2001, et se demande dans quelle mesure il peut généraliser ses analyses à l'échelle d'un public plus vaste que celui des répondants à son questionnaire). En l'absence de données déjà numérisées ou numérisables aisément par les chercheurs, et bien, comme l'ont choisi AA. Casilli et P. Tubaro, il est possible de réfléchir à partir de simulation informatiques, de modélisation multi-agents dans leur cas spécifique.

- les données sont 'captées' plutôt qu'elles ne sont 'élaborées' par les chercheurs. En ce sens, elles ne prennent pas forme grâce à un dispositif ad hoc inventé par les chercheurs (les habituels dispositifs d'élaboration de données sont l'entretien, le questionnaire, l'observation, etc.) mais sont collectées par ceux-ci alors qu'elles ont déjà été générées "en tant que données", dans des contextes tout à fait étrangers aux interrogations sociologiques (parfois, pas tout à fait...). Évidemment, dire qu'elles sont collectées ne dégage pas les chercheurs de savoir comment celles-ci sont produites, bien au contraire, ni comment leur propre utilisation de ces données est prise dans un contexte spécifique. Ainsi, Ana Jobin utilise des données générées par Google afin de comprendre l'intérêt que les résidents suisses ont éprouvé pour les candidatures de Obama et Romney au travers des requêtes qu'ils formulaient sur le moteur de recherche : elles n'interroge pas les personnes, et n'utilisent pas de données "directes" concernant d'hypothétiques intentions de votes (normalement les résidents suisses ne participent pas à l'élection du président des USA, hein!!).

- les données sont (très très) volatiles, car, sur twitter, elles ne seront plus collectables une fois passés quelques jours/semaines. En effet, l'API (le logiciel qui permet de se connecter à la base de données de twitter et récupérer les tweets, les informations sur les comptes des utilisateurs, etc.) dédiée à la recherche dans les stocks de tweets produits ne fonctionne que sur les quelques jours/semaines précédant la requête. La seconde API, l'APIstream qui est branchée sur le flux incessant de tweets est, comme son nom l'indique, une vanne qui ne se gèle/cristallise jamais. Dans ce cas, les tweets qui n'ont pas été capturés sont bel et bien perdus. Cependant, il est possible parfois d'engager une sorte de paléontologie numérique, comme le montre Martin Lafréchoux, à l'aide d'outils (des sites web, en fait) dédiées à produire des données relatives à twitter et aux tweets mais que twitter lui-même choisit de ne pas fournir.

- les méthodes de collectes ainsi que les questions des chercheurs sont éprouvées au fur-et-à-mesure de l'événement suivi. C'est-à-dire que l'enquête ne peut suivre un planning, ne serait-ce que pour mieux s'en éloigner. Paola Tubaro évoque ce point à propos de son désir de travailler sur les émeutes de Londres de 2011, désir tendu entre des enjeux politiques (attaques frontales et répétées des travaux macro-sociologiques par les politiciens anglais, maire de Londres en première ligne), des difficultés techniques (elle n'est pas sur place, puis n'obtient pas l'autorisation d'un comité d'éthique pour faire des interviews avec des personnes arrêtées), et des possibilités techniques (générer des simulations informatiques de comportement d'émeutiers ou policiers), et, enfin, la nécessité de pouvoir formuler et discuter ses hypothèses en ligne à partir des plateformes de blogs et/ou d'hébergement d'articles scientifiques "in progress". Il s'agit alors de reconquérir (sans blague) la méthode au fil des réajustements, et en fait, de n'accepter de parler de méthode qu'a posteriori, plutôt que de la réduire immédiatement à un protocole standardisé et figé. Il s'agit dans ce cas, que l'on entende, par méthode, le récit du chemin que l'on a effectivement parcouru et de la manière dont on l'a parcouru. Cette situation attribue en apparence un caractère bancal à l'étude d'un événément, mais, elle sollicite en fait une rigueur spécifique pour pouvoir seulement envisager de traiter les données collectées et les considérer en fonction de leurs conditions de production (ce que l'on oublie la plupart du temps quand on aligne les résultats, aussi correctes fussent-ils, comme on compte les watts de sa chaîne hi-fi ou les gigas de son disque dur).

- Le nettoyage des données prend une part prépondérante dans le processus de réflexion. C'est un point essentiel, que je ne vois discuté ni par les gens qui nettoient les données ni par ceux qui mènent les enquêtes (je suis donc preneur de toute littérature sur le sujet). En temps normal, lorsque l'étude a été programmée et longuement murie, le nettoyage sert à normaliser la forme sous laquelle des données ont été enregistrées, pour les soumettre à un traitement qui dépend entièrement des questions qui sont posées dès le départ par les chercheurs. Il sert à évacuer les questionnaires qui contiennent des réponses clairement imbéciles, intentionnellement incorrectes, etc. Dans le cas d'une étude d'événement, le nettoyage des données devient le lieu d'élaboration de nombres des hypothèses à développer par la suite et pratiquement le moment initial de l'analyse. Ainsi, le découpage de sous-corpus dans une masse peu structurée, tout comme le repérage des failles (lignes d'incohérence, ou trop forte hétérogénéité du corpus) dans la collecte vont entraîner, par défaut final de matériau, l'abandon de certaines pistes qui semblaient a priori intéressantes. L'exercice de documentation systématique des étapes de recherche (le carnet de bureau, outil commun aux ethnographes, aux statisticiens, et... aux codeurs) prend tout son intérêt à ce moment-là : il faudra pouvoir reprendre plus tard la totalité des manipulations afin de voir à quel moment on aurait fait glisser le sens d'une question ou bien quel impact a eu le choix de tel outil sur tel autre pour manipuler les données, etc. Ce carnet est d'autant plus vital que l'on découvre les méthodes et les techniques de collectes au fur-et-à-mesure que les problèmes se posent, et que, il ne faut pas se leurrer, si retenir une ligne de commande c'est facile, se souvenir de l'ensemble des lignes de commandes, de leur ordre, et des opérations pour lesquelles on les a sollicité est une autre paire de manche, lorsqu'on a passé, au début, quelques heures ou quelques jours pour effectuer chacune de ces commandes.

Voici à peu près les conditions et les dispositions dans lesquelles nous nous sommes lancés dans la collecte de tweets à propos de #mariagepourtous et #manifpourtous, j'aborderai dans le prochain post les opérations qu'il nous a fallu engager pour, à partir de là, enfin pelleter tous ces tweets.

(à suivre...)