Contagion émotionnelle sur Facebook? Plus comme de mauvaises méthodes de recherche

Une étude (Kramer et al., 2014) a récemment été publiée et a montré quelque chose étonnant - les gens ont modifié leurs émotions et leur humeur en fonction de la présence ou de l'absence d'humeurs positives (et négatives) d'autres personnes, comme indiqué sur les mises à jour de statut Facebook. Les chercheurs ont qualifié cet effet de «contagion émotionnelle», car ils prétendaient montrer que les paroles de nos amis sur notre fil d'actualité Facebook affectaient directement notre propre humeur.

N'oublions pas que les chercheurs n'ont jamais mesuré l'humeur de qui que ce soit.

Et peu importe que l'étude présente un défaut fatal. Un que d’autres recherches ont également négligé - ce qui rend les découvertes de tous ces chercheurs un peu suspectes.

En mettant de côté le langage ridicule utilisé dans ce type d'études (vraiment, les émotions se propagent comme une «contagion»?), Ces types d'études arrivent souvent à leurs conclusions en analyse linguistique sur de petits morceaux de texte. Sur Twitter, ils sont vraiment minuscules - moins de 140 caractères. Les mises à jour de statut Facebook sont rarement plus que quelques phrases. Les chercheurs ne mesurent en fait l’humeur de personne.

Alors, comment effectuez-vous une telle analyse linguistique, en particulier sur les 689 003 mises à jour de statut? De nombreux chercheurs se tournent vers un outil automatisé pour cela, quelque chose appelé l'application d'enquête linguistique et de décompte de mots (LIWC 2007). Cette application logicielle est décrite par ses auteurs comme:

La première application LIWC a été développée dans le cadre d'une étude exploratoire du langage et de la divulgation (Francis, 1993; Pennebaker, 1993). Comme décrit ci-dessous, la deuxième version, LIWC2007, est une révision mise à jour de l'application d'origine.

Notez ces dates. Bien avant la création des réseaux sociaux, le LIWC a été créé pour analyser de grands corps de texte - comme un livre, un article, un article scientifique, un essai rédigé dans des conditions expérimentales, des entrées de blog ou une transcription d'une séance de thérapie. Notez la seule chose que tous ces éléments ont en commun: ils sont de bonne longueur, au moins 400 mots.

Pourquoi les chercheurs utiliseraient-ils un outil non conçu pour de courts extraits de texte pour, enfin… analyser de courts extraits de texte? Malheureusement, c’est parce qu’il s’agit de l’un des rares outils disponibles à pouvoir traiter assez rapidement de grandes quantités de texte.

Qui se soucie de la longueur du texte à mesurer?

Vous êtes peut-être assis là à vous gratter la tête, à vous demander pourquoi la longueur du texte que vous essayez d'analyser avec cet outil est importante. Une phrase, 140 caractères, 140 pages… Pourquoi la longueur importerait-elle?

La longueur est importante car l'outil n'est en fait pas très bon pour analyser le texte de la manière dont les chercheurs de Twitter et Facebook l'ont chargé. Lorsque vous lui demandez d'analyser le sentiment positif ou négatif d'un texte, il compte simplement les mots négatifs et positifs dans le texte à l'étude. Pour un article, un essai ou une entrée de blog, c'est très bien - cela vous donnera une analyse récapitulative globale assez précise de l'article, car la plupart des articles comportent plus de 400 ou 500 mots.

Pour un tweet ou une mise à jour de statut, cependant, c'est un outil d'analyse horrible à utiliser. C'est parce qu'il n'a pas été conçu pour différencier - et en fait, ne peut pas différencier - un mot de négation dans une phrase.

Regardons deux exemples hypothétiques expliquant pourquoi cela est important. Voici deux exemples de tweets (ou mises à jour de statut) qui ne sont pas rares:

    "Je ne suis pas heureuse."

    «Je ne passe pas une bonne journée.»

Un évaluateur ou un juge indépendant qualifierait ces deux tweets de négatifs - ils expriment clairement une émotion négative. Ce serait +2 sur l'échelle négative et 0 sur l'échelle positive.

Mais l’outil LIWC 2007 ne le voit pas de cette façon. Au lieu de cela, il attribuerait à ces deux tweets un score de +2 pour le positif (à cause des mots «génial» et «heureux») et +2 pour le négatif (à cause du mot «pas» dans les deux textes).

C'est une énorme différence si vous êtes intéressé par une collecte et une analyse de données impartiales et précises.

Et comme une grande partie de la communication humaine comprend des subtilités comme celle-ci - sans même plonger dans le sarcasme, des abréviations abrégées qui agissent comme des mots de négation, des phrases qui annulent la phrase précédente, des émojis, etc. - vous ne pouvez même pas dire à quel point il est exact ou inexact l'analyse qui en résulte par ces chercheurs est. Puisque le LIWC 2007 ignore ces réalités subtiles de la communication humaine informelle, les chercheurs aussi.2

C'est peut-être parce que les chercheurs n'ont aucune idée de la gravité du problème. Parce qu'ils envoient simplement toutes ces «données volumineuses» dans le moteur d'analyse du langage, sans vraiment comprendre en quoi le moteur d'analyse est défectueux. Est-ce que 10% de tous les tweets contiennent un mot de négation? Ou 50 pour cent? Les chercheurs ne pouvaient pas vous le dire.3

Même si c'est vrai, la recherche montre de minuscules effets du monde réel

C'est pourquoi je dois dire que même si vous croyez cette recherche à sa valeur nominale malgré cet énorme problème méthodologique, il vous reste des recherches montrant des corrélations ridiculement petites qui n'ont que peu ou pas de sens pour les utilisateurs ordinaires.

Par exemple, Kramer et al. (2014) ont trouvé un 0,07% - ce n'est pas 7%, c'est 1/15 de 1% !! - diminution des mots négatifs dans les mises à jour de statut des personnes lorsque le nombre de publications négatives sur leur fil d'actualité Facebook a diminué. Savez-vous combien de mots vous devrez lire ou écrire avant d’écrire un mot moins négatif à cause de cet effet? Probablement des milliers.

Ce n’est pas tant un «effet» qu’une erreur statistique qui n’a aucune signification réelle. Les chercheurs eux-mêmes le reconnaissent, notant que la taille de leurs effets était «petite (aussi petite que = 0,001). » Ils poursuivent en suggérant que cela compte toujours parce que «de petits effets peuvent avoir de grandes conséquences agrégées», citant une étude Facebook sur la motivation du vote politique par l'un des mêmes chercheurs et un argument vieux de 22 ans tiré d'une revue psychologique.4

Mais ils se contredisent dans la phrase précédente, suggérant que l'émotion «est difficile à influencer étant donné l'éventail des expériences quotidiennes qui influencent l'humeur». Lequel est-ce? Les mises à jour de statut Facebook ont-elles un impact significatif sur les émotions de l'individu, ou les émotions ne sont-elles pas si facilement influencées par la simple lecture des mises à jour de statut d'autres personnes?

Malgré tous ces problèmes et limitations, rien de tout cela n'empêche finalement les chercheurs de proclamer: «Ces résultats indiquent que les émotions exprimées par d'autres sur Facebook influencent nos propres émotions, constituant une preuve expérimentale d'une contagion à grande échelle via les réseaux sociaux.» 5 Encore une fois, peu importe qu'ils ne mesuraient pas réellement les émotions ou les états d'humeur d'une seule personne, mais se fondaient plutôt sur une mesure d'évaluation erronée pour le faire.

Ce que les chercheurs de Facebook montrent clairement, à mon avis, c'est qu'ils font trop confiance aux outils qu'ils utilisent sans comprendre - et discuter - des limites importantes des outils.6

Référence

Kramer, ADI, Guillory, JE, Hancock, JT. (2014). Preuve expérimentale d'une contagion émotionnelle à grande échelle via les réseaux sociaux. PNAS. www.pnas.org/cgi/doi/10.1073/pnas.1320040111

Notes de bas de page:

  1. Ceci, selon une enquête auprès des développeurs de LIWC qui ont répondu: «LIWC ne regarde pas actuellement s'il y a un terme de négation près d'un mot de terme d'émotion positif ou négatif dans son score et il serait difficile de trouver un algorithme efficace pour ça de toute façon. [↩]
  2. Je n’ai trouvé aucune mention des limites de l’utilisation du LIWC comme outil d’analyse du langage à des fins pour lesquelles il n’a jamais été conçu ou prévu dans la présente étude ou dans d’autres études que j’ai examinées. [↩]
  3. Eh bien, ils pourraient vous dire s'ils ont réellement passé du temps à valider leur méthode avec une étude pilote pour comparer avec la mesure de l'humeur réelle des gens. Mais ces chercheurs n'ont pas réussi à le faire. [↩]
  4. L'étude sur le vote sur Facebook pose de sérieux problèmes, dont le moindre est l'attribution des changements de comportement de vote à une variable corrélationnelle, avec une longue liste d'hypothèses formulées par les chercheurs (et avec lesquelles vous devriez être d'accord). [↩]
  5. Une demande d’éclaircissements et de commentaires des auteurs n’a pas été renvoyée. [↩]
  6. Ce n’est pas une fouille au LIWC 2007, qui peut être un excellent outil de recherche - quand il est utilisé aux bonnes fins et entre de bonnes mains. [↩]

!-- GDPR -->