Trouver des failles dans la recherche sur les médias sociaux

Les chercheurs doivent se méfier des pièges sérieux liés au travail avec d'énormes ensembles de données sur les réseaux sociaux, selon les informaticiens de l'Université McGill à Montréal et de l'Université Carnegie Mellon de Pittsburgh.

Des résultats imparfaits peuvent avoir d'énormes implications: des milliers de documents de recherche chaque année sont désormais basés sur des données glanées sur les réseaux sociaux.

«Bon nombre de ces documents sont utilisés pour éclairer et justifier les décisions et les investissements du public, de l’industrie et du gouvernement», a déclaré le Dr Derek Ruths, professeur adjoint à l’École d’informatique de McGill.

Pour les spécialistes du comportement, la croissance des médias sociaux est apparue comme une opportunité sans précédent de capturer, puis d'analyser, de grandes quantités d'informations sur le comportement humain.

De nombreux scientifiques pensent que de tels ensembles de données mûrs peuvent aider à prédire le comportement humain à un niveau jamais imaginé auparavant. Ces dernières années, des études ont revendiqué la capacité de tout prédire, des superproductions estivales aux fluctuations du marché boursier.

Mais dans un article publié dans la revue Science, Ruths et le Dr Jürgen Pfeffer de l’Institut de recherche sur les logiciels de Carnegie Mellon mettent en évidence plusieurs problèmes liés à l’utilisation des ensembles de données sur les réseaux sociaux, ainsi que des stratégies pour y remédier. Parmi les défis:

  • Différentes plates-formes de médias sociaux attirent différents utilisateurs - Pinterest, par exemple, est dominé par des femmes âgées de 25 à 34 ans - mais les chercheurs corrigent rarement l'image déformée que ces populations peuvent produire;
  • Les flux de données accessibles au public utilisés dans la recherche sur les médias sociaux ne fournissent pas toujours une représentation précise des données globales de la plate-forme - et les chercheurs ne savent généralement pas quand et comment les fournisseurs de médias sociaux filtrent leurs flux de données.
  • La conception des plateformes de médias sociaux peut dicter le comportement des utilisateurs et, par conséquent, quel comportement peut être mesuré. Par exemple, sur Facebook, l'absence de bouton «Je n'aime pas» rend les réponses négatives au contenu plus difficiles à détecter que les «J'aime» positifs;
  • Un grand nombre de spammeurs et de robots, qui se font passer pour des utilisateurs normaux sur les réseaux sociaux, sont incorporés par erreur dans de nombreuses mesures et prédictions du comportement humain;
  • Les chercheurs rapportent souvent des résultats pour des groupes d'utilisateurs, de sujets et d'événements faciles à classer, ce qui rend les nouvelles méthodes plus précises qu'elles ne le sont en réalité. Par exemple, les efforts visant à déduire l'orientation politique des utilisateurs de Twitter atteignent à peine 65% de précision pour les utilisateurs typiques - même si des études (axées sur les utilisateurs politiquement actifs) ont revendiqué une précision de 90%. Les utilisateurs de Twitter atteignent à peine 65% de précision pour les utilisateurs typiques - même si des études (axées sur les utilisateurs politiquement actifs) ont affirmé une précision de 90%.

Les enquêteurs affirment que de nombreux problèmes sont également communs à d'autres domaines tels que l'épidémiologie, les statistiques et l'apprentissage automatique.

«Le fil conducteur de toutes ces questions est la nécessité pour les chercheurs d’être plus conscients de ce qu’ils analysent réellement lorsqu’ils travaillent avec les données des médias sociaux», déclare Ruths.

Les spécialistes des sciences sociales ont déjà perfectionné leurs techniques et leurs normes pour faire face à ce type de défi.

«Le tristement célèbre titre« Dewey bat Truman »de 1948 provenait d’enquêtes téléphoniques qui sous-échantillonnaient les partisans de Truman dans la population générale», note Ruths.

«Plutôt que de discréditer en permanence la pratique des sondages, cette erreur flagrante a conduit à des techniques plus sophistiquées d’aujourd’hui, à des normes plus élevées et à des sondages plus précis. Maintenant, nous sommes sur le point de se trouver à un point d'inflexion technologique similaire. En nous attaquant aux problèmes auxquels nous sommes confrontés, nous serons en mesure de réaliser l'énorme potentiel de bien promis par la recherche basée sur les médias sociaux. "

Source: Université McGill

!-- GDPR -->