Big Data: pouvons-nous prédire les tendances de la population (comme le bonheur) via les applications de santé?
Il y a plus de cinq ans, j'ai écrit un article intitulé Fiabilité et validité dans un monde Web 2.0. Il a parlé des préoccupations liées à la collecte de données à partir d'échantillons biaisés - sans d'abord comprendre de quelle manière, exactement, ces échantillons peuvent être biaisés.Maintenant, avec l'omniprésence des applications - des programmes téléchargeables pour les smartphones des gens - je vois le même problème se poser. Les développeurs et les entrepreneurs recherchent les données de ces applications sans comprendre les bases d'une bonne collecte de données scientifiques fiables. Et pourquoi c'est important - surtout quand vous commencez à vouloir analyser toutes ces «données volumineuses» (un terme un peu idiot… en épidémiologie, par exemple, les scientifiques l'appellent simplement «données»).
Les données personnelles sur la santé peuvent-elles être collectées par ces applications sans biais et être transformées d'une manière ou d'une autre en une mesure plus grande?
La réponse courte: non, pas facilement.
Bien sûr, il y a des gens qui font partie d'un mouvement de «soi quantifié» - qui veulent suivre et mesurer tous les aspects de leur santé personnelle (et supposément, la santé mentale). Mais ces personnes sont actuellement1 des valeurs aberrantes, et en aucun cas représentatives de la population en général.
Ces minorités peuvent rapidement constituer la majorité des efforts visant à collecter des ensembles de données plus volumineux afin d'analyser les tendances en matière de santé ou de bien-être. Bien que les analyses qui en résultent puissent vous dire quelque chose sur ce groupe de personnes, il serait inapproprié de suggérer qu'il se généralise au reste de la population (qui, sur le plan démographique et comportemental, peut avoir une apparence et agir très différemment).
Cela ne changera pas de sitôt, car la plupart des applications de santé sont téléchargées par des personnes, utilisées une ou deux fois, puis abandonnées. Il y a une raison pour laquelle la plupart des gens arrêtent d'utiliser les applications de santé, en particulier celles qui servent de journal de données. Ils sont ennuyeux! Collecter des données sur vous-même est juste une tâche très ennuyeuse pour la plupart d'entre nous à s'engager à faire activement chaque jour (ou même chaque semaine).
La réponse compliquée: les applications doivent être plus intelligentes et connectées
Les applications de santé destinées à collecter des données échouent en fin de compte car elles nécessitent une entrée active de la part de l'utilisateur. C'est pourquoi les dossiers de santé personnels n'ont en grande partie jamais décollé de manière significative2. Les gens sont trop occupés à vivre leur vie pour se donner la peine de dire à une application3 quels sont leurs paramètres quotidiens.
Pour que les applications de santé réussissent finalement là où la plupart des autres tentatives de logiciel de suivi de la santé personnelle ont échoué, il faut qu'elles collectent leurs données de manière passive. Cela signifie qu'aucune entrée de l'utilisateur n'est requise.
Bien sûr, nous sommes loin de fournir de telles métriques pour fournir des données significatives.Bien sûr, il existe des appareils de course qui suivent votre course (de Nike, bien sûr). Mais une application en cours d'exécution est inutile si elle ne communique pas avec mon application de régime, ou mon application de nutrition ou mon application d'exercice. Ou mon application de pleine conscience. C’est une application qui mesure une seule métrique dans l’être complexe qui est moi. Ce n’est tout simplement pas grand-chose à faire.
La confiance est une pierre angulaire
L'adoption de telles applications en réseau partageant toutes vos données de santé présente également un autre obstacle moins technique: la confiance. Des entreprises comme Facebook et Nike ne répondent finalement qu'à un seul groupe de personnes - leurs actionnaires. Cela signifie que s’il est dans leur intérêt d’analyser vos données à la recherche de choses sur lesquelles ils peuvent gagner de l’argent, ils le feront.
Les startups ne valent pas mieux, car au lieu d'actionnaires, elles ne répondent qu'aux investisseurs en capital-risque - des prêteurs d'argent qui ne recherchent que le meilleur retour sur investissement et le plus rapide.
Pourquoi voudrais-je faire confiance à mes informations de santé - des données qui pourraient être utilisées contre moi pour un futur refus d'assurance ou la fixation de mes tarifs d'assurance - à des entreprises qui ont peu d'intérêt à protéger ma vie privée?
Ce qui nous ramène au premier point - un échantillon biaisé. Les personnes qui donnent volontiers toutes leurs informations de santé à des entreprises à but lucratif pour les analyser, les rassembler et éventuellement s'associer à vous (même si ces données sont initialement anonymisées) ne sont pas comme la plupart des gens. La plupart d'entre nous se soucient toujours de garder nos informations de santé pour nous, tout comme la plupart d'entre nous veulent toujours garder nos informations financières pour nous.
Où nous allons à partir d'ici
Tenter de recueillir des données basées sur la population (par exemple, mener des recherches épidémiologiques) à partir d'applications de santé présente des problèmes et des opportunités que j'ai identifiés:
- Échantillonnage biaisé en raison de la petite minorité de personnes qui utilisent activement et en permanence des applications de santé
- L'échantillonnage et l'utilisation continue pourraient être améliorés en passif contre actif collecte de données
- L'échantillonnage et l'utilisation pourraient être encore améliorés par l'utilisation d'une autorité de confiance pour collecter et stocker des données (pas une entreprise à but lucratif ou une startup)
- Les applications qui se connaissent les unes les autres et échangent des données de santé pertinentes à mon sujet sont la prochaine génération - au lieu de la richesse actuelle d'applications cloisonnées et inconscientes (stupides?)
Je pense que c'est formidable que les développeurs examinent un problème de santé, développent une application pour celui-ci et la publient dans le monde entier. Mais trop souvent, ces applications ne vont nulle part, sans public. Ou ils sont orphelins par les développeurs d'origine par manque d'intérêt. Les quelques applications de santé populaires qui gagnent un public solide sont l'exception, pas la règle. Et même lorsqu'ils sont largement acceptés, tout comme les systèmes de dossiers médicaux électroniques de notre pays, ils ne se parlent pas.
Si vous voulez pouvoir dire quelque chose d'autorité ou de significatif sur les données collectées à partir d'une application, vous devez montrer que les données proviennent d'un échantillon représentatif de la population. À défaut, vos données ne nous renseignent que sur un petit groupe de la population - un groupe qui ne ressemble pas à la plupart d’entre nous.
Notes de bas de page:
- Et le sera dans un avenir prévisible [↩]
- Et pourquoi Google fermera enfin son propre dossier de santé personnel demain. [↩]
- Ou pire - et plus communément - un ensemble complet d'applications qui ne connaissent pas les autres et ne peuvent pas échanger de données entre eux [↩]