Des chercheurs de l’Université Concordia ont mis au point un algorithme pouvant détecter les signes d’anorexie chez les utilisateurs du réseau social Reddit, à partir de leurs commentaires.
« Aujourd’hui, il y a une abondance d’informations sur Internet, explique l’étudiante en informatique et membre de l’équipe de recherche, Elham Mohammadi. On pense que les posts écrits sur les réseaux sociaux peuvent être utilisés pour détecter des troubles comme les problèmes de santé mentale. » Elle précise que Reddit est souvent utilisé pour ce genre de recherche, car les billets y sont publics et plus longs que sur d’autres réseaux tels que Twitter. Il est également plus facile d’identifier les centres d’intérêt des personnes grâce aux subreddits, qui s’apparentent aux blogues.
« Tout est automatique, notre algorithme utilise l’apprentissage profond, détaille le deuxième membre de l’équipe et également étudiant en informatique, Hessam Amini. Les formules mathématiques vont permettre de repérer des éléments linguistiques pour détecter si la personne a un risque d’être anorexique ou non. » Pour entraîner l’algorithme, des messages sont étiquetés comme écrits par des personnes anorexiques ou non.
Ces données sont ensuite analysées pour que l’algorithme parvienne à différencier le discours d’un individu atteint d’un trouble de l’alimentation de celui d’un individu qui n’en souffre pas.
« L’algorithme ne se concentre pas seulement sur les symptômes comme la dépression ou l’anxiété, mais aussi sur des comportements ou des sentiments que la personne peut avoir, à partir d’une liste de mots-clefs relatifs aux signes d’anorexie », développe M. Amini. Les professionnels de santé comme les psychologues pourraient ainsi utiliser cet algorithme pour analyser, avec l’accord du patient, ses publications Reddit et diagnostiquer son mal-être.
L’équipe de Concordia a été supervisée par la professeure au Laboratoire de linguistique computationnelle (CLaC) Leila Kosseim.
Le réseau social Twitter est également utilisé dans ce domaine. Le chercheur en épidémiologie spécialisé dans l’étude du diabète à l’Inserm et au Luxembourg Institute of Health, Guy Fagherazzi, s’y réfère afin de compléter les données cliniques sur les patients souffrant de diabète. « Pour des aspects psychosociaux, ceux liés au stress, à la perception de la maladie, cela peut être utile, car il y a un risque de déni lorsqu’on est face à un professionnel de santé, explique-t-il. On n’ose pas forcément tout raconter, ou on le raconte d’une autre manière. Grâce aux réseaux sociaux, on arrive à accéder à de l’information très pertinente, car ce sont des informations partagées entre des personnes qui ont un diabète. »
M. Fagherazzi explique que les données de Twitter, qui sont par défaut publiques, sont accessibles à des fins de recherche. « On va alors les collecter à partir de mots-clefs », ajoute-t-il.
Les médias sociaux pour communiquer l’information
La recherche sur l’utilité des réseaux sociaux dans le domaine médical a commencé avec la thématique des épidémies. « À partir de l’activité en ligne, des modèles mathématiques ont été développé pour identifier les pics des épidémies, souligne M. Fagherazzi. Ces modèles ont été formés pour prédire l’activité autour de mots-clefs liés à leurs symptômes. » Le spécialiste ajoute que plus généralement, ces données peuvent être utilisées pour faire des campagnes ciblées de recrutement dans le cadre d’études médicales.
Le professeur titulaire de clinique à l’École de santé publique de l’UdeM Julio Soto, également membre de l’Institut national de santé publique du Québec, aborde l’utilité que peuvent avoir les réseaux sociaux en matière de communication. « L’utilité des réseaux sociaux numériques la plus adoptée par les autorités de santé publique est de transmettre des messages d’information et de communication », affirme-t-il.
Défis technologiques
Le professeur Soto évoque toutefois les limites technologiques des réseaux sociaux comme Facebook ou Twitter dans ces domaines de recherche. « Au cours des dix dernières années, des dizaines d’expériences intéressantes ont été publiées, dont quelques-unes plus prometteuses que d’autres, énonce-t-il. Cependant, on a aussi observé des limites technologiques des plateformes existantes pour discriminer une information utile du « bruit de fond » ». Il précise que dans le cas des maladies infectieuses, ces outils n’ont pas réussi à ajouter une valeur suffisante pour pouvoir les intégrer dans la pratique habituelle de surveillance des épidémies.
M. Amini mentionne également la question de la fiabilité des données comme l’un des enjeux techniques auquel l’équipe de Concordia a dû faire face. « Un des défis techniques importants est de récupérer des données qui ne sont pas biaisées et qui sont représentatives », détaille-t-il.
Selon Mme Mohammadi, si les données ne sont pas correctement identifiées par les internautes, l’algorithme peut reproduire les mêmes erreurs. « Par exemple, il peut y avoir des posts où une personne parle de dépression, mais elle parle d’un ami et non d’elle-même », illustre-t-elle.
L’éthique, un enjeu majeur
« La question éthique est très compliquée, et beaucoup d’aspects doivent être pris en compte avant que notre système puisse être utilisé, rappelle M. Amini. C’est très important que des experts dans ce domaine puissent réfléchir à la façon dont on peut utiliser cette technologie sans poser de problèmes éthiques ; nous on essaye juste de faire notre part, la partie technique. » Il ajoute qu’il faut également réfléchir à la volonté de l’utilisateur d’être diagnostiqué.
« Les enjeux éthiques de cette recherche peuvent être un sujet de recherche eux-mêmes, explique Mme Mohammadi. Ça va demander du temps avant que ce genre d’algorithme puisse être utilisé dans la vraie vie. »
L’équipe de Concordia s’est néanmoins assurée de ne pas contrevenir à l’éthique dans sa méthodologie. Un des enjeux était de rendre les données anonymes pour qu’aucun tiers ne puisse remonter jusqu’aux utilisateurs, un travail dont s’est chargée l’entreprise eRisk 2019, qui lui a également fourni les données.
M. Fagherazzi explique que si des campagnes ciblées peuvent aider à recruter sur Twitter, les individus ne seront jamais pris à part. « On n’ira jamais contacter les personnes une par une ou essayer de rentrer en contact avec des personnes qui se disent malades, affirme-t-il. Nous, ce qui nous intéresse, c’est de travailler sur de grands volumes de données. On fait très attention à ce qu’il n’y ait pas de brèche, on ne repartage pas les données à des tiers. »
Pour le chercheur, ces méthodes ont le potentiel de faire avancer la recherche médicale. Il identifie comme un des enjeux majeurs, le besoin de rassurer le public sur l’utilisation et sur la sécurité de leurs données afin de pouvoir normaliser ce type de technologie.