Regrouper les données mondiales sur la COVID-19

icone Societe
Par Edouard Ampuy
mercredi 4 novembre 2020
Regrouper les données mondiales sur la COVID-19
Depuis le lancement de la plateforme les données ont été téléchargées 2,72 millions de fois. Crédit : Gary Sandoz
Depuis le lancement de la plateforme les données ont été téléchargées 2,72 millions de fois. Crédit : Gary Sandoz

La plateforme COVID-19 Data Hub a pour objectif de regrouper et de publier des données fiables sur l’évolution de la COVID-19 à l’échelle internationale. Pour ce faire, elle fait appel à la coopération de la communauté scientifique des données partout dans le monde.

La collecte de données est importante pour l’étude et la compréhension de la COVID-19, et de nombreuses bases de données ont vu le jour pour suivre l’évolution de la maladie dans le monde. « Il y a une centralisation des données, qui est faite au niveau du pays, mais pas au niveau international », explique le professeur en sciences de la décision de HEC Montréal, David Ardia.

En fonction des sources, les informations sont divulguées dans différents langages et formats, ce qui complique l’accès pour des chercheurs étrangers. « Ici, les milliers sont séparés par des virgules, mais pas en Europe, illustre M. Ardia. Il y a une hétérogénéité. Pour les personnes décédées de la COVID-19 par exemple, certains vont dire “death”, quand d’autres vont indiquer “cases”. »

C’est dans l’objectif de présenter des données fiables et unifiées aux chercheurs et aux scientifiques qu’Emanuele Guidotti a créé en avril dernier, la plateforme COVID-19 Data Hub, accompagné de David Ardia.

Covid-19 Data Hub

À chaque heure qui passe, les algorithmes de COVID-19 Data Hub téléchargent automatiquement les données les plus récentes des sources officielles de 193 pays, de 500 régions et d’environ 4 000 villes. L’intégrité des données est vérifiée, puis celles-ci sont fusionnées en une seule base de données et accessibles à tous dans n’importe quel format. « Les données sont le nombre de cas cumulatifs, le nombre de tests ou de morts, et certaines variables sont standard à propos de la COVID-19, spécifie M. Ardia. Puis on a des données géographiques ou de type macro, qui sont intégrées manuellement. »

L’équipe de COVID-19 Data Hub a modélisé la plateforme, mais ce sont les membres de la communauté scientifique des données partout dans le monde qui ont participé à la création de cette base de données internationale. L’interface permet aux participants de connecter de nouvelles sources de données aux algorithmes. « Par exemple, si de nouvelles données sont disponibles en Suède, quelqu’un qui maitrise le suédois va aller trouver la source officielle, se brancher à notre hub et créer le code informatique, pour pouvoir adapter son format et sa langue aux nôtres », détaille le professeur. Au total, une centaine de participants ont contribué à l’alimentation de la plateforme.

COVID-19 Data-Hub permet aussi d’accéder à ses archives. « Donc, si vous voulez recréer une étude à partir de données datant d’il y un mois, c’est possible », affirme M. Ardia.

Une source fiable

D’après M. Ardia, plusieurs aspects assurent la fiabilité de la plateforme. M. Guidotti et lui ont mis au point un système qui vérifie si les données téléchargées sont logiques, comparées aux précédentes. En cas de problème, la plateforme les avertit. « À partir de là, soit on décide de mettre à jour nos données, soit on contacte la source principale pour comprendre l’origine de l’erreur », assure le professeur.

Leur base de données est utilisée par une large communauté. Depuis le lancement de la plateforme les données ont été téléchargées 2,72 millions de fois. « C’est gigantesque ! », s’exclame M. Ardia. De ce fait, les données sont passées en revue chaque jour par les utilisateurs, qui préviennent l’équipe en cas d’erreurs.

Un accès gratuit et transparent

« Notre idée, c’était vraiment de partir sur un projet collaboratif, gratuit et international, déclare le professeur.Le code et les données téléchargeables sont transparents, on indique d’où celles-ci viennent et vous pouvez tracer l’information. »

Depuis sa création, COVID-19 Data Hub a été utilisé dans le cadre de dizaines de publications scientifiques ou pour la création d’interfaces de visualisation du nombre de cas d’infection. « On a été contacté par un organisme à but non lucratif, qui veut essayer de faire de la prévision de cas à partir de nos données », illustre M. Ardia.

Si la production d’une base de données n’est pas novatrice, le professeur estime que la création d’une plateforme collaborative accessible à l’échelle internationale l’est. « Ce n’est pas une performance technologique, mais c’est un mode de collaboration innovant, qui pourrait être utilisé dans d’autres contextes », précise-t-il. Il donne l’exemple d’une base de données sur l’ensemble des pays, pouvant servir de référence pour des études sur les facteurs de pollution ou du réchauffement climatique.