Le SARS-CoV-2 : une expÃ©rience inÃ©dite de surveillance gÃ©nomique mondiale

Contenu

En effet, le gÃ©nome dâ€™un virus est par nature trÃ¨s dynamique, avec une Ã©volution qui se manifeste par lâ€™accumulation rapide de mutations. Disposer au fil du temps de nombreux gÃ©nomes dâ€™origines gÃ©ographiques variÃ©es est donc nÃ©cessaire pour identifier lâ€™Ã©mergence de variants, des lignÃ©es porteuses de mutations clÃ©s susceptibles dâ€™affecter la pathogÃ©nicitÃ© et la transmissibilitÃ© du virus, voire de mener Ã un Ã©chappement vaccinal. Ce type de surveillance a pu Ãªtre expÃ©rimentÃ© ces derniÃ¨res annÃ©es avec la grippe saisonniÃ¨re, les virus Ebola ou Zika, et a atteint une ampleur inÃ©dite avec le suivi du SARS-CoV-2. Une telle tÃ¢che requiert des moyens de gÃ©nÃ©ration, dâ€™analyse bio-informatique et de partage des donnÃ©es particuliÃ¨rement optimisÃ©s et ambitieux. Comment cela se passe-t-il ?

SÃ©quenÃ§age Ã grande Ã©chelle

En janvier 2020, la dÃ©couverte des premiers gÃ©nomes du SARS-CoV-2 Ã Wuhan avait nÃ©cessitÃ© des techniques de sÃ©quenÃ§age et dâ€™analyse bio-informatique assez complexes (voir notre article Â« Comment la bio-informatique a rÃ©solu le puzzle du gÃ©nome du SARS-CoV-2Â Â»). Il avait fallu rÃ©aliser le sÃ©quenÃ§age de l'ensemble du contenu en ARN dâ€™Ã©chantillons pulmonaires des patients, mÃªme si la fraction virale contenue dans ces prÃ©lÃ¨vements est extrÃªmement faible. Ce type de sÃ©quenÃ§age produit de grandes quantitÃ©s de donnÃ©es de sÃ©quences et nÃ©cessite ensuite la mise en Å“uvre dâ€™analyses bio-informatiques sophistiquÃ©es et coÃ»teuses. Tout cela est peu compatible avec un suivi routinier de lâ€™Ã©pidÃ©mie. Aujourdâ€™hui, maintenant que le gÃ©nome de rÃ©fÃ©rence est connu, il est possible Ã la fois de rÃ©duire les coÃ»ts de sÃ©quenÃ§age en ciblant exclusivement les sÃ©quences d'intÃ©rÃªt dÃ©sormais connues dans lâ€™Ã©chantillon, et dâ€™accÃ©lÃ©rer les traitements bio-informatiques dâ€™assemblage et dâ€™analyse des nouveaux gÃ©nomes.

Dans le cas du SARS-CoV-2, la stratÃ©gie la plus utilisÃ©e pour cibler le gÃ©nome viral est le sÃ©quenÃ§age par amplicons. Dans ce protocole, le matÃ©riel gÃ©nÃ©tique du virus prÃ©sent dans lâ€™Ã©chantillon biologique est dâ€™abord amplifiÃ© par PCR (rÃ©action en chaÃ®ne par polymÃ©rase), puis les fragments dâ€™ADN issus de lâ€™amplification (les amplicons) sont sÃ©quencÃ©s. La PCR est une technique molÃ©culaire largement utilisÃ©e en biologie qui repose notamment sur une premiÃ¨re Ã©tape bio-informatique cruciale : la conception dâ€™amorces, des petites sÃ©quences bien choisies sur le gÃ©nome cible (voir EncadrÃ© 1).

Une fois tous les amplicons sÃ©quencÃ©s, l'assemblage du gÃ©nome viral est Ã©galement facilitÃ© par l'utilisation de la sÃ©quence gÃ©nomique dÃ©jÃ connue de SARS-CoV-2, qui sert de modÃ¨le. L'assemblage de novo (voir Â«Â Comment la bioinformatique a rÃ©solu le puzzle du gÃ©nome du SARS-CoV-2 Â» pour plus de dÃ©tails) n'est plus nÃ©cessaire, et les lectures sont simplement alignÃ©es sur le gÃ©nome de rÃ©fÃ©rence. L'alignement d'une lecture sur le gÃ©nome de rÃ©fÃ©rence consiste Ã la positionner sur ce gÃ©nome, c'est-Ã -dire identifier la portion du gÃ©nome qui prÃ©sente le plus de similaritÃ© avec la lecture, et Ã lister les caractÃ¨res identiques et diffÃ©rents entre ces deux sÃ©quences. Une fois toutes les lectures alignÃ©es, une sÃ©quence consensus du gÃ©nome peut alors Ãªtre calculÃ©e en sÃ©lectionnant, Ã chaque position, le caractÃ¨re observÃ© dans la majoritÃ© des lectures alignÃ©es Ã la position donnÃ©e. Les variations de sÃ©quences, telles que les mutations, sont ensuite identifiÃ©es entre la souche virale nouvellement sÃ©quencÃ©e et le gÃ©nome de rÃ©fÃ©rence ou entre diffÃ©rentes souches coexistant dans l'Ã©chantillon. La Figure 1 ci-dessous montre les mutations qui ont Ã©tÃ© identifiÃ©es dans le gÃ¨ne de la protÃ©ine S dans diffÃ©rentes lignÃ©es du SARS-CoV-2.

[caption id="attachment_48126" align="aligncenter" width="750"]

Figure 1 : PrÃ©valence des mutations identifiÃ©es dans le gÃ¨ne de la protÃ©ine S (positions sur le gÃ¨ne en abscisse) dans les diffÃ©rentes lignÃ©es de SARS-CoV-2 (en ordonnÃ©e, BA.1, BA.2 et BA.5 sont des sous-variants dâ€™Omicron). Le dÃ©gradÃ© de couleur indique la proportion des gÃ©nomes de la lignÃ©e dans lesquels la mutation a Ã©tÃ© observÃ©e (une case est grisÃ©e quand la mutation nâ€™a encore jamais Ã©tÃ© dÃ©tectÃ©e dans la lignÃ©e ; la couleur blanche indique que la mutation a Ã©tÃ© observÃ©e dans trÃ¨s peu de gÃ©nomes de la lignÃ©e, la couleur violet foncÃ© indique que la mutation a Ã©tÃ© observÃ©e dans 100 % des gÃ©nomes de la lignÃ©e). Figure gÃ©nÃ©rÃ©e par le site outbreak.info qui utilise les donnÃ©es de la base de donnÃ©es GISAID.[/caption]

Lâ€™organisation et le partage des informations

En juin 2021, un an et demi aprÃ¨s la publication du premier gÃ©nome de SARS-CoV-2 repÃ©rÃ© Ã Wuhan, plus de 2 millions de gÃ©nomes de SARS-CoV-2 ont Ã©tÃ© sÃ©quencÃ©s, assemblÃ©s et partagÃ©s par divers laboratoires et institutions de pays du monde entier. Ce vaste effort de sÃ©quenÃ§age permet de comprendre comment le virus Ã©volue, de suivre les mutations en temps rÃ©el et d'identifier de nouveaux variants. Un aspect important de cette recherche est que plusieurs initiatives nationales et internationales ont rapidement dÃ©veloppÃ© des portails web dÃ©diÃ©s afin de stocker ces informations et de les rendre librement disponibles sur Internet. Les dÃ©pÃ´ts de sÃ©quences gÃ©nÃ©ralistes tels que Genbank, hÃ©bergÃ© par le NCBI (Ã‰tats-Unis), ou l'ENA (European Nucleotide Archive), hÃ©bergÃ© par l'European Bioinformatics Institute, qui organisent le partage des donnÃ©es de sÃ©quences du domaine public depuis plusieurs dÃ©cennies, ont dÃ©veloppÃ© des bases de donnÃ©es et des outils spÃ©cifiques pour les donnÃ©es du SARS-CoV-2. Le Consortium GISAID fournit Ã©galement une ressource essentielle pour les gÃ©nomes de SARS-CoV-2 (ressource disponible sur inscription). La base de donnÃ©es GISAID comptait 339 gÃ©nomes du SARS-CoV-2 disponibles Ã la fin du mois de janvier 2020, et ce nombre a augmentÃ© rapidement, atteignant environ 80Â 000 en aoÃ»t 2020, 1 million dÃ©but avril 2021, puis plus de 4 millions six mois plus tard et plus de 14 millions en novembre 2022 (voir Figure 2). Lorsque lâ€™activitÃ© Ã©pidÃ©mique est importante, 1 million de sÃ©quences peuvent Ãªtre ajoutÃ©es en un seul mois.

Ce sont les scientifiques qui soumettent librement des donnÃ©es de sÃ©quences Ã de telles collections. Ces sÃ©quences sont vÃ©rifiÃ©es avant d'Ãªtre partagÃ©es publiquement. Les sÃ©quences gÃ©nomiques disponibles sont Ã©galement parfois accompagnÃ©es d'informations supplÃ©mentaires, telles que l'origine gÃ©ographique et la date de collecte de l'Ã©chantillon, les protocoles de sÃ©quenÃ§age, les informations cliniques du patient, etc. Ces mÃ©tadonnÃ©es sont structurÃ©es dans des bases de donnÃ©es pour permettre des requÃªtes efficaces et des analyses comparatives en aval Ã partir de cette Ã©norme collection de sÃ©quences.

[caption id="attachment_48127" align="aligncenter" width="748"]

Figure 2 : Ã‰volution du nombre de gÃ©nomes de SARS-CoV-2 dÃ©posÃ©s dans la base de donnÃ©es GISAID entre janvier 2020 et novembre 2022 au niveau mondial (en gris), par le Royaume-Uni (en jaune) et par la France (en bleu). Figure produite Ã partir des statistiques fournies par GISAID.[/caption]

Toutes ces informations (gÃ©nomes et mÃ©tadonnÃ©es) sont utilisÃ©es pour suivre la diversitÃ© de la population de SARS-CoV-2 dans le monde. Mais ces donnÃ©es servent Ã©galement Ã dÃ©tecter de maniÃ¨re prÃ©coce des variants prÃ©occupants. AlertÃ© par la reprise du nombre dâ€™infections dans le Sud-Est de lâ€™Angleterre Ã lâ€™automne 2020, le Royaume-Uni a pu expliquer ce phÃ©nomÃ¨ne par la propagation dâ€™un nouveau variant, de la lignÃ©e B.1.1.7, et suivre la propagation de ce qui a ensuite Ã©tÃ© appelÃ© le variant Alpha. En Ã©tudiant rÃ©trospectivement les donnÃ©es de sÃ©quenÃ§age, on a pu constater que ce variant avait Ã©tÃ© initialement dÃ©tectÃ© en septembre 2020. De mÃªme, Ã la fin du printemps 2021, le Royaume-Uni a pu associer une nouvelle reprise Ã©pidÃ©mique sur son territoire Ã la propagation du variant Delta, initialement dÃ©tectÃ© en Inde. De maniÃ¨re similaire, lâ€™Afrique du Sud, qui dispose de moyens importants de sÃ©quenÃ§age et dâ€™analyse bio-informatique pour le suivi de lâ€™Ã©pidÃ©mie, a dÃ©tectÃ© le variant Omicron Ã lâ€™automne 2021 (voir par exemple l'article en anglais Â«Â African coronavirus surveillance network provides early warning for worldÂ Â»). Ces dÃ©couvertes ont Ã©tÃ© facilitÃ©es par une politique volontariste de surveillance gÃ©nomique, que lâ€™Organisation mondiale de la SantÃ© (OMS) recommande afin de dÃ©tecter au plus tÃ´t lâ€™Ã©mergence de variants prÃ©occupants. Ã€ ce titre, le Royaume-Uni figure parmi les pionniers. En 2020, plus de 140Â 000 gÃ©nomes avaient Ã©tÃ© publiÃ©s via le consortium COG-UK, contre moins de 3 000 en France, qui nâ€™avait alors pas encore de consortium en place. Un tel consortium a depuis Ã©tÃ© mis en place en France Ã partir du dÃ©but de lâ€™annÃ©e 2021 et a publiÃ© plus de 170 000 sÃ©quences cette annÃ©e-lÃ . Lâ€™Institut FranÃ§ais de Bio-informatique (IFB) apporte un soutien technique avec notamment la mise en place et la gestion dâ€™une base de donnÃ©es sÃ©curisÃ©e. Le Royaume-Uni a publiÃ© 1,5 million de sÃ©quences en 2021 (voir Figure 2).

En lâ€™Ã©tat actuel des connaissances, un gÃ©nome nâ€™est cependant toujours pas suffisant pour caractÃ©riser un phÃ©notype, et il reste indispensable de coupler les jeux de sÃ©quences gÃ©nomiques avec dâ€™autres types de donnÃ©es (nombres de cas, statut vaccinal des patients, informations sur la sÃ©vÃ©ritÃ© de lâ€™infection, une Ã©ventuelle hospitalisation, etc.). Toutes ces questions sont au cÅ“ur de lâ€™Ã©pidÃ©miologie gÃ©nomique, discipline rÃ©cente rendue possible par les progrÃ¨s du sÃ©quenÃ§age et de la bio-informatique. La pandÃ©mie de SARS-CoV-2 montre toute lâ€™importance dâ€™une politique de science ouverte ambitieuse et volontaire, avec le stockage, la structuration et le partage des donnÃ©es.

Contenu

SÃ©quenÃ§age Ã grande Ã©chelle

[caption id="attachment_48126" align="aligncenter" width="750"]

Lâ€™organisation et le partage des informations

[caption id="attachment_48127" align="aligncenter" width="748"]

43441

Auteurs

MikaÃ«l Salson

Claire Lemaitre

Contenu

[caption id="attachment_48126" align="aligncenter" width="750"]

Lâ€™organisation et le partage des informations

[caption id="attachment_48127" align="aligncenter" width="748"]

Image

virus-g054a243ba_1280

Domaines applicatifs

Santé - Médecine personnalisée