L E séquençage du génome humain est entré dans une phase de finition. Simultanément, le consortium public international du Human Genome Project, et le consortium privé piloté par Celera Genomics, publient leurs résultats, respectivement dans « Nature » et « Science » (lire ci-après l'article consacré aux travail de Celera Genomics). Ces résultats sont spectaculaires, et l'accélération du processus d'acquisition l'est plus encore.
Quelque 94 % de la séquence du génome humain figurent aujourd'hui dans les bases de données publiques. Et, contrairement à ce que l'on pourrait imaginer, ces séquences n'ont pas été acquises progressivement, depuis le début du programme, mais pour l'essentiel, ces deux dernières années : il y a seulement quinze mois, les données couvraient seulement 10 % du génome.
Quinze ans d'histoire
L'histoire remonte pourtant à une quinzaine d'années. C'est au milieu des années quatre-vingt que la notion du séquençage a commencé à être discutée, en particulier semble-t-il, lors des brainstormings du département d'Etat américain de l'Energie. Elle a fait l'objet, en 1988, d'une recommandation favorable du National Research Council, et a été lancée, sur le plan international, grâce au soutien de l'Unesco. L'Europe et le Japon sont ensuite entrés en lice, avec notamment le Wellcome Trust en Grande-Bretagne, et, en France, le centre d'étude du polymorphisme humain, qui a pu, avec le soutien de l'Association française contre les myopathies, développer les premières cartes du génome. Se sont ensuite associées au projet l'Allemagne et la Chine.
Cette phase préparatoire, où il a fallu apprendre à manipuler de grandes quantités d'ADN, à le conserver (intégré à des chromosomes de levure), à se repérer dans des séquences en multipliant les marqueurs, repérés entre eux par leur distance physique ou génétique, s'est révélée la plus longue. Une fois que l'on a su réordonner les uns par rapport aux autres les fragments chevauchants, le séquençage n'était plus qu'une affaire d'automates : on a fait tourner les machines, et tout est allé vite. Mais les choses ne sont pas si simples.
La fin en 2003 au plus tard
Passé le « premier jet », un travail de finition des séquences est nécessaire. Il existe toujours des séquences incertaines ; il reste aussi toujours des « trous » dans les séquences obtenues. Or la phase de finition n'est ni la moins longue ni la moins coûteuse. C'est la raison pour laquelle, après la formidable accélération de ces derniers mois, il faudra attendre 2003 - « au plus tard », souligne l'article de « Nature » -, pour disposer de la séquence complète et « finie ».
Il ne s'agit en fait que d'une question de temps, la tâche étant parfaitement dans les cordes de la technologie actuelle. La meilleure preuve en est que, parmi les séquences disponibles, on compte environ 1 milliard de bases considérés comme « finies », soit un tiers du génome entier. Ces séquences achevées sont notamment celles des chromosomes 22 et 21, publiées l'an dernier, et celles des chromosomes 20, Y, 19, 14 et 7, dont on annonce la publication dans les prochains mois.
La séquence complète ne signifiera nullement la fin du programme, loin s'en faut. Après le génome, les gènes ; après les gènes, les protéines, après les protéines, les régulations de leur synthèse.
Seulement deux fois plus de gènes que la drosophile
On considère aujourd'hui que le génome comporte quelque 30 000 à 40 000 gènes codants ; estimation revue à la baisse, donc, par rapport aux 100 000 gènes postulés au début du programme, et qui ne crédite l'être humain que d'environ deux fois plus de gènes que la drosophile. En fait, le nombre de gènes n'est pas tout. Par le jeu des épissages alternatifs, il semble que les gènes humains codent un nombre beaucoup plus important de protéines. Après l'identification des séquences codantes, l'identification des protéines susceptibles d'être codées à partir d'une même séquence ne sera donc pas un travail trivial.
Se pose également le problème des fonctions des protéines. Hormis les protéines et les gènes qui seront identifiés dans le cadre de pathologies, on ne dispose pas d'approche systématique pour découvrir les fonctions. On attend en fait beaucoup du séquençage des génomes d'organismes modèles (rat, souris, différents poissons), qui se poursuit parallèlement au séquençage du génome humain.
Comparaisons avec le rat, la souris, les poissons
Comme les comparaisons seront d'autant plus instructives que les génomes de nombreux organismes pourront être séquencés, le problème du coût intervient ici de manière plus limitante que pour le génome humain, dont il était dès le départ prévu d'assumer le séquençage. On remarque que le principe de Moore, énoncé en 1965, et voulant que le prix des semi-conducteurs soit divisé par deux tous les dix-huit mois, a, jusqu'à présent, été respecté dans cet autre domaine qu'est le séquençage. Cela laisse augurer une multiplication des génomes séquencés dans les dix prochaines années, y compris des génomes complexes, comme celui des primates. Cette remarque sur le coût vaut d'ailleurs également pour l'étude des polymorphismes humains. On commence ainsi à parler d'épidémiologie moléculaire, et du séquençage de cohortes de patients, pour identifier des haplotypes (associations de gènes) ancestraux, et identifier des gènes conférant un risque faible dans des maladies multifactorielles.
Reste la question des régulations. Il s'agit de comprendre comment le même génome s'exprime de manière différenciée dans les différents cellules et tissus d'un individu, et répond de manière coordonnée à des contextes internes et externes variés et en perpétuelle transformation.
Pour l'essentiel, les mécanismes de régulation sont aujourd'hui inconnus. Dans un certain nombre de cas, on connaît des protéines effectrices, se liant à l'ADN en amont du gène à transcrire. Mais qu'est-ce qui régule les régulateurs ? Autrement dit, comment le génome peut-il réagir à un contexte donné d'une manière qui n'est ni prédéterminée ni aléatoire ?
Les mécanismes de régulation
La beauté de l'affaire est qu'il faudra sans doute que la biologie s'attaque à la question jusqu'à présent beaucoup plus politique que scientifique, de l'autodétermination : puisque le sujet choisit, au moins en partie, l'environnement qui rétroagit sur ses gènes, cette question est en fait inévitable. Le programme génome humain a de multiples conséquences sur la connaissance de l'homme, de son évolution, sur sa pratique médicale. Mais cette question, le génome comme manifestation partiellement responsable de sa propre évolution, est probablement celle qui pourrait mener le plus loin.
International Human Genome Sequencing Consortium, « Nature », vol. 409, 15 février 2001, pp. 860-921.
Pause exceptionnelle de votre newsletter
En cuisine avec le Dr Dominique Dupagne
[VIDÉO] Recette d'été : la chakchouka
Florie Sullerot, présidente de l’Isnar-IMG : « Il y a encore beaucoup de zones de flou dans cette maquette de médecine générale »
Covid : un autre virus et la génétique pourraient expliquer des différences immunitaires, selon une étude publiée dans Nature