Évolution dirigée

From Wikipedia, the free encyclopedia

L'évolution dirigée (ED) est une méthode utilisée en ingénierie des protéines qui imite le processus de sélection naturelle pour "diriger" l'évolution des protéines ou des acides nucléiques vers un certain objectif défini par l'utilisateur[1]. Cette méthode consiste à soumettre un gène à des cycles itératifs de mutagénèse (ce qui crée une banque de variants), de sélection (qui permet d'exprimer des variants et d'isoler des membres possédant la fonction que l'on recherche) et d'amplification (ce qui génère un modèle pour le cycle suivant). Elle peut être mise en place in vivo (dans des cellules vivantes), ou in vitro (cellules libres en solution ou dans des microgouttes). L'évolution dirigée est utilisée à la fois en ingénierie des protéines comme alternative à la conception rationnelle des protéines modifiées, ainsi que dans les études des principes évolutifs fondamentaux en environnement contrôlé en laboratoire.

Exemple d'évolution dirigée en comparaison à l'évolution naturelle. Le cycle interne indique 3 étapes du cycle d'évolution dirigée avec le processus naturel correspondant imité indiqué entre parenthèses. Le cycle externe montre les étapes d'une expérience typique. Les symboles en rouge vif correspondent aux variants fonctionnels, les symboles en rouge pâle correspondent aux variants avec une fonction réduite.
L'évolution dirigée est analogue à l'escalade d'une colline dans un paysage adaptatif où l'élévation représente la propriété d'intérêt. Chaque cycle de sélection échantillonne des mutants de tous les côtés du modèle de départ (1), et sélectionne le mutant avec l'élévation la plus haute, qui est ainsi celui qui escalade la colline. Ce processus est répété jusqu'à ce qu'un sommet local soit atteint (2).

Principes

L'évolution dirigée est une imitation du cycle naturel de l'évolution dans le cadre d'un dispositif en laboratoire. L'évolution requiert trois choses pour avoir lieu : qu'il y ait de la variation (diversité génétique) entre les réplicats, que cette variation cause des différences dans la valeur sélective sur laquelle la sélection agit, et enfin que cette variation soit héritable. En ED, un seul gène subit le processus d'évolution par des cycles itératifs de mutagénèse, de sélection ou dépistage, et d'amplification[2]. Typiquement, les cycles de ces étapes sont répétés, en utilisant le meilleur variant d'un cycle comme modèle pour le suivant afin d'améliorer le processus étape par étape.

La probabilité de succès dans une expérience d'évolution dirigée est directement liée à la taille totale de la banque, car le fait de prendre en compte plus de mutants augmente les chances d'en trouver un possédant les propriétés d'intérêt[3].

Engendrer de la diversité

Un gène de départ (à gauche) et une banque de variants (à droite). Les mutations ponctuelles changent des nucléotides individuels. Les insertions et délétions ajoutent ou retranchent des sections d'ADN. Le brassage (recombinaison) recombine des segments de deux gènes similaires (ou plus).

La première étape dans la réalisation d'un cycle d'ED est la création d'une banque de gènes variants. L'espace séquentiel d'une séquence aléatoire est vaste (10130 séquences possibles pour une protéine de 100 acides aminés) et extrêmement peu peuplé par des protéines fonctionnelles. Ni l'évolution expérimentale[4] ni l'évolution naturelle[5] ne peuvent approcher le fait de pouvoir échantillonner autant de séquences. Bien sûr, l'évolution naturelle échantillonne des séquences variantes proches des séquences de protéines fonctionnelles, et cela est limité en ED par la mutagénèse d'un gène déjà fonctionnel. Certains calculs suggèrent que c'est entièrement faisable dans tous les buts pratiques (fonctionnels et structurels), l'espace séquentiel protéique ayant été entièrement exploré au cours de l'évolution de la vie sur Terre[5].

Le gène de départ peut subir la mutagénèse par des mutations ponctuelles (en utilisant des mutagènes chimiques ou la PCR sujette à erreurs)[6],[7] ainsi que par des insertions et délétions (grâce à des transposons)[8]. La recombinaison génétique peut être imitée par un remaniement de l'ADN[9],[10] de plusieurs séquences (habituellement de plus de 70% d'homologie) afin de sauter dans des régions d'espace séquentiel entre les gènes parents remaniés. Enfin, des régions spécifiques d'un gène peuvent être systématiquement randomisées (subir une mutagénèse aléatoire)[11] pour une approche plus ciblée basée sur la connaissance de la structure et de la fonction. En fonction de la méthode utilisée, la proportion de variants fonctionnels variera d'une banque à l'autre. Même si un organisme est utilisé pour exprimer un gène d'intérêt, si seulement ce gène subit une mutagénèse, le reste du génome de l'organisme restera le même et peut être ignoré pour l'expérience (dans la mesure où on garde un environnement génétique constant).

Détecter des différences dans la valeur sélective

La plupart des mutations non neutres sont délétères et donc les banques de mutants tendent à avoir majoritairement des variants avec une activité réduite[12]. Ainsi, une analyse à haut débit est vitale pour mesurer l'activité afin de trouver les rares variants ayant des mutations bénéfiques qui améliorent les propriétés désirées. Deux catégories principales de méthodes existent pour isoler les variants fonctionnels. Les systèmes de sélection couplent directement la fonction protéique à la survie du gène, alors que les systèmes de dépistage analysent individuellement chaque variant et permettent de fixer un seuil quantitatif pour isoler un variant ou une population de variants d'une activité désirée. À la fois la sélection et le dépistage peuvent être réalisés dans les cellules vivantes (évolution in vivo) ou directement sur la protéine ou l'ARN sans que ce soit à l'intérieur de cellules (évolution in vitro)[13],[14].

Pendant l'évolution in vivo, chaque cellule (habituellement chez les bactéries ou les levures) est transformée avec un plasmide contenant un membre différent de la banque de variants. Dans cette méthode, seul le gène d'intérêt diffère entre les cellules, tous les autres gènes restant les mêmes. Les cellules expriment la protéine soit dans leur cytoplasme soit à leur surface, où leur fonction peut être testée. Ce format a l'avantage de sélectionner des propriétés dans un environnement cellulaire, ce qui est utile lorsque la protéine ou l'ARN évolué(e) est utilisé(e) dans des organismes vivants. Dans la méthode sans cellules, l'ED implique l'utilisation de transcription-traduction in vitro pour produire des protéines ou de l'ARN libre(s) en solution ou compartimentalisé(es) dans des microgouttes artificielles. Cette méthode a l'avantage d'être plus versatile dans les conditions de sélection (par exemple la température, le solvant), et peut exprimer des protéines qui peuvent être toxiques pour les cellules. De plus, les expériences d'évolution in vitro peuvent générer des banques beaucoup plus grandes (jusqu'à 1015) parce que la banque d'ADN n'a pas besoin d'être insérée dans les cellules (ce qui constitue souvent une étape limitante).

Sélection

Sélectionner l'activité de liaison est conceptuellement simple. La molécule cible est immobilisée sur un support solide, on fait couler une banque de protéines variantes sur ce support, celles qui se lient faiblement sont emportées et les variants liants restants sont récupérés afin d'isoler leurs gènes[15]. La liaison d'une enzyme à un inhibiteur covalent immobilisé a également été utilisée pour tenter d'isoler des catalyseurs actifs. Cependant, cette approche sélectionne seulement un turnover catalytique unique et ne constitue pas un bon modèle de liaison au substrat ou une bonne réactivité au substrat. Si une activité enzymatique peut se révéler nécessaire pour la survie de la cellule, soit par la synthèse d'un métabolite vital soit par destruction d'une toxine, alors la survie de la cellule est fonction de l'activité enzymatique[16],[17]. De tels systèmes sont généralement limités en débit seulement par la transformation efficace des cellules. Ils sont également moins chers et exigeants en main-d'œuvre que le dépistage, néanmoins ils sont typiquement difficiles à concevoir, enclins aux artéfacts et ne donnent aucune information sur la gamme d'activités présentes dans la banque.

Dépistage

Une alternative à la sélection est le système de dépistage. Chaque gène variant est exprimé individuellement et analysé pour mesurer quantitativement l'activité (le plus souvent grâce à un indicateur coloré ou un fluorochrome). Les variants sont ensuite classés et l'expérimentateur décide quels variants utiliser comme modèles pour le cycle suivant d'évolution dirigée. Même les analyses avec le plus haut débit ont une couverture moins large que les méthodes de sélection, mais ont l'avantage de donner des informations détaillées sur chacun des variants dépistés. Ces données désagrégées peuvent aussi être utilisées afin de caractériser la distribution des activités dans les banques, ce qui n'est pas possible dans les simples systèmes de sélection. Ainsi, les systèmes de dépistage apportent des avantages certains lorsqu'il s'agit de caractériser expérimentalement l'évolution adaptative et les paysages adaptatifs.

Assurer l'hérédité

Une protéine exprimée peut être soit liée de façon covalente à son gène (comme dans l'ARNm, à gauche) ou compartimentalisée avec lui (cellules ou compartiments artificiels, à droite). Chacune des deux voies assure que le gène peut être isolé en se basant sur l'activité de la protéine encodée.

Lorsque les protéines fonctionnelles ont été isolées, il est nécessaire que leurs gènes le soient aussi ; en conséquence, un lien génotype-phénotype est requis[16]. Ce lien peut être covalent, comme dans l'affichage d'ARNm où le gène de l'ARNm est lié à la protéine par la puromycine à la fin de la traduction[4]. Autrement, la protéine et son gène peuvent être co-localisés par compartimentalisation dans les cellules vivantes[18] ou dans des gouttelettes d'émulsion[19]. Les séquences géniques isolées sont ensuite amplifiées par PCR ou par des bactéries-hôtes transformées. On peut utiliser soit la meilleure séquence, soit un groupe de séquences, en tant que modèles pour le cycle suivant de mutagénèse. Les cycles répétés de diversification-sélection-amplification génèrent des variants protéiques adaptés aux pressions de sélection appliquées.

Comparaison avec la conception rationnelle des protéines

Avantages de l'évolution dirigée

La conception rationnelle d'une protéine est basée sur une connaissance approfondie de la structure de cette protéine, ainsi que de son mécanisme catalytique[20],[21]. Des changements spécifiques sont ensuite effectués via une mutagénèse dirigée dans le but de changer la fonction de la protéine. L'inconvénient de cela est que même quand la structure et le mécanisme d'action de la protéine sont bien connus, le changement dû à la mutation est encore difficile à prédire. Ainsi, un avantage de l'ED est qu'il n'y a pas besoin de comprendre le mécanisme de l'activité désirée ou de comment les mutations l'affecteraient[22].

Limites de l'évolution dirigée

Une restriction de l'ED est qu'une analyse à haut débit est requise afin de mesurer les effets d'un grand nombre de différentes mutations aléatoires. Cela peut demander une recherche et un développement extensifs avant qu'on puisse l'utiliser pour l'ED. De plus, de telles analyses sont souvent très spécifiques à l'observation d'une activité particulière, et ne sont donc pas transférables à de nouvelles expériences d'ED[23].

De plus, sélectionner une amélioration dans la fonction analysée génère simplement des améliorations dans cette fonction. Pour comprendre comment ces améliorations sont atteintes, les propriétés de l'enzyme qui évolue doivent être mesurées. Une amélioration de l'activité analysée peut être due à des améliorations dans l'activité catalytique de l'enzyme ou dans la concentration de cette enzyme. Cela ne confère également pas de garantie qu'une amélioration dans un substrat va améliorer l'activité dans un autre. Cela est particulièrement important lorsque l'activité désirée ne peut pas être directement dépistée ou sélectionnée, et on utilise donc un substrat "proxy". L'ED peut mener à une spécialisation évolutive du proxy sans améliorer l'activité désirée. En conséquence, choisir un dépistage ou des conditions de sélections approprié(e)s est vital pour qu'une ED réussisse.

Approches combinatoires

Les chercheurs étudient des approches combinées "semi-rationnelles" afin de répondre aux limites de la conception rationnelle et l'évolution dirigée[1],[24]. Les mutations bénéfiques sont rares, et donc des nombres élevés de mutants aléatoires doivent subir un dépistage afin de trouver des variants améliorés. Les "banques ciblées" se concentrent sur des régions randomisées que l'on suppose plus riches en mutations bénéfiques pour l'étape de mutagénèse de l'ED. Une banque ciblée contient moins de variants qu'une banque de mutants aléatoires traditionnelle et donc n'a pas besoin d'une telle analyse à haut débit.

Le fait de créer une banque ciblée requiert une certaine connaissance des résidus à muter dans la structure ; par exemple, la connaissance du site actif d'une enzyme peut permettre seulement aux résidus connus pour interagir avec le substrat d'être randomisés[25],[26]. Autrement, la connaissance de quelles régions protéiques sont variables dans la nature peut guider la mutagénèse seulement dans ces régions-là[27],[28].

Utilisations

L'évolution dirigée est fréquemment utilisée en ingénierie des protéines comme une alternative à la conception rationnelle[29], mais peut aussi être utilisée pour étudier des questions fondamentales d'évolution des enzymes[30].

Ingénierie des protéines

En tant qu'outil d'ingénierie des protéines, l'ED a eu le plus de succès dans trois domaines :

  1. Améliorer la stabilité des protéines à utilisation biotechnologique, à des hautes températures ou dans des solvants puissants[31],[32] ;
  2. Améliorer l'affinité de liaison d'anticorps thérapeutiques (maturation de l'affinité)[33] et l'activité d'enzymes conçues de novo[22] ;
  3. Modifier la spécificité de substrat d'enzymes existantes[34],[35],[36],[37] (souvent destinées à être utilisées dans l'industrie)[29].

Études évolutives

L'étude de l'évolution naturelle est traditionnellement basée sur des organismes encore existants de nos jours, et leurs gènes. Cependant, la recherche est fondamentalement limitée par le manque de fossiles (et particulièrement le manque de séquences d'ADN fossile)[38],[39] et une connaissance incomplète des anciennes conditions environnementales. L'évolution dirigée aborde l'évolution dans un système contrôlé de gènes codant des enzymes individuelles[40],[41],[24],[37], des ribozymes[42] et des réplicateurs[43],[44] (voir la théorie du gène égoïste de Richard Dawkins), de façon similaire à l'évolution expérimentale des eucaryotes[45],[46], procaryotes[47] et virus[48].

L'ED permet de contrôler la pression de sélection, le taux de mutation et l'environnement (à la fois au niveau des facteurs abiotiques comme la température, et des facteurs biotiques comme les autres gènes présents dans l'organisme). De plus, il existe un dossier complet listant tous les gènes évolutifs intermédiaires. Cela permet d'avoir des mesures détaillées des processus évolutifs, par exemple l'épistasie, l'évolvabilité, les paysages adaptatifs[49] contraints dans l'adaptationnisme[50],[51], et les réseaux neutres[52].

Notes et références

Voir aussi

Related Articles

Wikiwand AI