Secuencia no codificante conservada

Una secuencia no codificante conservada (CNS, del inglés Conserved non-coding sequence) es una secuencia de ADN no codificante que se conserva evolutivamente. Estas secuencias son de interés por su potencial para regular la expresión de los genes.^[1]

Las secuencias no codificantes conservadas en plantas^[2] y en animales^[1] están altamente asociadas con los sitios de unión del factor de transcripción y otros elementos reguladores que actúan en cis. Las secuencias no codificantes conservadas (CNS), pueden ser sitios importantes de divergencia evolutiva^[3] ya que las mutaciones en estas regiones, pueden alterar la regulación de los genes conservados, produciendo patrones de expresión génica específicos de cada especie. Estas características de las CNS las han convertido en un recurso invaluable en genómica comparativa.

Intrones

Es probable que todas las secuencias no codificantes conservadas realicen alguna función para tener restricciones en su evolución, pero se pueden distinguir en función de en qué parte del genoma se encuentran y cómo llegaron allí.

Los intrones son tramos de secuencia de ADN, que se encuentran principalmente en organismos eucariotas, que interrumpen las regiones que codifican las proteínas en los genes, con longitudes de pares de bases que varían en tres órdenes de magnitud. Las secuencias de intrones pueden conservarse, a menudo porque contienen secuencias reguladoras de la expresión que imponen restricciones funcionales a su evolución biológica.^[4] Patrones de intrones conservados, entre especies de reinos diferentes, se han utilizado para hacer inferencias sobre la densidad de intrones en diferentes puntos de la historia evolutiva. Esto los convierte en un recurso importante para comprender la dinámica de la ganancia y pérdida de intrones en eucariotas (1,28).^[5]

Regiones no traducidas

Algunas de las regiones no codificantes más altamente conservadas se encuentran en las regiones no traducidas (UTR por sus siglas en inglés) en el extremo 3' de las transcripciones de ARN maduras, en lugar de en los intrones. Esto sugiere una función importante que opera a nivel postranscripcional. Si estas regiones realizan una función reguladora importante, el aumento en la longitud de 3'-UTR durante el tiempo evolutivo sugiere que las UTR conservadas contribuyen a la complejidad del organismo. Motivos regulatorios en UTRs a menudo conservados en genes que pertenecen a la misma familia metabólica podrían potencialmente usarse para desarrollar medicamentos altamente específicos que se dirigen a transcripciones de ARN.^[4]

Elementos transponibles

Los elementos repetitivos pueden acumularse en el genoma de un organismo como resultado de algunos procesos de transposición diferentes. La medida en que esto ha tenido lugar durante la evolución de los eucariotas varía mucho: el ADN repetitivo representa solo el 3% del genoma de la mosca, pero representa el 50% del genoma humano.^[4]

Existen diferentes teorías que explican la conservación de los elementos transponibles. Uno sostiene que, como los pseudogenes, proporcionan una fuente de nuevo material genético, lo que permite una adaptación más rápida a los cambios en el medio ambiente. Una alternativa más simple es que, debido a que los genomas eucariotas pueden no tener medios para prevenir la proliferación de elementos transponibles, son libres de acumularse siempre que no se inserten en un gen o cerca de él de tal manera que interrumpan funciones esenciales.^[6] Un estudio reciente mostró que los transposones contribuyen al menos el 16% de las secuencias no codificantes (CNS) específicas de Eutheria, marcándolos como una "fuerza creativa importante" en la evolución de la regulación génica en mamíferos.^[7] Hay tres clases principales de elementos transponibles, que se distinguen por los mecanismos por los cuales proliferan.

Clases

Los transposones de ADN codifican una proteína transposasa, que está flanqueada por secuencias de repetición invertidas. La transposasa elimina la secuencia y la reintegra en otra parte del genoma. Al extirparse inmediatamente después de la replicación del ADN y la inserción en sitios objetivo que aún no se han replicado, puede aumentar el número de transposones en el genoma.^[6]

Los retrotransposones usan transcriptasa inversa para generar un ADNc a partir de la transcripción TE. Estos se dividen además en retrotransposones de repetición terminal larga (LTR por sus siglas en inglés), elementos nucleares intercalados largos (LINE por sus siglas en inglés) y elementos nucleares intercalados cortos (SINE). En los retrotransposones LTR, después de que la plantilla de ARN se degrada, una cadena de ADN complementaria al ADNc transcrito inversamente devuelve el elemento a un estado bicatenario. La integrasa, una enzima codificada por el retrotransposón LTR, luego reincorpora el elemento en un nuevo sitio objetivo. Estos elementos están flanqueados por largas repeticiones terminales (300–500 pb) que median el proceso de transposición.^[6]

Los LINE utilizan un método más simple en el que el ADNc se sintetiza en el sitio objetivo después de la escisión por una endonucleasa codificada por LINE. La transcriptasa inversa codificada por LINE no es altamente específica de secuencia. La incorporación por parte de la maquinaria LINE de transcripciones de ARN no relacionadas da lugar a pseudogenes procesados no funcionales. Si se incluye un promotor de un pequeño gen en la porción transcrita del gen, la transcripción estable puede duplicarse y reinsertarse en el genoma varias veces. Los elementos producidos por este proceso se denominan SINE.^[6]

Elementos transponibles reguladores conservados

Cuando los elementos transponibles reguladores conservados están activos en un genoma, pueden introducir nuevas regiones promotoras, alterar los sitios reguladores existentes o, si se insertan en las regiones transcritas, alterar los patrones de empalme. Un elemento transpuesto particular se seleccionará positivamente si la expresión alterada que produce confiere una ventaja adaptativa. Esto ha resultado en algunas de las regiones conservadas que se encuentran en los humanos. Casi el 25% de los promotores caracterizados en humanos contienen elementos transpuestos.^[8] Esto es de particular interés a la luz del hecho de que la mayoría de los elementos transponibles en humanos ya no están activos.^[6]

Pseudogenes

Los pseudogenes son vestigios de genes que alguna vez fueron funcionales desactivados por deleciones de secuencias, inserciones o mutaciones. La evidencia principal de este proceso es la presencia de ortólogos completamente funcionales para estas secuencias inactivadas en otros genomas relacionados.^[4] Pseudogenes comúnmente emergen después de una duplicación de genes o un evento de poliploidización. Con dos copias funcionales de un gen, no hay presión selectiva para mantener la expresibilidad de ambos, dejando a uno libre para acumular mutaciones como un pseudogén no funcional. Este es el caso típico, por el cual la selección neutral permite que los pseudogenes acumulen mutaciones, sirviendo como "reservorios" de nuevo material genético, con potencial para ser reincorporados al genoma. Sin embargo, se ha encontrado que algunos pseudogenes se conservan en mamíferos.^[9] La explicación más simple para esto es que estas regiones no codificantes pueden cumplir alguna función biológica, y este ha sido el caso de varios pseudogenes conservados. El ARNm de Makorin1, por ejemplo, se encontró estabilizado por su pseudogén paralogous, Makorin1-p1, que se conserva en varias especies de ratones. También se ha encontrado que otros pseudogenes se conservan entre humanos y ratones y entre humanos y chimpancés, originándose a partir de eventos de duplicación previos a la divergencia de la especie. La evidencia de la transcripción de estos pseudogenes también respalda la hipótesis de que tienen una función biológica.^[10] Los hallazgos de pseudogenes potencialmente funcionales crean dificultades para definirlos, ya que el término originalmente estaba destinado a secuencias degeneradas sin función biológica.^[11]

Un ejemplo de pseudogén es el gen de la L-gulonolactona oxidasa, una enzima hepática necesaria para la biosíntesis del ácido L-ascórbico (vitamina C) en la mayoría de las aves y mamíferos, pero que está mutada en el suborden de primates haplorrhini, incluidos los humanos que requieren ácido ascórbico o ascorbato de los alimentos. Los restos de este gen no funcional con muchas mutaciones todavía están presentes en los genomas de cobayas y humanos.^[12]

Regiones ultraconservadas

Las regiones ultraconservadas (UCR por sus siglas en inglés) son regiones de más de 200 pb de longitud con un 100% de identidad entre especies. Estas secuencias únicas se encuentran principalmente en regiones no codificadas. Todavía no se comprende completamente por qué la presión selectiva negativa en estas regiones es mucho más fuerte que la selección en regiones codificantes de proteínas.^[13]^[14] Aunque estas regiones pueden verse como únicas, la distinción entre regiones con un alto grado de conservación de secuencia y aquellas con conservación de secuencia perfecta no es necesariamente una de importancia biológica. Un estudio en Science encontró que todas las secuencias no codificadas extremadamente conservadas tienen funciones reguladoras importantes independientemente de si la conservación es perfecta, lo que hace que la distinción de ultraconservación parezca algo arbitraria.

En genómica comparativa

La conservación de regiones no codificantes funcionales y no funcionales proporciona una herramienta importante para la genómica comparativa, aunque la conservación de elementos reguladores cis ha demostrado ser particularmente útil.^[4] La presencia de secuencias no codificantes conservadas podría deberse en algunos casos a la falta de tiempo de divergencia,^[15] aunque el pensamiento más común es que realizan funciones que imponen diversos grados de restricción a su evolución. De acuerdo con esta teoría, los elementos reguladores cis se encuentran comúnmente en regiones conservadas sin codificación. Por lo tanto, la similitud de secuencia a menudo se usa como un parámetro para limitar el espacio de búsqueda cuando se intenta identificar elementos reguladores conservados entre especies, aunque esto es más útil en el análisis de organismos relacionados distantemente, ya que los parientes más cercanos también tienen conservación de secuencia entre elementos no funcionales.^[16]^[17]

Los ortólogos con alta similitud de secuencia pueden no comparten los mismos elementos reguladores.^[18] Estas diferencias pueden explicar diferentes patrones de expresión entre especies.^[19] conservación de la secuencia no codificante también es importante para el análisis de parálogos dentro de una sola especie. Las secuencias no codificantes conservadas compartidas por grupos de logotipos de genes Hox son candidatos para regiones reguladoras de la expresión, posiblemente coordinando los patrones de expresión similares de estos genes.^[16]

Los estudios genómicos comparativos de las regiones promotoras de genes ortólogos también pueden detectar diferencias en la presencia y el posicionamiento relativo de los sitios de unión del factor de transcripción en las regiones promotoras.^[20] Los ortólogos con alta similitud de secuencia pueden no compartir los mismos elementos reguladores.^[18] Estas diferencias pueden explicar diferentes patrones de expresión entre especies.^[19]

Se cree que las funciones reguladoras comúnmente asociadas con regiones conservadas no codificantes desempeñan un papel en la evolución de la complejidad eucariota. En promedio, las plantas contienen menos secuencias no codificantes conservadas por gen que los mamíferos. Se cree que esto se relaciona con el hecho de que han sufrido más poliploidización o eventos de duplicación del genoma. Durante la subfuncionalización que se produce después de la duplicación de genes, existe la posibilidad de una mayor tasa de pérdida de las CNS por gen. Por lo tanto, los eventos de duplicación del genoma pueden explicar el hecho de que las plantas tienen más genes, cada uno con menos CNS. Suponiendo que el número de CNS sea un proxy de la complejidad regulatoria, esto puede explicar la disparidad en la complejidad entre plantas y mamíferos.^[21]

Debido a que se cree que los cambios en la regulación génica explican la mayoría de las diferencias entre humanos y chimpancés, los investigadores han recurrido al CNS para tratar de mostrar esto. Una parte de los CNS entre humanos y otros primates tiene un enriquecimiento de polimorfismos de un solo nucleótido específicos de humanos, lo que sugiere una selección positiva para estos SNP y una evolución acelerada de esos CNS. Muchos de estos SNP también están asociados con cambios en la expresión génica, lo que sugiere que estos CNS desempeñaron un papel importante en la evolución humana.^[22]

Programa	Sitio web^[4]
Consite	http://consite.genereg.net/ Archivado el 5 de enero de 2009 en Wayback Machine.
FootPrinter	http://bio.cs.washington.edu/software Archivado el 22 de noviembre de 2011 en Wayback Machine.
GenomeTrafac	http://genometrafac.cchmc.org/genome-trafac/index.jsp Archivado el 12 de agosto de 2020 en Wayback Machine.
rVISTA	http://rvista.dcode.org/
Toucan	http://homes.esat.kuleuven.be/~saerts/software/toucan.php
Trafac	http://trafac.chmcc.org/trafac/index.jsp
UCNEbase	http://ccg.vital-it.ch/UCNEbase/