Secuenciación paralela masiva

La secuenciación paralela masiva es cualquiera de los enfoques de alto rendimiento para la secuenciación de ADN que utilizan el concepto de procesamiento paralelo masivo; también se denomina secuenciación de próxima generación (NGS, por sus siglas en inglés Next-Generation Sequencing) o secuenciación de segunda generación.

Algunas de estas tecnologías aparecieron entre 1993 y 1998, han sido comercialmente accesibles desde 2005.^[1]^[2]^[3]^[4]^[5] Estas tecnologías utilizan plataformas miniaturizadas y un paralelo para la secuenciación de 1 millón a 43 mil millones de lecturas cortas (50 a 400 bases cada una) por ejecución de instrumento.

Muchas plataformas NGS difieren en los diseños de ingeniería y la química de secuenciación.

Ambos utilizan plantillas de ADN amplificadas por clonación y espacialmente separadas o moléculas de ADN individuales en una celda de flujo para realizar una secuenciación paralela masiva.^{[cita requerida]}

La secuenciación de Sanger, a veces denominada secuenciación capilar o secuenciación de primera generación, se basa en la separación electroforética de productos de terminación de cadena generados en procesos de secuenciación individuales. Este diseño es sustancialmente diferente al de la secuenciación de Sanger^[6]y permite completar la secuenciación a mayor escala.^[7]

Podemos clasificar las plataformas de NGS de dos formas, según como se secuencie y como de larga sea la lectura que se secuencie: Por un lado pueden ser métodos basados, o no, en síntesis (de nuevas hebras de ADN), y por otro lado, métodos de larga lectura o de corta lectura ("long read" vs "short read"). Cada método tendrá sus ventajas y desventajas.

Los métodos basados en síntesis cometen menos errores de secuenciación, pero no permiten obtener información extra de la secuencia secuenciada (modificación de bases como por ejemplo la metilación). Los métodos no basados en síntesis (ejemplo, Oxford NanoPore), permiten analizar secuencias de ADN, o incluso ARN, y analizar las modificaciones de las bases de esa secuencia.

Los métodos de lectura corta tienen una capacidad enorme de producción de datos, pudiendo secuenciar genomas enteros en muy poco tiempo en algunos casos, pero no pueden saber si varios fragmentos de ADN secuenciados provienen de la misma fuente. Un ejemplo de este tipo de tecnología sería Illumina. Esto es una desventaja cuando, por ejemplo, se está estudiando la variabilidad genética de un virus. Interesa saber qué mutaciones están asociadas a otras dentro de cada genoma viral, y para eso es preferible leer la secuencia completa de un virus en una sola lectura (miles de bases). PacBio y Oxford NanoPore serían ejemplos de tecnologías de lectura larga (una de síntesis y la otra de no síntesis, respectivamente).

En general, la secuenciación del ADN mediante síntesis se lleva a cabo utilizando plataformas NGS disponibles comercialmente siguiendo los pasos que se enumeran a continuación. En primer lugar, se utiliza la amplificación clonal in vitro mediante PCR para crear bibliotecas de secuenciación de ADN. En segundo lugar, en lugar de usar la química de terminación de cadena para identificar la secuencia de ADN, el ADN se secuencia mediante síntesis, en cuyo caso se agregan nucleótidos a la cadena complementaria.

En tercer lugar, sin necesidad de separación física, las plantillas de ADN amplificadas y separadas espacialmente se secuencian en paralelo de manera masiva y simultánea. La mayoría de las plataformas NGS de síntesis siguen estos pasos, pero cada una lo hace de manera diferente.^[8]

En una ejecución de un solo instrumento, la paralelización NGS de las reacciones de secuenciación produce cientos de Megabases (Mb) a Gigabases (Gb) de lecturas de secuencias de nucleótidos. Como resultado, la cantidad de datos de secuencias accesibles ha aumentado drásticamente, lo que produjo cambios significativos en la forma en que las ciencias biomédicas abordan la secuenciación del genoma.^[9]

Las nuevas tecnologías e instrumentos de NGS han contribuido aún más a una disminución significativa en el costo de la secuenciación, acercándose a la marca de $1000 por secuenciación del genoma.^[10]^[11]

En la tabla se resumen las plataformas de secuenciación masiva en paralelo disponibles para el comercio a partir de 2014 y sus características. A medida que el ritmo de las tecnologías NGS avanza rápidamente, las especificaciones técnicas y los precios cambian.

Plataformas NGS
Plataforma	Preparación de plantillas	Química	Longitud máxima de lectura (bases)	Tiempos de ejecución (días)	Gb máximo por ejecución
Roche 454	Clonal-emPCR	Pirosecuenciación	400‡	0.42	0,40-0,60
GS FLX Titanio	Clonal-emPCR	Pirosecuenciación	400‡	0.42	0.035
Illumina MiSeq	Amplificación de puente clonal	Terminador de tinte reversible	2x300	0.17-2.7	15
Illumina HiSeq	Amplificación de puente clonal	Terminador de tinte reversible	2x150	0.3-11^[12]	1000^[13]
Analizador del genoma de Illumina III	Amplificación de puente clonal	Terminador de tinte reversible^[14]^[15]	2x150	2-14	95
Life Technologies SOLiD4	Clonal-emPCR	Ligación encadenada de oligonucleótidos 8-mer^[16]	20-45	4-7	35-50
Protón de iones de Life Technologies^[17]	Clonal-emPCR	dNTP nativos, detección de protones	200	0.5	100
Genómica completa	Nanobolas de ADN cuadriculadas	Ligación desencadenada de oligonucleótidos 9-mer^[18]^[19]^[20]	7x10	11	3000
Heliscopio de Biociencias Helicos	Molécula única	Terminador de tinte reversible	35‡	8	25
SMRT de Biociencias del Pacífico	Molécula única	Nucleótidos fluorescentes fosfoenlazados	10,000 ( N50 ); 30,000+ (máximo)^[21]	0.08	0.5^[22]

Se indican los tiempos de ejecución y la salida de Gigabase (Gb) por ejecución para la secuenciación de un solo extremo. Los tiempos de ejecución y las salidas se duplican aproximadamente cuando se realiza una secuenciación de extremos emparejados. ‡ Longitudes de lectura promedio para las plataformas Roche 454 y Helicos Biosciences.^[23]

Métodos de preparación de plantillas para NGS

Se utilizan dos métodos para preparar plantillas para reacciones de NGS: plantillas de moléculas de ADN individuales y plantillas amplificadas que se originan a partir de moléculas de ADN individuales. Para los sistemas de imágenes que no pueden detectar eventos de fluorescencia únicos, se requiere la amplificación de las plantillas de ADN. Los tres métodos de amplificación más comunes son la PCR en emulsión (emPCR), el círculo rodante y la amplificación en fase sólida. La distribución final de las plantillas puede ser espacialmente aleatoria o en cuadrícula.

PCR en emulsión

En los métodos de PCR en emulsión, primero se genera una biblioteca de ADN a través de la fragmentación aleatoria del ADN genómico. Los fragmentos de ADN monocatenario (plantillas) se unen a la superficie de las perlas con adaptadores o enlazadores, y una perla se une a un solo fragmento de ADN de la biblioteca de ADN.

La superficie de las perlas contiene sondas de oligonucleótidos con secuencias que son complementarias a los adaptadores que unen los fragmentos de ADN. Luego, las perlas se compartimentan en gotitas de emulsión de agua y aceite. En dicha emulsión acuosa, cada una de las gotitas que capturan una perla es un microrreactor de PCR que produce copias amplificadas de la plantilla de ADN única.^[24]^[25]^[26]

Nanobolas de círculo rodante cuadriculadas

La amplificación de una población de moléculas de ADN individuales mediante la amplificación de círculo rodante en solución es seguida por la captura en una cuadrícula de puntos de tamaño más pequeño que los ADN que se van a inmovilizar.^[27]^[28]^[29]

Generación de colonias de ADN (amplificación de puente)

Los cebadores directo e inverso se unen covalentemente a alta densidad al portaobjetos en una celda de flujo. La relación entre los cebadores y la plantilla sobre el soporte define la densidad superficial de los grupos amplificados. La celda de flujo se expone a reactivos para la extensión basada en polimerasa, el cebado se produce cuando el extremo libre o distal de un fragmento ligado forma un "puente" con un oligonucleótido complementario en la superficie. La desnaturalización y la extensión repetidas dan como resultado la amplificación localizada de fragmentos de ADN en millones de ubicaciones separadas en la superficie de la celda de flujo. La amplificación en fase sólida produce entre 100 y 200 millones de grupos de plantillas separados espacialmente, lo que proporciona extremos libres a los que luego se hibrida un cebador de secuenciación universal para iniciar la reacción de secuenciación.^[24]^[25]

Esta tecnología fue presentada para una patente en 1997 del Instituto de Investigación Biomédica de Ginebra (GBRI) de Glaxo-Welcome, por Pascal Mayer, Eric Kawashima y Laurent Farinelli, y se presentó públicamente por primera vez en 1998.^[30] En 1994, Chris Adams y Steve Kron presentaron una patente sobre un método de amplificación de superficie similar, pero no clonal, llamado "amplificación puente" adaptado para la amplificación clonal en 1997 por Church y Mitra.^[28]

Plantillas de una sola molécula

Los protocolos que requieren amplificación de ADN a menudo son engorrosos de implementar y pueden introducir errores de secuenciación. La preparación de plantillas de una sola molécula es más sencilla y no requiere PCR, que puede introducir errores en las plantillas amplificadas. Las secuencias diana ricas en AT y GC a menudo muestran un sesgo de amplificación, lo que da como resultado su subrepresentación en las alineaciones y ensamblajes del genoma. Las plantillas de una sola molécula generalmente se inmovilizan en soportes sólidos utilizando uno de al menos tres enfoques diferentes:

En el primer enfoque, las moléculas de cebador individuales distribuidas espacialmente se unen covalentemente al soporte sólido. La plantilla, que se prepara fragmentando aleatoriamente el material de partida en tamaños pequeños (por ejemplo,~200–250 pb) y agregando adaptadores comunes a los extremos del fragmento, luego se hibrida con el cebador inmovilizado.
En el segundo enfoque, las plantillas de una sola molécula distribuidas espacialmente se unen covalentemente al soporte sólido cebando y extendiendo plantillas de una sola molécula de una sola hebra a partir de cebadores inmovilizados. A continuación, se hibrida un cebador común con el molde. En cualquier enfoque, la ADN polimerasa puede unirse a la configuración de la plantilla cebada inmovilizada para iniciar la reacción de NGS. Los dos enfoques anteriores son utilizados por Helicos BioSciences.
En un tercer enfoque, las moléculas de polimerasa individuales distribuidas espacialmente se unen al soporte sólido, al que se une una molécula molde cebada. Este enfoque es utilizado por Pacific Biosciences. Con esta técnica, se pueden usar moléculas de ADN más grandes (hasta decenas de miles de pares de bases) y, a diferencia de los dos primeros enfoques, se puede usar con métodos en tiempo real, lo que da como resultado longitudes de lectura potencialmente más largas.

Enfoques de secuenciación

Secuenciación por síntesis

El objetivo de la secuenciación por síntesis (SBS) es determinar la secuenciación de una muestra de ADN mediante la detección de la incorporación de un nucleótido por una ADN polimerasa.

Se utiliza una polimerasa diseñada para sintetizar una copia de una sola hebra de ADN y se controla la incorporación de cada nucleótido. El principio de SBS se describió por primera vez en 1993 y las mejoras se publicaron algunos años después.^{^[1]} ^[31]

Las partes clave son muy similares para todas las realizaciones de SBS e incluyen:

Amplificación de ADN, para mejorar la señal posterior y unir el ADN que se va a secuenciar a un soporte sólido,
Generación de ADN monocatenario en el soporte sólido,
Incorporación de nucleótidos utilizando una polimerasa diseñada, y
Detección de la incorporación de nucleótidos.

Se repiten los pasos 3 y 4 y se ensambla la secuencia a partir de las señales obtenidas en el paso 4. Este principio de secuenciación por síntesis se ha utilizado para casi todos los instrumentos de secuenciación paralela masiva (454, PacBio, IonTorrent, Illumina, MGI, entre otros).

Pirosecuenciación

El principio de la pirosecuenciación se describió por primera vez en 1993 mediante la combinación de un soporte sólido con una ADN polimerasa diseñada que carece de actividad de exonucleasa de 3´a 5´ (corrección de pruebas) y detección de luminiscencia en tiempo real utilizando la luciferasa de luciérnaga.^{^[1]}Se introdujeron todos los conceptos clave de la SBS, agregando al cuarto paso la detección del nucleótido incorporado mediante detección de luz en tiempo real. En un artículo de seguimiento,^[2]el concepto se desarrolló aún más y en 1998 se publicó un artículo en el que los autores mostraban que los nucleótidos no incorporados podían eliminarse con una cuarta enzima, la apirasa) que permitía la secuenciación por síntesis a realizarse sin necesidad de eliminar por lavado los nucleótidos no incorporados.^[31]

Secuenciación por química de terminador reversible

Este enfoque utiliza dNTP unidos a terminadores reversibles en un método cíclico que comprende la incorporación de nucleótidos, la formación de imágenes de fluorescencia y la escisión. Se crea una imagen de un terminador marcado con fluorescencia a medida que se agrega cada dNTP y luego se escinde para permitir la incorporación de la siguiente base.Estos nucleótidos están bloqueados químicamente de manera que cada incorporación es un evento único. Un paso de formación de imágenes sigue a cada paso de incorporación de base, luego el grupo bloqueado se elimina químicamente para preparar cada hebra para la próxima incorporación por parte de la ADN polimerasa. Esta serie de pasos continúa durante un número específico de ciclos, según lo determinen los ajustes del instrumento definidos por el usuario. Los grupos de bloqueo 3' se concibieron originalmente como inversión enzimática o química.^[32]^[15]

El método químico ha sido la base de las máquinas Solexa e Illumina. La secuenciación mediante química de terminador reversible puede ser un ciclo de cuatro colores, como el que utiliza Illumina/Solexa, o un ciclo de un solo color, como el que utiliza Helicos BioSciences. Helicos BioSciences utilizó "Terminadores virtuales", que son terminadores desbloqueados con un segundo análogo de nucleósido que actúa como inhibidor. Estos terminadores tienen las modificaciones apropiadas para terminar o inhibir grupos de modo que la síntesis de ADN finalice después de la adición de una sola base.^[25]^[33]^[34]

Secuenciación por ligadura mediada por enzimas ligasa

En este enfoque, la reacción de extensión de secuencia no se lleva a cabo mediante polimerasas, sino mediante ADN ligasa y sondas codificadas con una o dos bases. En su forma más simple, una sonda marcada con fluorescencia se hibrida con su secuencia complementaria adyacente a la plantilla cebada. Luego se agrega ADN ligasa para unir la sonda marcada con colorante al cebador. Las sondas no ligadas se eliminan por lavado, seguido de imágenes de fluorescencia para determinar la identidad de la sonda ligada. El ciclo puede repetirse utilizando sondas escindibles para eliminar el colorante fluorescente y regenerar un grupo 5′-PO4 para ciclos de ligadura posteriores (ligación encadenada) o eliminando e hibridando un nuevo cebador con la plantilla (ligadura no encadenada).^[16]^[18]^[19]^[35]

Nucleótidos fluorescentes fosfoenlazados o secuenciación en tiempo real

Pacific Biosciences lidera actualmente este método. El método de secuenciación en tiempo real implica obtener imágenes de la incorporación continua de nucleótidos marcados con tinte durante la síntesis de ADN: las moléculas individuales de ADN polimerasa se unen a la superficie inferior de los detectores individuales de guía de ondas de modo cero (detectores Zmw) que pueden obtener información de secuencia mientras se fosfoenlazan los nucleótidos que se están incorporando a la hebra de cebador en crecimiento. Pacific Biosciences utiliza una polimerasa de ADN única que incorpora mejor los nucleótidos fosfoenlazados y permite la resecuenciación de plantillas circulares cerradas. Si bien la precisión de una sola lectura es del 87%, se ha demostrado una precisión de consenso del 99,999% con longitudes de lectura de varias kilobases.^[36]^[37] En 2015, Pacific Biosciences lanzó un nuevo instrumento de secuenciación llamado Sequel System, que aumenta la capacidad aproximadamente 6,5 veces.^[38]^[39]