Metabarcoding (español)

El metabarcoding es la codificación mediante barras del ADN/ARN (o eADN/eARN) de una manera que permite la identificación simultánea de muchos taxones dentro de la misma muestra. La principal diferencia es que el barcoding se centra en un organismo específico, mientras que el metabarcoding tiene como objetivo determinar la composición de diversas especies dentro de una muestra.

File:Metabarcoding Figura 1.png

Figura 1. Diferencias entre las técnicas de barcoding y metabarcoding. El barcoding se enfoca en identificar una especie y el metabarcoding en diferentes especies de un ambiente.

La técnica del metabarcoding consiste en secuenciar una región génica variable corta, que es útil para la asignación taxonómica por regiones génicas altamente conservadas, que se pueden utilizar para el diseño de cebadores.^[1] Esta idea del metabarcoding en general se originó en 2003 de investigadores de la Universidad de Guelph.^[2]

El procedimiento de metabarcoding, al igual que el barcoding general, procede en orden a través de etapas de extracción de ADN, amplificación por PCR, secuenciación y análisis de datos. Se utilizan diferentes genes dependiendo de si el objetivo es codificar con barras una sola especie o metabarcoding varias especies. En este último caso, se utiliza un gen más universal. La codificación metabólica no utiliza ADN/ARN de una sola especie como punto de partida, sino ADN/ARN de varios organismos diferentes derivados de una muestra ambiental o masiva.

ADN Ambiental

El ADN ambiental o eDNA describe el material genético presente en muestras ambientales como sedimentos, agua y aire, incluyendo células enteras, ADN extracelular y organismos potencialmente completos.^[3]^[4] El eDNA se puede tomar de muestras ambientales y preservadas, extraídas, amplificadas, secuenciadas y categorizarse sobre la base de su secuencia.^[5]A partir de esta información, es posible la detección y clasificación de especies. El eDNA puede provenir de piel, mucosas, saliva, esperma, secreciones, huevos, heces, orina, sangre, raíces, hojas, frutos, polen y cuerpos en descomposición de organismos más grandes, mientras que los microorganismos se pueden obtener completamente. ^[6]^[7]^[4]La producción de eDNA depende de la biomasa, edad y actividad de alimentación del organismo, así como de la fisiología, ciclo de vidal y uso del espacio.^[4]^[8]^[9]^[10] Para 2019, los métodos en la investigación de eDNA se habían ampliado para poder evaluar comunidades enteras a partir de una sola muestra. Este proceso implica el metabarcoding, que se puede definir con precisión como el uso de cebadores de reacción en cadena de la polimerasa (PCR) generales o universales en muestras de ADN mixtas de cualquier origen, seguido de una secuenciación de próxima generación (NGS) de alto rendimiento para determinar la composición de especies de la muestra. Este método ha sido común en microbiología durante años, pero, a partir de 2020, recién está encontrando su lugar en la evaluación de macroorganismos. Las aplicaciones de metabarcoding de eDNA en todo el ecosistema tienen el potencial no solo de describir comunidades y biodiversidad, sino también de detectar interacciones y ecología funcional en grandes escalas espaciales, aunque puede estar limitado por lecturas falsas debido a contaminación u otros errores.^[7]^[11]^[12]^[13]

En conjunto, el metabarcoding de eDNA aumenta la velocidad, la precisión y la identificación con respecto al metabarcoding tradicional y reduce el costo, pero necesita ser estandarizado y ser unificado, integrando la taxonomía y los métodos moleculares para un estudio ecológico completo. ^[14]^[15]^[16]^[17]^[18]^[19]

El metabarcoding de ADN ambiental tiene aplicaciones en el monitoreo de la diversidad en todos los hábitats y grupos taxonómicos, la reconstrucción de ecosistemas antiguos, las interacciones entre plantas y polinizadores, el análisis de la dieta, la detección de especies invasoras, las respuestas a la contaminación y el monitoreo de la calidad del aire. El metabarcoding de ADN ambiental es un método único que aún se encuentra en desarrollo y probablemente seguirá en constante cambio durante algún tiempo a medida que avance la tecnología y se estandaricen varios procedimientos. Sin embargo, a medida que se optimice y su uso se generalice, es probable que se convierta en una herramienta esencial para el monitoreo ecológico y el estudio de la conservación global. ^[19]

ADN comunitario

Desde el inicio de la secuenciación de alto rendimiento (HTS),^[20] el uso del metabarcoding como herramienta de detección en biodiversidad ha generado un inmenso interés. ^[12] Sin embargo, aún no está claro con respecto a qué material de origen se utiliza para realizar análisis de metabarcoding (por ejemplo, ADN ambiental versus ADN comunitario). Sin claridad entre estos dos materiales de origen, las diferencias en el muestreo, así como las diferencias en los procedimientos de laboratorio, pueden afectar los procesos bioinformáticos posteriores utilizados para el procesamiento de datos y complicar la interpretación de los patrones espaciales y temporales de la biodiversidad. Aquí, buscamos diferenciar claramente entre los materiales de origen predominantes utilizados y su efecto en el análisis e interpretación posteriores para el metabarcoding de ADN ambiental de animales y plantas en comparación con el metabarcoding de ADN comunitario.^[21]

Con el metabarcoding de ADN comunitario en animales y plantas, los datos de los diversos grupos objetivo se recolectan con mayor frecuencia en masa (por ejemplo, suelo, trampa de malestar o red), los individuos se retiran de otros restos de muestra y se agrupan antes de la extracción de ADN masiva. ^[12] Por el contrario, el eADN de macroorganismos se aísla directamente de un material ambiental (p. ej., suelo o agua) sin segregación previa de organismos individuales o material vegetal de la muestra y supone implícitamente que el organismo completo no está presente en la muestra. Por supuesto, las muestras de ADN comunitario pueden contener ADN de partes de tejidos, células y orgánulos de otros organismos (p. ej., contenido intestinal, ADN intracelular o extracelular cutáneo). Del mismo modo, las muestras de eADN de macroorganismos pueden capturar inadvertidamente organismos microscópicos completos que no son el objetivo (p. ej., protistas, bacterias). Por lo tanto, la distinción puede fallar al menos parcialmente en la práctica. ^[22]

Otra distinción importante entre el ADN comunitario y el eADN de macroorganismos es que las secuencias generadas a partir del metabarcoding metabólico del ADN comunitario se pueden verificar taxonómicamente cuando los especímenes no se destruyen en el proceso de extracción. En este caso, las secuencias se pueden generar a partir de especímenes de referencia utilizando la secuenciación de Sanger. Como las muestras para la codificación metabólica de ADN ambiental carecen de organismos completos, no se pueden hacer comparaciones in situ. Por lo tanto, las afinidades taxonómicas solo se pueden establecer comparando directamente las secuencias obtenidas (o mediante unidades taxonómicas operativas (MOTU) generadas bioinformáticamente) con secuencias anotadas taxonómicamente, como la base de datos de nucleótidos GenBank del NCBI,^[23] BOLD,^[24] o con bases de datos de referencia autogeneradas a partir de ADN secuenciado por Sanger.^[25]^[26]^[27](La unidad taxonómica operativa molecular (MOTU) es un grupo identificado mediante el uso de algoritmos de agrupamiento y un porcentaje predefinido de similitud de secuencia, por ejemplo, 97%)).^[28]^[22] Luego, para corroborar al menos parcialmente la lista resultante de taxones, se realizan comparaciones con métodos de estudio convencionales físicos, acústicos o visuales realizados al mismo tiempo o en comparación con registros históricos de estudios para una ubicación. ^[22]

Por lo tanto, la diferencia en el material de origen entre el ADN comunitario y el eADN tiene ramificaciones distintas para interpretar la escala de inferencia para el tiempo y el espacio sobre la biodiversidad detectada. A partir del ADN comunitario, está claro que las especies individuales se encontraron en ese tiempo y lugar, pero en el caso del eADN, el organismo que produjo el ADN puede estar río arriba del lugar muestreado,^[29] o el ADN puede haber sido transportado en las heces de una especie depredadora más móvil (por ejemplo, aves que depositan eADN de peces, ^[30] o estaba presente previamente, pero ya no está activo en la comunidad y la detección se realiza a partir del ADN que se desprendió años o décadas antes.^[31] Esto último significa que la escala de inferencia tanto en el espacio como en el tiempo debe considerarse cuidadosamente al inferir la presencia de la especie en la comunidad basándose en el eADN. ^[22]

Etapas del Metabarcoding

Hay seis etapas o pasos en el ADN barcoding y el metabarcoding.

Primero, se eligen regiones adecuadas de ADN barcoding para responder a una pregunta de investigación específica. La región de ADN barcode más comúnmente utilizada para animales es un segmento de aproximadamente 600 pares de bases del gen mitocondrial citocromo oxidasa I (CO1).^[2] Este locus proporciona una gran variación de secuencia entre especies y, al mismo tiempo, una variación relativamente pequeña dentro de la misma especie.^[32] Otras regiones de ADN barcode comúnmente utilizadas para la identificación de especies animales son las regiones de ADN ribosómico (ADNr), como 16S, 18S y 12S, y las regiones mitocondriales, como el citocromo B.^[33]^[34]^[35]^[36] Estos marcadores tienen ventajas y desventajas y se usan para diferentes propósitos.^[37]^[38] Por lo general, se necesitan regiones de ADN barcode más largas (de al menos 600 pares de bases) para una delimitación precisa de especies, especialmente para diferenciar parientes cercanos. La identificación del productor de restos de organismos, como heces, pelos y saliva, puede utilizarse como una medida indirecta para verificar la presencia o ausencia de una especie en un ecosistema. El ADN en estos restos suele ser de baja calidad y cantidad, por lo que en estos casos se utilizan códigos de barras más cortos de alrededor de 100 pares de bases. Del mismo modo, los restos de ADN en las heces suelen estar degradados, por lo que se necesitan ADN barcodes cortos para identificar las presas consumidas.^[39]

Segundo, es necesario construir una base de datos de referencia con todos los ADN barcodes que probablemente se encuentren en un estudio. Idealmente, estos barcodes deben generarse a partir de especímenes con comprobante depositados en un lugar de acceso público, como un museo de historia natural u otro instituto de investigación.^[39] Actualmente, la construcción de estas bases de datos de referencia se está realizando en todo el mundo. Las organizaciones asociadas colaboran en proyectos internacionales como el International Barcode of Life Project (iBOL) y el Consortium for the Barcode of Life (CBOL), que tienen como objetivo construir una referencia de ADN barcode que sirva como base para la identificación de los biomas del mundo. Repositorios de barcode bien conocidos son GenBank del NCBI y el Barcode of Life Data System (BOLD)^[39]

Tercero, las células que contienen el ADN de interés deben romperse para exponer su ADN. Este paso, que incluye la extracción y purificación de ADN, debe realizarse en el sustrato bajo investigación. Existen varios procedimientos disponibles para esto.^[40] Deben elegirse técnicas específicas para aislar ADN de sustratos con ADN parcialmente degradado, como muestras fósiles y muestras que contienen inhibidores, como sangre, heces y suelo. Las extracciones en las que se espera un bajo rendimiento o calidad de ADN deben realizarse en una instalación de ADN antiguo, junto con protocolos establecidos para evitar la contaminación con ADN moderno.^[41]^[42] Los experimentos deben realizarse siempre por duplicado^[43] y con controles positivos incluidos.^[39]

Cuarto, deben generarse amplicones a partir del ADN extraído, ya sea de un solo espécimen o de mezclas complejas, utilizando primers basados en los ADN barcodes seleccionados en el paso 1. Para realizar un seguimiento de su origen, deben añadirse nucleótidos etiquetados (ID moleculares o etiquetas MID) en el caso del metabarcoding. Estas etiquetas son necesarias posteriormente en los análisis para rastrear las lecturas de un conjunto de datos masivo hasta su origen.^[39]

Quinto, deben seleccionarse las técnicas adecuadas para la secuenciación de ADN. El método clásico de terminación en cadena de Sanger se basa en la incorporación selectiva de inhibidores de elongación de cadena de la ADN polimerasa durante la replicación del ADN. Estas cuatro bases se separan por tamaño mediante electroforesis y luego se identifican mediante detección láser. El método de Sanger es limitado y puede producir una sola lectura a la vez, por lo que es adecuado para generar ADN barcodes de sustratos que contienen solo una especie.^[39] Las tecnologías emergentes, como la secuenciación por nanoporos, han reducido el costo de la secuenciación de ADN de unos 30,000 USD por megabyte en 2002 a aproximadamente 0.60 USD en 2016.^[44]^[45] Las tecnologías modernas de secuenciación de nueva generación (NGS) pueden manejar miles o millones de lecturas en paralelo y, por lo tanto, son adecuadas para la identificación masiva de una mezcla de diferentes especies presentes en un sustrato, lo que se resume como metabarcoding^[39]

Finalmente, deben realizarse análisis bioinformáticos para comparar los ADN barcodes obtenidos con los Barcode Index Numbers (BIN) en las bibliotecas de referencia.^[46] Cada BIN, o clúster BIN, puede identificarse a nivel de especie cuando muestra una alta concordancia (>97%) con los ADN barcodes vinculados a una especie presente en una biblioteca de referencia, o cuando falta la identificación taxonómica a nivel de especie, como una unidad taxonómica operativa (OTU), que se refiere a un grupo de especies (es decir, género, familia o rango taxonómico superior).^[39] (Ver agrupación (metagenómica)).Los resultados de la tubería bioinformática deben depurarse, por ejemplo, filtrando lecturas poco fiables, duplicados innecesarios, lecturas de baja calidad y/o lecturas quiméricas. Esto generalmente se realiza mediante búsquedas BLAST en serie en combinación con scripts de filtrado y recorte automáticos.^[47] Se necesitan umbrales estandarizados para discriminar entre diferentes especies o entre una identificación correcta e incorrecta^[39]

Flujo de trabajo de metabarcoding

A pesar del evidente poder del enfoque, el eDNA metabarcoding se ve afectado por desafíos de precisión y exactitud a lo largo del flujo de trabajo, tanto en el campo, en el laboratorio, como en el análisis computacional.^[48] Como se muestra en el diagrama a la derecha, tras el diseño inicial del estudio (hipótesis/pregunta, grupo taxonómico objetivo, etc.), el flujo de trabajo actual de eDNA se compone de tres componentes: campo, laboratorio y bioinformática.^[21] El componente de campo incluye la recolección de muestras (por ejemplo, agua, sedimento, aire), las cuales se preservan o congelan antes de la extracción de ADN.El componente de laboratorio sigue cuatro pasos básicos: (i) se concentra el ADN (si no se realizó en el campo) y se purifica; (ii) se usa PCR para amplificar un gen o región objetivo; (iii) se incorporan secuencias únicas de nucleótidos llamadas "indexes" (también conocidas como "barcodes") mediante PCR o se ligan a diferentes productos de PCR, creando una "library" que permite agrupar múltiples muestras; y (iv) las librerías agrupadas se secuencian en una máquina de alto rendimiento. El paso final, después del procesamiento de las muestras en el laboratorio, es procesar computacionalmente los archivos de salida del secuenciador utilizando una pipeline bioinformática robusta^[21]

Metodología y visualización

El método requiere que cada ADN recolectado sea archivado con su correspondiente "espécimen tipo" (uno por cada taxón), además de los datos habituales de la colección. Estos tipos se almacenan en instituciones específicas (museos, laboratorios moleculares, universidades, jardines zoológicos, jardines botánicos, herbarios, etc.) uno por cada país, y en algunos casos, se asigna a una misma institución la contención de los tipos de más de un país, en los casos en que algunas naciones no cuentan con la tecnología o los recursos financieros para ello.

De esta manera, la creación de especímenes tipo de códigos genéticos representa una metodología paralela a la llevada a cabo por la taxonomía tradicional.

En una primera etapa, se definió la región del ADN que se utilizaría para realizar el código de barras. Debía ser corta y lograr un alto porcentaje de secuencias únicas. Para animales, algas y hongos, una porción de un gen mitocondrial que codifica para la subunidad 1 de la enzima citocromo oxidasa, CO1, ha proporcionado altos porcentajes (95%), una región en torno a los 648 pares de bases. ^[49]

En el caso de las plantas, el uso de CO1 no ha sido efectivo ya que presentan bajos niveles de variabilidad en esa región, además de las dificultades que se producen por los frecuentes efectos de poliploidía, introgresión e hibridación, por lo que el genoma del cloroplasto parece más adecuado.^[50]

Metabarcoding (español)

ADN Ambiental

ADN comunitario

Etapas del Metabarcoding

Flujo de trabajo de metabarcoding

Metodología y visualización

Metabarcoding vs Metagenómica

Referencias

Enlaces externos

Related Articles

Related Articles

«Biological identifications through DNA barcodes»

«The ecology of environmental DNA and implications for conservation genetics»

«Towards next‐generation biodiversity assessment using DNA metabarcoding»

«Critical considerations for the application of environmental DNA methods to detect aquatic species»

«How to limit false positives in environmental DNA and metabarcoding?»

«The ecologist's field guide to sequence‐based identification of biodiversity»

«Implementation options for DNA-based identification into ecological status assessment under the European Water Framework Directive»

«Bioinformatic challenges for DNA metabarcoding of plants and animals»

«Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring»

«Genome sequencing in microfabricated high-density picolitre reactors»

«Environmental DNA metabarcoding: Transforming how we survey animal and plant communities»

https://academic.oup.com/nar/article/41/D1/D36/1068219/GenBank

«SILVA: a comprehensive online resource for quality checked and aligned ribosomal RNA sequence data compatible with ARB»

«Using next‐generation sequencing for molecular reconstruction of past Arctic vegetation and climate»

«Fifty thousand years of Arctic vegetation and megafaunal diet»

«Defining operational taxonomic units using DNA barcode data»

«DNA from soil mirrors plant taxonomic and growth form diversity»

«Molecular detection of trophic interactions: emerging trends, distinct advantages, significant considerations and conservation applications»

«Mammoth and Elephant Phylogenetic Relationships: Mammut Americanum , the Missing Outgroup»

«Who is eating what: diet assessment using next generation sequencing»

«DNA metabarcoding and the cytochrome c oxidase subunit I marker: not a perfect match»

«Added value of metabarcoding combined with microscopy for evolutionary studies of mammals»

«Ancient DNA: Do It Right or Not at All»

«Replication levels, false presences and the estimation of the presence/absence from eDNA metabarcoding data»

«The expanding scope of DNA sequencing»

«DNA as a digital information storage device: hope or hype?»

«The UNITE database for molecular identification of fungi – recent updates and future perspectives»