Información

¿Cómo se aíslan los fragmentos durante la secuenciación de la escopeta Sanger?

¿Cómo se aíslan los fragmentos durante la secuenciación de la escopeta Sanger?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Para un genoma grande (digamos millones de pares de bases), dividimos el genoma en fragmentos <1000 pb que se secuencian y luego se pueden volver a unir computacionalmente.

Tengo entendido que utiliza algún tipo de técnica de corte para obtener el ADN en fragmentos como en: https://en.wikipedia.org/wiki/DNA_fragmentation

Ahora tienes una tina llena de fragmentos aleatorios, ¿cómo puedes secuenciarlos?

Por lo que puedo decir, si tomas la solución con el ADN cortado y ejecutas la secuenciación de Sanger, obtendrás una mezcla de fragmentos mezclados, lo que resultará en mucho ruido ... básicamente, obtendrías un promedio de todas las corridas juntas. ¿No necesita aislar cada fragmento antes de ejecutar la secuenciación de Sanger?

¿Cómo se hace esto?


En el método original, se clonarían todos los fragmentos resultantes en un vector adecuado y se transformaría la colección en un huésped bacteriano, para crear la denominada biblioteca. Al sembrar los clones de la biblioteca en condiciones adecuadas, tendría una colección de los denominados clones, y cada clon se seleccionaría y secuenciaría aleatoriamente utilizando la técnica de Sanger.


¿Cómo se aíslan los fragmentos durante la secuenciación de escopeta Sanger? - biología

Las estrategias utilizadas para secuenciar genomas incluyen el método Sanger, secuenciación de escopeta, final por pares y secuenciación de próxima generación.

Objetivos de aprendizaje

Compare las diferentes estrategias utilizadas para la secuenciación del genoma completo: método Sanger, secuenciación de escopeta, secuenciación por pares y secuenciación de próxima generación

Conclusiones clave

Puntos clave

  • El método Sanger es una técnica de secuenciación básica que utiliza didesoxinucleótidos marcados con fluorescencia (ddNTP) durante la replicación del ADN, lo que da como resultado múltiples hebras cortas de ADN replicado que terminan en diferentes puntos, según el lugar donde se incorporó el ddNTP.
  • La secuenciación por escopeta es un método que corta al azar fragmentos de ADN en trozos más pequeños y luego, con la ayuda de una computadora, toma los fragmentos de ADN, los analiza en busca de secuencias superpuestas y vuelve a ensamblar toda la secuencia de ADN.
  • La secuenciación por pares es un tipo de secuenciación de escopeta que se utiliza para genomas más grandes y analiza ambos extremos de los fragmentos de ADN en busca de superposición.
  • La secuenciación de próxima generación es un tipo de secuenciación que está automatizada y se basa en un software sofisticado para la secuenciación rápida del ADN.

Términos clave

  • fluoróforo: una molécula o grupo funcional que es capaz de fluorescencia
  • contig: un conjunto de segmentos de ADN superpuestos, derivados de una única fuente de material genético, del cual se puede deducir la secuencia completa
  • didesoxinucleótido: cualquier nucleótido formado a partir de un desoxinucleótido por pérdida de un segundo grupo hidroxilo del grupo desoxirribosa

Estrategias utilizadas en proyectos de secuenciación

La técnica de secuenciación básica utilizada en todos los proyectos de secuenciación modernos es el método de terminación de cadena (también conocido como método didesoxi), que fue desarrollado por Fred Sanger en la década de 1970. El método de terminación de cadena implica la replicación del ADN de una plantilla monocatenaria con el uso de un cebador y un desoxinucleótido regular (dNTP), que es un monómero, o una sola unidad, de ADN. El cebador y el dNTP se mezclan con una pequeña proporción de didesoxinucleótidos marcados con fluorescencia (ddNTP). Los ddNTP son monómeros a los que les falta un grupo hidroxilo (–OH) en el sitio en el que normalmente se une otro nucleótido para formar una cadena. Cada ddNTP está etiquetado con un color diferente de fluoróforo. Cada vez que se incorpora un ddNTP en la hebra complementaria en crecimiento, finaliza el proceso de replicación del ADN, lo que da como resultado múltiples hebras cortas de ADN replicado que terminan cada una en un punto diferente durante la replicación. Cuando la mezcla de reacción se procesa mediante electroforesis en gel después de separarse en cadenas simples, las múltiples cadenas de ADN recién replicadas forman una escalera debido a sus diferentes tamaños. Debido a que los ddNTP están marcados con fluorescencia, cada banda del gel refleja el tamaño de la cadena de ADN y el ddNTP que terminó la reacción. Los diferentes colores de los ddNTP marcados con fluoróforo ayudan a identificar el ddNTP incorporado en esa posición. La lectura del gel sobre la base del color de cada banda en la escalera produce la secuencia de la hebra de la plantilla.

Método Sanger & # 8217s: El método de terminación de la cadena didesoxi de Frederick Sanger & # 8217 utiliza didesoxinucleótidos, en los que el fragmento de ADN puede terminarse en diferentes puntos. El ADN se separa en función del tamaño, y estas bandas, en función del tamaño de los fragmentos, se pueden leer.

Estructura de un didesoxinucleótido: Un didesoxinucleótido es similar en estructura a un desoxinucleótido, pero le falta el grupo hidroxilo 3 & # 8242 (indicado por el recuadro). Cuando se incorpora un didesoxinucleótido a una hebra de ADN, se detiene la síntesis de ADN.

Estrategias tempranas: secuenciación de escopeta y secuenciación de extremos por parejas

En el método de secuenciación de la escopeta, varias copias de un fragmento de ADN se cortan al azar en muchas piezas más pequeñas (algo así como lo que le sucede a un cartucho de bala redonda cuando se dispara con una escopeta). Luego, todos los segmentos se secuencian utilizando el método de secuenciación en cadena. Luego, con la ayuda de una computadora, se analizan los fragmentos para ver dónde se superponen sus secuencias. Al hacer coincidir las secuencias superpuestas al final de cada fragmento, se puede reformar toda la secuencia de ADN. Una secuencia más grande que se ensambla a partir de secuencias más cortas superpuestas se llama contig. Como analogía, considere que alguien tiene cuatro copias de una fotografía de paisaje que nunca ha visto antes y no sabe nada sobre cómo debería aparecer. Luego, la persona rasga cada fotografía con sus manos, de modo que de cada copia estén presentes piezas de diferentes tamaños. Luego, la persona mezcla todas las piezas y le pide que reconstruya la fotografía. En una de las piezas más pequeñas ves una montaña. En una pieza más grande, ves que la misma montaña está detrás de un lago. Un tercer fragmento muestra solo el lago, pero revela que hay una cabaña en la orilla del lago. Por lo tanto, al observar la información superpuesta en estos tres fragmentos, sabrá que la imagen contiene una montaña detrás de un lago que tiene una cabaña en su orilla. Este es el principio detrás de la reconstrucción de secuencias de ADN completas usando secuenciación de escopeta.

Originalmente, la secuenciación de escopeta solo analizaba un extremo de cada fragmento en busca de superposiciones. Esto fue suficiente para secuenciar pequeños genomas. Sin embargo, el deseo de secuenciar genomas más grandes, como el de un ser humano, llevó al desarrollo de la secuenciación de escopeta de doble cañón, más formalmente conocida como secuenciación por pares. En la secuenciación de extremos por pares, ambos extremos de cada fragmento se analizan en busca de superposición. La secuenciación por pares es, por lo tanto, más engorrosa que la secuenciación rápida, pero es más fácil reconstruir la secuencia porque hay más información disponible.

Secuenciación de próxima generación

Desde 2005, las técnicas de secuenciación automatizada utilizadas por los laboratorios están bajo el paraguas de la secuenciación de próxima generación, que es un grupo de técnicas automatizadas utilizadas para la secuenciación rápida de ADN. Estos secuenciadores automatizados de bajo costo pueden generar secuencias de cientos de miles o millones de fragmentos cortos (de 25 a 500 pares de bases) en el lapso de un día. Se utiliza un software sofisticado para gestionar el engorroso proceso de poner todos los fragmentos en orden.


Blog de CD Genomics

Explore el blog que hemos desarrollado, que incluye educación genómica, tecnologías genómicas, avances genómicos y noticias y opiniones sobre genómica.

Secuenciación de Sanger: introducción, principio y protocolo

¿Qué es la secuenciación de Sanger?

La secuenciación de Sanger, también conocida como el & # 8220 método de terminación de la cadena & # 8221, fue desarrollada por el bioquímico inglés Frederick Sanger y sus colegas en 1977. Este método está diseñado para determinar la secuencia de bases de nucleótidos en un fragmento de ADN (comúnmente menos de 1.000 pb de longitud). La secuenciación de Sanger con una precisión de base del 99,99% se considera el & # 8220gold standard & # 8221 para validar secuencias de ADN, incluidas las ya secuenciadas mediante secuenciación de próxima generación (NGS). La secuenciación de Sanger se utilizó en el Proyecto Genoma Humano para determinar las secuencias de fragmentos relativamente pequeños de ADN humano (900 pb o menos). Estos fragmentos se utilizaron para ensamblar fragmentos de ADN más grandes y, finalmente, cromosomas completos.

Secuenciación Sanger VS NGS

El desarrollo de tecnologías NGS ha acelerado la investigación genómica. NGS puede secuenciar simultáneamente más de 100 genes y genomas completos con ADN de baja entrada. La secuenciación de Sanger sigue siendo ampliamente utilizada en el campo de la secuenciación, ya que ofrece varias ventajas destacadas: (i) rentabilidad para secuenciar genes únicos y (ii) precisión del 99,99%, especialmente adecuada para secuenciación de verificación para mutagénesis dirigida al sitio o insertos clonados.

¿Cómo funciona la secuenciación de Sanger?

En la secuenciación de Sanger, se utiliza un cebador de ADN complementario al ADN molde (el ADN que se va a secuenciar) como punto de partida para la síntesis de ADN. En presencia de los cuatro desoxinucleótidos trifosfatos (dNTP: A, G, C y T), la polimerasa extiende el cebador añadiendo el dNTP complementario a la cadena de ADN molde. Para determinar qué nucleótido se incorpora a la cadena de nucleótidos, se utilizan cuatro trifosfatos de didesoxinucleótidos (ddNTP: ddATP, ddGTP, ddCTP y ddTTP) marcados con un tinte fluorescente distinto para terminar la reacción de síntesis. En comparación con los dNTP, los ddNTP tienen un átomo de oxígeno eliminado del ribonucleótido, por lo que no pueden formar un enlace con el siguiente nucleótido. Después de la síntesis, los productos de reacción se cargan en cuatro carriles de un solo gel dependiendo de los diversos nucleótidos que terminan la cadena y se someten a electroforesis en gel. De acuerdo con sus tamaños, se determina así la secuencia del ADN.

Figura 1. La estructura de ddNTP y dNTP.
Crédito de la imagen: & # 8220 Secuenciación del genoma completo: Figura 1, & # 8221 de OpenStax College, Biology).

Pasos de secuenciación de Sanger

El método de secuenciación de Sanger consta de 6 pasos:
(1) El ADN bicatenario (dsDNA) se desnaturaliza en dos ADN monocatenarios (ssDNA).
(2) Se adjunta un cebador que corresponde a un extremo de la secuencia.
(3) Se agregan cuatro soluciones de polimerasa con cuatro tipos de dNTP pero solo un tipo de ddNTP.
(4) La reacción de síntesis de ADN se inicia y la cadena se extiende hasta que se incorpora aleatoriamente un nucleótido de terminación.
(5) Los fragmentos de ADN resultantes se desnaturalizan en ADNss.
(6) Los fragmentos desnaturalizados se separan mediante electroforesis en gel y se determina la secuencia.

Figura 2. El método de secuenciación de Sanger en 6 pasos (adaptado de Gauthier 2008).


Soluciones BrainMass disponibles para descarga instantánea

Movilidad de electroforesis en gel: migración de partículas

Movilidad electroforética, describe la velocidad de una partícula que se mueve a través de una matriz de gel bajo la influencia de un campo eléctrico. Dado un campo eléctrico constante, ¿qué características de la molécula influyen en su velocidad a través de la matriz? Indique si estas características mejoran o disminuyen la migración de las partículas.

El método didesoxi (Sanger) y el método básico de 'pirosecuenciación'

Explique los dos métodos principales de secuenciación, el método didesoxi (Sanger) y el método básico de 'pirosecuenciación' Se proporcionan detalles mecánicos tanto para Sanger como para la pirosecuenciación.

Metodología de secuenciación de ADN: didesoxi y pirosecuenciación

Tengo dos preguntas en biología y necesito una respuesta perfecta Pregunta 1 Explique los dos métodos principales de secuenciación, el método didesoxi (Sanger) y el método básico de 'pirosecuenciación' Pregunta 2 Muestre, con ejemplos, cómo ha sido el método de 'pirosecuenciación' útil para aplicaciones de muy alto rendimiento gracias

Métodos y explicaciones de secuenciación de ADN de ratón

Tengo una cepa particular de ratón y quiero determinar la secuencia de ADN de una región específica de un gen (y aquí podemos asumir que el ADN que se va a probar proviene de un ratón y NO se espera que sea heterocigoto en el locus probado, es decir, se asume uniforme Contenido de ADN). Miro la secuencia de ADN conocida en esa región (para micrófono normal

Proceso de PCR

Si se omitiera el paso de desnaturalización de la PCR, ¿qué pasaría con el proceso de la PCR? ¿Cómo se usa la PCR para determinar que una persona está infectada con una bacteria específica? Ahora que tenemos PCR, ¿por qué usaríamos técnicas de cultivo? Si se utilizó una ADN polimerasa distinta de la polimerasa de Thermus aquaticus en el procedimiento de PCR

Determinación de la proporción de GC

Necesita alguna aclaración, por favor ayude. Determine la proporción de GC del siguiente tramo de ADN de 2 bacterias diferentes: Bacteria # 1: GCATTAGCCGTATCCGAT CGTAATCGGCATAGGCTA Bacteria # 2: CGACCGGCCATGGCGCGT GCTGGCCGGTACCGCGCA ¿Qué conclusión sacaría sobre la relación de estos 2 organismos y por qué?

¿Por qué la evidencia de ADN es más útil como evidencia de exclusión que para la identificación positiva de un sospechoso?

Consulte el archivo adjunto. 7- ¿Por qué la evidencia de ADN es más útil como evidencia de exclusión que para la identificación positiva de un sospechoso? 8- Dar la secuencia de ADN para la hebra molde que da lugar a la siguiente secuencia de gel, preparada mediante el método de Sanger con una etiqueta radioactiva en el extremo 5 'del cebador.

Fabricación de cebadores y su uso para mutagénesis dirigida al sitio

¿Cuáles son los criterios para los cebadores "buenos" en una reacción de PCR? Describa cómo usaría la mutagénesis dirigida al sitio para cambiar un sitio de restricción BamHI en un sitio EcoRI.

Diseño de cebadores para PCR: encontrar problemas con los cebadores

1- ¿Por qué el uso de ADN polimerasa estable a la temperatura es un factor importante en la reacción en cadena de la polimerasa? 2- Cada uno de los siguientes pares de cebadores tiene un problema. Explique por qué los cebadores no funcionarían bien. a) Cebador directo 5 'GCCTCCGGAGACCCATTGG 3' Cebador inverso 5 'TTCTAAGAAACTGTTAAGG 3' b) Adelante

Reacción en cadena de la polimerasa

Mary preparó una reacción de PCR similar. La Tm de los cebadores directos e inversos que utiliza es de 55oC. Las condiciones optimizadas por su instructor fueron las siguientes: Ciclo Temperatura (oC) Tiempo 1X 94o 3 minutos 30X 94o 30 segundos Desnaturalización 50o 30 segundos Recocido 72o 60 segundos Extensión Mary establece u

Secuenciación de ADN o ARN

Utilice esta hebra única de ácido nucleico * 5'- ATGCTATCATTGACCTTGAGTTATTAA -3 '* y responda lo siguiente: i) ¿Es esta una hebra de ADN o ARN? ¿Cómo lo sabes? ii) Si es ADN, ¿cuál es la hebra complementaria? iii) Si esta fuera la cadena codificante de una molécula de ADN, ¿cuál sería la secuencia de ARNm? iv) Si esta fuera la no codificación

El proceso de toma de huellas dactilares de ADN

Describa el proceso de toma de huellas dactilares de ADN y explique cómo las huellas dactilares de ADN pueden diferenciar entre posibles sospechosos de un delito.

Secuencia ADN

¿Qué sabemos sobre las secuencias de ADN no codificantes?

Nuevos desarrollos en tecnología de secuenciación de ADN.

En los últimos años, la biología molecular ha experimentado una revolución que puede atribuirse en parte al advenimiento de métodos sencillos de secuenciación de ADN (gracias al trabajo de Fred Sanger publicado en 1977) y, sin embargo, la tecnología de secuenciación continúa cambiando. Analice brevemente los nuevos desarrollos en la tecnología de secuenciación de ADN.


Una breve historia de la secuenciación de Sanger

A mediados de la década de 1970, Sanger no estaba solo en la carrera por secuenciar el ADN casi en paralelo, dos científicos estadounidenses, Maxam y Gilbert, desarrollaron una técnica en la que el ADN se trata químicamente para romper la cadena en bases específicas. Después de la electroforesis del ADN escindido, se pueden determinar las longitudes relativas de los fragmentos y, por tanto, las posiciones de los nucleótidos específicos, e inferir la secuencia [1]. Esto se considera el nacimiento de la secuenciación de primera generación. Sin embargo, el advenimiento del método de terminación de cadena de Sanger en 1977 sería el gran avance que impulsó la secuenciación hacia el futuro [1]. Muchos años después de su desarrollo, la secuenciación de Sanger se utilizó para secuenciar todo el genoma humano. (Para obtener más información sobre la historia de las tecnologías de secuenciación, consulte el artículo titulado "Qué es la secuenciación").


Mardis, E.R. Plataformas de secuenciación de próxima generación. Annu. Rev. Anal. Chem. (Palo Alto California) 6, 287–303 (2013).

Picelli, S. et al. Procedimientos de etiquetado y transposasa de Tn5 para proyectos de secuenciación a gran escala. Genome Res. 24, 2033–2040 (2014).

Jefe, S.R. et al. Construcción de bibliotecas para la secuenciación de próxima generación: descripciones generales y desafíos. Biotecnología 56, 61–64, 66, 68 passim (2014).

Metzker, M.L. Tecnologías de secuenciación: la próxima generación. Nat. Rev. Genet. 11, 31–46 (2010).

Goodwin, S., McPherson, J.D. & amp McCombie, W.R. Mayoría de edad: diez años de tecnologías de secuenciación de próxima generación. Nat. Rev. Genet. 17, 333–351 (2016).

Li, H. & amp Durbin, R. Alineación de lectura corta rápida y precisa con la transformada de Burrows-Wheeler. Bioinformática 25, 1754–1760 (2009).

Bainbridge, M.N. et al. Captura completa del exoma en solución con 3 Gbp de datos. Genome Biol. 11, R62 (2010).

Gnirke, A. y col. Solución de selección de híbridos con oligonucleótidos ultralargos para una secuenciación dirigida masivamente paralela. Nat. Biotechnol. 27, 182–189 (2009).

Hodges, E. et al. Selección híbrida de intervalos genómicos discretos en microarrays de diseño personalizado para secuenciación masivamente paralela. Nat. Protocolos. 4, 960–974 (2009).

Altshuler, D. et al. Un mapa SNP del genoma humano generado por secuenciación de escopeta de representación reducida. Naturaleza 407, 513–516 (2000).

Springer, N.M., Xu, X. y Barbazuk, W.B. Utilidad de diferentes enfoques de enriquecimiento genético para identificar y secuenciar el espacio genético del maíz. Plant Physiol. 136, 3023–3033 (2004).

Baetens, M. et al. Aplicación de la secuenciación paralela masiva al diagnóstico molecular de los síndromes de Marfan y Loeys-Dietz. Tararear. Mutat. 32, 1053–1062 (2011).

Hollants, S., Redeker, E.J. & amp Matthijs, G. Amplificación de microfluidos como herramienta para la secuenciación paralela masiva de los genes de la hipercolesterolemia familiar. Clin. Chem. 58, 717–724 (2012).

Consorcio Internacional de Secuenciación del Genoma Humano. Terminando la secuencia eucromática del genoma humano. Naturaleza 431, 931–945 (2004).

Mardis, E.R. Secuenciación del genoma, transcriptoma y epigenoma de AML. Semin. Hematol. 51, 250–258 (2014).

Wong, K., Keane, T.M., Stalker, J. y Adams, D.J. Detección mejorada de variantes estructurales y puntos de interrupción utilizando SVMerge mediante la integración de múltiples métodos de detección y ensamblaje local. Genome Biol. 11, R128 (2010).

Alkan, C., Sajjadian, S. & amp Eichler, E.E. Limitaciones del ensamblaje de la secuencia del genoma de próxima generación. Nat. Métodos 8, 61–65 (2011).

Huddleston, J. & amp Eichler, E.E. Una comprensión incompleta de la variación genética humana. Genética 202, 1251–1254 (2016).

De repente, P.H. et al. Un mapa integrado de variación estructural en 2.504 genomas humanos. Naturaleza 526, 75–81 (2015).

Huddleston, J. y col. Reconstrucción de regiones complejas de genomas utilizando tecnología de secuenciación de lectura larga. Genome Res. 24, 688–696 (2014).

Chaisson, M.J., Wilson, R.K. & amp Eichler, E.E. La variación genética y la de novo ensamblaje de genomas humanos. Nat. Rev. Genet. 16, 627–640 (2015).

Berlín, K. et al. Ensamblaje de genomas grandes con secuenciación de una sola molécula y hash sensible a la localidad. Nat. Biotechnol. 33, 623–630 (2015).

Goodwin, S. et al. Secuenciación de Oxford Nanopore, corrección de errores híbridos y de novo ensamblaje de un genoma eucariota. Genome Res. 25, 1750–1756 (2015).

Pirola, Y. et al. HapCol: ensamblaje de haplotipos preciso y eficiente en memoria a partir de lecturas largas. Bioinformática 32, 1610–1617 (2016).

Pendleton, M. y col. Ensamblaje y arquitectura diploide de un genoma humano individual mediante tecnologías de molécula única. Nat. Métodos 12, 780–786 (2015).

Madoui, M.A. y col. Ensamblaje del genoma utilizando lecturas de ADN largas y sin errores guiadas por nanoporos. BMC Genomics 16, 327 (2015).

El Consorcio del Proyecto 1000 Genomas. Una referencia mundial para la variación genética humana. Naturaleza 526, 68–74 (2015).

Chaisson, M.J. et al. Resolver la complejidad del genoma humano mediante secuenciación de una sola molécula. Naturaleza 517, 608–611 (2015).

Akeson, M., Branton, D., Kasianowicz, J.J., Brandin, E. y Deamer, D.W. Discriminación a escala de tiempo de microsegundos entre ácido policitidílico, ácido poliadenílico y ácido poliuridílico como homopolímeros o como segmentos dentro de moléculas de ARN individuales. Biophys. J. 77, 3227–3233 (1999).

Robertson, G. y col. Perfiles de todo el genoma de la asociación de ADN STAT1 mediante inmunoprecipitación de cromatina y secuenciación masivamente paralela. Nat. Métodos 4, 651–657 (2007).

Zhao, J. y col. Identificación de todo el genoma de ARN asociados a polycomb mediante RIP-seq. Mol. Celda 40, 939–953 (2010).

Buenrostro, J.D., Giresi, P.G., Zaba, L.C., Chang, H.Y. & amp Greenleaf, W.J. Transposición de la cromatina nativa para un perfil epigenómico rápido y sensible de la cromatina abierta, las proteínas de unión al ADN y la posición del nucleosoma. Nat. Métodos 10, 1213–1218 (2013).

Harris, R.A. et al. Comparación de métodos basados ​​en secuenciación para perfilar la metilación del ADN y la identificación de modificaciones epigenéticas monoalélicas. Nat. Biotechnol. 28, 1097–1105 (2010).

Tarailo-Graovac, M. et al. Secuenciación del exoma y manejo de trastornos neurometabólicos. N. Engl. J. Med. 374, 2246–2255 (2016).

Tsimberidou, A.M. et al. Medicina personalizada en un programa de ensayos clínicos de fase I: la iniciativa MD Anderson Cancer Center. Clin. Cancer Res. 18, 6373–6383 (2012).

Wagle, N. y col. Detección de alto rendimiento de alteraciones genómicas accionables en muestras de tumores clínicos mediante secuenciación masiva paralela dirigida. Cancer Discov. 2, 82–93 (2012).

Susswein, L.R. et al. Prevalencia de variantes patógenas y probablemente patógenas entre los primeros 10.000 pacientes remitidos para pruebas de panel de cáncer de próxima generación. Gineta. Medicina. 18, 823–832 (2016).

Le, D.T. y col. Bloqueo de PD-1 en tumores con deficiencia de reparación de errores de apareamiento. N. Engl. J. Med. 372, 2509–2520 (2015).

Rizvi, N.A. et al. Inmunología del cáncer: el panorama mutacional determina la sensibilidad al bloqueo de PD-1 en el cáncer de pulmón de células no pequeñas. Ciencias 348, 124–128 (2015).

Carreño, B.M. et al. Inmunoterapia contra el cáncer: una vacuna de células dendríticas aumenta la amplitud y diversidad de células T específicas de neoantígeno de melanoma. Ciencias 348, 803–808 (2015).

Fritsch, E.F., Hacohen, N. & amp Wu, C.J. Vacunas personales contra el cáncer de neoantígenos: el impulso aumenta. Oncoinmunología 3, e29311 (2014).

Stadler, Z.K. et al. Detección confiable de la deficiencia de reparación de desajustes en cánceres colorrectales usando carga mutacional en paneles de secuenciación de próxima generación. J. Clin. Oncol. 34, 2141–2147 (2016).


Los desafíos de la secuenciación del ADN

La determinación de las secuencias biológicas fue un problema sin resolver durante décadas hasta mediados de la década de 1970, cuando se desarrollaron métodos bioquímicos o moleculares. Hoy en día, incluso la secuenciación a gran escala de genomas completos se ha vuelto comparativamente rápida y fácil.

Sin embargo, los desafíos de la secuenciación del genoma no se limitan solo a la lectura directa de la secuencia de ácido nucleico. Debido a limitaciones técnicas, solo se leen secciones cortas de ADN (lecturas) de hasta 1000 pares de bases en cada reacción de secuenciación individual. Para una cadena larga de ADN, en 1979 se utilizó por primera vez un método conocido como primer caminar. En este procedimiento, la secuencia se leyó pieza por pieza.

En un proyecto de secuenciación más grande, el Proyecto del Genoma Humano, se secuenciaron varios miles de millones de pares de bases. Esto se hizo mediante un enfoque conocido como secuenciación de escopeta. Hoy en día, podemos estudiar enfermedades, dianas de fármacos, identificaciones basadas en ADN, etc. Gracias a la tecnología de secuenciación de ADN masivamente paralela.

En la secuenciación rápida, la hebra de ADN se divide primero en fragmentos más pequeños de nucleótidos, que luego se secuencian base por base. La información de la secuencia de los segmentos cortos individuales se vuelve a ensamblar en un genoma completo utilizando herramientas bioinformáticas.

La secuencia de datos brutos se analiza para obtener información biológicamente relevante. Sin él, cualquier información de secuencia queda sin valor científico.


Métodos y tecnología para el análisis genético

La reacción en cadena de la polimerasa, o PCR, es un método básico utilizado en biología molecular para producir copias de una pequeña región diana de ADN en una muestra. Los conceptos básicos de la PCR se discutieron anteriormente aquí. Las copias de ADN producidas por PCR proporcionan a los investigadores copias suficientes para otras aplicaciones en la investigación, incluida la secuenciación automática de Sanger. Aunque existe una metodología básica para la mayoría de los métodos de PCR, cada reacción es diferente y requiere optimización, un proceso para ajustar las variables y producir un único producto deseado. Hay varios factores a considerar al optimizar la PCR, como las copias totales del ADN diana, la concentración de cebadores, MgCl2 y desoxinucleótidos, o dNTP. Algunas de estas variables dependen del volumen total de la reacción de PCR porque la concentración final de los componentes en la PCR debe ser constante dependiendo de si la reacción es de 25 ul, 50 ul o 100 ul. En este artículo nos centraremos en dos variables, el número de copias del ADN diana y la concentración del cebador.

La plantilla: ADN objetivo

La generación de copias de una región de ADN objetivo mediante aplicaciones de PCR no es tan sensible a la calidad del ADN de la plantilla en comparación con la secuenciación de Sanger. Sin embargo, sigue siendo recomendable utilizar una muestra de ADN relativamente pura libre de sales y otros contaminantes. El ADN de plantilla limpio tiene una mayor probabilidad de generar un producto de PCR limpio. La muestra final diluida de ADN diana se diluye mejor en agua que en tampón porque los tampones pueden interferir con amplificaciones de PCR difíciles.

El aspecto más importante del ADN diana a considerar es el número total de copias en la reacción disponibles para amplificación. El ADN diana proporciona la plantilla inicial para la amplificación del primer conjunto de productos amplificados y continúa proporcionando la plantilla para los ciclos restantes. A medida que se generan los productos de PCR, también proporcionan copias del ADN diana que se utiliza como molde para la amplificación. Esto es lo que permite a la PCR generar millones de copias de una región objetivo. Por lo tanto, es importante que en la reacción estén presentes suficientes copias del ADN diana original. Demasiadas copias del objetivo original pueden dar lugar a la generación de productos falsos al principio de la PCR que también actúan como plantilla de ADN. El ADN molde aislado de bacterias puede constar de solo un genoma de 2 millones de bases, mientras que el genoma humano tiene 3 mil millones de bases. Por lo tanto, el ADN genómico bacteriano tendrá muchas más copias del objetivo en una muestra de 50 ng que el ADN humano. Para el ADN bacteriano, las copias de 10E5 requerirán solo 300 picogramos de ADN. Para el ADN humano, 10E5 requerirá más de 300 nanogramos de ADN, una diferencia de un millón de veces.

Las condiciones de PCR generalmente recomiendan 10E4 a 10E5 copias del ADN diana en la reacción independientemente del volumen total. Existe cierta flexibilidad en el número de copias de la secuencia objetivo. Sin embargo, más copias del ADN diana reducirán la especificidad de la reacción de PCR y probablemente producirán una mayor cantidad de productos falsos. El número total de ciclos para PCR debe reducirse cuando hay concentraciones más altas de ADN diana en la reacción.

Concentración de los cebadores

Los cebadores son el factor determinante de qué región del ADN se amplificará mediante PCR. El cebador de avance y retroceso debe tener una coincidencia de base exacta con el principio y el final de la región objetivo. La concentración excesiva de cebadores es quizás un factor importante que a menudo provoca la generación de productos falsos en una PCR. Demasiado cebador reduce la especificidad y esto permitirá que los cebadores aparezcan en regiones de la plantilla que no son la región objetivo. Los resultados de cebadores excesivos a menudo se ven en resultados de secuenciación de Sanger no limpios porque los productos falsos se pueden secuenciar junto con el objetivo deseado. La cantidad de cebador directo e inverso debe limitarse para reducir el posible cebado falso. Las concentraciones excesivas de cebadores directos e inversos también pueden causar la formación de dímeros de cebadores cuando los cebadores se aparean y se amplifican independientemente del ADN diana.

La concentración del cebador es una variable que depende del volumen total de la reacción de PCR para que suficientes copias del cebador encuentren los sitios de hibridación objetivo. Una concentración total de 0.5 micro-molar (uM) a 1 uM es generalmente suficiente para amplificar la mayoría de las regiones objetivo, aunque una concentración más pequeña también puede funcionar en algunas aplicaciones. Normalmente, nuestro laboratorio utiliza una concentración final de 0,8 uM para la mayoría de las reacciones de PCR. El juicio final sobre la concentración de cebador se verá después de que los productos se sometan a electroforesis en un gel de agarosa para mostrar el número de productos amplificados.

Usamos un cálculo relativamente simple para diluir los cebadores a una concentración final de 10 uM, como se muestra, comenzando con la concentración de cebador primario de 1 microgramos (ug) / micro-litro (ul). Requiere que se conozca el peso molecular (PM) del cebador y debe proporcionarse junto con el cebador.

1 ug / ul * 1umol / MW (ug) * 10E6 ul / l = concentración umol / l que equivale a uM

Un cebador con la concentración final de 200 uM se diluirá agregando 1 ul del cebador a 19 ul de agua para una concentración final de 10 uM. Esta es nuestra concentración de trabajo para PCR. Para una concentración final de 0,8 uM, se añaden 2 ul del cebador directo e inverso a una reacción de 25 ul, mientras que se añadirían 8 ul de cada uno a una reacción de PCR de 100 ul.

La concentración de cebador es una de las variables más importantes a considerar al optimizar una reacción de PCR. Las concentraciones superiores a 1 uM a menudo podrían conducir a que los cebadores se hibridaran a lo largo de regiones no objetivo y a la generación de productos falsos. Las concentraciones insuficientes de cualquiera de los cebadores podrían resultar en poca o ninguna amplificación.


Introducción

La metagenómica se basa en el aislamiento y caracterización de ADN de muestras ambientales sin necesidad de cultivo previo de microorganismos. A diferencia de los estudios de un solo genoma, los análisis se aplican a comunidades enteras de microbios en lugar de solo a unos pocos organismos aislados. Ya ha dado lugar a conocimientos interesantes sobre la ecología de diferentes hábitats como el océano [1], el suelo [2], la mina de ácido [3], el intestino humano y de ratón [4], [5] e incluso el ADN antiguo [6]. .

El campo de investigación de la metagenómica se ve impulsado por el reciente desarrollo y mejora de las tecnologías de secuenciación de próxima generación como la pirosecuenciación 454 de Roche [7]. Aunque estas tecnologías de alto rendimiento prometen una generación de lecturas más rápida y relativamente económica, la secuenciación de Sanger todavía se ha utilizado en proyectos de genoma ambiental [5] para evitar los inconvenientes de longitudes de lectura más cortas.

En general, los estudios muestran que los algoritmos desarrollados para el ensamblaje de un solo genoma solo son adecuados para secuencias ambientales en condiciones especiales, por ejemplo, en poblaciones de baja complejidad [2], [8]. En particular, es muy difícil reunir lecturas de sistemas ecológicos muy diversos [9]. El problema es que la disposición de las lecturas en contigs falla o es engañosa porque los contigs se juntan a partir de lecturas de muchos genomas diferentes.

Actualmente, los principales objetivos de los estudios metagenómicos son la investigación de la composición filogenética de la muestra (binning taxonómico, "¿Quién está ahí fuera"), el análisis cuantitativo ("¿Cuántos hay?") Y la predicción de genes y sus funciones. (binning funcional, "Qué están haciendo"). Dado que la cantidad de datos ambientales comparables está creciendo rápidamente, los estudios comparativos de múltiples conjuntos de datos metagenómicos también son de gran interés. En septiembre de 2008, ya se habían realizado 44 estudios de metagenomas, mientras que aún estaban en curso 86 proyectos [10].

Las estrategias comunes para el agrupamiento taxonómico son, por ejemplo: (1) detectar marcadores filogenéticos como ARNr, RecA, proteína de choque térmicoHSP70) y factores de alargamiento (EF-Tu, EF-G) [11], (2) comparar lecturas con una base de datos de referencia como NCBI-nr [12] y luego analizar las coincidencias para colocar las lecturas en la taxonomía NCBI [13] y (3) medir la frecuencia de oligonucleótidos causada por el uso de codones o frecuencia del sitio de restricción [14] - [18].

Cuando se trata de binning funcional, las secuencias se comparan con funciones de proteínas conocidas, familias y rutas proporcionadas por varias bases de datos, por ejemplo, COG, KEGG, PFAM, SEED, STRING y TIGRFAM [19] - [24]. A de novo La búsqueda de unidades funcionales (desconocidas) solo es factible si se dispone de lecturas largas o contigs para la detección de marcos de lectura abiertos.

Otro desafío en los estudios metagenómicos es el desarrollo de técnicas estadísticas sólidas [25]. Particularmente en lo que respecta a la metagenómica comparativa que trata con datos muy variables, estas técnicas se consideran indispensables para un análisis bien fundado.

A pesar de la enorme cantidad de datos de secuencia que se generaron y analizaron en los últimos años, el número de software disponible públicamente especializado en análisis de datos metagenómicos es sorprendentemente bajo. Por lo tanto, muchos estudios todavía hacen uso de métodos clásicos, software o servicios web que originalmente no estaban destinados al análisis de datos metagenómicos y deben adaptarse o canalizarse para producir los resultados deseados [8].

Por lo tanto, existe una gran demanda de software metagenómico especializado que respalde el proceso de análisis. Debido a la complejidad de los datos metagenómicos, es crucial comparar el software nuevo y existente con casos de prueba estandarizados utilizando datos simulados y verificables. Un primer estudio [9] proporciona tres conjuntos de datos con diversa complejidad mediante la selección de lecturas de secuencias originales de 113 genomas aislados. En su artículo, los autores anticipan que estos conjuntos de datos se utilizarán como casos de prueba estándar para las pruebas de software.

Algunas otras publicaciones ya aplicaron el software ReadSim (pre-versión de MetaSim, inédito) para generar conjuntos de datos de lectura simulados para probar su software [18], [26].

Descripción de MetaSim

MetaSim toma como entrada un conjunto de secuencias genómicas conocidas y un perfil de abundancia. Este perfil determina qué secuencias del genoma se seleccionan para la simulación y la abundancia relativa de cada secuencia del genoma en el conjunto de datos.

MetaSim integra una "vista de árbol inducida" de la taxonomía NCBI [27] que se puede utilizar para seleccionar de forma interactiva taxones y nodos internos de la taxonomía para configurar sus abundancias relativas. Además, el usuario puede simular una población "evolucionada" de una única secuencia del genoma, utilizando un simulador de población. Esta característica tiene como objetivo simular la situación común del mundo real de que muchas cepas diferentes, pero estrechamente relacionadas, de un linaje coexisten en el mismo hábitat.

Finalmente, para la construcción de un conjunto de datos de lectura realista, MetaSim incluye un simulador de secuenciación de lectura versátil. El usuario puede elegir entre diferentes modelos de error (adaptables) de las tecnologías de secuenciación actuales (por ejemplo, Sanger [28], [29], Roche's 454 [7] e Illumina (antes Solexa) [30]).

MetaSim permite construir conjuntos de datos de lectura verificables y, además, metagenomas variables en tamaño, composición taxonómica y abundancia para reflejar la salida diversa y compleja de estudios metagenómicos reales. Los conjuntos de datos resultantes se pueden utilizar para planificar y diseñar estudios metagenómicos y para la evaluación y mejora de herramientas de software de metagenómica, métodos estadísticos o algoritmos de ensamblaje.

Disponibilidad

MetaSim está escrito en Java y se puede ejecutar con una interfaz gráfica de usuario o en modo de línea de comandos. Los instaladores para Linux / Unix, MacOS X y Windows están disponibles gratuitamente en nuestro sitio web en: http://www-ab.informatik.uni-tuebingen.de/software/metasim.


Métodos

Modelado

Los métodos utilizados en este estudio para estimar la proporción de especies en la base de datos de BOLD Systems que contiene tanto rbcL y matK y examinar el efecto de la superposición de secuencia variable en alineaciones de múltiples muestras de BOLD Los sistemas se describen en Métodos suplementarios S1.

Los modelos desarrollados para evaluar la importancia de una cobertura de especies incompleta en la base de datos de referencia, para simular el proceso de construcción de una base de datos de códigos de barras de referencia desde cero y para caracterizar los cambios en las propiedades de diagnóstico de rbcL y matK a medida que se expande el recurso de referencia se describen en los Métodos suplementarios S2.

La identificación en el mundo real mediante códigos de barras de ADN requiere la comparación entre muestras desconocidas y códigos de barras de referencia. Para modelar esto, simulamos colecciones variables de especímenes de campo que requieren identificación como se describe en Métodos suplementarios S3.

Código de barras de referencia

Materiales vegetales y extracción de ADN

Se recolectaron muestras de plantas de la región de Murraylands en Australia del Sur durante febrero-marzo de 2013 y octubre de 2014 (Tabla complementaria S5). Los especímenes se identificaron por referencia a Flora of South Australia 47 y Atlas of Living Australia (www.ala.org.au). Las muestras de herbario se generaron y se alojaron en el herbario estatal de Australia del Sur. La diversidad del conjunto de muestras se incrementó con la adición de nueve especies de gimnospermas (para las cuales rbcL y matK los datos estaban disponibles en NEGRITA) del Waite Arboretum (Universidad de Adelaide, Australia del Sur). El ADN se extrajo utilizando el kit Qiagen 96 Dneasy Plant DNA o el kit de extracción Bioline Isolate II Plant DNA de acuerdo con las instrucciones del fabricante.

Secuenciación de Sanger

Las PCR se realizaron con Biomix taq polimerasa utilizando mezclas de reacción estándar según lo recomendado por el fabricante (Bioline). Para termociclado rbcL imprimaciones rbcLa_f 48 y rbcLa_rev 49 se aplicaron con: 95 ° C durante 4 min 5 ciclos de 94 ° C 30 s, 55 ° C 1 min, 72 ° C 1 min 30 ciclos de 94 ° C 30 s, 54 ° C 1 min, 72 ° C 1 min y 72 ° C durante 10 min. Para matK se aplicaron los cebadores xF 29 y MALPR1 41 con: 95 ° C 4 min 10 ciclos de 94 ° C 30 s, 52 ° C 30 s, 72 ° C 1 min 25 ciclos de 88 ° C 30 s, 48 ​​° C 30 s 72 ° C 1 min y 72 ° C 10 min. Los productos resultantes se enviaron al Centro de Investigación del Genoma de Australia, Adelaide, para la secuenciación de Sanger.

El método de secuenciación unidireccional extendida (EUS) de de novo código de barras de ADN de referencia

Nuestro objetivo era aprovechar el exceso masivo de cobertura de colonias en la plataforma Illumina MiSeq V3 para permitir la identificación de lecturas suficientemente largas y de alta calidad en ambas direcciones, hacia adelante y hacia atrás, para permitir la fusión y el ensamblaje de un código de barras de longitud completa.

Una estrategia de amplificación de dos pasos que utiliza lo anterior rbcL y matK imprimacionesmatK Se aplicó Gym-F1A + Gym-R1A para gimnospermas 50). Para el paso inicial, cada imprimación tenía un adaptador 51 de Illumina adicional en el extremo 5 '. Se diseñaron dos pares de cebadores para cada marcador para secuenciar fragmentos en ambas direcciones en MiSeq (es decir, adaptador P5 + cebador directo y adaptador P7 + cebador inverso P7-adaptador + cebador directo y adaptador P5 + cebador inverso). La PCR inicial utilizó MyFi taq polimerasa (Bioline) con un par de cebadores de 0,4 μM. Las condiciones de termociclado fueron: 95 ° C 1 min 30 ciclos de 95 ° C 15 s, 54 ° C 15 s, 72 ° C 15 s para rbcL. Para matK Las condiciones de termociclado fueron: 95 ° C 1 min 30 ciclos de 95 ° C 5 s, 52 ° C 10 s, 72 ° C 10 s. Para matK Las condiciones de termociclado de los cebadores de gimnospermas fueron: 95 ° C 1 min 8 ciclos de 94 ° C 15 s, 52 ° C 15 s, 72 ° C 15 s 22 ciclos de 88 ° C 15 s, 48 ​​° C 15 s, 72 ° C 15 s 72ºC 1 min. A continuación, los productos se purificaron usando perlas de purificación de PCR Agencourt AMPure XP (Beckman Coulter) en una relación v / v de 0.6x perlas / producto de PCR.

The second PCR amplified the purified products with 0.4 μM of Nextera 96 Indices (Illumina) and MyFi polymerase (Bioline). Thermocycling conditions were: 95 °C 1 min 5 cycles of 95 °C 5 s, 55 °C 10 s, 72 °C 10 s. A final purification was performed using the Agencourt AMPure XP PCR Purification beads at a v/v ratio of 0.6x beads/PCR product. Resultant products were quantified by qPCR using a RotorGene RG-6000 (Corbett) and the SYBR FAST qPCR Kit (Kapa Biosystems) with reference to known PhiX standards (Illumina). Libraries were pooled and a 20 pM aliquot was sequenced in a single direction on a MiSeq V3 Sequencer using a Version 3 kit (Illumina). The MiSeq software was configured for unidirectional sequencing by setting the run conditions: Read 1–609 cycles, Index Read 1–8 cycles Index Read 2–8 cycles.

The MiSeq Bcl output files were demultiplexed and converted to fastq files using MiSeq Reporter. These files were imported into the code EUS Assembly for analysis (available at http://bit.ly/next-gen-barcode). In brief, EUS Assembly builds a consensus sequence base-by-base from the primer termini. Only those colonies that passed QF > 30 filter, contained <5% Ns in the most 5′ twenty bases and <1% Ns overall were used. Percent agreement for all colonies passing filter was recorded at each base position and the consensus base identity recorded. This process was actioned in the forward and reverse directions independently. The reverse sequences were then converted to reverse complementation and merged with the forward read. The raw data was then re-analysed summing base calls in both reads to provide consensus agreement at each position.

The Sonication-MicroAssembly (SMA) method of de novo DNA barcoding

The SMA strategy relies on sonication of amplicons followed by tag-labelling and sequencing. Post-hoc micro-assembly of the resultant sequences allowed us to derive longer length barcodes of matK for multiple samples in a single run. In the first instance this was performed using matK barcoding amplicons (xF + MALPR1, 790–915 bp). Next, near gene-length products were amplified for rbcL (>1.3 kb) and matK (>1.4 kb) from 36 Murraylands plant samples representing 21 species (Supplementary Table S5). Amplicons were generated using MyFi polymerase (Bioline) with 0.4 μM of each primer (Supplementary Table S6) using thermocycling conditions: 95 °C 1 min 30 cycles of 95 °C 5 s, 54 °C (rbcL) or 50 °C (matK) 10 s, 72 °C 10 s 72 °C 60 s. Samples were purified using the Agencourt AMPure XP PCR Purification beads. Purified samples were made up to 130 μl in nH2O and fragmented on a Covaris S2 machine in microTUBE AFA Fiber Pre-Slit Snap Cap 6 × 16 mm cuvettes (TrendBio) using the following: Intensity 3 Duty Cycle 5% Cycles per Burst 200 Treatment Time 50 s Temperature 7 °C. Sonicated samples were indexed for sequencing using the 96 NEB Next Illumina library preparation kit (New England Biolabs) as per the manufacturer’s instructions. Samples were analysed for fragment size and quantity using a High Sensitivity DNA Assay on a 2100 Bioanalyzer (Agilent) and a 20 nM aliquot sequenced by paired-end sequencing on a MiSeq V3 sequencer instrument with a Version 3 kit (Illumina) according to manufacturer’s instructions.

The MiSeq Bcl output files were demultiplexed and converted to fastq files using a MiSeq Reporter. These files were imported into a Python code SMA Assembly for analysis (available on http://bit.ly/next-gen-barcode). The code first passes the fastq data through a filter that replaces bases with QF < 30 with an N. The code then doubles the number of reads by adding the reverse complement of each filtered read. An initial assembled sequence is generated by selecting all reads that start with the forward primer and counting the number of appearances of each base in each base position in these reads. The initial assembled sequence is then extended to the complete barcode by an terative process. For each base position, the code searches for hitherto unmerged reads that match the most common bases in the 20 base positions upstream of the current position. Sequence from matching reads is then added to the previously assembled sequence. After all base positions are considered, the assembled sequence is trimmed to remove the primers. A Gnuplot script generates the graphical output based on the information collected during the barcode assembly process.


Ver el vídeo: Agarose Gel Electrophoresis to separate DNA fragments (Agosto 2022).