Información

¿Cuál es la diferencia entre secuencia, lecturas y contigs de material genético?

¿Cuál es la diferencia entre secuencia, lecturas y contigs de material genético?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Alguien puede explicar las diferencias entre secuencia, lecturas y contigs de material genético como el ADN, si es posible con un ejemplo?

Soy nuevo en bioinformática y no he encontrado ninguna respuesta concluyente para todos estos conceptos en la web.


Mi comprensión de esas tres palabras de la siguiente manera:

  • secuencia es un nombre genérico que describe el orden de las letras biológicas (ADN / ARN o aminoácidos). Tanto los contigs como las lecturas son secuencias de ADN / ARN o aa

  • lee son solo una mano corta para lecturas secuenciadas. Por lo general, las lecturas secuenciadas se refieren a información algo digital obtenida de la máquina de secuenciación (por ejemplo, Illumina MySeq) y almacenada en elfastqarchivo con puntajes de calidad por base. Las lecturas suelen ser cortas. Sin embargo, "corto" cambia rápidamente. En este momento, MySeq produce lecturas entre 50 y 150 pares de bases de longitud (pb). A partir de una sola ejecución (realmente dependerá de la ejecución), puede obtener millones de lecturas, donde cada lectura se establecerá en un tamaño de pb, por ejemplo, 100 pb de largo. Todas las lecturas se almacenan en un solofastqarchivo por réplica, donde todas las lecturas de ese archivo suelen tener un tamaño uniforme, por ejemplo, los 5 millones de lecturas tienen una longitud de 100 pb.

Como bioinformático, su primer trabajo es identificar dónde se encuentran lee viene de. Dependiendo del objetivo experimental y del tipo de secuenciación que esté haciendo, por ejemplo, DNA-seq o RNA-seq, puede que encuentre o no contigs.

  • contigs son simplemente lecturas que se han ensamblado. Por ejemplo, si estás haciendo de novo transcriptómica. Entonces harías:

    1. purifique su transcripción de un tejido y envíela para secuenciarla
    2. obtenga sus archivos fastq con lecturas secuenciadas, que son todas lecturas cortas (por ejemplo, 100 bp)
    3. reúna esas lecturas de 100 pb en una contig que con suerte se parezca a su transcripción individual

Voy a decir lo mismo que @Serine pero en un contexto ligeramente diferente. Tomemos un ejemplo en el que desee comparar a las personas que fuman con las que no fuman.

En este contexto, querrá tomar una secuencia de ADN de personas fumadoras. Sin embargo, debido a la limitación de la tecnología, no obtendrá una sola secuencia de ADN de la máquina de secuenciación. Obtendrá millones de secuencias cortas de ADN superpuestas conocidas como lecturas.

Necesitamos un ensamblador para "mapear" las lecturas y compararlas con un genoma de referencia. En este ejemplo, el genoma de referencia podría haber sido el HG38 humano.

El ensamblador necesitaría fusionar las lecturas superpuestas en un conjunto de regiones no superpuestas, conocidas como contigs.


¿Cuál es la diferencia entre una vacuna de ADN y de ARN?

Laura Hensley es una periodista de estilo de vida galardonada que ha trabajado en algunas de las salas de redacción más grandes de Canadá.

James Lacy, MLS, es un verificador e investigador de hechos. James recibió una Maestría en Bibliotecología de la Universidad Dominicana.

Conclusiones clave

  • Las vacunas de ADN y ARN tienen el mismo objetivo que las vacunas tradicionales, pero funcionan de manera ligeramente diferente.
  • En lugar de inyectar una forma debilitada de un virus o una bacteria en el cuerpo como con una vacuna tradicional, las vacunas de ADN y ARN usan parte del código genético del propio virus para estimular una respuesta inmune.
  • Una vacuna de ARNm para COVID-19 desarrollada conjuntamente por Pfizer y BioNTech es la primera de su tipo autorizada para uso de emergencia en los Estados Unidos.
  • Varias otras posibles vacunas de ADN y ARN COVID-19 se encuentran en ensayos clínicos, lo que significa que son un área importante y prometedora del desarrollo de vacunas.

Investigadores de todo el mundo están trabajando para desarrollar vacunas seguras y efectivas para COVID-19, la enfermedad causada por el nuevo coronavirus SARS-CoV-2. Actualmente se están llevando a cabo varios ensayos clínicos de vacunas a nivel mundial, incluidos cuatro ensayos importantes en los Estados Unidos. Algunas de estas posibles vacunas COVID-19 son las vacunas de ARN y ADN, que es un área emergente del desarrollo de vacunas.

El 11 de diciembre, la Administración de Drogas y Alimentos otorgó la autorización de uso de emergencia para una vacuna de ARN mensajero (ARNm) para COVID-19 desarrollada conjuntamente por Pfizer y BioNTech. Este uso de emergencia está aprobado para personas mayores de 16 años.


¿Qué es el material genético?

El material genético es el medio por el cual se transmiten las instrucciones de una generación de organismos a la siguiente. En la vida en la Tierra, toma la forma de secuencias de nucleótidos que se organizan en genomas. Un genoma es todo el ADN contenido en la célula de un ser vivo. Cada molécula de ADN humano tiene miles de millones de nucleótidos dispuestos como escalones en una escalera.

Es la secuencia de nucleótidos la que determina los rasgos del organismo. En varios lugares, llamados loci, a lo largo de cada cromosoma entre grandes tramos de nucleótidos no codificantes, las secuencias de ADN se resuelven en patrones coherentes que instruyen a las proteínas mensajeras sobre cómo construir otras proteínas. Estas proteínas se sintetizan en el citoplasma de la célula y trabajan para construir todas las estructuras de un cuerpo vivo. Los genes, como consecuencia natural de sus secuencias de nucleótidos, forman proteínas y las proteínas forman cuerpos.

El material genético se transmite entre organismos grandes por transmisión vertical de padres a hijos. Cada descendencia se parece más a su padre que a un miembro elegido al azar de su especie porque la secuencia exacta de instrucciones genéticas sobre cómo construir el cuerpo se ha heredado del padre. Los pequeños errores en la copia de genes se conocen como mutaciones, y su proliferación en un acervo genético impulsa el proceso de evolución.


¿Cuál es la diferencia entre secuencia, lecturas y contigs de material genético? - biología

Llamada rápida de variantes haploides y alineación del genoma central

Snippy encuentra SNP entre un genoma de referencia haploide y las lecturas de su secuencia NGS. Encontrará tanto sustituciones (snps) como inserciones / eliminaciones (indels). Utilizará tantas CPU como le sea posible en una sola computadora (probado a 64 núcleos). Está diseñado teniendo en cuenta la velocidad y produce un conjunto coherente de archivos de salida en una sola carpeta. Luego, puede tomar un conjunto de resultados de Snippy utilizando la misma referencia y generar una alineación SNP central (y, en última instancia, un árbol filogenómico).

Instale Homebrew (MacOS) o LinuxBrew (Linux) y luego:

Esto instalará la última versión directamente desde Github. Deberá agregar el directorio bin de Snippy a su $ PATH.

Asegúrese de tener la versión deseada:

Compruebe que todas las dependencias estén instaladas y funcionando:

  • un genoma de referencia en formato FASTA o GENBANK (puede estar en múltiples contigs)
  • secuencia de lectura de archivo (s) en formato FASTQ o FASTA (puede ser comprimido .gz) formato
  • una carpeta para poner los resultados
Extensión Descripción
.pestaña Un resumen simple separado por tabuladores de todas las variantes
.csv Una versión separada por comas del archivo .tab
.html Una versión HTML del archivo .tab
.vcf Las variantes finales anotadas en formato VCF
.cama Las variantes en formato BED
.gff Las variantes en formato GFF3
.bam Las alineaciones en formato BAM. Incluye lecturas de mapas múltiples sin mapear. Excluye duplicados.
.bam.bai Índice del archivo .bam
.Iniciar sesión Un archivo de registro con los comandos que se ejecutan y sus salidas.
.aligned.fa Una versión de la referencia pero con - en la posición con profundidad = 0 y N para 0 & lt profundidad & lt --mincov (no tiene variantes)
.consensus.fa Una versión del genoma de referencia con todos variantes instanciadas
.consensus.subs.fa Una versión del genoma de referencia con solo sustitución variantes instanciadas
.raw.vcf Las llamadas variantes sin filtrar de Freebayes
.filt.vcf Las llamadas variantes filtradas de Freebayes
.vcf.gz Archivo .vcf comprimido a través de BGZIP
.vcf.gz.csi Índice para el .vcf.gz a través del índice bcftools)

⚠️ ❌ Snippy 4.x lo hace NO producir los siguientes archivos que hizo Snippy 3.x

Extensión Descripción
.vcf.gz.tbi Índice para .vcf.gz a través de TABIX
.depth.gz Salida de samtools depth -aa para el archivo .bam
.depth.gz.tbi Índice del archivo .depth.gz

Columnas en los formatos TAB / CSV / HTML

Nombre Descripción
CROMO La secuencia en la que se encontró la variante, por ejemplo. el nombre después de & gt en la referencia FASTA
POS Posición en la secuencia, contando desde 1
ESCRIBE El tipo de variante: snp msp ins del complex
ÁRBITRO El (los) nucleótido (s) en la referencia
ALT Los nucleótidos alternativos apoyados por las lecturas
EVIDENCIA Recuentos de frecuencia para REF y ALT

Si proporciona un archivo Genbank como referencia en lugar de un archivo FASTA, Snippy completará estas columnas adicionales utilizando la anotación del genoma para indicarle qué característica se vio afectada por la variante:

Nombre Descripción
FTYPE Clase de característica afectada: CDS tRNA rRNA.
HEBRA Strand la función estaba activada: + -.
NT_POS Posición del nucleótido de la variante dentro de la característica / Longitud en nt
AA_POS Posición del residuo / Longitud en aa (solo si FTYPE es CDS)
LOCUS_TAG / Locus_tag de la característica (si existiera)
GENE La etiqueta / gene de la característica (si existiera)
PRODUCTO La etiqueta / producto de la característica (si existiera)
EFECTO La consecuencia anotada snpEff de esta variante (etiqueta ANN en .vcf)

Escribe Nombre Ejemplo
snp Polimorfismo de nucleótido simple A = & gt T
mnp Polimorfismo de múltiples nucleótidos GC = & gt AT
En s Inserción ATT = & gt AGTT
del Supresión ACGG = & gt ACG
complejo Combinación de snp / mnp ATTC = & gt GTTA

La llamada variante la realiza Freebayes. Los parámetros clave bajo el control del usuario son:

  • --mincov - el número mínimo de lecturas que cubren un sitio a ser considerado (predeterminado = 10)
  • --minfrac - la proporción mínima de esas lecturas que deben diferir de la referencia
  • --minqual - la "calidad" de llamada de variante VCF mínima (predeterminado = 100)

Mirando las variantes en detalle con snippy-vcf_report

Si ejecuta Snippy con la opción --report, automáticamente ejecutará snippy-vcf_report y generará un snps.report.txt que tiene una sección como esta para cada SNP en snps.vcf:

Si desea generar este informe después ha ejecutado Snippy, puede ejecutarlo directamente:

Si desea una versión HTML para ver en un navegador web, use la opción --html:

Funciona ejecutando samtools tview para cada variante, lo que puede ser muy lento si tiene miles de variantes. Se recomienda utilizar --cpus lo más alto posible.

--rgid establecerá el ID del grupo de lectura (RG) (ID) y la muestra (SM) en el archivo BAM y VCF. Si no se proporciona, utilizará el nombre de carpeta --outdir para ID y SM.

--mapqual es la calidad de mapeo mínima que se acepta en la llamada de variantes. BWA MEM usa 60 para significar que una lectura está "mapeada de forma única".

--basequal es la calidad mínima que un nucleótido necesita para usarse en la llamada de variantes. Usamos 13 que corresponde a la probabilidad de error de

5%. Es un valor tradicional de SAMtools.

--maxsoft es la cantidad de bases de una alineación que se deben recortar antes de descartar la alineación. Esto es para fomentar la alineación global sobre local, y se pasa a la herramienta samclip.

--mincov y --minfrac se utilizan para aplicar umbrales estrictos a la llamada de variante más allá de la medida estadística existente. Los valores óptimos dependen de la profundidad de secuenciación y la tasa de contaminación. Se utilizan habitualmente valores de 10 y 0,9.

--targets toma un archivo BED y solo llama a variantes en esas regiones. Normalmente no es necesario a menos que solo esté interesado en variantes en locii específicos (por ejemplo, genes AMR) pero aún esté realizando WGS en lugar de secuenciación de amplicones.

--contigs le permite llamar a SNP desde contigs en lugar de lecturas. Tritura los contigs en lecturas sintéticas, para poner las llamadas en pie de igualdad con otras muestras de lectura en un análisis de múltiples muestras.

Si llama a SNP para varios aislados de la misma referencia, puede producir una alineación de "SNP centrales" que se pueden utilizar para construir una filogenia de alta resolución (ignorando la posible recombinación). Un "sitio central" es una posición genómica que está presente en todos Las muestras. Un sitio central puede tener el mismo nucleótido en cada muestra ("monomórfico") o algunas muestras pueden ser diferentes ("polimórfico" o "variante"). Si ignoramos las complicaciones de los tipos de variantes "ins", "del" y solo usamos sitios variantes, estos son el "genoma central del SNP".

Para simplificar la ejecución de un conjunto de secuencias aisladas (lecturas o contigs) contra la misma referencia, puede utilizar el script snippy-multi. Este script requiere un tabuladores separados archivo de entrada de la siguiente manera, y puede manejar lecturas de extremos emparejados, lecturas de un solo extremo y contigs ensamblados.

Entonces uno ejecutaría esto para generar el script de salida. El primer parámetro debe ser el archivo input.tab. Los parámetros restantes deben ser los parámetros de fragmentos compartidos restantes. El ID se utilizará para cada aislado --outdir.

También ejecutará snippy-core al final para generar el núcleo de archivos de alineación SNP del genoma central. *.

Extensión Descripción
.aln Una alineación SNP central en el formato --aformat (predeterminado FASTA)
.full.aln Una alineación de SNP del genoma completo (incluye sitios invariantes)
.pestaña Lista en columnas separada por tabuladores de centro Sitios SNP con alelos pero SIN anotaciones
.vcf Archivo VCF de múltiples muestras con etiquetas de genotipo GT para todos los alelos descubiertos
.TXT Lista en columnas separada por tabuladores de estadísticas de alineación / tamaño de núcleo
.ref.fa Versión FASTA / copia de --ref
.self_mask.bed Archivo BED generado si se usa --mask auto.

¿Por qué core.full.aln es una sopa de letras?

El archivo core.full.aln es un archivo de alineación de secuencia múltiple con formato FASTA. Tiene una secuencia para la referencia y una para cada muestra que participa en el cálculo del genoma central. Cada secuencia tiene la misma longitud que la secuencia de referencia.

Personaje Sentido
ATGC Igual que la referencia
atgc Diferente de la referencia
- Cobertura cero en esta muestra o una supresión relativa a la referencia
norte Cobertura baja en esta muestra (basada en --mincov)
X Región de referencia enmascarada (de --mask)
norte Genotipo heterocigoto o de baja calidad (tiene GT = 0/1 o QUAL & lt --minqual en snps.raw.vcf)

Puede eliminar todos los caracteres "extraños" y reemplazarlos con N usando el snippy-clean_full_aln incluido. Esto es útil cuando necesita pasarlo a una herramienta de construcción de árboles o eliminación de recombinación:

  • Si desea enmascarar ciertas regiones del genoma, puede proporcionar un archivo BED con el parámetro --mask. Se excluirá cualquier SNP en esas regiones. Esto es común para genomas como M. tuberculosis donde los molestos genes repetitivos PE / PPE / PGRS causan falsos positivos o enmascaran regiones de fagos. Un archivo de cama de máscara para M.tb se proporciona con Snippy en la carpeta etc / Mtb_NC_000962.3_mask.bed. Se deriva del archivo XLSX de https://gph.niid.go.jp/tgs-tb/
  • Si usa la opción snippy --cleanup, los archivos de referencia se eliminarán. Esto significa que snippy-core no puede "buscar automáticamente" la referencia. En este caso, simplemente use snippy-core --reference REF para proporcionar la referencia en formato FASTA.

Aumento de la velocidad cuando hay demasiadas lecturas

A veces, tendrá mucha más profundidad de secuenciación de la que necesita para llamar a los SNP. Un problema común es una celda de flujo MiSeq completa para un solo aislado bacteriano, donde 25 millones de lecturas dan como resultado una profundidad del genoma de hasta 2000x. Esto hace que Snippy sea mucho más lento de lo necesario, ya que la mayoría de los SNP se recuperarán con una profundidad de 50-100x. Si sabe que tiene 10 veces más datos de los que necesita, Snippy puede submuestrear aleatoriamente sus datos FASTQ:

Solo llamar a SNP en regiones particulares

Si está buscando SNP específicos, digamos AMR relevados en genes particulares en su genoma de referencia, puede ahorrar mucho tiempo llamando solo variantes allí. Simplemente coloque las regiones de interés en un archivo BED:

Encontrar SNP entre contigs

A veces, una de sus muestras solo está disponible como contigs, sin las lecturas correspondientes de FASTQ. Aún puede usar estos contigs con Snippy para encontrar variantes contra una referencia. Lo hace triturando los contigs en lecturas de un solo extremo de 250 pb a 2 & amptimes - cobertura uniforme de mincov.

Para usar esta función, en lugar de proporcionar --R1 y --R2, usa la opción --ctgs con el archivo contigs:

Esta carpeta de salida es completamente compatible con snippy-core, por lo que puede mezclar FASTQ y carpetas de salida de snippy basadas en contig para producir alineaciones.

Corregir errores de montaje

los de novo El proceso de ensamblaje intenta reconstruir las lecturas en las secuencias de ADN originales de las que se derivaron. Estas secuencias reconstruidas se denominan contigs o andamios. Por varias razones, se pueden introducir pequeños errores en los contigs ensamblados que no están respaldados por las lecturas originales utilizadas en el proceso de ensamblaje.

Una estrategia común es alinear las lecturas con los contigs para verificar si hay discrepancias. Estos errores aparecen como variantes (SNP e indels). Si podemos marcha atrás estas variantes de lo que podemos "corregir" los contigs para que coincidan con la evidencia proporcionada por las lecturas originales. Obviamente, esta estrategia puede salir mal si no se tiene cuidado con cómo Se realiza la alineación de lectura y qué variantes se aceptan.

Snippy puede ayudar con este proceso de corrección de contig. De hecho, produce un archivo snps.consensus.fa FASTA que es el archivo de entrada ref.fa provisto pero con las variantes descubiertas en snps.vcf aplicadas.

Sin embargo, Snippy no es perfecto y, a veces, encuentra variantes cuestionables. Normalmente, haría una copia de snps.vcf (llamémoslo corrections.vcf) y eliminaría las líneas correspondientes a variantes en las que no confiamos. Por ejemplo, al corregir los contigs Roche 454 y PacBio SMRT, principalmente esperamos encontrar errores de homopolímeros y, por lo tanto, esperamos ver más que variantes de tipo snp.

En este caso, debe ejecutar el proceso de corrección manualmente siguiendo estos pasos:

Es posible que desee iterar este proceso usando corrected.fa como un nuevo --ref para una ejecución repetida de Snippy. A veces, corregir un error permite a BWA alinear cosas que antes no podía, y se descubren nuevos errores.

Es posible que Snippy no sea la mejor manera de corregir ensamblajes; debe considerar herramientas dedicadas como PILON o iCorn2, o ajustar los parámetros de Quiver (para datos de Pacbio).

A veces le interesan las lecturas que hicieron no alinearse con el genoma de referencia. Estas lecturas representan ADN que era nuevo para tu muestra que es potencialmente interesante. Una estrategia estándar es de novo Reúna las lecturas no mapeadas para descubrir estos nuevos elementos de ADN, que a menudo comprenden elementos genéticos móviles como los plásmidos.

De forma predeterminada, Snippy lo hace no mantenga las lecturas sin asignar, ni siquiera en el archivo BAM. Si desea conservarlos, use la opción --unmapped y las lecturas no alineadas se guardarán en un archivo FASTQ comprimido:

El nombre Snippy es una combinación de SNP (pronunciado "snip"), snappy (que significa "rápido") y Skippy the Bush Kangaroo (para representar su origen australiano)

Snippy es un software gratuito, publicado bajo la GPL (versión 2).

Envíe sugerencias e informes de errores al Rastreador de problemas

  • perl & gt = 5,18
  • bioperl & gt = 1.7
  • bwa mem & gt = 0.7.12
  • minimap2 & gt = 2.0
  • samtools & gt = 1.7
  • bcftools & gt = 1.7
  • herramientas de cama & gt = 2.0
  • GNU paralelo & gt = 2013xxxx
  • freebayes & gt = 1.1 (freebayes, freebayes-paralelo, fasta_generate_regions.py)
  • vcflib & gt = 1.0 (vcfstreamsort, vcfuniq, vcffirstheader) & gt = 0.5
  • snpEff & gt = 4.3
  • samclip & gt = 0.2
  • seqtk & gt = 1.2
  • snp-sites & gt = 2.0
  • any2fasta & gt = 0.4
  • wgsim & gt = 1.8 (solo para pruebas - comando wgsim)

Para Linux (compilado en Ubuntu 16.04 LTS) y macOS (compilado en High Sierra Brew) se incluyen algunos de los binarios, JAR y scripts.


Discusión

Generamos el primer genoma para una especie dioica dentro del género Solanum, para evaluar la emergencia temprana y las firmas genómicas de la diferenciación sexual y la determinación del sexo. Para hacerlo, ensamblamos un genoma de alta calidad, tomamos un k-mer enfoque para encontrar regiones genómicas ligadas al sexo, y llevó a cabo un experimento de RNA-seq de tejidos florales para encontrar genes implicados en la determinación del sexo y el dimorfismo sexual. Encontramos ese dioico S. appendiculatum parece tener una región de determinación del sexo de evolución reciente y es probable que los machos sean el sexo heterogamético. De hecho, los patrones de divergencia de secuencia masculino-femenino que observamos no indican la presencia de una gran región no recombinante que contenga genes involucrados en la determinación del sexo. Además, los loci específicos asociados con la diferenciación sexual sugieren que la evolución de la dioecia en este sistema implicó cambios en la regulación de la síntesis y degradación de la pectina, incluidas las transiciones fenotípicas específicas observadas en flores funcionalmente femeninas. Este genoma, y ​​los genes candidatos asociados, representan un valioso recurso genómico para la investigación continua de las transiciones recientes a la dioecia en Solanum.

La expresión genética limitada sesgada por el sexo y pocas regiones asociadas al sexo son consistentes con la evolución reciente del dimorfismo sexual

Encontramos una cantidad muy modesta de expresión génica sesgada por el sexo en los botones florales y diferencias sexuales más grandes, pero aún delimitadas, en los perfiles de expresión de las flores maduras. Dado que se espera que la especificidad sexual de la expresión génica se acumule con el tiempo desde el origen del dimorfismo sexual (Ellegren y Parsch 2007), la observación de que pocos genes muestran una expresión sesgada por el sexo es consistente con un sistema joven de determinación del sexo. Esta muy modesta divergencia genómica y transcriptómica entre los sexos es consistente con la sutil diferenciación morfológica entre flores masculinas y femeninas, que se encuentra entre las menos pronunciadas en las solanáceas dioicas (Anderson et al. 2015).

Para las flores maduras, los genes con sesgo sexual tenían más comúnmente una expresión más alta en las hembras que en los machos (fig. 2B). Este hallazgo contrasta con otra especie con una región determinante del sexo de reciente evolución, el espárrago de jardín (Harkess et al. 2015), probablemente debido a las diferencias de desarrollo en la expresión sexual entre los dos sistemas. En los espárragos, el desarrollo de las anteras se detiene antes de la meiosis de las microesporas en las flores femeninas (Caporali et al. 1994), por lo que se espera que los genes asociados con el desarrollo posterior del polen se expresen solo en los machos (Harkess et al. 2015). En contraste, en S. appendiculatum las flores femeninas desarrollan polen maduro, pero no depositan primexina en las regiones de apertura (Zavada y Anderson 1997). Nuestra observación de más genes con sesgo femenino en S. appendiculatum por lo tanto, es consistente con este mantenimiento de ambos estilos funcionales (partes reproductoras femeninas) y producción activa de polen (inaperturado) (Levine y Anderson 1986) en flores femeninas, y parece indicar cierta pérdida de función de las partes reproductoras femeninas en plantas masculinas. Esta posible pérdida de función, sin embargo, no se refleja en la morfología de las flores masculinas, que tienen partes reproductoras femeninas completas (aunque con estilos mucho más cortos Anderson 1979 Anderson y Levine 1982).

Regulación de la pectina como posible mecanismo para la formación de polen abierto

La identificación de genes candidatos que tienen efectos potenciales de feminización o masculinización es importante para comprender la determinación del sexo en esta especie dioica de reciente evolución. En conjunto, tres enfoques diferentes en este estudio: dinámica de la familia de genes, expresión sesgada por sexo y sexo específico k-mers: detectaron un conjunto de loci distintivos para S. appendiculatum. Es probable que algunos de estos no estén relacionados con la transición de esta especie a la dióica, y otros posiblemente estén asociados con las consecuencias fisiológicas generales de esta transición del sistema de reproducción en lugar de estar directamente involucrados en la diferenciación sexual y la determinación del sexo per se. Por ejemplo, nuestro análisis de la familia de genes detectó una contracción de la familia de la proteína S1 de autoincompatibilidad específicamente en S. appendiculatum. Debido a que la evolución de la dioica reduce drásticamente la posibilidad de autofecundación, se podría esperar que esta transición relaje la selección para mantener genes funcionales de autoincompatibilidad También se han observado pérdidas similares de proteínas de autoincompatibilidad en otras especies de Solanaceae que han experimentado transiciones en el sistema de reproducción. (por ejemplo, a la autocompatibilidad de Wu et al. 2019). No obstante, entre los cambios genéticos detectados, llama la atención que nuestros tres enfoques diferentes detectaron genes relacionados con la pectina en asociación con la diferenciación sexual en S. appendiculatum, incluidas las pectina acetilesterasas (PAE), las proteínas similares a la pectina liasa (PLL) y los inhibidores de la pectina metilesterasa (PMEI). Nuestro hallazgo es particularmente intrigante ya que se sabe que la síntesis y regulación de pectina juega un papel importante en el desarrollo de la pared del polen y en la función del polen en general. La pectina consiste en homogalacturonano (HG), que puede esterificarse con metilo y acetilo (Wu et al. 2018), y los polisacáridos de pectina son componentes críticos de la pared del polen. Los mutantes en genes que codifican enzimas degradativas y sintéticas de polisacárido de pectina, incluida la pectina metilesterasa (PME), poligalatcturonasa (PG), PAE y PLL, a menudo muestran primexina, intina u otras estructuras de pared de polen defectuosas (Shi et al. 2015 Wu et al. 2018). Sorprendentemente, en Nicotiana (Solanaceae), mutantes transgénicos de un gen de pectina acetilesterasa, PAE1, exhiben la pérdida de los poros de germinación en la superficie de los granos de polen (Gou et al. 2012), un fenotipo muy similar al polen inaperturado observado en las flores femeninas de S. appendiculatum. La sobreexpresión PAE1 en el tabaco transgénico da como resultado una esterilidad masculina grave al afectar la germinación de los granos de polen y el crecimiento de los tubos polínicos (Gou et al. 2012).

Otras proteínas asociadas a la pectina también están implicadas en numerosas funciones funcionales en la germinación y el crecimiento del tubo polínico, incluso a través de la regulación coordinada entre las PME y sus inhibidores, las PMEI (Mollet et al. 2013). Por ejemplo, la PME es importante para la generación de HG esterificado con metilo en la zona apical de los tubos polínicos en crecimiento, lo que proporciona suficiente plasticidad para sostener el crecimiento (Cheung y Wu 2008). La eliminación de grupos éster metílico por PME puede permitir que las enzimas degradantes de pectina, como PLL o PG, rompan el esqueleto de HG, lo que puede afectar la rigidez de la pared celular (Gaffe et al. 1994 Micheli 2001). Se ha propuesto que la célula de polen podría mantener un nivel estrictamente regulado de actividad de PME, a través de la regulación por PMEI, para mantener el equilibrio entre fuerza y ​​plasticidad en la pared celular apical (Bosch y Hepler 2005, 2006). Por ejemplo, silenciar el PME1 gen en el tabaco (Bosch y Hepler 2006), y supresión de PMEI At1g10770 en Arabidopsis (Zhang et al. 2010), ambos dan como resultado un crecimiento más lento del tubo polínico.

Además de detectar la expresión específica de sexo de PAE, también encontramos tres PMEI en una región de determinación del sexo candidata (scf14997) en S. appendiculatum. La disposición y la relación entre estos supuestos genes determinantes del sexo son consistentes con que sean duplicaciones recientes, similar a lo que se ha encontrado en otras plantas dioicas (Harkess et al.2017 Akagi et al.2018). Aunque aún no se conoce la función específica de estos genes, las funciones generales de PMEI, PAE y otras proteínas relacionadas en la formación y función del polen sugieren algunos modelos posibles para la aparición de funciones de polen específicas del sexo en los dos sexos de S. appendiculatum. Por ejemplo, es posible que estas copias de PMEI influyan en los patrones de expresión diferenciales (específicos del sexo) de los genes relacionados con la pectina aguas abajo en flores maduras, incluido el PAE, inhibiendo o iniciando así el efecto feminizante (es decir, polen inaperturado) observado en las flores femeninas. . Este proceso también podría involucrar a otros genes estrechamente ligados: el mismo bloque sinténico contiene un gen que codifica un LOB proteína de dominiosapp25115), los Arabidopsis ortólogo del cualAT1G06280) se expresa específicamente durante el desarrollo del tapete y las microesporas en las anteras (Oh et al. 2010 Zhu et al. 2010). Otros genes expresados ​​diferencialmente también tienen funciones claramente relevantes. Por ejemplo, la subunidad alfa del componente piruvato deshidrogenasa E1 (sapp29734) se expresó diferencialmente entre machos y hembras en la flor madura que la piruvato deshidrogenasa cataliza los primeros pasos de la biosíntesis de esporopollenina, un componente principal de la capa de exina de los granos de polen (Jiang et al. 2013).

Aunque los genes relacionados con la pectina son candidatos prometedores para el paso esperado de esterilización masculina en la evolución de la dioecia, es posible que estén aguas abajo de un regulador maestro de la determinación del sexo. Por ejemplo, un factor de transcripción similar a MYB similar al que se encuentra en scf15476 (gen sapp39069) ha sido implicado en la determinación del sexo en Espárragos officinalis (Murase et al.2017), y el nocaut de su ortólogo putativo causa esterilidad masculina en Arabidopsis thaliana (Zhu et al. 2008). Aunque el sapp39069 El factor de transcripción podría ser un regulador del sexo, se ha demostrado que la superfamilia R2R3 MYB tiene una diversidad extrema de funciones reguladoras (Yanhui et al.2006) y todavía no tenemos datos suficientes para inferir el papel de este gen en S. appendiculatum. Por lo tanto, si algunos cambios genéticos ascendentes desencadenan los cambios descendentes en los genes relacionados con la pectina, deberá abordarse en estudios futuros. Por ejemplo, el análisis del transcriptoma de las etapas de desarrollo adicionales de las flores masculinas y femeninas podría aclarar cómo cambia la regulación de la pectina a lo largo del desarrollo de las flores y el momento específico de las diferencias de expresión divergentes entre las flores masculinas y femeninas. Independientemente, con una búsqueda en todo el genoma de secuencias específicas de sexo, junto con los análisis de expresión génica, pudimos detectar regiones putativas que determinan el sexo y genes que pueden contribuir a al menos uno de los dos pasos esperados en el camino de hermafroditismo a la dioica. Estos loci proporcionan candidatos claros para el análisis funcional directo en este sistema, especialmente para los fenotipos de desarrollo de polen inadecuado en flores femeninas.

Los S. appendiculatum El genoma proporciona una base para abordar las transiciones repetidas a la dioecia

Aunque el género speciose Solanum contiene menos de 20 especies dioicas documentadas, se estima que la dioica ha surgido de forma independiente al menos 4 veces (Anderson et al. 2015). Muchas de estas transiciones parecen involucrar características fenotípicas comunes, más notablemente el desarrollo de polen inadecuado en individuos femeninos y una reducción dramática del pistilo en flores masculinas (Anderson et al. 2015). Como tal, este género joven (estimado ∼17 My old Särkinen et al. 2013) ofrece un sistema prometedor en el que abordar las características genómicas y los mecanismos genéticos de las transiciones recientes y repetidas a la dioecia.

Solanum appendiculatum se encuentra entre las angiospermas dioicas de evolución más reciente con genomas secuenciados (& lt4 My Echeverría-Londoño et al. 2020). Los recursos generados aquí proporcionan un marco valioso para examinar transiciones adicionales a la dioecia en el género altamente específico, incluido un genoma ensamblado de alta calidad, caracterización del transcriptoma para análisis de anotación y expresión génica, y un conjunto de loci candidatos para exploración dirigida en sistemas paralelos. Debido a que la mayoría de las solanáceas dioicas tienen rasgos sexuales similares, incluido el polen inadecuado en los estambres de las flores femeninas (Anderson et al.2015), abordar los orígenes paralelos de la dioica en este grupo también puede abordar si estas transiciones han seguido caminos convergentes a nivel genómico, genético, y niveles de desarrollo. En conjunción con el S. appendiculatum genoma, secuencia de datos de otros dioicos Solanum Las especies se pueden utilizar para diseccionar estos orígenes paralelos de la determinación del sexo en Solanum, incluyendo si estos exhiben características genómicas similares (en términos del número, tamaño y distribución de las regiones emergentes de determinación del sexo), se basan en los mismos tipos de cambios genómicos / genéticos (es decir, comparten regiones ortólogas ligadas al sexo), y / o implican las mismas vías específicas y loci individuales, incluso si existe un papel general para los loci relacionados con la pectina en la aparición temprana de la diferenciación sexual. En este contexto, el estudio del control genético de la expresión sexual en especies como S. poligamia y S. conocarpum—both of which bear anthers on female flowers, but that anthers are largely devoid of any pollen ( Anderson et al. 2015)—could prove especially informative. Data from multiple recent, parallel systems will also be critical for testing the general predictions of theoretical models of the evolution of dioecy and assessing whether the complexity of genomic transitions that underpinning real empirical transitions matches well with these theoretical expectations.


Genomics & Systems Biology

David P. Clark , Nanette J. Pazdernik , in Molecular Biology (Second Edition) , 2013

2 Assembling Small Genomes by Shotgun Sequencing

As described in Chapter 8 , individual dideoxy sequencing reactions give lengths of sequence that are several hundred base pairs long. A whole genome must be assembled from vast numbers of such short sequences. There are three approaches to whole genome assembly: shotgun sequencing , cloned contig sequencing, and the directed shotgun approach, which is really a mixture of the first two.

En shotgun sequencing the genome is broken randomly into short fragments (1 to 2 kbp long) suitable for sequencing. The fragments are ligated into a suitable vector and then partially sequenced. Around 400–500 bp of sequence can be generated from each fragment in a single sequencing run. In some cases, both ends of a fragment are sequenced. Computerized searching for overlaps between individual sequences then assembles the complete sequence. Overlapping sequences are assembled to generate contigs ( Fig. 9.04 ). The term contig refers to a known DNA sequence that is contiguous and lacks gaps.

Figure 9.04 . Shotgun Sequencing

The first step in shotgun sequencing an entire genome is to digest the genome into a large number of small fragments suitable for sequencing. All the small fragments are then cloned and sequenced. Computers analyze the sequence data for overlapping regions and assemble the sequences into several large contigs. Since some regions of the genome are unstable when cloned, some gaps may remain even after this procedure is repeated several times.

Sequencing very large numbers of small fragments provides enough information to assemble a complete genome sequence—if your computer is powerful enough.

Since fragments are cloned at random, duplicates will quite often be sequenced. To get full coverage the total amount of sequence obtained must therefore be several times that of the genome to allow for duplications. For example, 99.8% coverage requires a total amount of sequence that is 6- to 8-fold the genome size. In principle, all that is required to assemble a genome, however large, from small sequences is a sufficiently powerful computer. No genetic map or prior information is needed about the organism whose genome is to be sequenced. The original limitation to shotgun sequencing was the massive data handling that is required. The development of faster computers overcame this problem.

The first bacterial genome to be sequenced was Influenza por Haemophilus. The sequence was deduced from just under 25,000 sequences averaging 480 bp each. This gave a total of almost 12 million bp of sequence—six times the genome size. Computerized assembly using overlaps resulted in 140 regions of contiguous sequence—that is, 140 contigs.

La bacteria Haemophilus had the honor of being the first organism to be totally sequenced.

The gaps between the contigs may be closed by more individualistic procedures. The easiest method is to re-screen the original set of clones with pairs of probes corresponding to sequences on the two sides of each gap. Clones that hybridize to both members of such a pair of probes presumably carry DNA that bridges the gap between two contigs. Such clones are then sequenced in full to close the gaps between contigs. However, many of the gaps between contigs are due to regions of DNA that are unstable when cloned, especially in a multicopy vector. Therefore, a second library in a different vector, often a single copy vector such as a lambda phage, is often used during the later stages of shotgun cloning. Pairs of end-of-contig probes are used to screen the new library for clones that hybridize to both probes and carry DNA that bridges the gap between the two contigs ( Fig. 9.05A ). A third approach, which avoids cloning altogether, is to run PCR reactions on whole genomic DNA using random pairs of PCR primers corresponding to contig ends. A PCR product will result only if the two contig ends are within a few kb of each other ( Fig. 9.05B ).

Figure 9.05 . Closing Gaps between Contigs

To identify gaps between contigs, probes or primers are made that correspond to the ends of the contigs (pink). In (A) a new library of clones (green) is screened with end-of-contig probes. Clones that hybridize to probes from two sides of a gap are isolated. In this example, a probe for the end of contig #3 (3b) and the beginning of contig #4 (4a) hybridize to the fragment shown. Therefore, the sequence of this clone should close the gap between contig #3 and #4. (B) The second approach uses PCR primers that correspond to the ends of contigs to amplify genomic DNA. If the primer pair is within a few kilobases of each other, a PCR product is made and can be sequenced.


Métodos

Cryptosporidium specimens

Four C. hominis specimens were used in whole genome sequencing in the study: specimens 30974 and 37999 of the IbA10G2 subtype and 30976 and 33537 of the IaA28R4 subtype. Specimen 30974 was collected from a patient from a cryptosporidiosis outbreak in July 2010 in Columbia, South Carolina associated with a splash pad that had problems with filtration and chlorination. Testing of filter backflush and stools from six patients all identified the presence of the C. hominis IbA10G2 subtype. Specimen 30976 was collected from a patient in a cryptosporidiosis outbreak in July 2010 in the St. Louis area in Illinois and Missouri associated with swimming pools and a water park. Testing of nine patient specimens identified the occurrence of C. hominis IaA28R4 in seven patients, IaA24R4 in one patient, and IdA15G1 in another patient. Specimen 33537 was collected from a patient from a cryptosporidiosis outbreak in July 2011 in Walsenburg, Colorado associated with a waterpark that had problems with the chlorinator. Testing of filter backflush and stools from five patients identified IaA28R4 in all. Specimen 37999 was collected from a sporadic cryptosporidiosis patient in Twin Falls, Idaho in September 2012. All stool specimens were collected fresh from symptomatic patients and stored in 2.5% potassium dichromate at 4°C prior to being used in Cryptosporidium oocyst isolation for whole genome sequencing within 6 months. Cryptosporidium species and subtypes were determined by PCR-RFLP analysis of the small subunit rRNA and sequence analysis of the 60 kDa glycoprotein (gp60) genes, respectively [17].

Oocyst isolation and whole genome amplification

Cryptosporidium oocysts were isolated from stool specimens by discontinuous sucrose and cesium chloride gradients as previously described [52]. They were further purified by immunomagnetic separation using the Dynabeads Anti-Cryptosporidium kit (Invitrogen, Carlsbad, CA). After treating the purified oocysts with 10% commercial bleach on ice for 10 min and five cycles of freezing and thawing, DNA was extracted from them by using the Qiagen DNeasy Blood & Tissue Kit (Qiagen, Valencia, CA). Whole genome amplification (WGA) of the 25–100 ng of extracted DNA was conducted by using the REPLI-g Midi Kit (Qiagen). The quality of the WGA products was verified by sequencing BamHI-digested WGA products cloned into a pUC19 vector (Fermantas, Pittsburgh, PA). The sequencing was done by using the ABI BigDye Terminator v3.1 Cycle Sequencing Kit on an ABI3130 Genetic Analyzer (Applied Biosystems, Foster City, CA).

454 and Illumina sequencing and de novo contig assembly

The WGA products from specimens 30974 and 33537 were sequenced with 454 technology on a GS-FLX Titanium System (Roche, Branford, CT) by using approximately 1 μg of DNA for library construction and following standard Roche library protocols, with an average insert size of 600 bp. One full PTP plate was used in the analysis of each specimen. The sequence reads from each run were assembled using Newbler in the GS De Novo Assembler (http://www.454.com/products/analysis-software/) with the default settings.

The WGA products from specimens 30976 and 37999 were used to generate Illumina TruSeq (v3) libraries (average insert size: 350 bp) and sequenced 100×100 bp paired-end on an Illumina Genome Analyzer IIx (Illumina, San Diego, CA). The sequence reads with a minimum quality of 20 were trimmed by using CLC Assembly Cell 4.1.0 (http://www.clcbio.com/products/clc-assembly-cell/). The data were then assembled with default parameters and a minimum contig length of 500 bp, with scaffolding using paired-end data.

Comparative genomic analyses

For comparisons of sequences at the genome level, contigs of each specimen were aligned with reference sequences of the near complete genome of the C. parvum IOWA isolate (version AAEE00000000.1) and the 1,422 contigs of the C. hominis TU5205 isolate (version NZ_AAEL00000000.1) using Nucmer, a tool in MUMmer 3.23 (http://mummer.sourceforge.net/) [53]. Multiple genome alignments were also constructed by using the progressive alginment algorithm of the Mauve 2.3.1 (http://asap.genetics.wisc.edu/software/mauve/) with default options [54]. In-house perl scripts were developed to calculate the average nucleotide identities. For the detection of SNPs, Fastqc 0.10.0 (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) was used for the QC analysis of Illumina sequence reads, and PRINSEQ 0.20.3 (http://prinseq.sourceforge.net/) [55] was used to remove low quality reads, with a min_qual_mean setting of 20 and min_len of 65. Reads were then aligned to reference sequences by using Bowtie 0.12.7 (http://bowtie-bio.sourceforge.net/index.shtml) [56]. The resulting SAM files were processed, sorted and duplicates were removed by using Picard 1.126 (http://broadinstitute.github.io/picard/). The mpileup in SAMtools (http://samtools.sourceforge.net/) was finally used to create the pileup file for SNP variant calls using the mpileup2snp in VarScan 2.3.7 (http://varscan.sourceforge.net/) [57]. Default parameters for VarScan were used except that min-avg-qual was set to 30.

PCR verification

As the comparative genomic analysis had identified some nucleotide sequences (AAEL01000413, AAEL01000728, and AAEL01000717) in the published C. hominis that had not been seen in the published C. parvum genome, primers were designed based on these sequences to verify the source of these sequences by PCR (Additional file 6: Table S1). Five specimens each of C. parvum y C. hominis were used in PCR analysis of each target. In addition, two C. andersoni specimens were used in confirmation of Cryptosporidium-origin of contig AAEL01000728. Each specimen was analyzed in duplicate nested PCR using 50 μl PCR mixture consisting of 1 μl (

100 ng) of extracted DNA or 2 μL of primary PCR products (in secondary PCR), 200 μM deoxynucleoside triphosphate, 1× PCR buffer (Applied Biosystems), 3.0 mM MgCl2, 5.0 U of Taq polymerase (Promega, Madison, WI), 100 nM primers, and 400 ng/μl of non-acetylated bovine serum albumin (Sigma-Adrich, St. Louis, MO). The primary and secondary PCR reactions were performed in a GeneAmp PCR 9700 thermocycler (Applied Biosystems) for 35 cycles of 94°C for 45 s, 55°C for 45 s, and 72°C for 60 s, with an initial denaturation (94°C for 5 min) and a final extension (72°C for 7 min). The secondary PCR products were sequenced in both directions using Sanger technology described above. Nucleotide sequences obtained were aligned with reference sequences downloaded from GenBank by using ClustalX (http://www.clustal.org/).

NCBI BioProject No.

Nucleotide sequences generated from the project, including all SRA data and assembled contigs, were submitted to the NCBI BioProject under the accession number PRJNA252787.

Declaración de Ética

The study was done on delinked residual diagnostic specimens. It was covered by Human Subjects Protocol No. 990115 “Use of residual human specimens for the determination of frequency of genotypes or sub-types of pathogenic parasites”, which was reviewed and approved by the Institutional Review Board of the Centers for Disease Control and Prevention (CDC). No personal identifiers were associated with the specimens at the time of submission for diagnostic service at CDC.


Agradecimientos

The authors thank Otto van Poeselaere, Sabine Van Leirberghe and Lucas N. Davey for stimulating discussions during the preparation of this manuscript. We acknowledge access to the Syngenta Musa 3'EST database, donated by Syngenta to Bioversity International within the framework of the Global Musa Genomics Consortium. We thank Bioversity International, Dr. Gerard Ngoh-Newilah of CARBAP, Djombe, Cameroon, Dr. Angela Kepler of Pacific-Wide Ecological Consulting, Hawaii, and the late Dr. Lois Engelberger of Pohnpei for providing samples of fruit. We thank the Ministry of Higher Education, Malaysia, for University of Malaya grants RG006-09BIO, PV109/2011A and FRGS grant FP005-2011A to JAH, GR and NZK. We would like to thank Wendy Chin Yi Wen from Plant Biotechnology Research Laboratory, University of Malaya for providing the embryogenic cell suspension. Finally the authors would like to thank Mathieu Rouard from Bioversity International, Montpellier for constructing the website to host the data generated here.


Electronic supplementary material is available online at https://doi.org/10.6084/m9.figshare.c.4853220.

Publicado por la Royal Society bajo los términos de la licencia de atribución Creative Commons http://creativecommons.org/licenses/by/4.0/, que permite el uso sin restricciones, siempre que se acredite el autor y la fuente originales.

Referencias

2016 Challenges in microbial ecology: building predictive understanding of community function and dynamics . ISME J. 10, 2557-2568. (doi:10.1038/ismej.2016.45) Crossref, PubMed, ISI, Google Scholar

Knight R, Callewaert C, Marotz C, Hyde ER, Debelius JW, McDonald D, Sogin ML

. 2017 The microbiome and human biology . Annu. Rev. Genomics Hum. Gineta. 18, 65-86. (doi:10.1146/annurev-genom-083115-022438) Crossref, PubMed, ISI, Google Scholar

Gilbert JA, Blaser MJ, Caporaso JG, Jansson JK, Lynch SV, Knight R

. 2018 Current understanding of the human microbiome . Nat. Medicina. 24, 392-400. (doi:10.1038/nm.4517) Crossref, PubMed, ISI, Google Scholar

2004 Community structure and metabolism through reconstruction of microbial genomes from the environment . Naturaleza 428, 37-43. (doi:10.1038/nature02340) Crossref, PubMed, ISI, Google Scholar

. 2008 Colloquium paper: resistance, resilience, and redundancy in microbial communities . Proc. Natl Acad. Sci. Estados Unidos 105(Suppl. 1), 11 512-11 519. (doi:10.1073/pnas.0801925105). Crossref, ISI, Google Académico

Fuhrman JA, Cram JA, Needham DM

. 2015 Marine microbial community dynamics and their ecological interpretation . Nat. Rev. Microbiol. 13, 133-146. (doi:10.1038/nrmicro3417) Crossref, PubMed, ISI, Google Scholar

2016 Thousands of microbial genomes shed light on interconnected biogeochemical processes in an aquifer system . Nat. Comun. 7, 13219. (doi:10.1038/ncomms13219) Crossref, PubMed, ISI, Google Scholar

Bardgett RD, Freeman C, Ostle NJ

. 2008 Microbial contributions to climate change through carbon cycle feedbacks . ISME J. 2, 805-814. (doi:10.1038/ismej.2008.58) Crossref, PubMed, ISI, Google Scholar

2004 Environmental genome shotgun sequencing of the Sargasso Sea . Ciencias 304, 66-74. (doi:10.1126/science.1093857) Crossref, PubMed, ISI, Google Scholar

Quince C, Walker AW, Simpson JT, Loman NJ, Segata N

. 2017 Shotgun metagenomics, from sampling to analysis . Nat. Biotechnol. 35, 833-844. (doi:10.1038/nbt.3935) Crossref, PubMed, ISI, Google Scholar

Koskella B, Hall LJ, Metcalf CJE

. 2017 The microbiome beyond the horizon of ecological and evolutionary theory . Nat. Ecol. Evol. 1, 1606-1615. (doi:10.1038/s41559-017-0340-2) Crossref, PubMed, ISI, Google Scholar

Hansen SK, Rainey PB, Haagensen JA, Molin S

. 2007 Evolution of species interactions in a biofilm community . Naturaleza 445, 533-536. (doi:10.1038/nature05514) Crossref, PubMed, ISI, Google Scholar

Lawrence D, Fiegna F, Behrends V, Bundy JG, Phillimore AB, Bell T, Barraclough TG

. 2012 Species interactions alter evolutionary responses to a novel environment . PLoS Biol. 10, e1001330. (doi:10.1371/journal.pbio.1001330) Crossref, PubMed, ISI, Google Scholar

. 2018 It takes a village: microbial communities thrive through interactions and metabolic handoffs . mSystems 3, e00152-17. (doi:10.1128/mSystems.00152-17) Crossref, PubMed, ISI, Google Scholar

Robinson CD, Klein HS, Murphy KD, Parthasarathy R, Guillemin K, Bohannan BJM

. 2018 Experimental bacterial adaptation to the zebrafish gut reveals a primary role for immigration . PLoS Biol. 16, e2006893. (doi:10.1371/journal.pbio.2006893) Crossref, PubMed, ISI, Google Scholar

Marbouty M, Baudry L, Cournac A, Koszul R

. 2017 Scaffolding bacterial genomes and probing host-virus interactions in gut microbiome by proximity ligation (chromosome capture) assay . Sci. Adv. 3, e1602105. (doi:10.1126/sciadv.1602105) Crossref, PubMed, ISI, Google Scholar

Truong DT, Tett A, Pasolli E, Huttenhower C, Segata N

. 2017 Microbial strain-level population structure and genetic diversity from metagenomes . Genome Res. 27, 626-638. (doi:10.1101/gr.216242.116) Crossref, PubMed, ISI, Google Scholar

Garud NR, Good BH, Hallatschek O, Pollard KS

. 2019 Evolutionary dynamics of bacteria in the gut microbiome within and across hosts . PLoS Biol. 17, e3000102. (doi:10.1371/journal.pbio.3000102) Crossref, PubMed, Google Scholar

. 2019 Tracking microbial evolution in the human gut using Hi-C . Nat. Microbiol. 5, 343-353. (doi:10.1038/s41564-019-0625-0) Crossref, PubMed, ISI, Google Scholar

. 1980 Selfish genes, the phenotype paradigm and genome evolution . Naturaleza 284, 601-603. (doi:10.1038/284601a0) Crossref, PubMed, ISI, Google Scholar

. 1980 Selfish DNA: the ultimate parasite . Naturaleza 284, 604-607. (doi:10.1038/284604a0) Crossref, PubMed, ISI, Google Scholar

Bergstrom CT, Lipsitch M, Levin BR

. 2000 Natural selection, infectious transfer and the existence conditions for bacterial plasmids . Genética 155, 1505-1519. PubMed, ISI, Google Académico

. 2006 Genes in conflict: the biology of selfish genetic elements . Harvard, MA : Belknap Press . Crossref, académico de Google

. 2003 Evolution experiments with microorganisms: the dynamics and genetic bases of adaptation . Nat. Rev. Genet. 4, 457-469. (doi:10.1038/nrg1088) Crossref, PubMed, ISI, Google Scholar

Rainey PB, Remigi P, Farr AD, Lind PA

. 2017 Darwin was right: where now for experimental evolution? Curr. Opin Genet. Dev. 47, 102-109. (doi:10.1016/j.gde.2017.09.003) Crossref, PubMed, ISI, Google Scholar

Maltez Thomas A, Prata Lima F, Maria Silva Moura L, Maria da Silva A, Dias-Neto E, Setubal JC

. 2018 Comparative metagenomics . Methods Mol. Biol. 1704, 243-260. (doi:10.1007/978-1-4939-7463-4_8) Crossref, PubMed, Google Scholar

. 2011 Microbial diversity of cellulose hydrolysis . Curr. Opin Microbiol. 14, 259-263. (doi:10.1016/j.mib.2011.04.004) Crossref, PubMed, ISI, Google Scholar

. 2002 Enzymology and bioenergetics of respiratory nitrite ammonification . FEMS Microbiol. Rvdo. 26, 285-309. (doi:10.1111/j.1574-6976.2002.tb00616.x) Crossref, PubMed, ISI, Google Scholar

Goddard MR, Godfray HCJ, Burt A

. 2005 Sex increases the efficacy of natural selection in experimental yeast populations . Naturaleza 434, 636-640. (doi:10.1038/nature03405) Crossref, PubMed, ISI, Google Scholar

McDonald MJ, Rice DP, Desai MM

. 2016 Sex speeds adaptation by altering the dynamics of molecular evolution . Naturaleza 531, 233. (doi:10.1038/nature17143) Crossref, PubMed, ISI, Google Scholar

. 2011 Horizontal gene exchange in environmental microbiota . Parte delantera. Microbiol. 2, 158. (doi:10.3389/fmicb.2011.00158) Crossref, PubMed, ISI, Google Scholar

Colombi E, Straub C, Kunzel S, Templeton MD, McCann HC, Rainey PB

. 2017 Evolution of copper resistance in the kiwifruit pathogen Pseudomonas syringae pv. actinidiae through acquisition of integrative conjugative elements and plasmids . Reinar. Microbiol. 19, 819-832. (doi:10.1111/1462-2920.13662) Crossref, PubMed, ISI, Google Scholar

Hall JPJ, Brockhurst MA, Harrison E

. 2017 Sampling the mobile gene pool: innovation via horizontal gene transfer in bacteria . Phil. Trans. R. Soc. B 372, 20160424. (doi:10.1098/rstb.2016.0424) Link, ISI, Google Scholar

. 2003 Prophages and bacterial genomics: what have we learned so far? Mol. Microbiol. 49, 277-300. (doi:10.1046/j.1365-2958.2003.03580.x) Crossref, PubMed, ISI, Google Scholar

2015 CDD: NCBI's conserved domain database . Ácidos nucleicos Res. 43, D222-D226. (doi:10.1093/nar/gku1221) Crossref, PubMed, ISI, Google Scholar

Seed KD, Lazinski DW, Calderwood SB, Camilli A

. 2013 A bacteriophage encodes its own CRISPR/Cas adaptive response to evade host innate immunity . Naturaleza 494, 489-491. (doi:10.1038/nature11927) Crossref, PubMed, ISI, Google Scholar

. 2016 Horizontal gene transfer of chromosomal Type II toxin-antitoxin systems of Escherichia coli . FEMS Microbiol. Letón. 363, fnv238. (doi:10.1093/femsle/fnv238) Crossref, PubMed, ISI, Google Scholar

. 2017 Carriage of type II toxin-antitoxin systems by the growing group of IncX plasmids . Plásmido 91, 19-27. (doi:10.1016/j.plasmid.2017.02.006) Crossref, PubMed, ISI, Google Scholar

Singhania RR, Patel AK, Sukumaran RK, Larroche C, Pandey A

. 2013 Role and significance of beta-glucosidases in the hydrolysis of cellulose for bioethanol production . Bioresour. Technol. 127, 500-507. (doi:10.1016/j.biortech.2012.09.012) Crossref, PubMed, ISI, Google Scholar

2005 The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes . Ácidos nucleicos Res. 33, 5691-5702. (doi:10.1093/nar/gki866) Crossref, PubMed, ISI, Google Scholar

. 2017 Convergence and divergence in a long-term experiment with bacteria . Soy. Nat. 190, S57-S68. (doi:10.1086/691209) Crossref, PubMed, ISI, Google Scholar

Chu HY, Sprouffske K, Wagner A

. 2018 Assessing the benefits of horizontal gene transfer by laboratory evolution and genome sequencing . BMC Evol. Biol. 18, 54. (doi:10.1186/s12862-018-1164-7) Crossref, PubMed, ISI, Google Scholar

Frazão N, Sousa A, Lässig M, Gordo I

. 2019 Horizontal gene transfer overrides mutation in Escherichia coli colonizing the mammalian gut . Proc. Natl Acad. Sci. Estados Unidos 116, 17 906-17 915. (doi:10.1073/pnas.1906958116) Crossref, ISI, Google Scholar

Zhao SJ, Lieberman TD, Poyet M, Kauffman KM, Gibbons SM, Groussin M, Xavier RJ, Alm EJ

. 2019 Adaptive evolution within gut microbiomes of healthy people . Cell Host Microbe 25, 656. (doi:10.1016/j.chom.2019.03.007) Crossref, PubMed, ISI, Google Scholar

. 1989 Reviving the superorganism . J. Theor. Biol. 136, 337-356. (doi:10.1016/S0022-5193(89)80169-9) Crossref, PubMed, ISI, Google Scholar

Swenson W, Wilson DS, Elias R

. 2000 Artificial ecosystem selection . Proc. Natl Acad. Sci. Estados Unidos 97, 9110-9114. (doi:10.1073/pnas.150237597) Crossref, PubMed, ISI, Google Scholar

. 2019 Simulations reveal challenges to artificial community selection and possible strategies for success . PLoS Biol. 17, e3000295. (doi:10.1371/journal.pbio.3000295) Crossref, PubMed, ISI, Google Scholar

Black AJ, Bourrat P, Rainey PB.

En prensa. Ecological scaffolding and the evolution of individuality . Nat. Ecol. Evol. (doi:10.1038/s41559-019-1086-9) ISI, Google Scholar

. 1934 The struggle for existence . Baltimore, MD : Williams & Wilkins . Crossref, académico de Google

Rosenzweig RF, Sharp RR, Treves DS, Adams J

. 1994 Microbial evolution in a simple unstructured environment: genetic differentiation in Escherichia coli . Genética 137, 903-917. PubMed, ISI, Google Académico

Rainey PB, Buckling A, Kassen R, Travisano M

. 2000 The emergence and maintenance of diversity: insights from experimental bacterial populations . Tendencias Ecol. Evol. 15, 243-247. (doi:10.1016/S0169-5347(00)01871-1) Crossref, PubMed, ISI, Google Scholar

. 2002 Functional redundancy in ecology and conservation . Oikos 98, 156-162. (doi:10.1034/j.1600-0706.2002.980116.x) Crossref, ISI, Google Scholar

2018 Function and functional redundancy in microbial systems . Nat. Ecol. Evol. 2, 936-943. (doi:10.1038/s41559-018-0519-1) Crossref, PubMed, ISI, Google Scholar

Landsberger M, Gandon S, Meaden S, Rollie C, Chevallereau A, Buckling A, Westra ER, van Houte S

. 2018 Anti-CRISPR phages cooperate to overcome CRISPR-Cas immunity . Celda 174, 908-916. (doi:10.1016/j.cell.2018.05.058) Crossref, PubMed, ISI, Google Scholar

Marbouty M, Cournac A, Flot JF, Marie-Nelly H, Mozziconacci J, Koszul R

. 2014 Metagenomic chromosome conformation capture (meta3C) unveils the diversity of chromosome organization in microorganisms . eLife 3, e03318. (doi:10.7554/eLife.03318) Crossref, PubMed, ISI, Google Scholar

. 2011 Microbial nitrogen cycling processes in oxygen minimum zones . Annu. Rev. Mar. Sci. 3, 317-345. (doi:10.1146/annurev-marine-120709-142814) Crossref, PubMed, ISI, Google Scholar

Givens DI, Adamson AH, Cobby JM

. 1988 The effect of ammoniation on the nutritive value of wheat, barley and oat straws. II. Digestibility and energy value measurements en vivo and their prediction from laboratory measurements . Anim. Feed Sci. Technol. 19, 173-184. (doi:10.1016/0377-8401(88)90065-X) Crossref, ISI, Google Scholar

. 2007 Biology's next revolution . Naturaleza 445, 369. (doi:10.1038/445369a) Crossref, PubMed, ISI, Google Scholar

. 2009 Darwinian evolution in the light of genomics . Ácidos nucleicos Res. 37, 1011-1034. (doi:10.1093/nar/gkp089) Crossref, PubMed, ISI, Google Scholar

. 2010 Horizontal gene transfer in evolution: facts and challenges . Proc. R. Soc. B 277, 819-827. (doi:10.1098/rspb.2009.1679) Link, ISI, Google Scholar

Ochman H, Lawrence JG, Groisman EA

. 2000 Lateral gene transfer and the nature of bacterial innovation . Naturaleza 405, 299-304. (doi:10.1038/35012500) Crossref, PubMed, ISI, Google Scholar

. 2011 Elementos genéticos egoístas, conflicto genético e innovación evolutiva. Proc. Natl Acad. Sci. Estados Unidos 108(Suppl. 2)), 10 863-10 870. (doi:10.1073/pnas.1102343108) Crossref, ISI, Google Scholar

. 2013 Horizontal gene transfer and the evolution of bacterial and archaeal population structure . Trends Genet. 29, 170-175. (doi:10.1016/j.tig.2012.12.006) Crossref, PubMed, ISI, Google Scholar

Fullmer MS, Soucy SM, Gogarten JP

. 2015 The pan-genome as a shared genomic resource: mutual cheating, cooperation and the black queen hypothesis . Parte delantera. Microbiol. 6, ARTN 728. (doi:10.3389/fmicb.2015.00728) Crossref, ISI, Google Scholar

. 2018 Processes and patterns of interaction as units of selection: an introduction to ITSNTS thinking . Proc. Natl Acad. Sci. Estados Unidos 115, 4006-4014. (doi:10.1073/pnas.1722232115) Crossref, PubMed, ISI, Google Scholar

. 2011 FLASH: fast length adjustment of short reads to improve genome assemblies . Bioinformática 27, 2957-2963. (doi:10.1093/bioinformatics/btr507) Crossref, PubMed, ISI, Google Scholar

. 2011 Quality control and preprocessing of metagenomic datasets . Bioinformática 27, 863-864. (doi:10.1093/bioinformatics/btr026) Crossref, PubMed, ISI, Google Scholar

2016 The MG-RAST metagenomics database and portal in 2015 . Ácidos nucleicos Res. 44, D590-D594. (doi:10.1093/nar/gkv1322) Crossref, PubMed, ISI, Google Scholar

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ

. 1990 Basic local alignment search tool . J. Mol. Biol. 215, 403-410. (doi:10.1016/S0022-2836(05)80360-2) Crossref, PubMed, ISI, Google Scholar

Li D, Liu CM, Luo R, Sadakane K, Lam TW

. 2015 MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph . Bioinformática 31, 1674-1676. (doi:10.1093/bioinformatics/btv033) Crossref, PubMed, ISI, Google Scholar

Rice P, Longden I, Bleasby A

. 2000 EMBOSS: the European molecular biology open software suite . Trends Genet. 16, 276-277. (doi:10.1016/S0168-9525(00)02024-2) Crossref, PubMed, ISI, Google Scholar

Niu B, Zhu Z, Fu L, Wu S, Li W

. 2011 FR-HIT, a very fast program to recruit metagenomic reads to homologous reference genomes . Bioinformática 27, 1704-1705. (doi:10.1093/bioinformatics/btr252) Crossref, PubMed, ISI, Google Scholar


Influenza Virus Genome Sequencing and Genetic Characterization

Influenza viruses are constantly changing, in fact all influenza viruses undergo genetic changes over time (for more information, see How the Flu Virus Can Change: &ldquoDrift&rdquo and &ldquoShift&rdquo). An influenza virus&rsquo genome consists of all genes that make up the virus. CDC conducts year-round surveillance of circulating influenza viruses to monitor changes to the genome (or parts of the genome) of these viruses. This work is performed as part of routine U.S. influenza surveillance and as part of CDC&rsquos role as a World Health Organization (WHO) Collaborating Center for Reference and Research on Influenza. The information CDC collects from studying genetic changes (also known as &ldquosubstitutions,&rdquo &ldquovariants&rdquo or &ldquomutations&rdquo) in influenza viruses plays an important public health role by helping to determine whether vaccines and antiviral drugs will work against currently-circulating influenza viruses, as well as helping to determine the potential for influenza viruses in animals to infect humans.

Genome sequencing reveals the sequence of the nucleotides in a gene, like alphabet letters in words. Nucleotides are organic molecules that form the structural unit building block of nucleic acids, such as RNA or DNA. All influenza viruses consist of single-stranded RNA as opposed to dual-stranded DNA. The RNA genes of influenza viruses are made up of chains of nucleotides that are bonded together and coded by the letters A, C, G and U, which stand for adenine, cytosine, guanine, and uracil, respectively. Comparing the composition of nucleotides in one virus gene with the order of nucleotides in a different virus gene can reveal variations between the two viruses.

Genetic variations are important because they can affect the structure of an influenza virus&rsquo surface proteins. Proteins are made of sequences of amino acids.

The substitution of one amino acid for another can affect properties of a virus, such as how well a virus transmits between people, and how susceptible the virus is to antiviral drugs or current vaccines.

Genome sequencing reveals the sequence of the nucleotides in a gene, like alphabet letters in words. Comparing the composition of nucleotides in one virus gene with the order of nucleotides in a different virus gene can reveal variations between the two viruses.

Genetic variations are important because they affect the structure of an influenza virus&rsquo surface proteins. Proteins are made of sequences of amino acids.

The substitution of one amino acid for another can affect properties of a virus, such as how well a virus transmits between people, and how susceptible the virus is to antiviral drugs or current vaccines.

Influenza A and B viruses &ndash the primary influenza viruses that infect people &ndash are RNA viruses that have eight gene segments. These genes contain &lsquoinstructions&rsquo for making new viruses, and it&rsquos these instructions that an influenza virus uses once it infects a human cell to trick the cell into producing more influenza viruses, thereby spreading infection.

Influenza genes consist of a sequence of molecules called nucleótidos that bond together in a chain-like shape. Nucleotides are designated by the letters A, C, G and U.

Secuenciación del genoma is a process that determines the order, or sequence, of the nucleotides (i.e., A, C, G and U) in each of the genes present in the virus&rsquos genome. Full genome sequencing can reveal the approximately 13,500-letter sequence of all the genes of the virus&rsquo genome.

Each year CDC performs whole genome sequencing on about 7,000 influenza viruses from original clinical samples collected through virologic surveillance. An influenza A or B virus&rsquo genome contains eight gene segments that encode (i.e., determine the structure and features of) the virus&rsquo 12 proteins, including its two primary surface proteins: hemagglutinin (HA) and neuraminidase (NA). An influenza virus&rsquo surface proteins determine important properties of the virus, including how the virus responds to certain antiviral drugs, the virus&rsquo genetic similarity to current influenza vaccine viruses, and the potential for zoonotic (animal origin) influenza viruses to infect human hosts.

Genetic Characterization

CDC and other public health laboratories around the world have been sequencing the genes of influenza viruses since the 1980s. CDC contributes gene sequences to public databases, such as GenBank external icon and the Global Initiative on Sharing Avian Influenza Data (GISAID) external icon , for use by public health researchers. The resulting libraries of gene sequences allow CDC and other laboratories to compare the genes of currently circulating influenza viruses with the genes of older influenza viruses and viruses used in vaccines. This process of comparing genetic sequences is called genetic characterization. CDC uses genetic characterization for the following reasons:

  • To determine how closely &ldquorelated&rdquo or similar flu viruses are to one another genetically
  • To monitor how flu viruses are evolving
  • To identify genetic changes that affect the virus&rsquo properties. For example, to identify the specific changes that are associated with influenza viruses spreading more easily, causing more-severe disease, or developing resistance to antiviral drugs
  • To assess how well an influenza flu vaccine might protect against a particular influenza virus based on its genetic similarity to the virus
  • To monitor for genetic changes in influenza viruses circulating in animal populations that could enable them to infect humans.

The relative differences among a group of influenza viruses are shown by organizing them into a graphic called a &lsquophylogenetic tree.&rsquo Phylogenetic trees for influenza viruses are like family (genealogy) trees for people. These trees show how closely &lsquorelated&rsquo individual viruses are to one another. Viruses are grouped together based on whether their genes&rsquo nucleotides are identical or not. Phylogenetic trees of influenza viruses will usually display how similar the viruses&rsquo hemagglutinin (HA) or neuraminidase (NA) genes are to one another. Each sequence from a specific influenza virus has its own branch on the tree. The degree of genetic difference (number of nucleotide differences) between viruses is represented by the length of the horizontal lines (branches) in the phylogenetic tree. The further apart viruses are on the horizontal axis of a phylogenetic tree, the more genetically different the viruses are to one another.

Figura. A phylogenetic tree.

For example, after CDC sequences an influenza A(H3N2) virus collected through surveillance, the virus sequence is cataloged with other virus sequences that have a similar HA gene (H3), and a similar NA gene (N2). As part of this process, CDC compares the new virus sequence with the other virus sequences, and looks for differences among them. CDC then uses a phylogenetic tree to visually represent how genetically different the A(H3N2) viruses are from each other.

CDC performs genetic characterization of influenza viruses year round. This genetic data is used in conjunction with virus antigenic characterization data to help determine which vaccine viruses should be chosen for the upcoming Northern Hemisphere or Southern Hemisphere influenza vaccines. In the months leading up to the WHO vaccine consultation meetings in February and September, CDC collects influenza viruses through surveillance and compares the HA and NA gene sequences of current vaccine viruses against those of circulating flu viruses. This is one way to assess how closely related the circulating influenza viruses are to the viruses the seasonal flu vaccine was formulated to protect against. As viruses are collected and genetically characterized, differences can be revealed.

For example, sometimes over the course of a season, circulating viruses will change genetically, which causes them to become different from the corresponding vaccine virus. This is one indication that a different vaccine virus may need to be selected for the next flu season&rsquos vaccine, although other factors, including antigenic characterization findings, heavily influence vaccine decisions. The HA and NA surface proteins of influenza viruses are antigens, which means they are recognized by the immune system and are capable of triggering an immune response, including production of antibodies that can block infection. Antigenic characterization refers to the analysis of a virus&rsquos reaction with antibodies to help assess how it relates to another virus.

Methods of Flu Genome Sequencing

One influenza sample contains muchos influenza virus particles that were grown in a test tube and that often have small genetic differences in comparison to one another among the whole population of sibling viruses.

Traditionally, scientists have used a sequencing technique called &ldquothe Sanger reaction&rdquo to monitor influenza evolution as part of virologic surveillance. Sanger sequencing identifies the predominant genetic sequence among the many influenza viruses found in an isolate. This means small variations in the population of viruses present in a sample are not reflected in the final result. Scientists often use the Sanger method to conduct partial genome sequencing of influenza viruses, while newer technologies (see next paragraph) are better suited for whole genome sequencing.

Over the past five years, CDC has been using &ldquoNext Generation Sequencing (NGS)&rdquo methodologies, which have greatly expanded the amount of information and detail that sequencing analysis can provide. NGS uses advanced molecular detection (AMD) to identify gene sequences from each virus in a sample. Therefore, NGS reveals the genetic variations among many different influenza virus particles in a single sample, and these methods also reveal the entire coding region of the genomes. This level of detail can directly benefit public health decision-making in important ways, but data must be carefully interpreted by highly-trained experts in the context of other available information. See AMD Projects: Improving Influenza Vaccines for more information about how NGS and AMD are revolutionizing flu genome mapping at CDC.


Ver el vídeo: Cuál es la diferencia? (Agosto 2022).