Información

¿Cómo se fusionan los datos de SNP con un genoma de referencia?

¿Cómo se fusionan los datos de SNP con un genoma de referencia?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mis datos

Tengo un archivo 23andMe que enumera los SNP en el formulario:

rsid cromosoma posición genotipo rsXXXXX 1 PPPPPP CT rsXXXXX 1 PPPPPP GG

Los campos están separados por TAB y cada línea corresponde a un único SNP. Para cada SNP, se proporcionan cuatro campos de datos.

  1. Un identificador (un rsid o un id interno)
  2. Su ubicación en el genoma de referencia.
    • El cromosoma en el que se encuentra.
    • La posición dentro del cromosoma se encuentra en.
  3. La llamada de genotipo se orienta con respecto a la cadena más en la secuencia de referencia humana.

El genoma de referencia es el ensamblaje humano construido 37 (también conocido como Anotación de Liberación 104).

Mi pregunta

¿Cómo fusiono los SNP en el genoma de referencia?

Por ejemplo, tome la primera línea de mi archivo SNP:

rsXXXXX 1 PPPPPP CT

Parte 1

Puedo ver que necesito reemplazar el nucleótido en la posición PPPPPP en el cromosoma 1 del genoma de referencia con un nucleótido del campo del genotipo, pero ¿qué nucleótido se supone que debo usar? ¿C o T? ¿Y por qué?

Parte 2

¿Dónde se supone que debo comenzar a contar desde el genoma de referencia? En cuanto al cromosoma 1 de la construcción 37 del ensamblaje humano, los primeros ~ 10,000 caracteres (excluyendo la descripción de la primera línea) sonnorte. ¿Es el primer N el número 1? p.ej. Si PPPPPP fuera 100,000, reemplazaría el carácter 100,000 en el genoma de referencia con el nucleótido correcto de Parte 1 de esta pregunta? ¿O debería empezar a contar desde el primer carácter que no sea N en el archivo fasta?


Primero, necesita saber a qué secuencia del genoma se refiere el archivo SNP. Deben haber mencionado la secuencia de referencia que utilizaron.

Como otros mencionaron el caso deConnecticutes heterocigosidad. Si solo desea marcar los cambios, descarte el residuo que ya está presente en el genoma de referencia y use el otro alelo. Sin embargo, si desea realizar un seguimiento del haplotipo, debe asegurarse de que un conjunto de SNP provenga de la misma cromátida. Esto es difícil; es posible que aún pueda saberlo para los SNP que están lo suficientemente cerca como para ser mapeados por una sola lectura, pero es casi imposible para los SNP que están lo suficientemente separados.

Como dijo Endre, debes comenzar desde el primer nucleótido. Sin embargo, parece dudoso que obtenga $ (NNNN) _n $ al comienzo del cromosoma 1. Los cromosomas ensamblados completos no tienen tales estiramientos. A continuación se muestran las primeras 10 líneas del archivo fasta del cromosoma 1. Ver por ti mismo.

> gi | 568815364 | ref | NT_077402.3 | Homo sapiens cromosoma 1 andamio genómico, Asamblea Primaria GRCh38 HSCHR1_CTG1 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAA CCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCT AACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTA ACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACC CTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTA ACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCG CCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAAATCTGTGCAGAGGAC AACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGTTGCAAAGG

Cómo reemplazar $ N ^ {th} $ residuo es una tarea bastante sencilla. Pero esa es una cuestión de programación y no el alcance de este foro. Suponiendo que ha resuelto el problema de la parte 1 y tiene una pestaña separada ordenado archivo como este:

residuo de posición del cromosoma 1 79989 G 1 100232 T 3 341342 A

Este script puede no ser el mejor, pero funcionaría en una terminal linux / * nix / Cygwin, para reemplazar los residuos (asegúrese de tenerversión de gawk> = 4.0):

gawk -F " t" '(FNR == 1) {x ++} (x == 1) {a [$ 1] [$ 2] = $ 3; siguiente} (x == 2) {if ($ 0 ~ /> / ) {h = $ 0; sub (/^.* cromosoma /, "", h); sub (/. * /, "", h)} else {seq [h] = seq [h] $ 0}} END { para (i en a) {s = 0; para (j en a [i]) {m = m substr (seq [i], s, j-1) a [i] [j]; s = j + 1} m = m substr (seq [i], s); print "> Chr" i " n" m}} 'SNP_file Genome.fa | pliegue -w 60

Genética 101, tienes 2 copias de todo tu ADN en cada posición, una copia de tu madre y otra de tu padre. Entonces, para el "CT", tienes una copia con una C y otra con una T.

Y sí, es normal que los primeros miles o millones de letras sean N. El genoma es repetitivo y desagradable allí, pero de todos modos se cuenta con fines de numeración.

Honestamente, no haría esto con un archivo de texto gigante del genoma. Simplemente busque su SNP en ensembl.org usando el número rs, y obtendrá el SNP, una secuencia de flanqueo y algo de contexto. Búscalo en PubMed si quieres ver si alguna vez apareció en alguna publicación.


Parte 1:

Según Lior Pachter, los datos de 23andme no están escalonados. Lo que significa que para cada entrada en el campo del genotipo, no se sabe de qué copia cromosómica proviene. Esto sucede porque las plataformas modernas de microarrays no pueden decir de cuál de las dos copias de un cromosoma proviene un snp.

Puede resolver este problema para la mayoría de los snps comparando sus alelos con el genoma de referencia, pero esto requeriría algunas técnicas de programación. Puede usar https://github.com/endrebak/qc_gwas como ejemplo, que hace lo mismo, pero para archivos plink.

Parte 2:

Supongo que le gustaría hacer esto programáticamente, y no copiando y pegando los snps en el genoma de referencia.

La respuesta corta es que el primer N es el primer nucleótido. Pero, debería usar un paquete como Biopython para hacer el recuento por usted, podría ser más complicado de lo que cree (necesita ajustar los finales de línea en el archivo fasta, por ejemplo).


¿Cómo se fusionan los datos de SNP con un genoma de referencia? - biología

Breve descripción de todos los scripts utilizados en Picard y Gehring, 2017 Genome Biology. Todos los scripts escritos por Colette L Picard (cpicard AT mit DOT edu) y con licencia de Apache License, versión 2.0:

Copyright 2017 Colette L Picard

Con licencia de Apache, Versión 2.0 (la "Licencia"), no puede utilizar este archivo excepto en cumplimiento de la Licencia. Puede obtener una copia de la licencia en

A menos que lo exija la ley aplicable o se acuerde por escrito, el software distribuido bajo la Licencia se distribuye "TAL CUAL", SIN GARANTÍAS NI CONDICIONES DE NINGÚN TIPO, ya sea expresa o implícita. Consulte la Licencia para conocer el idioma específico que rige los permisos y las limitaciones de la Licencia.

Cualquier pregunta o problema puede dirigirse a CLP. Algunos scripts requieren la instalación de herramientas adicionales, que se indicarán cuando sea posible.

Tenga en cuenta que todos los scripts indicados aquí se pueden llamar sin argumentos para obtener más detalles sobre las opciones y el uso. Los scripts que no se describen aquí son scripts auxiliares requeridos por uno o más de estos scripts primarios, pero no se describen por separado.

v.1.3, script de Python, requiere Python 2, probado en 2.7.6 - paquetes requeridos sys, os, argparse, re

v.1.2, script R, requiere R, probado en 3.3.2 - requiere el paquete optparse

v.1.0, script de Python, requiere Python 2, probado en 2.7.6 - paquetes requeridos sys, os, argparse, re, matplotlib, numpy, scipy

v.1.7, script bash, requiere Python 2, probado en 2.7.6, y R, probado en 3.3.2 - scripts auxiliares requeridos (deben estar en el mismo directorio que este script): - ends_analysis_get_intervals.py - por Colette L Picard - ends_analysis_process_intersect.py - de Colette L Picard - ends_analysis_make_plot.R - de Colette L Picard - ends_analysis_make_matrix.py - de Colette L Picard (solo se requiere si se utilizan las opciones -M o -C) - se requiere instalar en el usuario PATH: - bedtools (probado en v2.23.0)

v.1.0, script bash - scripts auxiliares requeridos (deben estar en el mismo directorio que este script): - merge_by_column.R (por Colette Picard) - fishers_exact.R (por Colette Picard) - requerido instalado en el usuario PATH: - bedtools (probado en v2.23.0)


Abstracto

El sistema MUMmer y el nucmer alineador de secuencias del genoma incluido en él se encuentran entre los paquetes de alineación más utilizados en genómica. Desde el último lanzamiento importante de la versión 3 de MUMmer en 2004, se ha aplicado a muchos tipos de problemas, incluida la alineación de secuencias del genoma completo, la alineación de lecturas con un genoma de referencia y la comparación de diferentes ensamblajes del mismo genoma. A pesar de su amplia utilidad, MUMmer3 tiene limitaciones que pueden dificultar su uso para genomas grandes y para conjuntos de datos de secuencias muy grandes que son comunes en la actualidad. En este artículo describimos MUMmer4, una versión sustancialmente mejorada de MUMmer que aborda las restricciones de tamaño del genoma al cambiar la estructura de datos del árbol de sufijos de 32 bits en el núcleo de MUMmer a una matriz de sufijos de 48 bits, y que ofrece una velocidad mejorada a través del procesamiento paralelo de secuencias de consulta de entrada. Con un límite teórico en el tamaño de entrada de 141Tbp, MUMmer4 ahora puede trabajar con secuencias de entrada de cualquier longitud biológicamente realista. Demostramos que como resultado de estas mejoras, el programa nucmer en MUMmer4 es fácilmente capaz de manejar alineaciones de genomas grandes, lo ilustramos con una alineación de los genomas humano y de chimpancé, lo que nos permite calcular que las dos especies son 98% idénticas. en el 96% de su longitud. Con las mejoras descritas aquí, MUMmer4 también se puede usar para alinear de manera eficiente las lecturas con los genomas de referencia, aunque es menos sensible y preciso que los alineadores de lectura dedicados. El alineador de nucmer en MUMmer4 ahora se puede llamar desde lenguajes de scripting como Perl, Python y Ruby. Estas mejoras hacen de MUMer4 uno de los paquetes de alineación del genoma más versátiles disponibles.

Citación: Marçais G, Delcher AL, Phillippy AM, Coston R, Salzberg SL, Zimin A (2018) MUMmer4: Un sistema de alineación del genoma rápido y versátil. PLoS Comput Biol 14 (1): e1005944. https://doi.org/10.1371/journal.pcbi.1005944

Editor: Aaron E. Darling, Universidad de Tecnología de Sydney, AUSTRALIA

Recibió: 15 de agosto de 2017 Aceptado: 1 de enero de 2018 Publicado: 26 de enero de 2018

Este es un artículo de acceso abierto, libre de derechos de autor, y puede ser reproducido, distribuido, transmitido, modificado, construido sobre o utilizado de otra manera por cualquier persona para cualquier propósito legal. El trabajo está disponible bajo la dedicación de dominio público de Creative Commons CC0.

Disponibilidad de datos: Los datos utilizados para este documento están disponibles en NCBI SRA https://www.ncbi.nlm.nih.gov/sra, y en el sitio web del Laboratorio Cold Spring Harbor http://schatzlab.cshl.edu/data/ectools /.

Fondos: Esta investigación fue apoyada en parte por los Institutos Nacionales de Salud de EE. UU. Con la subvención R01 GM083873 a Steven Salzberg, en parte por la Iniciativa de descubrimiento basado en datos de la Fundación Gordon y Betty Moore a través de la subvención GBMF4554 a Carl Kingsford, y en parte por subvenciones de la Fundación Nacional de Ciencias. IOS-1238231 a Jan Dvorak, IOS-144893 a Herbert Aldwinckle, Keithanne Mockaitis, Aleksey Zimin, James Yorke y Marcela Yepes. Los patrocinadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito.

Conflicto de intereses: Los autores han declarado que no existen intereses en competencia.

Esto es un PLOS Biología Computacional Papel de software.


Variación supuestamente funcional

Cuando restringimos los análisis a las variantes con mayor probabilidad de afectar la función de los genes, encontramos que un genoma típico contenía 149-182 sitios con variantes de truncamiento de proteínas, 10,000 a 12,000 sitios con variantes que alteran la secuencia de péptidos y 459,000 a 565,000 sitios de variantes que se superponen reguladores conocidos. regiones (regiones no traducidas (UTR), promotores, aislantes, potenciadores y sitios de unión del factor de transcripción). Los genomas africanos estuvieron consistentemente en el extremo superior de estos rangos. El número de alelos asociados con una enfermedad o fenotipo en cada genoma no siguió este patrón de mayor diversidad en África (Datos extendidos, Fig.4): observamos ∼ 2000 variantes por genoma asociadas con rasgos complejos a través de estudios de asociación de todo el genoma (GWAS ) y 24-30 variantes por genoma implicadas en enfermedades raras a través de ClinVar con genomas de ascendencia europea en el extremo superior de estos recuentos. Es poco probable que la magnitud de esta diferencia se explique por la demografía 10,11, sino que refleja el sesgo étnico de los estudios genéticos actuales. Esperamos que una mejor caracterización de las consecuencias clínicas y fenotípicas de los alelos no europeos permita una mejor interpretación de los genomas de todos los individuos y poblaciones.


Resultados

Análisis SNP de todo el genoma

Todos los genomas tenían una cobertura promedio de al menos 29,6 ×, excepto DAL972 que tenía una cobertura de 5,7 × y era el único genoma en el conjunto de datos secuenciado con el método Sanger (tabla complementaria S2, Material complementario en línea). En total, se llamaron 890,170 SNP en los genomas de los 56 Tripanosoma cepas y 194,566 pasaron nuestros criterios de filtrado. Los SNP filtrados se utilizaron para construir una red Neighbournet (figura 1), un análisis de agrupamiento basado en haplotipos (figura 2) y un árbol de máxima verosimilitud RAxML (figura complementaria S1, material complementario en línea).

—Red NeighborNet basada en 194,566 loci SNP de todo el genoma en 3 Trypanosoma brucei gambiense grupo 1, 3 T. b. gambiense grupo 2, 17 Trypanosoma brucei rhodesiense, 21 Trypanosoma brucei brucei, 8 Trypanosoma evansiy 4 Tripanosoma equiperdum son.

—Red NeighborNet basada en 194,566 loci SNP de todo el genoma en 3 Trypanosoma brucei gambiense grupo 1, 3 T. b. gambiense grupo 2, 17 Trypanosoma brucei rhodesiense, 21 Trypanosoma brucei brucei, 8 Trypanosoma evansiy 4 Tripanosoma equiperdum son.

—Matriz de coancestría basada en datos de haplotipos por fases. El mapa de calor resume la cantidad de segmentos de haplotipos (clave de color a la derecha) que un parásito determinado recibió (filas) de cualquier otro parásito (columnas). Los individuos se ordenan a lo largo de cada eje de acuerdo con el árbol (izquierda) inferido de la ejecución fineSTRUCTURE.

—Matriz de coancestría basada en datos de haplotipos por fases. El mapa de calor resume la cantidad de segmentos de haplotipos (clave de color a la derecha) que un parásito determinado recibió (filas) de cualquier otro parásito (columnas). Los individuos se ordenan a lo largo de cada eje de acuerdo con el árbol (izquierda) inferido de la ejecución fineSTRUCTURE.

Los tres análisis revelaron una historia evolutiva similar para T. evansi y T. equiperdum. El 6 T. evansi Las cepas de tipo A forman un grupo monofilético y exhiben solo una variación menor de SNP en el tiempo y el espacio, aunque fueron aisladas de diferentes especies animales en Kenia, Etiopía, Brasil, Indonesia y China entre 1980 y 2013. Dentro de este grupo, la diferencia genómica más grande fue encontrado entre STIB810 y E110 con un total de solo 2.534 diferencias de SNP (homocigotos y heterocigotos). Las cepas africanas C13 y MU09 mostraron la menor diferencia genómica (375 SNP) y estaban más estrechamente relacionadas con la cepa brasileña E110 que con las cepas asiáticas STIB805, STIB810 y RoTat 1.2. Los dos T. evansi Las cepas de tipo B KETRI2479 y MU010 también forman un grupo monofilético, que ha surgido por separado del ancestro de los tripanosomas de África occidental / central.

los T. equiperdum Las cepas están genéticamente más relacionadas con el este de África. T. brucei son. los T. equiperdum las cepas Dodola 943, TeAp-N / D1 y OVI forman un grupo monofilético, estrechamente relacionado con el Kiboko T. b. brucei cepas TREU927 y KETRI1738 y la T. b. Rhodesiense cepa EATRO 240. Observamos sólo 27 diferencias de SNP (homocigotos y heterocigotos) entre los T. equiperdum genomas de Dodola 943 y TeAp-N / D1, 27 diferencias de SNP entre OVI y TeAp-N / D1, y 24 diferencias de SNP entre Dodola 943 y OVI. los T. equiperdum La cepa BoTat, aislada de un caballo en Marruecos, es distinta de este grupo monofilético y su genoma está estrechamente relacionado con el T. b. brucei cepa J10 aislada de una hiena en Zambia. Tanto BoTat como J10 muestran una ascendencia incierta y comparten haplotipos con T. b. Rhodesiense EATRO 240, T. b. brucei TRUE972 y KETRI1738, y T. equiperdum Dodola 943, TeAp-N / D1 y OVI (fig.2). En menor medida, también comparten haplotipos con África oriental y occidental. T. brucei son.

SNP específicos de subgrupos

SNP únicos para T. evansi escribe un, T. evansi tipo B, T. equiperdum BoTat y el T. equiperdum Se identificaron los grupos monofiléticos Dodola 943, TeAp-N / D1 y OVI. Solo incluimos mutaciones que diferían del estado de referencia homocigoto (en comparación con el genoma de referencia TREU927) por ser homocigotas para el alelo alternativo. La lista completa de SNP para cada subgrupo estudiado se presenta en la tabla complementaria S3, Material complementario en línea. Identificamos 354 SNP que son exclusivos de los monofiléticos. T. equiperdum cluster con Dodola 943, TeAp-N / D1 y OVI, y eso no ocurrió en ninguna otra de las 53 cepas de este estudio. De los 354 SNP, 224 estaban en regiones codificantes de las cuales 109 eran sustituciones no sinónimas. En el T. equiperdum Se observaron 1.425 SNP únicos de la cepa BoTat, de los cuales 850 en regiones codificantes y 429 eran sustituciones no sinónimas. Solo cinco SNP únicos fueron compartidos por todos T. equiperdum genomas, incluido el genoma distinto de BoTat. Para T. evansi tipo B detectamos 701 SNP únicos de los cuales 454 en regiones codificantes y 238 eran sustituciones no sinónimas. En la tabla complementaria S2, Material complementario en línea, se presenta una descripción general de los SNP específicos del subgrupo.

Genes de resistencia del suero humano, VSG de diagnóstico y subunidad γ de F1-ATP sintasa

El gen TgsGP se detectó en todos T. brucei gambiense cepas del grupo 1 y en ninguno de los otros tripanosomas. los T. b. gambiense El codón S210 específico del grupo 1 en el gen TbHpHbR también fue único para todos T. b. grupo gambiense 1 cepas, mientras que las otras cepas en este estudio codificaron para L210 en el gen TbHpHbR. Todos T. b. Rhodesiense genomas contenidos SRA, excepto EATRO240. Sorprendentemente, el T. b. Rhodesiense gen SRA específico también se detectó en el T. b. brucei cepas H883 y STIB213 aisladas respectivamente de un perro en Uganda y una hiena en Tanzania. RoTat 1.2 se encontró en todos T. evansi cepas tipo A y no en ninguna otra cepa. Por el contrario, nuestros datos muestran que el VSG JN 2118HU, considerado exclusivo de T. evansi tipo B, también está presente en el T. b. gambiense cepas tipo 2 ABBA, TH126 y STIB 386, y la T. b. brucei cepas B8 / 18 Clon B, KP33 Clon 16 y TSW187 / 78E. Las secuencias de JN 2118HU no fueron idénticas en todos los genomas, pero no se identificó un solo SNP que sea único para T. evansi tipo B. Subunidad de F1-ATP sintasa γ ADN y secuencias de aminoácidos se alinearon para todos los genomas incluidos en este estudio (figuras suplementarias S2 y S3, material suplementario en línea). La sustitución heterocigótica no sinónima C142C / T (R48R / G) y la deleción heterocigótica GCT841del (A281del) son únicas para todos T. evansi cepas tipo A, y la heterocigota A844A / T (M282M / L) para todas T. evansi cepas de tipo B. La sustitución homocigótica no sinónima G817C (A273P) es única para el T. equiperdum Cepa BoTat.


SNiPloid: una utilidad para explotar datos SNP de alto rendimiento derivados de RNA-Seq en especies alopoliploides

La secuenciación de alto rendimiento es un enfoque común para descubrir variantes de SNP, especialmente en especies de plantas. Sin embargo, los métodos para analizar los SNP predichos a menudo se optimizan para especies de plantas diploides, mientras que muchas especies de cultivos son alopoliploides y combinan subgenomas relacionados pero divergentes (conjuntos de cromosomas homoeólogos). Creamos una herramienta de software, SNiPloid, que explota e interpreta los supuestos SNP en el contexto de la alopoliploidía comparando los SNP de un alopoliploide con los obtenidos en sus progenitores diploides actuales. SNiPloid puede comparar los SNP obtenidos de una muestra para estimar la contribución del subgenoma al transcriptoma o los SNP obtenidos de dos accesiones poliploides para buscar divergencia de SNP.

1. Introducción

El advenimiento de las tecnologías de secuenciación de alto rendimiento está revolucionando nuestra capacidad para descubrir y explotar polimorfismos de un solo nucleótido (SNP). La poliploidía ocurre en muchos animales y plantas, pero está particularmente extendida en plantas con flores, incluidos muchos cultivos importantes. Sin embargo, la mayoría de los métodos utilizados para descubrir y validar los SNP predichos están optimizados para especies diploides, por lo que quedan por abordar los desafíos específicos relacionados con la poliploidía.

Muchas plantas poliploides, incluido el café (Coffea arabica), trigo (Triticum durum Desf.), Algodón (Gossypium hirsutum L.) y maní (Arachis hypogaea L.) son alopoliploides y contienen dos o más genomas distintos (cromosomas homoeólogos) después de la hibridación interespecífica entre especies diploides relacionadas y la duplicación de cromosomas. Como consecuencia, los genomas alopoliploides contienen diferentes copias de la mayoría de sus genes y la fusión y duplicación genómica conduce a una amplia gama de efectos genómicos, incluidas alteraciones en la expresión de estos genes duplicados ("homoeólogos"). En un alopoliploide, los cromosomas derivados de diferentes especies parentales no se emparejan en la meiosis y las copias del gen, "homoeoaleles" u "homeólogos", derivados de diferentes especies parentales, no tienen relaciones alélicas y, en consecuencia, pueden distinguirse de los alelos verdaderos. En otras palabras, la variación de secuencia entre subgenomas coexiste con la variación alélica dentro de los subgenomas. La identificación precisa de homoeoSNPs (es decir, polimorfismos que ocurrieron en solo uno de los subgenomas) en los datos de la secuencia tetraploide es un desafío debido al ensamblaje de homoeologs. En un ensamblaje conjunto, las diferencias de un solo nucleótido entre los dos subgenomas podrían confundirse con SNP en un solo locus.

La secuenciación de transcripciones utilizando métodos de secuenciación de alto rendimiento (RNA-Seq) puede proporcionar nuevos conocimientos sobre la biología poliploide [1]. Normalmente, las lecturas de un alopoliploide determinado se alinean con un transcriptoma de referencia. Entonces, si se pueden muestrear las secuencias de alelos de la especie progenitora diploide, es posible inferir el origen del genoma de los SNP identificados y estimar la contribución de los genes homoeólogos al nivel de transcripción total.

Aquí presentamos una nueva herramienta, SNiPloid, que puede abordar los muchos aspectos involucrados en el análisis de SNP en el contexto de la alopoliploidía. Sobre la base del ensamblaje de homoeologs, SNiPloid compara los SNP putativos detectados a partir de un alopoliploide con los obtenidos en sus genomas parentales, o los SNP putativos derivados de dos accesiones alopoliploides para buscar polimorfismo. El servidor web SNiPloid y el código fuente (descargable bajo la licencia pública CeCILL) están disponibles en http://sniplay.cirad.fr/cgi-bin/sniploid.cgi.

2. Métodos

2.1. Preprocesamiento de datos

Antes de interpretar los resultados de los datos de RNA-Seq utilizando SNiPloid, se requiere el preprocesamiento de datos. Los biólogos pueden preprocesar sus datos a través del servidor público de Galaxy (https://main.g2.bx.psu.edu/) como se describe en la Figura 1.


Preprocesamiento de datos. Antes de lanzar SNiPloid, es necesario preprocesar cada muestra individual ejecutando sucesivamente alineaciones de mapeo y llamadas SNP.

SNiPloid asume que los conjuntos de datos de lecturas cortas (es decir, muestras) derivados de un único genotipo único o accesiones distintas (diploide o poliploide) se alinean por separado con una única referencia de transcriptoma diploide correspondiente a uno de los diploides parentales utilizando software de mapeo dedicado como BWA [2] , Jabón [3] o Pajarita [4].

La alineación de mapeo es un paso clave en el preprocesamiento de datos y los parámetros de mapeo deben ajustarse y optimizarse para adaptarse mejor al genoma diploide único utilizado como referencia. En realidad, dado que el transcriptoma diploide de referencia está más estrechamente relacionado con uno de los dos subgenomas del tetraploide, podría tener efectos colaterales en la eficiencia del mapeo y causar indirectamente sesgos en la interpretación del SNP, en particular al analizar la expresión genética homeóloga relativa representada. por la contribución de los subgenomas a la expresión génica total.

La utilidad SNiPloid utiliza el poder del Variant Call Format (VCF) que enumera las variaciones SNP y asigna alelos para cada muestra secuenciada, en comparación con una secuencia de referencia [5]. El formato VCF ahora es ampliamente reconocido y es una salida de formato estándar de numerosos softwares de llamadas SNP. En esta perspectiva, sugerimos utilizar el UnifiedGenotyper módulo en el kit de herramientas GATK [6] para el descubrimiento de SNP. Un segundo tipo de entrada requerida por SNiPloid corresponde a un archivo de profundidad de cobertura generado por el Profundidad de cobertura módulo de GATK. Opcionalmente, el descubrimiento de SNP y el análisis de SNiPloid posterior se pueden mejorar ejecutando GATK ReadBackedPhasing utilidad para determinar asociaciones potenciales entre alelos y producir fases.

2.2. Utilidad SNiPloid

Las entradas al software SNiPloid consisten en dos salidas GATK diferentes para cada muestra: (i) un archivo VCF que enumera los SNP supuestos y (ii) un archivo de profundidad de cobertura (Figura 1). Para cada muestra, el usuario puede establecer la cobertura de profundidad mínima requerida para considerar una posición en las estadísticas de salida y la frecuencia mínima de alelos menores (MAF) requerida para considerar la posición como una variante.

SNiPloid comprende tres pasos principales (Figura 2 (a)). El primer paso de la utilidad consiste en extraer regiones que cumplan con un umbral de profundidad de cobertura mínimo para cada muestra (previamente establecido por el usuario) y luego en identificar regiones superpuestas entre muestras. El análisis posterior se limitará a estas regiones para la comparación de variantes. Como consecuencia, si los SNP putativos muestran una cobertura de profundidad suficiente en el alopoliploide pero no en el diploide, o recíprocamente, la posición no se procesará.


(a)
(B)
(a)
(B) (a) Procedimiento SNiPloid. Para cada secuencia de referencia o gen de un genoma diploide G2, SNiPloid extrae intervalos que cumplen con un umbral de profundidad de cobertura mínimo para cada muestra (1a) e identifican intervalos superpuestos entre muestras (1b). Luego extrae los supuestos SNP en ambas muestras dentro de estas regiones comunes definidas (2) y compara las diferencias observadas entre las muestras para interpretar la situación (3). (b) Contextos filogenéticos dentro de un genoma de poliploidía y asignación de categorías de SNP.

En el segundo paso también para cada muestra, SNiPloid extrae alelos del archivo VCF para posiciones SNP dentro de las regiones comunes definidas. En el tercer paso se comparan las diferencias observadas entre muestras y se interpreta la situación.

Usando su funcionalidad principal ("Poliploide versus diploide parental”), SNiPloid ofrece la opción de comparar, interpretar y agrupar SNP. Basado en el ensamblaje de homoeologs, SNiPloid es capaz de inferir el origen del genoma SNP y distinguir SNPs interespecíficos y homoeoSNPs (o SNP específicos del genoma = HSV) [7] comparando SNPs detectados en el alopoliploide con los nucleótidos correspondientes en ambos genomas diploides parentales modernos . SNiPloid clasifica los SNP en diferentes categorías mediante la hipótesis de patrones de evolución de la siguiente manera (Figura 2 (b)). (i) Los patrones 1 y 2 corresponden a SNP interespecíficos y se asignan si un alelo es específico de uno de los genomas parentales. La mutación ocurrió después del evento de poliploidización (p. Ej., Diploide1 A / A, diploide2 G / G y tetraploide G / G). (ii) El patrón 5 corresponde a los homeoSNP putativos porque se observa la misma variación en los tetraploides y entre los genomas parentales (p. ej., diploide1 A / A, diploide2 G / G y tetraploide A / G). Con este patrón, SNiPloid identifica en qué subgenoma reside el homeoalelo mediante el uso de alelos de secuencia diploide. En el segundo paso, recuperando y combinando profundidades alélicas para los alelos de referencia y alternativos proporcionados en el formato VCF, puede estimar la contribución del subgenoma al transcriptoma para cada gen homeólogo. (iii) Los patrones 3 y 4 se atribuyen cuando la variación observada en el tetraploide no se identifica entre los genomas parentales (p. ej., diploide1 A / A, diploide2 A / A y tetraploide A / G). La mutación puede haber ocurrido en uno de los subgenomas del alotetraploide después del evento de poliploidización. Con una mezcla de lecturas que se originan en dos subgenomas en el mapeo de un alotetraploide, el patrón 3 o 4 no se puede atribuir sin la información del haplotipo, y se asigna un patrón “3 o 4”. Además, SNiPloid puede beneficiarse de la información de fase incluida en el archivo VCF derivado del alotetraploide para inferir el origen de un alelo y distinguir entre un patrón de evolución hipotético 3 o 4. De hecho, el formato VCF anticipa la codificación de la información de fase de alelo ( pares de alelos especificados por 0∣1 en lugar de 0/1 si están en fase con el polimorfismo anterior) para definir bloques de haplotipos. Por lo tanto, si se proporciona en el VCF, la información de fase puede especificar asociaciones potenciales con el patrón 5 de SNP cuyo origen del subgenoma se conoce y, por lo tanto, distinguir entre los patrones 3 y 4. Básicamente, este proceso basado en el haplotipo permite identificar supuestos SNP específicos del subgenoma. .

3. Beneficios

3.1. Aplicación web

SNiPloid es un componente de South Green Bioinformatics Platform (http://southgreen.cirad.fr) y se puede acceder a él en http://sniplay.cirad.fr/cgi-bin/sniploid.cgi como una utilidad específica de la aplicación SNiPlay [8] para el análisis de especies alopoliploides.

Alternativamente, SNiPloid se puede descargar como un componente del proyecto Galaxy [9], un marco computacional de código abierto basado en la web que permite la fácil incorporación de diferentes herramientas. Al descargar este paquete, también es posible ejecutar la utilidad mediante la línea de comandos, lo que significa que los usuarios pueden administrar conjuntos de datos de entrada más voluminosos.

3.2. Salidas SNiPloid

La aplicación web permite exportar la lista detallada de SNP clasificados en formato tabulado. Al final del proceso, el programa resume el análisis contando las diferentes clases de SNP para cada gen / contig del conjunto de datos de referencia y reportando los resultados en una tabla ordenable dinámica (Figura 3 (a)) para que los usuarios puedan clasificar fácilmente y recuperar las clases de SNP de interés. Para los genes que presentan al menos un SNP de clase 5, se da una proporción promedio para obtener una estimación global de la contribución del subgenoma del gen al transcriptoma.


Salidas SNiPloid. (a) SNiPloid produce salidas HTML que muestran el número de categorías de SNP predefinidas y una proporción aproximada de contribución del subgenoma al transcriptoma para cada secuencia de referencia. (b) SNiPloid también puede generar una imagen gráfica que muestra la distribución general de las categorías de SNP y de las contribuciones del subgenoma a lo largo de los cromosomas.

Además, cuando el objetivo es calcular estadísticas generales o frecuencias de SNP a lo largo del transcriptoma, el recuento de categorías de SNP se puede reportar al número de posiciones tomadas en cuenta para el análisis, es decir, posiciones que habían alcanzado el umbral mínimo de profundidad de cobertura. definido por el usuario.

3.3. Comparación de dos muestras

Básicamente, la segunda opción "Poliploide versus poliploide”De la aplicación permite distinguir y contar rápidamente SNP específicos y compartidos entre dos muestras. La comparación puede realizarse en tres niveles diferentes: entre dos muestras procedentes de una única accesión poliploide, o entre dos accesiones poliploides, o más generalmente entre dos especies. Al utilizar esta funcionalidad, pueden surgir nuevos enfoques originales basados ​​en SNP diferenciales para el estudio de la estructura del genoma de poliploides o de la contribución del subgenoma a la expresión génica.

3.4. Visor de mapas SNiPloid

Finalmente, SNiPloid incluye un visor que permite una descripción gráfica de la distribución de las categorías de SNP y de las contribuciones del subgenoma a lo largo de los cromosomas (Figura 3 (b)).

Esta funcionalidad solo se puede aplicar en especies para las que está disponible una secuencia de genoma de referencia completa y completamente anotada y requiere una anotación de genoma estructural en formato de formato de características generales (GFF) como entrada adicional, proporcionando al programa visor las coordenadas de los modelos genéticos utilizados como referencia sobre el genoma. El objetivo es localizar rápidamente regiones potenciales altamente expresadas en sesgos, genes introgresados ​​o regiones homogeneizadas dentro del genoma.

3.5. Ejemplos de casos de uso

Se realizó un análisis de transcriptoma completo en el alotetraploide Coffea arabica utilizando el software SNiPloid para el análisis de la contribución de los subgenomas al transcriptoma [10]. This study enabled to characterize genome-wide homoeologous expression gene expression in C. arabica, a recent allopolyploid combining two subgenomes that derive from two closely related diploid species: C. canephora y C. eugenioides. Different samples of C. arabica obtained at contrasted temperatures and one C. eugenioides sample were mapped against the C. canephora reference transcriptome, analyzed for SNP discovery, before being compared with SNiPloid in order to estimate homoeologous gene expression and to highlight potential variation between growing conditions. Additionally, by mapping reads against the C. eugenioides transcriptome instead of C. canephora, this study showed that the relative homoeologous gene expression is slightly biased in favour of the genome used as reference, as anticipated above.

Sampled from this study, an example of datasets is provided by the SNiPloid Web server to familiarize users with the correct input and expected results.

3.6. Performance and Limitations

The main functionality of SNiPloid is dedicated to RNA-Seq data and to polyploid species for which a diploid transcriptome reference is available for at least one of the parents.

One limitation of the use of RNA-Seq for SNP detection and subsequent interpretation is that the transcript sequences represent only the expressed part of the genome and that the sequencing depth varies considerably across the genome due to the different gene expression levels. Thus, only SNPs in well-expressed genes can be detected and allele or homoeolog expression bias could make the detection of certain SNP difficult due to their low frequency in the transcriptome. However, NGS technologies and the use of appropriate read cutoffs allow to detect and interpret SNPs for a large number of genes distributed across the genome.

Theoretically, even though the allele expression quantification would not be performed, a genome wide analysis would be also possible on genomic data. However from a technical point of view, whole genome analysis would be difficult to perform through our Web server, since it requires uploading VCF and depths file inputs that would be sizeable and should be computed by command line after having downloaded the SNiPloid package or through Galaxy.

In terms of performance, in our practical experience two RNA-Seq samples derived from a polyploid and a diploid species first mapped against a complete reference transcriptome and then generating 600 000 putative SNPs each can be successfully compared by SNiPloid Web server in less than five minutes.

3.7. Comparison with Other SNP Bioinformatics Tools

Even though numerous SNP bioinformatics tools or pipelines exist for SNP calling (GATK [6], VarScan [11], WEP [12], and MiST [13]) or SNP annotation (SNPEff [14]) at a whole genome scale, only a few software packages allow to automatically categorize and interpret putative SNPs from polyploid species.

An example of pipeline reported by Hand et al. [15] predicts the subgenome-specific origin of SNPs using a phylogenetic approach based on comparison with orthologous sequences from predicted progenitor species. More recently a new pipeline called PolyCat [16] has been developed for mapping and categorizing NGS reads produced from allopolyploid organisms. Having the same aim as SNiPloid, the approach is a little bit different. PolyCat uses reads from diploids to generate preindexed homoeoSNPs that will be then used to assign reads from tetraploids to a subgenome. The subgenome attribution is made at the read level whereas SNiPloid manages the subgenome attribution by considering SNPs position by position, counting homoeoSNPs for each transcript of a whole transcriptome analysis.

This approach is relevant and more advanced but can appear slightly more fastidious to operate. The main advantage of SNiPloid is its ease to be applied since it does not require preliminary work to establish homoeoSNPs database that can be time-consuming, and offers to non-bioinformaticians a ready-to-use Web server allowing to rapidly obtain subgenome attribution thanks to a “one click” analysis.

In addition, our approach seems to be more appropriate for allopolyploid species for which the polyploidization event is relatively recent in the evolution such as Coffea or Spartina.

4. Conclusions

To our knowledge, SNiPloid is the first Web tool dedicated and optimized for the SNP analysis of RNA-Seq data obtained from an allopolyploid species. By exploiting the well-organized information stored in the standard VCF format, SNiPloid helps to interpret putative SNPs detected in a whole transcriptome by a comprehensive SNP categorization. SNiPloid is appropriate for allotetraploids and opens new prospects for investigating allopolyploid genome structure or expression.

Referencias

  1. J. Higgins, A. Magusin, M. Trick, F. Fraser, and I. Bancroft, “Use of mRNA-Seq to discriminate contributions to the transcriptome from the constituent genomes of the polyploidy crop species Brassica napus,” BMC Genomics, vol. 13, article 247, 2012. View at: Google Scholar
  2. H. Li and R. Durbin, “Fast and accurate short read alignment with Burrows-Wheeler transform,” Bioinformática, vol. 25, no. 14, pp. 1754–1760, 2009. View at: Publisher Site | Google Académico
  3. R. Li, C. Yu, Y. Li et al., “SOAP2: an improved ultrafast tool for short read alignment,” Bioinformática, vol. 25, no. 15, pp. 1966–1967, 2009. View at: Publisher Site | Google Académico
  4. B. Langmead, “Aligning short sequencing read with Bowtie,” in Current Protocols in Bioinformatics, chapter 11, unit 11. 7, John Wiley & Sons, New York, NY, USA, 2010. View at: Publisher Site | Google Académico
  5. “VCF format,” http://www.1000genomes.org/wiki/Analysis/Variant�ll𥈏ormat/vcf-variant-call-format-version-41. Ver en: Google Scholar
  6. A. McKenna, M. Hanna, E. Banks et al., “The genome analysis toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data,” Investigación del genoma, vol. 20, no. 9, pp. 1297–1303, 2010. View at: Publisher Site | Google Académico
  7. S. Kaur, M. G. Francki, and J. W. Forster, “Identification, characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species,” Revista de biotecnología vegetal, vol. 10, no. 2, pp. 125–138, 2012. View at: Publisher Site | Google Académico
  8. A. Dereeper, S. Nicolas, L. Le Cunff et al., “SNiPlay: a web-based tool for detection, management and analysis of SNPs. Application to grapevine diversity projects,” Bioinformática BMC, vol. 12, article 134, 2011. View at: Publisher Site | Google Académico
  9. J. Goecks, A. Nekrutenko, J. Taylor, and T. Galaxy Team, “Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences,” Biología del genoma, vol. 8, no. 8, article R86, 2010. View at: Publisher Site | Google Académico
  10. M. C. . Combes, A. Dereeper, D. Severac, B. Bertrand, and P. Lashermes, “Contribution of subgenomes to the transcriptome and their intertwined regulation in the allopolyploid Coffea arabica grown at contrasted temperatures,” Nuevo fitólogo, vol. 200, no. 1, pp. 251–260, 2013. View at: Publisher Site | Google Académico
  11. D. C. Koboldt, K. Chen, T. Wylie et al., “VarScan: variant detection in massively parallel sequencing of individual and pooled samples,” Bioinformática, vol. 25, no. 17, pp. 2283–2285, 2009. View at: Publisher Site | Google Académico
  12. M. D'Antonio, P. D. De Meo, D. Paoletti et al., “WEP: a high-performance analysis pipeline for whole-exome data,” Bioinformática BMC, vol. 14, supplement 7, article S11, 2013. View at: Google Scholar
  13. S. Subramanian, V. Di Pierro, H. Shah et al., “MiST: a new approach to variant detection in deep sequencing datasets,” Biología del genoma, vol. 11, no. 8, article R86, 2010. View at: Google Scholar
  14. P. Cingolani, A. Platts, L. Wang le et al., “A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster cepa w 1118 , iso-2, iso-3,” Mosca, vol. 6, no. 2, pp. 80–92, 2012. View at: Publisher Site | Google Académico
  15. M. L. Hand, N. O. Cogan, and J. W. Forster, “Genome-wide SNP identification in multiple morphotypes of allohexaploid tall fescue (Festuca arundinacea Schreb),” BMC Genomics, vol. 13, article 219, 2012. View at: Publisher Site | Google Académico
  16. J. T. Page, A. R. Gingle, and J. A. Udall, “PolyCat: a resource for genome categorization of sequencing reads from allopolyploid organisms,” G3, vol. 3, no. 3, pp. 517–525, 2013. View at: Google Scholar

Derechos de autor

Copyright © 2013 Marine Peralta et al. Este es un artículo de acceso abierto distribuido bajo la licencia de atribución de Creative Commons, que permite el uso, distribución y reproducción sin restricciones en cualquier medio, siempre que el trabajo original se cite correctamente.


The basic principles of SNP array are the same as the DNA microarray. These are the convergence of DNA hybridization, fluorescence microscopy, and solid surface DNA capture. The three mandatory components of the SNP arrays are: [3]

  1. An array containing immobilized allele-specific oligonucleotide (ASO) probes.
  2. Fragmented nucleic acid sequences of target, labelled with fluorescent dyes.
  3. A detection system that records and interprets the hybridization signal.

The ASO probes are often chosen based on sequencing of a representative panel of individuals: positions found to vary in the panel at a specified frequency are used as the basis for probes. SNP chips are generally described by the number of SNP positions they assay. Two probes must be used for each SNP position to detect both alleles if only one probe were used, experimental failure would be indistinguishable from homozygosity of the non-probed allele. [4]

A SNP array is a useful tool for studying slight variations between whole genomes. The most important clinical applications of SNP arrays are for determining disease susceptibility [5] and for measuring the efficacy of drug therapies designed specifically for individuals. [6] In research, SNP arrays are most frequently used for genome-wide association studies. [7] Each individual has many SNPs. SNP-based genetic linkage analysis can be used to map disease loci, and determine disease susceptibility genes in individuals. The combination of SNP maps and high density SNP arrays allows SNPs to be used as markers for genetic diseases that have complex traits. For example, genome-wide association studies have identified SNPs associated with diseases such as rheumatoid arthritis, [8] prostate cancer, [9] A SNP array can also be used to generate a virtual karyotype using software to determine the copy number of each SNP on the array and then align the SNPs in chromosomal order. [10]

SNPs can also be used to study genetic abnormalities in cancer. For example, SNP arrays can be used to study loss of heterozygosity (LOH). LOH occurs when one allele of a gene is mutated in a deleterious way and the normally-functioning allele is lost. LOH occurs commonly in oncogenesis. For example, tumor suppressor genes help keep cancer from developing. If a person has one mutated and dysfunctional copy of a tumor suppressor gene and his second, functional copy of the gene gets damaged, they may become more likely to develop cancer. [11]

Other chip-based methods such as comparative genomic hybridization can detect genomic gains or deletions leading to LOH. SNP arrays, however, have an additional advantage of being able to detect copy-neutral LOH (also called uniparental disomy or gene conversion). Copy-neutral LOH is a form of allelic imbalance. In copy-neutral LOH, one allele or whole chromosome from a parent is missing. This problem leads to duplication of the other parental allele. Copy-neutral LOH may be pathological. For example, say that the mother's allele is wild-type and fully functional, and the father's allele is mutated. If the mother's allele is missing and the child has two copies of the father's mutant allele, disease can occur.

High density SNP arrays help scientists identify patterns of allelic imbalance. These studies have potential prognostic and diagnostic uses. Because LOH is so common in many human cancers, SNP arrays have great potential in cancer diagnostics. For example, recent SNP array studies have shown that solid tumors such as gastric cancer and liver cancer show LOH, as do non-solid malignancies such as hematologic malignancies, ALL, MDS, CML and others. These studies may provide insights into how these diseases develop, as well as information about how to create therapies for them. [12]

Breeding in a number of animal and plant species has been revolutionized by the emergence of SNP arrays. The method is based on the prediction of genetic merit by incorporating relationships among individuals based on SNP array data. [13] This process is known as genomic selection.


Genome-wide genetic changes during modern breeding of maize

The success of modern maize breeding has been demonstrated by remarkable increases in productivity over the last four decades. However, the underlying genetic changes correlated with these gains remain largely unknown. We report here the sequencing of 278 temperate maize inbred lines from different stages of breeding history, including deep resequencing of 4 lines with known pedigree information. The results show that modern breeding has introduced highly dynamic genetic changes into the maize genome. Artificial selection has affected thousands of targets, including genes and non-genic regions, leading to a reduction in nucleotide diversity and an increase in the proportion of rare alleles. Genetic changes during breeding happen rapidly, with extensive variation (SNPs, indels and copy-number variants (CNVs)) occurring, even within identity-by-descent regions. Our genome-wide assessment of genetic changes during modern maize breeding provides new strategies as well as practical targets for future crop breeding and biotechnology.


Información del autor

Afiliaciones

L.K. Ernst Federal Science Center for Animal Husbandry, Dubrovitzy 60, Podolsk, Moscow, Russia, 142132

Alexander A. Sermyagin, Arsen V. Dotsev, Elena A. Gladyr, Alexey A. Traspov, Tatiana E. Deniskova, Olga V. Kostyunina, Gottfried Brem & Natalia A. Zinovieva

Institute of Genome Biology, Leibniz Institute for Farm Animal Biology (FBN), 18196, Dummerstorf, Mecklenburg-Vorpommern, Germany

Henry Reyer & Klaus Wimmers

Department of Animal Sciences, Food and Nutrition, Università Cattolica del Sacro Cuore, via Emilia Parmense 84, Piacenza, Italy

Russian Research Institute of Farm Animal Genetics and Breeding, Moskovskoe shosse 55a, St. Petersburg–Pushkin, Russia, 196601

Ivan A. Paronyan & Kirill V. Plemyashov

Division of Livestock Sciences, University of Natural Resources and Life Sciences, Gregor-Mendel-Straße 33, 1180, Vienna, Austria

Yakut Scientific Research Institute of Agriculture, 23/1, ul. Bestuzheva-Marlynskogo, Yakutsk, Sakha Republic, Russia, 677001

Institute of Animal Breeding and Genetics, University of Veterinary Medicine, Veterinärplatz 1, 1210, Vienna, Austria