Información

4.7: Análisis comparativo del genoma - Biología

4.7: Análisis comparativo del genoma - Biología


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Genes parálogos

  • Los genes que son similares debido a la descendencia de un ancestro común son homólogo.
  • Los genes homólogos que han divergido después de la especiación son ortólogo.
  • Los genes homólogos que han divergido después de la duplicación son parálogous.

Uno puede identificar parálogo grupos de genes que codifican proteínas de función similar pero no idéntica en una especie, por ejemplo, transportadores ABC: 80 miembros en E. coli

Los proteomas centrales varían poco en tamaño

Proteoma: todas las proteínas codificadas en un genoma.

Para calcular el proteoma del núcleo:

Cuente cada grupo de proteínas parálogas solo una vez

Número de familias de proteínas distintas en cada organismo

EspeciesNumero de genesProteoma del núcleo
Haemophilus17091425
Levadura62414383
Gusano184249453
Mosca136018065

Figura 4.22.Poco cambio en el tamaño del proteoma central en eucariotas

Se conservan los proteomas centrales

  • Muchas de las proteínas de los proteomas centrales se comparten entre eucariotas.
  • El 30% de los genes de las moscas tienen ortólogos en el gusano.
  • El 20% de los genes de las moscas tienen ortólogos tanto en el gusano como en la levadura.
  • El 50% de los genes de las moscas tienen probablemente ortólogos en mamíferos.

La función de las proteínas en las moscas (y los gusanos y las levaduras) proporciona fuertes indicadores de la función en los seres humanos. Las moscas tienen ortólogos para 177 de los 289 genes de enfermedades humanas

Figura 4.23. Categorías funcionales en proteomas eucariotas

Figura 4.24. Distribución de los homólogos de las proteínas humanas predichas.

Segmentos conservados en los genomas humanos y de ratón

Figura 4.25. Regiones de cromosomas humanos homólogas a regiones de cromosomas de ratón (indicadas por los colores). Por ejemplo, prácticamente todo el cromosoma 20 humano es homólogo a una región del cromosoma 2 del ratón, y casi todo el cromosoma 17 humano es homólogo a una región del cromosoma 11 del ratón. Más comúnmente, los segmentos de un cromosoma humano dado son homólogos a diferentes ratones. cromosomas. Los cromosomas de ratón tienen más reordenamientos en relación con los humanos que los cromosomas de muchos mamíferos, pero las relaciones homólogas aún son evidentes.

CROMOSOMAS y CROMATINA

Los cromosomas son el paquete citológico de los genes. Los genomas son mucho más largos que el compartimento celular que ocupan dimensiones del compartimento longitud del ADN

  • Fago T4: [0.065 times 0.10 , mm 55 , mm = 170 , kb ]
  • E. coli: [1,7 veces 0,65 , mm , 1,3 , mm = 4,6 veces 10 ^ 3 , kb ]
  • Núcleo (humano): [6 mm , diam. 1.8 , m = 6 times 10 ^ 6 , kb ]

Definición: relación de embalaje

[ text {Proporción de empaque} = dfrac { text {longitud del ADN}} { text {longitud de la unidad que lo contiene}}. ]

El cromosoma humano más pequeño contiene aproximadamente

[46 times 10 ^ 6 , bp = 14,000 , mm = 1.4 , cm , DNA. ]

Cuando se condensa para la mitosis, este cromosoma tiene aproximadamente. 2 mm de largo. Por lo tanto, la proporción de empaquetamiento es de aproximadamente 7000.

Bucles, matriz y andamio cromosómico

Cuando se libera ADN de mitóticocromosomas mediante la eliminación de la mayoría de las proteínas, largas bucles de ADN, que emana de un andamio central que se asemeja a los restos del cromosoma.

Figura 4.26: El análisis EM de núcleos intactos muestra una red de fibras llamada matriz.

Las preparaciones bioquímicas que utilizan sal y detergente para eliminar proteínas y nucleasa para eliminar la mayor parte del ADN dejan una preparación de "matriz" o "andamio". En estas preparaciones se encuentran secuencias de ADN similares; estas secuencias se llaman regiones de unión a la matriz = MAR (o regiones de fijación de andamios = SAR). Tienden a ser ricos en A + T y tienen sitios de escisión por la topoisomerasa II. La topoisomerasa II es uno de los componentes principales de la preparación de la matriz; pero la composición de la matriz todavía necesita más estudio.

Dado que está unido en la base a la matriz, cada bucle es un dominio topológico separado y puede acumular superenrollamientos de ADN.

A partir de los tamaños medidos de los bucles y los cálculos basados ​​en la cantidad de mellas necesarias para relajar el ADN dentro de los bucles, estimamos que el tamaño medio de estos bucles es de unos 100 kb (85 kb basado en la frecuencia de corte para relajación).

Alguna evidencia sugiere que la replicación y posiblemente algún control transcripcional pueden ejercerse en las bases de los bucles.

Cromosomas mitóticos y cromatina en interfase

Durante la interfase, es decir, entre divisiones mitóticas, la mitótica altamente condensada cromosomasse extienden a través del núcleo para formar cromatina. La cromatina en interfase no está muy densamente empaquetada en la mayor parte del núcleo (eucromatina). En algunas regiones está muy densamente empaquetada, comparable a un cromosoma mitótico (heterocromatina).

Tanto la cromatina en interfase como los cromosomas mitóticos están hechos de una fibra de 30 nm.. El cromosoma mitótico está mucho más enrollado que los cromosomas en interfase.

La mayor parte de la transcripción ocurre en eucromatina.

  • Heterocromatina constitutiva = regiones no expresadas que están condensadas (compactas) en todas las células (por ejemplo, repeticiones simples centroméricas)
  • Heterocromatina facultativa = inactivo solo en algunos linajes celulares, activo en otros.

Un ejemplo de heterocromatina es el cromosoma X inactivo en las hembras de mamíferos. La elección de qué cromosomosoma X inactivar es aleatoria en varios linajes celulares, lo que da lugar a fenotipos en mosaico para algunos rasgos ligados al cromosoma X. Por ejemplo, un determinante genético del color del pelaje en los gatos está ligado al cromosoma X, y la coloración irregular en los gatos calicó resulta de esta inactivación aleatoria de uno de los cromosomas X, lo que lleva a la falta de expresión de este determinante en algunos pero no en todos los cabellos. células.

Bandas citológicamente visibles en los cromosomas

Bandas G y bandas R en cromosomas mitóticos de mamíferos (Figura 4.27)

Las bandas Giemsa-oscuras (G) tienden a ser ricas en A + T, con un gran número de repeticiones L1.

Las bandas de luz Giemsa tienden a ser más ricas en G + C, con muy pocas repeticiones L1 y muchas repeticiones Alu.

(Las bandas R son aproximadamente las mismas que las bandas de luz de Giemsa. Se visualizan mediante un procedimiento preparativo diferente para que se vea el "reverso" de las imágenes teñidas de Giemsa).

Las bandas T son adyacentes a los telómeros, no se tiñen con Giemsa y son extremadamente ricas en G + C, con muchos genes y una miríada de repeticiones Alu.

La importancia funcional de estas bandas todavía está bajo investigación activa.

Uno puede localizara gen a una región particular de un cromosoma por en situhibridación con una sonda radiactiva o, ahora más comúnmente, fluorescente para el gen. La región de hibridación se determina observando simultáneamente el patrón de bandas teñido y el patrón de hibridación. Se visualizan y puntúan muchas extensiones de cromosomas mitóticos, y el gen se localiza en la región cromosómica con una incidencia de señal de hibridación significativamente mayor que la observada en el resto de los cromosomas.

Otro método común de El mapeo de la ubicación de los genes se realiza mediante hibridación con ADN aislado de un panel de híbridos de células somáticas., cada célula híbrida que lleva un pequeño subconjunto de, por ejemplo, cromosomas humanos sobre un fondo de hámster. Algunas células híbridas portan cromosomas humanos rotos, lo que permite una localización aún más precisa (ver Figura 1.8.2, "Serie J-1").

Los cromosomas politeno son visibles en varios tejidos de Drosophila

Estos contienen muchas copias de los cromosomas, uno al lado del otro en registro. Por lo tanto, la mayoría de las regiones cromosómicas son altamente amplificado en estos tejidos. Las tinciones cromosómicas revelan un patrón de bandas característico, que es la base del mapa citológico. El mapa citológico (de bandas de politeno) combinado con el mapa genético da una mapa citogenético, que es una guía maravillosa para el genoma de Drosophila. Se puede localizar un gen en una región particular mediante hibridación in situ (de hecho, la técnica se inventó utilizando Drosophilacromoomas de politeno.

Múltiples genes por banda en cromosomas de mamíferos

La figura 4.27 ofrece una vista del cromosoma 11 humano en varios niveles diferentes de resolución. La región 11p15 tiene muchos genes de interés, incluidos genes cuyos productos regulan el crecimiento celular (HRAS), determinación y diferenciación de células musculares (MYOD), metabolismo de los carbohidratos (EN S) y metabolismo mineral (PTH). El gen de la b-globina (HBB) y sus parientes más cercanos también se encuentran en esta región. Una vista de mayor resolución de 11p15, basada en una compilación de mapas genéticos y físicos (Cytogenetics and Cell Genetics, 1995) se muestra junto al ideograma clásico (patrón de bandas). Esto está en una escala de millones de pares de bases, y uno puede comenzar a tener una idea de densidad de genes en esta región. Curiosamente, varía bastante, con las subbandas densas en genes cerca de los telómeros; estos pueden corresponder a las bandas T discutidas anteriormente. Otros genes parecen estar más separados. Por ejemplo, cada uno de los genes de globina similar a b está separado por aproximadamente 5 a 8 kb entre sí (ver el mapa del YAC, o cromosoma artificial de levadura, que lleva los genes de globina similar a b), y este grupo de genes es aproximadamente 1000 kb (es decir, 1 Mb) de los genes más cercanos en el mapa. Sin embargo, un mapeo adicional probablemente encontrará muchos otros genes en esta región. Ahora hay más información disponible en los sitios web mencionados anteriormente.

Figura 4.27.

La relación entre las distancias de recombinación y las distancias físicas varía sustancialmente entre los organismos. En humanos, un centiMorgan (o cM) corresponde aproximadamente a 1 Mb, mientras que en levadura 1 cM corresponde a aproximadamente 2 kb, y este valor varía al menos 10 veces a lo largo de los diferentes cromosomas de levadura. Este es el resultado de las diferentes frecuencias de recombinación a lo largo de los cromosomas.

Regiones especializadas de cromosomas

Centrómero: región responsable de la segregación de cromosomas en mitosis y meiosis. El centrómero es una región estrecha (generalmente) hacia el centrar del cromosoma (aunque puede ubicarse al final, como ocurre con los cromosomas de ratón). Contiene un cinetocoro, una región fibrosa a la que los microtúbulos se unen mientras tiran del cromosoma hacia un polo de la célula en división. Las secuencias de ADN en esta región son secuencias simples muy repetidas (en Drosophila, la unidad de la repetición es de aproximadamente 25 pb de longitud, repetida cientos de veces). Hay proteínas específicas en el centrómero y ahora se investigan intensamente.

Telómero: forma los extremos de la molécula de ADN lineal que forma el cromosoma. Los telómeros se componen de miles de repeticiones de CCCTAA en humanos. Las variantes de esta secuencia se encuentran en los telómeros de otras especies. Los telómeros están formados por telomerasa; esta enzima catalizó la síntesis de más extremos en cada ronda de replicación para estabilizar moléculas lineales.

Las principales proteínas de la cromatina son las histonas

Composición de la cromatina: Hay varios métodos bioquímicos disponibles para aislar la cromatina de los núcleos. El análisis químico de la cromatina revela proteínas y ADN, siendo las proteínas más abundantes las histonas. Un conjunto complejo de histonas menos abundantes se conoce como proteínas cromosómicas no histonas.

Las histonas y el ADN se presentan en masas iguales.

Relación de masa ADN: histonas: proteínas no histonas: ARN = 1: 1: 1: 0,1

Histonas son proteínas pequeñas, básicas (cargadas positivamente) y muy conservadas. Se unen entre sí para formar complejos específicos, alrededor de los cuales se envuelve el ADN para formar nucleosomas. Los nucleosomas son los unidad fundamental de repetición de cromatina.

Existen 5 histonas, 4 en el núcleo del nucleosoma y una fuera del núcleo.

H3, H4: Arg rica, secuencia más conservada ü

ý Histonas CORE

H2A, H2B: Ligeramente rico en Lys, bastante conservadoþ

H1: muy rico en Lys, más variable en secuencia entre especies.

Estudios de difracción de rayos X de los complejos de histonas y el núcleo del nucleosoma han proporcionado información detallada sobre cómo las histonas interactúan entre sí y con el ADN en esta entidad fundamental de la estructura de la cromatina.

Referencia clave: "Estructura cristalina de la partícula del núcleo del nucleosoma a una resolución de 2,8 Å" por Luger, K. Mader, A., Richmond, R.K., Sargent, D.F. Y Richmond, T.J. en Naturaleza 389: 251-260 (1997)

Interacciones de histonas a través del pliegue de histonas

Las histonas centrales tienen una cola aminoterminal altamente cargada positivamente y la mayor parte del resto de la proteína forma un dominio a-helicoidal. Cada histona central tiene al menos 3 hélices a.

Figura 4.28

El dominio a-helicoidal forma una característica pliegue de histona, en el que las hélices a1 y a3 más cortas son perpendiculares a la hélice a2 más larga. Las hélices a están separadas por dos bucles, L1 y L2. El pliegue de histonas es el dominio de dimerización entre pares de histonas, que media la formación de heterodímeros en forma de media luna H3-H4 y H2A-H2B. Los motivos de pliegues de histonas de los socios de un par son antiparalelos, de modo que el bucle L1 de uno es adyacente al bucle L2 del otro.

Figura 4.29

Ahora se ha observado una estructura muy similar al pliegue de las histonas en otras proteínas nucleares, como algunas subunidades de TFIID, un componente clave en la maquinaria de transcripción general de los eucariotas. También sirve como dominio de dimerización para estas proteínas.

Dos heterodímeros H3-H4 se unen para formar un tetrámero.

Los nucleosomas son las subunidades de la fibra de cromatina.

La fibra de cromatina más extendida tiene aproximadamente 10 nm de diámetro. Está compuesto por una serie de complejos de histona-ADN llamados nucleosomas.

Las principales líneas de evidencia para esta conclusión son:

  1. Las observaciones de esta fibra de 10 nm en el microscopio electrónico mostraron una serie de cuerpos que parecían cuentas en una cuerda. Ahora reconocemos las perlas como los núcleos nucleosomales y la cuerda como el conector entre ellos.
  2. La digestión de ADN en cromatina o núcleos con nucleasa microcócica libera una serie de productos que contienen ADN de longitudes discretas. Cuando el ADN de los productos de la digestión con nucleasa microcócica se procesó en un gel de agarosa, se encontró que era una serie de fragmentos de 200 pb, 400 pb, 600 pb, 800 pb, etc., es decir, múltiplos integrales de 200 pb. Esto mostró que la escisión por esta nucleasa, que tiene muy poca especificidad de secuencia, estaba restringida a regiones discretas en la cromatina. Esas regiones de escisión son los enlazadores.
  3. Los estudios físicos, que incluyen datos de difracción de neutrones y de electrones en fibras y, más recientemente, difracción de rayos X de cristales, han proporcionado información estructural más detallada.

2. El nucleosomal centro está compuesto por un octámero de histonas con 146 pb de ADN dúplex envuelto a su alrededor en 1,65 vueltas muy cerradas. El octámero de las histonas es en realidad un tetrámero H32H42 en el eje central, flanqueado por dos dímeros H2A-H2B (uno en cada extremo del núcleo.

Figura 4.30. Vistas esquemáticas del núcleo nucleosómico

La fibra de 10 nm está compuesta por una cadena de núcleos nucleosomales unidos por ADN enlazador. La longitud del ADN enlazador varía entre tejidos dentro de un organismo y entre especies, pero un valor común es de aproximadamente 60 pb. los nucleosoma es el núcleo más el enlazador, y por tanto contiene aproximadamente 200 pb de ADN.

Figura 4.31. Una cadena de nucleosomas

Estructura detallada del núcleo nucleosómico.

Ruta del ADN y empaquetadura ajustada

Los 146 pb de ADN se envuelven alrededor del octámero de histonas en 1,65 vueltas de una superhélice torroidal plana izquierda. Así, 14 vueltas o "torsiones" del ADN están en las 1,65 vueltas superhelical, presentando 14 surcos mayores y 14 surcos menores al octámero de histonas. La ADNasa I del páncreas escindirá el ADN en la superficie del núcleo aproximadamente cada 10 pb, cuando cada giro del ADN quede expuesto en la superficie.

La superhélice de ADN tiene un radio medio de 41,8 Å y un paso de 23,9 Å. Esta es una envoltura muy ajustada del ADN alrededor de las histonas en el núcleo; tenga en cuenta que el ADN dúplex en un turno está a solo unos pocos Å del ADN en el siguiente turno. El ADN no está doblado uniformemente en esta superhélice. A medida que el ADN se envuelve alrededor de las histonas, los surcos mayor y luego menor se comprimen, pero no de manera uniforme para todos los giros del ADN. El ADN rico en G + C favorece la compresión del surco mayor, mientras que el ADN rico en A + T favorece la compresión del surco menor. Esta es una característica importante en el posicionamiento de traducción de los nucleosomas y también podría afectar la afinidad de diferentes ADN por las histonas en los nucleosomas.

Los ADN fosfatos tienen una gran movilidad cuando no entran en contacto con las histonas; los fosfatos de ADN que se encuentran frente al solvente son mucho más móviles de lo que se ve con otros complejos proteína-ADN.

Figura 4.32. Una vista en sección transversal del núcleo del nucleosoma que muestra heterodímeros de histona y contactos con el ADN. Estas imágenes corresponden a las proteínas y el ADN en aproximadamente la mitad del nucleosoma.

Las superenrollamientos torroidales zurdos de ADN en los núcleos nucleosomales son el equivalente de un superenrollamiento derecho, por lo tanto negativo. Por lo tanto, el ADN de los nucleosomas está efectivamente subenrollado.

Figura 4.33.

Histonas en la partícula del núcleo del nucleosoma

El octámero de proteína está compuesto por cuatro dímeros (2 pares H2A-H2B y 2 pares H3-H4) que interactúan a través del "pliegue de histonas". Los dos pares H3-H4 interactúan a través de un haz de 4 hélices formado entre las dos proteínas H3 para formar el tetrámero H32H42. Cada par H2A-H2B interactúa con el tetrámero H32H42 a través de un segundo haz de 4 hélices entre los pliegues de histonas H2B y H4.

Las regiones de pliegues de histona del tetrámero H32H42 se unen al centro del ADN cubriendo un total de aproximadamente 6 giros del ADN, o 3 giros de ADN por dímero H3-H4. Los de los dímeros H2A-H2B cubren una cantidad comparable de ADN, 3 giros por dímero. Las regiones helicoidales adicionales se extienden desde las regiones de pliegues de histonas y son una parte integral de la proteína central dentro de los confines de la superhélice de ADN.

Interacciones de histona-ADN en la partícula central.

El dominio de pliegues de histona de los heterodímeros (H3-H4 y H2A-H2B) se unen a 2,5 vueltas de doble hélice de ADN, generando una curva de 140˚. La interacción con el ADN ocurre en dos tipos de sitios:

  1. Los bucles L1 más L2 en los extremos estrechamente ahusados ​​de cada heterodímero forman un sitio de unión de ADN similar para cada par de histonas. Los bucles L1-L2 interactúan con el ADN en cada extremo de las 2,5 vueltas de ADN.
  2. Las hélices a1 de cada socio en un par forman la superficie convexa en el centro del sitio de unión del ADN. Las principales interacciones son los enlaces H entre los aminoácidos y el fosfato columna vertebral del ADN (hay poca especificidad de secuencia para la unión histona-ADN). Sin embargo, existen algunas excepciones, como un contacto hidrofóbico entre H3Leu65 y el 5-metil en timina. Una cadena lateral Arg de un pliegue de histona entra en el surco menor en 10 de las 14 veces que se enfrenta al octámero de histona. Las otras 4 apariciones tienen cadenas laterales de Arg de las regiones de la cola que penetran en el surco menor.

Colas de histonas

Las colas de histonas N- y C-termiales constituyen aproximadamente el 28% de la masa de las proteínas de histonas centrales, y se ven en aproximadamente 1/3 de su longitud total en el mapa de densidad electrónica, es decir, que gran parte de su longitud es relativamente inmóvil. en la estructura.

Las colas de H3 y H2B pasan a través de canales en la superhélice de ADN creada por 2 surcos menores yuxtapuestos. Un segmento de cola H4 hace un fuerte interpartícula conexión, quizás relevante para la estructura de orden superior de los nucleosomas.

La mayoría de las regiones N-terminales de las colas de histonas no están muy ordenadas en la estructura del cristal de rayos X. Estas regiones se extienden desde el núcleo del nucleosoma y, por lo tanto, podrían estar involucradas en interpartícula interacciones. Los sitios de acetilación y desacetilación de lisinas específicas se encuentran en estos segmentos de las colas que sobresalen del núcleo.. Se han implicado modificaciones postraduccionales como la acetilación en la "remodelación de la cromatina" para permitir o ayudar a la unión del factor de transcripción. Parece probable que estas modificaciones estén afectando las interacciones entre los núcleos nucleosomales, pero no cambiando la estructura de la partícula del núcleo.

Enlaces externos

  • Algunos excelentes los recursos están disponibles en el mundo Webpara visualizar e investigar más a fondo la estructura de la cromatina y su participación en los procesos nucleares.
  • Dmitry Pruss mantiene un sitio con muchas imágenes buenas, incluida una vista dinámica, paso a paso, del núcleo nuclesomal que comienza con los dominios de pliegue de histonas y termina con un núcleo completo, con ADN. www.average.org/~pruss/nucleosome.html
  • Otro buen sitio es de J.R. Bone: rampages.onramp.net/~jrbone/chrom.html

Estructura de cromatina de orden superior

  1. La fibra de 10 nm compuesta de núcleos nucleosomales y espaciadores se pliega en estructuras de orden superior para gran parte del ADN de la cromatina. De hecho, la fibra de 10 nm con apariencia de perlas en una cuerda en el microscopio electrónico se preparó a concentraciones de sal muy bajas y está libre de histona H1.
  2. En presencia de H1 y en concentraciones de sal más fisiológicas, la cromatina forma una fibra de 30 nm. La estructura exacta de esta fibra sigue siendo un punto de considerable debate, y no se puede descartar la posibilidad de una estructura múltiple en esta fibra.
  3. Un modelo razonable es que la fibra de 10 nm se enrolla alrededor de sí misma para generar un solenoide de 30 nm de diámetro, con 6 nucleosomas por vuelta del solenoide.

La histona H1 se une a la superficie exterior del núcleo nucleosómico, interactuando en los puntos de entrada y salida del ADN. Las moléculas H1 pueden reticularse entre sí con reactivos químicos, lo que indica que las proteínas H1 también interactúan entre sí. Las interacciones entre las proteínas H1, cada una unida a un núcleo nucleosómico, pueden ser una de las fuerzas que impulsan la formación de la fibra de 30 nm.

Figura 4.34. Modelo para una vuelta del solenoide en la fibra de 30 nm.

4. Cada nivel de estructura de la cromatina produce una disposición más compacta del ADN. Esto se puede describir en términos de una relación de empaquetamiento, que es la longitud del ADN en un estado extendido dividida por la longitud del ADN en el estado más compacto.

Para la fibra de 10 nm, la relación de empaquetamiento es de aproximadamente 7, es decir, hay 7 mm de ADN por mm de fibra de cromatina. La proporción de empaquetamiento en el núcleo es mayor (ver problemas), pero esto no incluye el ADN adicional menos compactado en el espaciador. En la fibra de 30 nm, la relación de empaquetamiento es de aproximadamente 40, es decir, hay 40 mm de ADN por mm de fibra de cromatina.

5. La fibra de 30 nm es probablemente el componente básico tanto de la cromatina en interfase como de los cromosomas mitóticos. Puede compactarse aún más mediante bobinas y bucles adicionales. Una de las cuestiones clave en la regulación genética es la naturaleza de la fibra cromática en la eucromatina transcripcionalmente acativa. ¿Es la fibra de 10 nm? la fibra de 30 nm? alguna modificación de este último? o incluso alguna estructura de orden superior? Estos son temas de investigación actual.


Análisis comparativo del genoma y transcriptoma de diatomeas, Skeletonema costatum, revela la evolución de genes para la floración de algas nocivas

Las diatomeas juegan un papel importante en la fijación de carbono con aproximadamente el 20% de la fijación total en el mundo. Sin embargo, la floración de algas nocivas, conocida como marea roja, es un problema importante en el medio ambiente y la industria pesquera. A pesar de que se han realizado estudios intensivos hasta ahora, el mecanismo molecular detrás de la floración de algas nocivas no se entendió completamente. Se han secuenciado dos diatomeas principales, pero deberían examinarse más diatomeas a nivel del genoma completo, y se requirieron estudios del genoma evolutivo para comprender el panorama del mecanismo molecular de la floración de algas nocivas.

Resultados

Aquí secuenciamos el genoma de Skeletonema costatum, que es la diatomea dominante en Japón que causa una floración de algas nocivas, y también realizó un análisis de secuenciación de ARN para las condiciones en las que a menudo ocurren floraciones de algas nocivas. Como resultados, encontramos que tanto los estudios genómicos evolutivos como los transcriptómicos comparativos revelaron genes para la respuesta al estrés oxidativo y la respuesta a la citoquinina es una clave para la proliferación de la diatomea.

Conclusiones

Las diatomeas que causan floraciones de algas nocivas han obtenido múltiples copias de genes relacionados con la respuesta al estrés oxidativo y la respuesta a las citoquininas y han obtenido la capacidad de expresión génica intensiva en las floraciones.


Estudio de genómica comparada

En este artículo discutiremos sobre el estudio de la genómica comparada.

Todos los genes de un organismo no son funcionales. En diferentes grupos de organismos, el porcentaje de genes funcionales varía. Por ejemplo, en las bacterias, 3-5 genes no son funcionales, mientras que en los seres humanos el 97% de los genes no son funcionales. Además, el nivel de conservación evolutiva de las proteínas microbianas es bastante uniforme con el 70% de los productos génicos.

Cada uno de los genomas secuenciados tiene homólogos en genomas distantes. Por lo tanto, la función de muchos de estos genes se puede predecir comparando diferentes genomas y transfiriendo la anotación funcional de proteínas de organismos mejor estudiados a sus ortólogos de organismos menos estudiados.

Con base en los hechos anteriores, el estudio de la genómica comparada demostró ser un enfoque poderoso para lograr una mejor comprensión de los genomas y, posteriormente, de la biología de los organismos respectivos. Recientemente, parte del genoma de los microorganismos a saber. Haemophilus influenzae, Mycoplasma genitalium, Methanococcus jannaschii, Saccharomyces cerevisiae, Escherichia coli. Bacillus subtilis se ha secuenciado completamente.

El análisis computacional de genomas completos requiere una base de datos (un depósito de la estructura genética de los organismos) que almacena información genómica y herramientas bioinformáticas. Para estudiar genomas completamente secuenciados, se requieren análisis de ácidos nucleicos, proteínas, etc. Hoy en día, incluso el análisis de conjuntos de proteínas también demostró ser una herramienta para estudiar el análisis del genoma.

Por lo tanto, es posible saber comparando diferentes genomas y transfiriendo la anotación funcional de proteínas de organismos mejor estudiados a sus ortólogos [es decir, genes que están conectados por descendencia evolutiva vertical (el & # 8220mismo & # 8221 gen en diferentes especies)] en contraposición a los parálogos (es decir, genes relacionados por duplicación dentro de un genoma) de organismos menos estudiados.

Esto hace que la genómica comparada sea un enfoque poderoso para lograr una mejor comprensión de los genomas y, posteriormente, de la biología de los organismos respectivos.

Bases de datos para genómica comparada:

World Wide Web (www) es accesible y accesible para cualquier persona que utilice Internet.

Esta base de datos proporciona información sobre las proteínas, sus estructuras tridimensionales, patrones enzimáticos, patrones PROSITE, dominios Pfam, dominios BLOCKS y SCOP, así como palabras clave PIR y superfamilias PIR.

Los clústeres de grupos de ortólogos (COG) son aplicables para simplificar los estudios evolutivos de genomas completos y mejorar las asignaciones funcionales de proteínas individuales. Se compone de -2,800 familias conservadas de proteínas de cada uno de los genomas secuenciados.

Contiene conjuntos orthologus de proteínas de al menos tres linajes filogenéticos que se supone que han evolucionado a partir de una proteína ancestral individual. Las funciones de los ortólogos son las mismas en todos los organismos.

Las familias de proteínas en la base de datos de los COG se separan en 17 grupos funcionales que incluyen un grupo de proteínas no caracterizadas pero conservadas, así como un grupo de proteínas para las que sólo parece apropiada una asignación funcional general.

En la base de datos de los COG debido al almacenamiento de diversa naturaleza de datos sobre proteínas, las búsquedas de similitud también brindan alguna información para aquellas proteínas que no tienen información clara & # 8217s en las bases de datos. Las bases de datos también actúan como una herramienta para un análisis comparativo de genomas completos.

La Enciclopedia de genes y genomas de Kyoto (KEGG) Los centros sobre el metabolismo celular fueron propuestos por Kaneshisa y Goto (2000). Se ha proporcionado un conjunto completo de gráficos de vías metabólicas, tanto generales como específicas, para el organismo secuenciado (genoma). En esto, las enzimas identificadas en un organismo en particular están codificadas por colores, de modo que se pueden rastrear fácilmente las vías.

También proporciona las enzimas codificadas para los genes orthologus. Estos genes, si se encuentran adyacentes entre sí, se forman como operones, por ejemplo, se puede hacer una comparación entre dos genomas completos en los que los genes están ubicados relativamente cerca o adyacentes (con cinco genes). Este sitio es útil para obtener información & # 8217s para el análisis del metabolismo en varios organismos.

La base de datos del genoma microbiano (MBGD) se encuentra en la Universidad de Tokio, Japón. Esta base de datos ayuda a buscar genomas microbianos. MBGD acepta las varias secuencias a la vez (-2000 residuos) para buscar en todas las pantallas genómicas completas disponibles, funciones codificadas por colores de los homólogos detectados y su ubicación en un mapa del genoma circular. Esta base de datos también proporciona información & # 8217s sobre las funciones, p. Ej. degradación de hidrocarburos o biosíntesis de nucleótidos, etc.

Similar a KEGG, WIT (& # 8220What is there & # 8221 database) proporciona información & # 8217s sobre la reconstrucción metabólica de genomas completamente secuenciados. Las características de WIT son proporcionar una secuencia de reacciones entre dos bifurcaciones, además de incluir proteínas de muchos genomas parcialmente secuenciados. Estas características de WIT proporcionan mucha más información sobre las secuencias de las mismas proteínas / enzimas obtenidas / de diferentes organismos.

Subgrupos de bioinformática:

La bioinformática tiene más subgrupos a saber. redes, bases de datos de secuencias y teorías de alineación, análisis filogenético, predicciones de estructuras secundarias y análisis de ADN, estructuras biomoleculares, dinámica y función, motivos proteicos, análisis de modelos de estructuras 3D de macromoléculas, aplicaciones en el descubrimiento de moléculas sintéticas para calor, humanos enfermedades y mecanismos moleculares implicados en la regulación génica, etc.

Pasos de la formación de la secuencia:

La herramienta de bioinformática proporciona el análisis de información secuencial.

Este proceso implica:

I. Identificar los genes en las secuencias de ADN de varios organismos.

ii. Desarrollar métodos para estudiar la estructura y / o las funciones de las secuencias recién identificadas y las correspondientes secuencias de ARN estructural.

iii. Identificación de familias de secuencias relacionadas y desarrollo de modelos.

iv. Alinear secuencias similares y generar árboles filogenéticos para examinar las relaciones evolutivas.

Para conocer el conocimiento biológico y biofísico, se requiere la conversión de información de secuencia. La información & # 8217s de la secuencia biológica puede descifrar las pistas estructurales, funcionales y evolutivas codificadas en los lenguajes de las secuencias biológicas. La decodificación de lenguajes puede descomponerse en oraciones (proteínas), palabras (motivos) y letras (aminoácidos), y el código puede abordarse en una variedad de estos niveles.

Un cambio de una sola letra dentro de una palabra a veces puede cambiar su significado, por ejemplo, un codón de cadena para ácido glutámico (GAA) a valina (GUA) en individuos homocigotos. Esta pequeña diferencia da como resultado un cambio de un estado de salud normal a una anemia falciforme mortal.

Requerimientos básicos:

A continuación se muestran algunos de los requisitos:

una. Investigación biológica en la web.

B. Análisis de secuencia, alineación por pares y búsqueda en bases de datos.

C. Múltiples alineaciones de secuencia, árboles y perfiles.

D. Visualización de estructuras de proteínas y cálculo de propiedades estructurales.

mi. Predicción de la estructura y función de las proteínas a partir de la secuencia.

F. Herramientas para genómica y proteómica.

Los paquetes (software) bien conocidos para el análisis de secuencias de ADN y proteínas incluyen Staden y Gene world (para secuencias de ADN y proteínas) Gene Thesarus (acceso a datos públicos e integración con datos patentados), Lasergene (para análisis de codificación, comparación de sitios de patrones, estructura y análisis comparativo, análisis de sitios de restricción, diseño de cebadores y sondas de PGR, edición de secuencias, ensamblaje y análisis, etc.), CINEMA (el paquete proporciona instalaciones para la identificación de motivos usando BLAST), EMBOSS (usando análisis de patrones de secuencia de nucleótidos, análisis de uso de codones, análisis de genes herramientas de identificación, identificación de motivos de proteínas y búsqueda rápida en bases de datos con patrón de secuencia), EGCG (para ensamblaje de fragmentos, análisis de mapeo de secuencias múltiples, análisis de secuencias de nucleótidos y proteínas de reconocimiento de patrones, etc.).

Los datos biológicos y el almacenamiento de información se muestran a continuación en la Tabla 27.12:

Clasificación de bases de datos:

Las bases de datos se clasifican ampliamente en dos categorías: bases de datos de secuencias (involucra tanto proteínas como secuencias de ácidos nucleicos) y bases de datos estructurales (involucra solo bases de datos de proteínas).

Además, también se clasifica en tres categorías:

Primary databases contain information of the sequence or structure alone of either protein or nucleic acid e.g. PIR or protein sequences, GenBank and DDBJ for genome sequences. Secondary databases contain derived informations from the primary databases, for example informations on conserved sequence, signature sequence and active site residues of protein families by using SCOP, eMOTIF, etc.

The composite database is obviating the need to search multiple resources. The SCOP is structural classification of proteins in which the proteins are classified into hierarchical levels such as classes, folds, superfamilies.

Comparative Modelling or Homology Modelling:

It is useful in aligning two sequences to identify segments that share similarity. It later identifies the structure of desired protein. After predicting the structure of the homology, rigid body assembly approach is applied for assembling the structure that represents the core loop regions, side chains, etc. In sediment matching procedure, coordinates are calculated from approximate position of conserved atoms of the templates.

The alignment of the sequence of interest with one or more structural templates can be used to derive a set of distance constraints which gives informations on distance geometry or retrained energy minimization or retained molecular dynamics to obtain the structure.

It is a technique to match a sequence with a protein shape in the absence of any substantial sequence identity to proteins of known structure, whereas comparative modelling requires protein sequences.

Threading is followed by scoring, that creates a profile for each site or using a potential based pair wise interaction. Potential energy functions may be obtained from ab initio quantum mechanical calculations or from thermodynamic, spectroscopic or crystallographic method or by combination method.

(B) Sequence analysis:

In order to understand the protein/nucleic acid structure and evolution, the analysis of their sequence data is required. The sequence analysis is the detection of homologus (orthologus: same function, different species) or paralogus (different but related functions within one organism) relationships by means of routine database searches.

Some of the important resources are outlined in the following:


Comparative Genome Analysis and Global Phylogeny of the Toxin Variant Clostridium difficile PCR Ribotype 017 Reveals the Evolution of Two Independent Sublineages

The diarrheal pathogen Clostridium difficile consists of at least six distinct evolutionary lineages. The RT017 lineage is anomalous, as strains only express toxin B, compared to strains from other lineages that produce toxins A and B and, occasionally, binary toxin. Historically, RT017 initially was reported in Asia but now has been reported worldwide. We used whole-genome sequencing and phylogenetic analysis to investigate the patterns of global spread and population structure of 277 RT017 isolates from animal and human origins from six continents, isolated between 1990 and 2013. We reveal two distinct evenly split sublineages (SL1 and SL2) of C. difficile RT017 that contain multiple independent clonal expansions. All 24 animal isolates were contained within SL1 along with human isolates, suggesting potential transmission between animals and humans. Genetic analyses revealed an overrepresentation of antibiotic resistance genes. Phylogeographic analyses show a North American origin for RT017, as has been found for the recently emerged epidemic RT027 lineage. Despite having only one toxin, RT017 strains have evolved in parallel from at least two independent sources and can readily transmit between continents.

Palabras clave: Clostridium difficile SNPs antibiotic resistance evolution phylogenetics phylogeny ribotype 017 sequencing.

Copyright © 2017 Cairns et al.

Cifras

Maximum-likelihood phylogenetic analysis of 277…

Maximum-likelihood phylogenetic analysis of 277 global RT017 isolates based on core genome SNPs…

Maximum-likelihood phylogenetic analysis of 277…

Maximum-likelihood phylogenetic analysis of 277 global RT017 isolates based on core genome SNPs…

Bayesian evolutionary analysis of 277…

Bayesian evolutionary analysis of 277 global RT017 isolates based on core genome SNPs…

Maximum-likelihood phylogenetic analysis of the…

Maximum-likelihood phylogenetic analysis of the global RT017 isolates based on core genome SNPs…

Global transmission events inferred from…

Global transmission events inferred from Bayesian evolutionary analysis of RT017. From the geotemporal…


Conclusiones

The isolation and genome sequencing of six L. brevis strains combined with thirteen additional, publicly available L. brevis genomes allowed a comparative genome analysis of the L. brevis especies. The deduced pan-genome of these L. brevis isolates appears to be in a closed state, indicating that the representatives used in this study are sufficient to describe the genetic diversity of the taxon. Throughout evolution, it appears that L. brevis strains specified and differentiated one from another by acquiring plasmids and prophages, despite for the presence of CRISPR-Cas and R/M systems which may have limited such foreign DNA invasion events. These latter systems are of relevance for future functional investigations that may necessitate the development of DNA transfer and/or mutagenesis tools. L. brevis strains represent a significant threat for the brewing industry being the most common cause of beer spoilage however, this spoiling ability is strain specific. The comparative genome analysis performed here highlights that L. brevis strains with the ability to grow in beer possess a higher number of CDSs in their overall chromosomal sequences. This observation suggests a link to evolution and adaptation to beer in which the strain would have acquired novel genes and functions in order to adapt and survive in the harsh environment that beer represents. The role(s) of the “acquired” or beer-specific CDSs revealed that almost a quarter of these are linked to oxido-reduction reactions, possibly playing a role in the response to oxidative stress. Another 22% are linked to transcription regulation, 21% encode cell surface proteins while 14% are encoding membrane transport related proteins and possibly associated to harmful compound extrusion encountered by the L. brevis strains when surviving and growing in beer. Additional genetic diversification of these L. brevis strains is expected to have occurred through plasmid acquisition that also likely contributes to beer adaptation. The plasmid content analysis of the different L. brevis beer-spoiler strains highlighted the presence of unique proteins shared among these strains. These proteins are mostly hypothetical proteins while approximately 30% are linked to membrane transport, and cell-wall synthesis. These observations demonstrate the complexity of microorganisms’ beer spoilage ability and suggests that adaptation of the L. brevis strain to beer is a complex process, not due to the action of only one specific gene, but more likely the intervention of a complex, multi-factorial response.


Comparative Genome Analysis of Four Magnetotactic Bacteria Reveals a Complex Set of Group-Specific Genes Implicated in Magnetosome Biomineralization and Function

HIGO. 1. Phylogenetic affiliation of best BLAST hits of all conserved ORFs from MSR-1. Bars represent the top-10 numbers of the best E-value hits from each conserved gene in MSR-1. (A) Distribution with all database species from genomesDB included. (B) Distribution after closest relatives AMB-1, MS-1, and R. rubrum were excluded from analysis. HIGO. 2. Comparative gene content analysis of MTB based on reciprocal best matches. The Venn diagrams illustrate the shared gene content between the four genomes. For visualization, individual diagrams for three genomes are shown. The numbers of species-specific genes and shared genes are indicated. (A) Shared gene content between MSR-1, AMB-1, and MS-1. (B) Shared gene content between MSR-1, AMB-1, and strain MC-1. HIGO. 3. Phylogenetic tree of MamH (MGR4089) orthologous and paralogous proteins including the MTB-related MGR4148 (maximum-likelihood analysis). MamH represents a typical example for an MTB-related protein defined in this study i.e., it forms a coherent phylogenetic branch within its family tree. In addition, the newly identified MTB-related MGR4148 gene is related to MamH but forms a distinct group. The three major clusters are indicated by different colors. The numbers indicate the bootstrap support for selected nodes. HIGO. 4. Gene neighborhood representation of selected group-specific genes. Identical colors indicate homologous genes in the corresponding genomes. Arrows in bold lines indicate identification of the gene product within the magnetosome membrane. (A) mamXY grupo. Conserved gene neighborhood of MGR4148, mamX (MGR4149), and mamY (MGR4150) (top). Schematic representation of the different Pfam domain structure of the MTB-related gene MGR4148 compared to mamH (bottom) (B) Gene neighborhood of mtxA. The corrected annotation for the MGR0208 homolog of AMB-1 is shown. (C) Gene neighborhood of MGR3500. (D) Gene neighborhood of mmsF (MGR4072).

Conclusiones

The bench-top sequencing revolution has led to a ‘democratization’ of sequencing, meaning most research laboratories can afford to sequence whole bacterial genomes when their work demands it. However analysing the data is now a major bottleneck for most laboratories. We have provided a starting point for biologists to quickly begin working with their own bacterial genome data, without investing money in expensive software or training courses. The figures show examples of what can be achieved with the tools presented, and the accompanying tutorial gives step-by-step instructions for each kind of analysis.


What other genomes have been sequenced?

Researchers have sequenced the complete genomes of hundreds of animals and plants-more than 250 animal species and 50 species of birds alone-and the list continues to grow almost daily.

In addition to the sequencing of the human genome, which was completed in 2003, scientists involved in the Human Genome Project sequenced the genomes of a number of model organisms that are commonly used as surrogates in studying human biology. These include the rat, puffer fish, fruit fly, sea squirt, roundworm, and the bacterium Escherichia coli. For some organisms NHGRI has sequenced many varieties, providing critical data for understanding genetic variation.

DNA sequencing centers supported by NHGRI also have sequenced genomes of the chicken, dog, honey bee, gorilla, chimpanzee, sea urchin, fungi and many other organisms.

Researchers have sequenced the complete genomes of hundreds of animals and plants-more than 250 animal species and 50 species of birds alone-and the list continues to grow almost daily.

In addition to the sequencing of the human genome, which was completed in 2003, scientists involved in the Human Genome Project sequenced the genomes of a number of model organisms that are commonly used as surrogates in studying human biology. These include the rat, puffer fish, fruit fly, sea squirt, roundworm, and the bacterium Escherichia coli. For some organisms NHGRI has sequenced many varieties, providing critical data for understanding genetic variation.

DNA sequencing centers supported by NHGRI also have sequenced genomes of the chicken, dog, honey bee, gorilla, chimpanzee, sea urchin, fungi and many other organisms.


XuW, XiW, and WZ designed and coordinated the study and carried out the data analysis. XuW, XiW, LS, and WZ performed the bioinformatics analysis. XuW, XiW, JL, and RY carried out the experiments and interpreted data for the work. XuW, XiW, and WZ wrote the manuscript. GQ checked and edited the manuscript. All authors have read and approved the manuscript.

This work was supported by the National Natural Science Foundation of China (No. 31470230, 51320105006, 51604308), the Youth Talent Foundation of Hunan Province of China (No. 2017RS3003), Natural Science Foundation of Hunan Province of China (No. 2018JJ2486), Key Research and Development Projects in Hunan Province (2018WK2012), Fundamental Research Funds for the Central Universities of Central South University (No. 2018zzts767).


Materiales y métodos

Cotton Materials

Plants of GRAMO. rotundifolium (accession number K201), GRAMO. arboreum (cultivar Shixiya-1) and GRAMO. raimondii (accession number D502) are maintained in the National Wild Cotton Nursery and are also cultivated in the greenhouse of Huazhong Agricultural University in Wuhan, China. Fresh young leaves were collected individually and immediately frozen in liquid nitrogen.

Library Construction and Nanopore Sequencing

High-quality genomic DNA from one plant was extracted and inspected for purity, concentration, and integrity using Nanodrop, Qubit, and 0.35% agarose gel electrophoresis, respectively. Large DNA fragments (20–150 Kb) were collected using the BluePippin system. DNA libraries were constructed using the SQK-LSK109 kit following the standard protocol of Oxford Nanopore Technologies (ONT). Briefly, DNA fragments were subject to optional fragmentation, end repair, ligation of sequencing adapters, and tether attachment. The Qubit machine was used to quantify each DNA library. DNA sequencing was performed on the PromethION platform (R9.4.1 FLO-PRO002 Biomarker Technologies). Nanopore data (binary fast5 format) was subjected to base calling using the Guppy software from the MinKNOW package. Processed reads were subject to removal of sequencing adapters and filtering of reads with low quality and/or short length (<2,000 bp), and surviving reads were converted to fastq format for subsequent analysis. For each accession, we also constructed DNA libraries using the NEBNext ® Ultra™ DNA Library Prep Kit for sequencing on the Illumina Novaseq 6000 platform (paired-end, 150 bp).

Hi-C Experiment and Library Construction

Fresh leaves (1 g) from G. rotundifolium were chopped with sharp blades, fixed with 1% formaldehyde solution, frozen in liquid nitrogen, and were used for nuclear extraction. Nuclei were digested with 30–50 U HindIII/DpnII for 15 h at 37°C. Digested chromatin was end-labeled with biotin-14-dCTP, and the DNA product was purified after blunt-end ligation. Then, the DNA was fragmented by ultrasound to a length of less than 500 bp. DNA fragments of 300–500 bp were captured by Streptavidin T1 magnetic beads. The library was prepared from the DNA isolated by the magnetic beads using the DNA library kit (Vazyme, #NDM607), and the obtained DNA library was sequenced (paired-end 150 bp reads) using the MGI2000 system.

Genome Assembly and Assessment

Nanopore sequencing reads were corrected via Canu (v1.3) with the parameter “correctedErrorRate = 0.045” ( Koren et al. 2017). Clean reads were subsequently subject to de novo assembly using wtdbg (Ruan and Li 2019) (https://github.com/ruanjue/wtdbg). Assembled contigs were calibrated using Racon ( Vaser et al. 2017) and then polished with the Illumina sequencing reads using Pilon ( Walker et al. 2014) (v1.22 parameters: –mindepth 10 –changes –fix bases) for three iterations. In total, we corrected 12.6 million (M), 6.0 M and 27.2 M SNPs, and 17.6 M, 9.2 M, and 31.0 M InDels in the A2, D5 y K2 assemblies, respectively. Assembly quality was assessed three ways. First, Illumina reads were mapped to the contigs using BWA (-mem) ( Li and Durbin 2009), and the properly mapped reads were counted using SAMTools (v0.1.19 -flagstat) ( Li et al. 2009). Second, the assemblies were evaluated for the 458 conserved core genes found in the CEGMA (v2.5) database ( Parra et al. 2007). Finally, the assemblies also evaluated using the BUSCO embryophyta_odb9 data set, which contains 1,440 conserved eukaryotic genes ( Simao et al. 2015).

Chromosome Assembly Using Hi-C

Hi-C data were used to construct chromosome-level assemblies for the three genomes. Hi-C data of G. arboreum y G. raimondii were previously published ( Wang et al. 2018). Hi-C data of G. rotundifolium was newly generated here with two independent experiments (HindIII and DpnII for digestion of chromatin) ( supplementary table 2 , Supplementary Material online). Notably, up to 99.5% of A/B compartment regions and 96.4% of TAD boundaries overlapped in these two experiments (The method for A/B compartment and TAD analysis was described below), and the HindIII Hi-C data was used for further analysis. The resolution of Hi-C data sets was estimated as 20 Kb for G. arboreum, 10 Kb for G. raimondii, and 20 Kb for G. rotundifolium using the method described previously ( Rao et al. 2014). We performed a preassembly for error correction of contigs, which required splitting the contigs into segments of 50 Kb (on average). Hi-C data were mapped to these fragments and unique mappings were retained for the assembly using LACHESIS (v1.0) ( Burton et al. 2013). Any two segments that showed inconsistent connections with information from the raw contigs were checked manually. Corrected contigs were used to construct chromosome-level assemblies using LACHESIS with the parameters (CLUSTER_MIN_RE_SITES = 10, CLUSTER_MAX_LINK_DENSITY = 2, CLUSTER_NONINFORMATIVE_RATIO = 2, ORDER_MIN_N_RES_IN_TRUN = 219, ORDER_MIN_N_RES_IN_SHREDS = 216). To assess assembly quality, each assembly was split into 100-Kb bins to serve as a reference for Hi-C data mapping using HiC-Pro (v2.7.1) ( Servant et al. 2015). Obvious placement and orientation errors in chromatin interaction patterns were manually adjusted. The interaction matrices generated by HiC-Pro were displayed with heatmaps at a 100 Kb resolution.

Transposon Prediction

We used both LTR_Finder (v1.07) ( Xu and Wang 2007) with “-C -M 0.8” and RepeatScout (v1.0.5) ( Price et al. 2005) with default parameters to construct a repetitive sequence library, representing structure-based prediction and ab initio prediction, respectively. PASTEClassifier (v1.0) was used to classify sequences in the library with respect to repeat type, and these were subsequently merged with Repbase (version 19.06) for the final repeat library ( Bao et al. 2015). This library was used to predict repetitive sequences in each genome using RepeatMasker (-nolow -no_is -norna -engine wublast) ( Tarailo-Graovac and Chen 2009).

LTR Retrotransposon Analysis

LTR_Finder ( Xu and Wang 2007) was used with parameter settings (-C -M 0.8) to identify full-length LTRs in each genome. Long-terminal repeat (LTR) sequences were clustered from each full-length LTR element using the CD-HIT program ( Fu et al. 2012) with parameter “-d 0 -c 0.8 -aL 0.80 -T 0 -M 1500000” for LTR family analysis. For each full-length LTR retrotransposon, the 5′ LTR and 3′ LTR sequences were aligned using MUSCLE (v3.8.1551) ( Edgar 2004) and the divergence distance between them was calculated with a Kimura two parameter (K2P) model using “distmat” from the EMBOSS toolkit ( Rice et al. 2000). Divergence time was estimated using the formula T = K/2r (where K is the distance between two LTRs and r is the rate of nucleotide substitution per site per year, r = 3.5 × 10 −9 ) ( Chen et al. 2020 Huang et al. 2020). According to the time of divergence (5 Ma) among the three Gossypium species, the burst time of full-length LTR retrotransposons were divided into ancient TE (≥5 Ma) and young TE (<5 Ma), depending on whether the burst was inferred to have occurred prior to or following divergence of these clades. The expression level of transposon was calculated based on the definition of Reads Per Kilobase per Million mapped reads (RPKM), and those with RPKM greater than 0.1 were considered as “expressed TE.” Gossypium retrotransposable Gypsy-like element (Gorge3) sequences ( Hawkins et al. 2006) were aligned against the full-length LTR elements from G. rotundifolium, G. arboreum, G. raimondii, y Gossypioides kirkii (Udall, Long, Ramaraj et al. 2019) using a reciprocal blastn (-e 1e-05) search. MAFFT (v7.453) ( Katoh and Standley 2013) was used for Gorge3 5' LTR domain with multiple sequence alignments in four species, and then phylogenic tree was constructed using the IQ-TREE program ( Nguyen et al. 2015).

Gene Prediction

To predict protein-coding genes, three different strategies were adopted, including ab initio prediction, homolog-based prediction, and transcript-based prediction. Genscan ( Burge and Karlin 1997), Augustus (v2.4) ( Stanke and Morgenstern 2005), GlimmerHMM (v3.0.4) ( Majoros et al. 2004), SNAP (v2006-07-28) ( Korf 2004) were used for ab initio prediction. GeMoMa (v1.3.1) ( Keilwagen et al. 2018) was used for predicting genes based on homologous protein from other species (Populus trichocarpa, Arabidopsis thaliana, Vitis vinifera, Theobroma cacao, y GRAMO. raimondii). Hisat2 (v2.0.4) ( Kim et al. 2015) and Stringtie (v1.2.3) ( Pertea et al. 2015) were used for reference-guided transcript assembly. PASA (v2.0.2) ( Haas et al. 2003) was used to predict unigene sequences based on RNA-Seq data without reference-guided assembly. Finally, EVM (v1.1.1) ( Haas et al. 2008) was used to integrate the prediction results obtained by the above three methods, and PASA (v2.0.2) ( Haas et al. 2003) was used to modify gene models. To identify pseudogenes, GenBlastA (v1.0.4) ( She et al. 2009) was used to scan each genome after masking predicted protein-coding sequences and GeneWise (v2.4.1) ( Birney et al. 2004) was used to identify premature stop codons and frameshift mutations relative to the intact reference proteins. The functional annotation of predicted genes was performed using 1) InterProScan (v5.0) ( Jones et al. 2014) with “-iprlookup -goterms” parameter settings, 2) NR (v20190625) with “-evalue 1e-05 -best_hit_overhang 0.25 -max_target_seqs 5”, and 3) The Arabidopsis Information Resource 10 (TAIR10) database ( Lamesch et al. 2012). Gene Ontology (GO) enrichment analysis was performed using a Fisher’s exact test method ( Carbon et al. 2019). GO enrichment analysis was performed for genes showing A-to-B and B-to-A compartment status change, using different background gene sets (K2 and A2 genes were combined as a reference set and orthologous gene pairs showing A/B compartment status change were used as a test set similarly, A2 and D5 genes were combined as another reference set).

Identification of Centromeric Regions

Previously identified centromeric regions from the published TM-1 reference genome, that is, GhCR1-5′LTR, GhCR2-5′LTR, GhCR3-5′LTR and GhCR4-5′LTR ( Wang et al. 2015 Wang et al. 2019), were aligned to the K2, A2y D5 genome sequences using MUMmer (v4.0) ( Delcher et al. 2002), with the parameters “-c 90 -l 40” followed by “delta-filter -1,” to identify uniquely aligning regions. After manual filtering of alignments, the SPSS software (version 17.0) was used to calculate the 95% confidence interval for the median representing the centromeric region for each chromosome.

Comparative Genomes and Gene Synteny Analysis

The genomic sequences of G. rotundifolium, G. arboreum, y G. raimondii were aligned using MUMmer (v4.0) with the following parameters: 1) nucmer -max match -c 90 -l 40 and 2) delta-filter -1. Syntenic blocks among the three genomes were constructed using MCScanX ( Tang et al. 2008) with default settings and requiring a minimum of five homologous genes. The newly assembled A2 and D5 reference genomes were compared with published genomes ( Paterson et al. 2012 Du et al. 2018 Udall, Long, Hanson et al. 2019 Huang et al. 2020) from CottonGen website (https://www.cottongen.org/data/download) by MUMmer (v4.0) and MCScanX. The Chr01-Chr02 large translocation of A2-specific rearrangement and Chr13-Chr05 large translocation of K2-specific rearrangement were confirmed by comparing with the published A1 ( Huang et al. 2020), D1 ( Grover et al. 2019), D10 (Udall, Long, Hanson et al. 2019 Udall, Long, Ramaraj et al. 2019) and F1 ( Grover et al. 2020) genomes. The single-copy gene families among three Gossypium genomes were extracted using an OrthoMCL analysis ( Li et al. 2003).

Analysis of A and B Compartments

Hi-C interaction data can be used to partition the genome into two compartments, based on spatial organization of the chromatin and the relative paucity of interactions between compartments. Referred to as A/B compartments, these represent chromatin regions corresponding to open and closed chromatin, respectively. We evaluated each genome for the presence of A/B compartments, as described previously ( Lieberman-Aiden et al. 2009). Briefly, Hi-C data for each species were aligned using HiC-Pro, as mentioned above. Valid interaction reads were used to construct heatmaps of each chromosome at resolutions of 20 Kb, 50 Kb, and 100 Kb. Raw contact maps were normalized using a sparse-based implementation of the iterative correction method embedded in HiC-Pro (v2.11.1) ( Servant et al. 2015). The principal component analysis (PCA) method was used to identify A and B compartments by the HiTC (v1.0) package in R ( Servant et al. 2012). Each chromosome was divided into consecutive 50 Kb bins for the construction of normalized interaction matrices as described in our previous study ( Wang et al. 2018). Chromosomal bins with values of greater than zero were regarded as “A compartment,” bins with values of less than zero were regarded as “B compartment.” At the chromosome level, A compartment has a higher gene density and a lower transposon density than B compartment. To analyze the A/B compartment status of homologous gene regions among three Gossypium genomes, genomic sequences of gene body, upstream and downstream 2 Kb that were known to be important for gene transcriptional regulation, were extracted. In this analysis, we only considered the regions where the first principal component value changes from positive (A) to negative (B) or vice versa.

Analysis of Topologically Associating Domains

Topologically associating domains (TAD) are regions of highly selfinteracting chromatin that have distinct boundaries and which have been shown to align with coordinately related gene clusters in some species. TAD regions for each species were identified using the HiTAD ( Wang et al. 2017) software with default settings. In this analysis, the raw chromatin interaction matrix for each chromosome was constructed using HiC-Pro at a resolution of 50 Kb. Each matrix file was transformed into the cooler format using the toCooler tool of HiCPeaks (https://github.com/XiaoTaoWang/HiCPeaks). In each species, TADs with a size of 300 Kb–2 Mb were retained for further analysis. To identify conserved and lineage-specific TADs, we compared TAD boundaries located in syntenic blocks from the results of MCScanX. Conserved boundaries were defined as those with a maximum boundary change of 3-resolution distance (150 Kb) and sequence similarity supported by the MUMmer alignments between two genomes.

TAD Boundary Motif Analysis

In each genome, the TAD boundary flanking 50 Kb were used to predict motifs with the findMotifsGenome.pl program in HOMER (v5.0) ( Heinz et al. 2010) software, with the parameters “-len 8,10,12 -size 200.” Putative motifs were filtered with cutoffs of PAG ≤ 0.01 for known and PAG ≤ 1e−10 for de novo prediction. We used 1,000 uniformly distributed random genomic regions that did not overlap with TAD boundaries as a control set for nonboundary regions.

RNA-Seq and Data Analysis

For each species, leaf total RNA was extracted using the Spectrum TM Plant Total RNA Kit (Sigma, STRN250). RNA libraries were constructed using the Illumina TruSeq RNA Library Preparation Kit (Illumina, San Diego, CA, USA) and sequenced on the Illumina HiSeq 4000 platform (pair-end 150 bp). After filtering of low-quality bases and sequence adapters, the clean RNA sequencing data were mapped to each genome using hisat2 (v2.0.4) ( Kim et al. 2015) software. High-quality mapping reads were extracted using SAMTools (v0.1.19 -q 25) ( Li et al. 2009). After filtering PCR duplicates using samtools (rmdup), the remaining reads were used to calculate the expression level of genes using Stringtie (v1.2.3) ( Pertea et al. 2015).


Ver el vídeo: Estudio del Genoma (Junio 2022).