Información

¿Deducir la distancia desde la duplicación del árbol?

¿Deducir la distancia desde la duplicación del árbol?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pregunta
Tengo una pregunta realmente simple, pero no puedo resolverla.
Hice un árbol (usando BLOSUM62). Aquí hay una parte del árbol:


¿Cómo puedo calcular la distancia hasta que ocurrió el evento de duplicación entre HBD y HBB?

  • solo para HBB 36.21 y para HBD 38.79
  • o 38,79 + 36,21 = 75

Más información
Determiné si este conjunto de secuencias sigue un reloj molecular y, de hecho, este fue el caso. Así que determiné la velocidad a la que evolucionan estas secuencias. Si puedo determinar la distancia entre HBD y HBB, puedo dividir esto por la tasa para obtener el tiempo desde que ocurrió el evento de duplicación.


¿Cómo podrías calcular este?


Suponiendo un reloj molecular, la distancia entre las secuencias y el evento de duplicación es75/2 = 37.5. Idealmente, estas secuencias deberían tener la misma distancia del nodo interno (debajo de un reloj), y podría usar un modelo que asuma explícitamente un reloj, lo que conducirá a árboles ultramétricos. Un ejemplo es el programa promlk (o dnamlk) del paquete phylip. Una alternativa más rápida sería el método UPGMA, que también le da un árbol ultramétrico.


La evaluación filogenética de las alineaciones revela una señal de árbol desatendida en los huecos

La alineación de las secuencias biológicas es de gran importancia para la mayoría de los estudios de genómica evolutiva y comparativa, sin embargo, los dos enfoques principales utilizados para evaluar la precisión de la alineación tienen fallas: las alineaciones de referencia se derivan de la muestra sesgada de proteínas con estructura conocida y los datos simulados carecen de realismo.

Resultados

Aquí, presentamos pruebas de precisión de alineación basadas en árboles, que no solo utilizan muestras grandes y representativas de datos biológicos reales, sino que también permiten la evaluación del efecto de la ubicación de la brecha en la inferencia filogenética. Mostramos que (i) la creencia actual de que las alineaciones basadas en la consistencia superan a las alineaciones basadas en matrices de puntuación es errónea (ii) las brechas llevan una señal filogenética sustancial, pero son poco explotadas por la mayoría de los programas de alineación y construcción de árboles (iii) aun así, excluyendo las brechas y las regiones variables son perjudiciales (iv) el desacuerdo entre los programas de alineación dice poco sobre la precisión de los árboles resultantes.

Conclusiones

Este estudio proporciona a la amplia comunidad que depende de la alineación de secuencias importantes recomendaciones prácticas, establece estándares superiores para evaluar la precisión de la alineación y allana el camino para el desarrollo de métodos de inferencia filogenética de resolución significativamente mayor.


Introducción

La azufaifaZiziphus jujuba Mill.) Es el miembro económicamente más importante de las Rhamnaceae, una gran familia cosmopolita 1,2. Es uno de los árboles frutales cultivados más antiguos del mundo, con evidencia de domesticación que se remonta a hace 7.000 años 3. Es originaria de China y ahora es un importante cultivo de frutos secos con un área de cultivo de 2 millones de hectáreas, la principal fuente de ingresos para 20 millones de agricultores, así como una medicina tradicional a base de hierbas para más de mil millones de personas en Asia 4. Se ha introducido en al menos 47 países desde las zonas templadas hasta las tropicales de los cinco continentes y se está volviendo cada vez más popular en todo el mundo 5,6.

El azufaifo tiene una variedad de características botánicas y hortícolas 6 que le confieren un gran potencial en el mejoramiento molecular de árboles frutales, la protección de la salud humana y el desarrollo económico y restauración ecológica de la región árida. Está bien adaptado a diversos estreses bióticos y abióticos, especialmente la sequía y la salinidad (Tabla complementaria 1), y se considera un cultivo comercial ideal para áreas áridas y semiáridas donde las frutas comunes y los cultivos de cereales / aceite no crecen bien. Su fruta es una excelente fuente de vitamina C (más alta que la conocida naranja y kiwi ricos en vitamina C) y azúcar (25-30%, el doble que la mayoría de las frutas e incluso más alta que la caña de azúcar y la remolacha azucarera) 7 ( Cuadro complementario 2). La azufaifa también tiene una diferenciación de botones florales muy fácil y rápida (solo

7 días), una larga temporada de floración de 2 meses, un período muy corto de

6 meses desde la siembra o la siembra hasta la producción de frutos, y un ciclo de vida muy largo, incluso más de 1.000 años productivos 3,6 (Fig. 1 complementaria).

Además, el árbol de azufaifo ha desarrollado un sistema de poda de brotes propios que comprende cuatro tipos de brotes, a saber, brote primario, brote secundario, brote madre (MBS) y rodamiento 6, cada uno de los cuales tiene una función y un patrón de desarrollo muy diferentes. El rodaje primario es el único brote normalmente extendido. El brote secundario se produce en cada nodo del brote primario y su punta muere de forma natural. MBS es la rama que produce brotes que llevan, se forma en cada nodo del brote secundario y está extremadamente condensado alargándose solo

1 mm por año. El brote del rodamiento es el único brote fructífero, es de hoja caduca y cae antes del invierno normalmente, lo cual es un rasgo muy poco común en las plantas de árboles. Este sistema de poda automática facilita el control del tamaño del árbol, y los tipos de brotes diversificados ofrecen un modelo único para dilucidar el desarrollo y la función de los brotes.

El contenido de azúcar y vitamina C son los indicadores más comunes de la calidad de la fruta, la poda es el trabajo más laborioso del manejo del huerto, lo que esperan los agricultores es una fructificación más temprana y años más productivos, y la sequía y la salinidad son las principales tensiones abióticas para el cultivo de la fruta. Por lo tanto, las propiedades antes mencionadas de la azufaifa son de gran importancia para la producción de fruta moderna caracterizada por una rápida amortización, fácil manejo y ahorro de mano de obra. Además, la azufaifa es un pariente cercano de las Rosales (ambas pertenecientes a la orden Rosales en el sistema de taxonomía molecular ampliamente aceptado de Angiospermas 8,9), la familia productora de frutas más importante que contiene un gran número de especies de frutas de hoja caduca líderes como manzana (Malus domestica), pera (Pyrus bretschneideri), Durazno (Prunus persica), fresa (Fragaria vesca) y Rubus. En consecuencia, la azufaifa podría ser una rica fuente de genes para el mejoramiento molecular de los árboles frutales, y es fundamental una comprensión fundamental de la genética de la azufaifa.

Hasta ahora, se han secuenciado y ensamblado más de 70 genomas de plantas desde la secuencia del genoma de Arabidopsis thaliana 10 se publicó en 2000. Sin embargo, el alto nivel de heterocigosidad y secuencias repetidas y el bajo contenido de GC siguen siendo los principales obstáculos para la secuenciación y el ensamblaje del genoma utilizando la tecnología de secuenciación de próxima generación (NGS). Debido a la corta longitud de lectura de la tecnología NGS, el algoritmo de ensamblaje siempre se basa en el gráfico 11 de De Bruijn, donde el locus heterocigoto entre haploides se convierte en una burbuja que da como resultado la ruptura del ensamblaje final en el locus heterozigótico. Las secuencias repetidas hacen que el ensamblaje sea fragmentario de manera similar. Se reintrodujo la estrategia de cromosoma artificial bacteriano a cromosoma artificial bacteriano (BAC-to-BAC) y se han ensamblado algunos genomas a un nivel razonable 12,13,14. Revelamos no solo una alta heterocigosidad y una alta densidad de secuencia repetida, sino también un bajo contenido de GC en el genoma de la azufaifa, lo que indicó que se debe aplicar un nuevo método para obtener una secuencia de buena calidad para este genoma complejo.

El conocimiento de la genética y la genómica de la azufaifa es muy limitado, y hasta ahora no se ha publicado ningún estudio de todo el genoma (datos sobre el tamaño del genoma, heterocigosidad y un mapa de ligamiento genético molecular completo) sobre ningún miembro de la familia Rhamnaceae, lo que ha obstaculizado significativamente la mejoramiento molecular, investigación biológica y utilización profunda del azufaifo. En esta investigación, generamos y analizamos una secuencia del genoma de alta calidad de uno de los cultivares de azufaifa chinos más antiguos y cultivados, "Dongzao" (2norte=2X= 24), utilizando una estrategia novedosa que integra la secuenciación de escopeta de genoma completo (WGS), BAC-to-BAC y una biblioteca libre de PCR. También llevamos a cabo análisis exhaustivos de transcriptomas de 15 tejidos diferentes y comparaciones evolutivas con especies relacionadas para identificar las características genéticas que probablemente respalden algunos de los rasgos más valiosos de la azufaifa. Nuestro estudio ofrece un rico recurso de información genética para la reproducción de azufaifa y el mejoramiento molecular de otras plantas y especies frutales de Rhamnaceae.


Resultados y discusión

Sesgo de reconciliación de árboles

La reconciliación de árboles procede agregando el número mínimo de ganancias y pérdidas al árbol de especies para que sea consistente con el árbol genético. La Figura 1 da dos ejemplos de tales reconciliaciones, mostrando explícitamente la historia inferida de ganancias y pérdidas y cómo estos se mapean luego en el árbol de especies. Si tanto el árbol de especies como el árbol de genes son correctos, entonces los diversos algoritmos de reconciliación en uso deberían recuperar el historial correcto de duplicación y pérdida, aunque con diferente eficiencia computacional [11]. Estos métodos también asumen que no faltan datos, un problema que podría resultar en pérdidas de genes inferidas incorrectamente [14].

Dos ejemplos de reconciliación de árboles. En ambos (a) y (B) el árbol más a la izquierda representa el árbol genético, el árbol del medio el árbol genético reconciliado que muestra las duplicaciones y pérdidas, y el árbol más a la derecha muestra el árbol de especies con ganancias (duplicaciones) y pérdidas mapeadas en las ramas apropiadas. Los árboles de genes reconciliados representan cómo se vería el árbol de genes, incluidos los genes perdidos (ramas grises).

Si uno de los árboles no es correcto (supongo a continuación que este será normalmente el árbol genético), entonces se agregan ganancias y pérdidas adicionales al árbol de especies para reconciliar completamente los dos árboles. La Figura 2a da un ejemplo de un árbol genético inferido incorrectamente, uno que simplemente tiene el orden de ramificación de dos de los genes homólogos cambiados (linajes B y C). Para reconciliar este árbol genético con el árbol de especies, se debe colocar una sola duplicación por encima del punto en el que los linajes afectados se dividen y deben ocurrir tres pérdidas genéticas separadas en los linajes terminales (Figura 2a). Cuando los métodos de reconciliación de árboles se llevan a cabo teniendo en cuenta el soporte de bootstrap (u otro) para cada nodo, las topologías inferidas incorrectamente pueden colapsarse de nuevo al orden de ramificación en el árbol de especies. Esto tiene el efecto de minimizar el número de ganancias y pérdidas de genes propuestas. La Figura 2b muestra el mismo ejemplo que en la Figura 2a, pero se ha dado al nodo un soporte de arranque relativamente bajo (65%) que provocará duplicaciones y eliminaciones adicionales. En este caso, cualquier corte de arranque utilizado que esté por encima del 65% resultará en el colapso de este nodo y no se inferirían duplicaciones o pérdidas.

Sesgo de reconciliación de árboles. (a) El efecto de inferir erróneamente el árbol genético: la adición de una duplicación y tres pérdidas. (B) Un ejemplo en el que un valor de arranque bajo (65%) por debajo del límite da como resultado el colapso del árbol genético. Como resultado, no se infieren duplicaciones ni pérdidas.

Como se discutió anteriormente, la pequeña cantidad de caracteres utilizados para construir un árbol genético dado significa que muchos árboles pueden inferirse incorrectamente. Incluso con secuencias relativamente largas, el requisito de que se encuentren árboles para cada familia en un genoma en un tiempo razonable significa que deben utilizarse métodos aproximados, como la unión de vecinos [19]. Si se necesita soporte de bootstrap en cada nodo, los métodos basados ​​en la probabilidad para inferir árboles genéticos se vuelven computacionalmente prohibitivos incluso para una pequeña cantidad de árboles. También se reconoce que un alto soporte de bootstrap puede depender del método filogenético exacto y del modelo de evolución de secuencia utilizado [17, 18, 20-22]. Además, distancias cortas entre nodos pueden resultar en árboles de genes individuales que son diferentes del árbol de especies debido a una clasificación incompleta del linaje, y no debido a errores en los métodos de reconstrucción de árboles [23-25]. Por todas estas razones, parece probable que muchos de los árboles genéticos en los estudios de genoma completo se hayan inferido incorrectamente o tengan un soporte de arranque artificialmente alto para topologías incorrectas. Además, algunos de los métodos más utilizados para realizar la reconciliación no permiten considerar el soporte para topologías [10, 11], por lo que no se pueden hacer concesiones para topologías incorrectas.

Los errores en la reconstrucción del árbol genético dan como resultado dos sesgos consistentes en la reconciliación del árbol: se deben asignar más duplicaciones a las ramas más arriba del árbol, hacia la raíz y se deben asignar más pérdidas a las ramas por debajo de estas duplicaciones. Como se muestra en la Figura 2a, los desacuerdos topológicos entre el árbol de especies y el árbol de genes siempre dan como resultado la ubicación de duplicaciones sobre las ramas que son inconsistentes entre los dos árboles; esta es la única forma de reconciliar las diferencias. Como resultado de las duplicaciones agregadas al árbol, también se deben agregar múltiples pérdidas, siempre en linajes más hacia las puntas. Este sesgo da como resultado una historia inferida de muchas ganancias de genes más antiguos y muchas pérdidas de genes recientes.

Contabilización del sesgo

Una característica más de las duplicaciones adicionales que se agregan debido a errores en las topologías de árboles es que solo se asignarán a ramas con más de dos linajes descendientes. Este efecto ocurre porque las sub-topologías de un árbol más grande que involucra dos o menos linajes no se pueden inferir incorrectamente (por ejemplo, la topología [A, B] es la misma que [B, A]). Las inconsistencias entre el gen y el árbol de especies deben deberse al orden incorrecto de tres o más ramas (por ejemplo, la topología [A, B] C] no es la misma que [A, C] B]). La reconciliación de árboles solo puede continuar agregando duplicaciones a los linajes que preceden a las ramas mal ordenadas (Figura 2a) y, por lo tanto, solo se puede agregar a los linajes con tres o más descendientes.

El efecto de este sesgo significa que los linajes terminales y muchos de los linajes que conducen a ellos no serán duplicados asignados incorrectamente. Los linajes terminales ('puntas') y los linajes que dan lugar a solo dos linajes terminales ('dobletes', por ejemplo, la rama que conduce a [A, B] en el árbol de especies de ejemplo) no tendrán duplicaciones agregadas erróneamente, sin importar cómo inconsistente el árbol de genes y el árbol de especies son entre sí. Por lo tanto, la información sobre el número de genes duplicados inferidos en estas ramas debe ser precisa. En consecuencia, defino estas ramas del árbol de especies como 'informativas' y las uso en comparaciones adicionales a continuación.

Otra posibilidad para tener en cuenta el sesgo de reconciliación en las ramas no informativas es eliminar iterativamente las ramas descendientes de los árboles genéticos que se van a reconciliar. Debido a que se colocan duplicaciones incorrectas en estas ramas solo cuando hay genes de tres o más ramas descendientes, la poda de los árboles para que solo estén representados dos o menos linajes puede permitir una reconstrucción más precisa del número de duplicados en estas ramas. Luego, este método esencialmente convierte las ramas "no informativas" en ramas "informativas" al reducir la posibilidad de que los árboles genéticos sean incorrectos. Será necesario trabajar más en cuanto a cómo se implementa exactamente dicha poda.

Desafortunadamente, las estimaciones del número de pérdidas parecen estar sesgadas en todos los linajes. Debido a que las duplicaciones pueden colocarse incorrectamente a la profundidad de la rama que conduce a la raíz, y no se pueden inferir pérdidas en esta rama, todas las ramas del árbol de especies descienden de linajes que podrían contener duplicaciones falsas. Esto significa que el número de pérdidas de genes se sobreestimará para todas las ramas del árbol y aumentará en número hacia las puntas.

Evidencia molecular del sesgo de reconciliación

Con el fin de proporcionar un ejemplo del sesgo descrito aquí, llevé a cabo la reconciliación de árboles para 9,920 árboles de genes de 6 genomas de mamíferos y 11,388 árboles de genes de 12 Drosophila genomas (materiales y métodos). Para mostrar el efecto que tienen los errores crecientes en el número de ganancias y pérdidas inferidas, realicé las conciliaciones con seis valores diferentes para el corte de arranque: 100%, 90%, 80%, 70%, 60% y 50 %. Mi predicción es que el número de duplicaciones en ramas no informativas debería aumentar a medida que disminuye el límite de arranque. Esto se debe a que se incluyen más topologías con menor soporte (que probablemente sean topologías incorrectas) con cortes más bajos. No debería haber un efecto direccional sobre el número de duplicaciones inferidas en las ramas informativas. Además, el número de pérdidas debería aumentar en todas las ramas a medida que disminuye el límite de arranque.

La Figura 3 muestra el árbol de especies de mamíferos y la Figura 4a el número de ganancias y pérdidas inferidas a través del árbol en diferentes cortes de arranque. Este árbol contiene tres ramas no informativas (indicadas por flechas) y ocho ramas informativas. De hecho, el número de duplicaciones en ramas no informativas aumenta con la disminución de los puntos de corte de bootstrap; esta tendencia es muy significativa (Tabla 1). Sumando todas las ramas no informativas, inferiríamos 14,966 duplicaciones con un límite de arranque del 100%, pero 22,031 con un límite del 50%. También como se predijo, el número de pérdidas en todas las ramas aumenta con los cortes decrecientes: el número total aumenta de 25.092 a 47.074 a medida que se pasa de un límite de arranque del 100% al 50%. En promedio, una disminución del 10% en el límite de arranque utilizado da como resultado un aumento del 16% en el número de pérdidas inferidas en cualquier rama dada y un aumento del 8% en el número de ganancias inferidas en ramas no informativas. Las mismas tendencias se encuentran para el Drosophila árbol, con aumentos significativos en la duplicación y pérdida como resultado de la disminución del soporte para topologías de árboles (Figura 4b y Tabla 1).

Árbol de especies de mamíferos. Se muestra un árbol filogenético de las seis especies consideradas en el texto (las ramas no son proporcionales al tiempo). Las ramas no informativas están marcadas con una flecha.

El efecto del sesgo de reconciliación de árboles. Los gráficos muestran la relación entre el número de ganancias y pérdidas inferidas en función del límite de arranque utilizado para (a) el árbol de los mamíferos, y (B) los Drosophila árbol. Los números representan la suma de ganancias y pérdidas en todas las ramas de los árboles de la especie.

Un resultado sorprendente es que parece haber una correlación leve pero significativa entre el número de ganancias en las ramas informativas y el límite de arranque utilizado: el número de duplicaciones aumenta con el aumento de los valores de corte del arranque. Esta tendencia es opuesta a la predicha para ramas no informativas, pero es significativa tanto para mamíferos como para Drosophila (Figura 5 y Tabla 1).En comparación con el efecto que tienen los valores de corte de bootstrap en las ramas no informativas, la consecuencia de este patrón es mucho menor. El número total de duplicaciones inferidas en ramas informativas de mamíferos solo cae de 8,870 a 8,332 pasando de un 100% a un 50% de corte de arranque. Esto equivale a un promedio de 1.3% de duplicaciones eliminadas por cada 10% de disminución en el límite de arranque (el valor de Drosophila es una disminución del 3,4% por cada 10%).

Contabilización del sesgo de reconciliación de árboles. Los gráficos muestran la relación entre el número de ganancias y pérdidas inferidas en función del límite de arranque utilizado para (a) el árbol de los mamíferos, y (B) los Drosophila árbol. Los números representan la suma de ganancias y pérdidas solo en las ramas informativas de los árboles de especies.

La causa aparente de este ligero sesgo se muestra en la Figura 6. A medida que aumenta el límite de arranque, incluso las topologías relativamente bien soportadas se colapsarán. El objetivo del colapso de los nodos es minimizar el número total de ganancias y pérdidas que deben invocarse para explicar la historia de cualquier árbol genético. El número mínimo de cambios se puede lograr empujando todos los duplicados hacia las puntas del árbol, ya que no se pueden agregar más pérdidas. La adición de duplicados a ramas no informativas siempre da como resultado un número igual o mayor de pérdidas en los linajes descendientes y, por lo tanto, un número total de cambios en gran medida creciente. Este ligero sesgo tiene consecuencias para los métodos que intentan elegir el árbol genético "verdadero" minimizando las ganancias y las pérdidas (por ejemplo, [26, 27]): a menudo se favorecerá la colocación de duplicados en las puntas del árbol. El patrón que se muestra en la Figura 6 también puede deberse a la falta de datos, de modo que el gen que se ha "perdido" (uno de los genes B) da como resultado una duplicación inferida.

Ligero sesgo hacia la colocación de duplicados en las puntas del árbol. (a) Muestra cómo se inferirían las ganancias y pérdidas para el árbol genético mostrado. (B) Tener en cuenta el soporte de bootstrap puede resultar en colocar duplicados en las puntas cuando las topologías del árbol genético se colapsan.

La explicación anterior de la relación positiva entre los puntos de corte de bootstrap y el número de duplicaciones predice que el aumento observado en las ramas informativas debe encontrarse predominantemente en las ramas de punta, colocando duplicaciones en las pocas ramas informativas que conducen a dos linajes descendientes no minimiza el número total. de cambios. De hecho, esto es exactamente lo que se observa tanto en mamíferos como en Drosophila. Como se muestra en la Tabla 1, no existe una correlación significativa entre el número de ganancias y el corte de arranque para las ramas de doblete en Drosophila (r = -0.12, PAG = 0,83), y solo una relación marginalmente significativa en los mamíferos, pero en la dirección opuesta a las relaciones encontradas anteriormente (r = -0.82, PAG = 0,045). La correlación en las ramas de las puntas sigue siendo fuerte y altamente significativa (mamíferos: r = 0.99, PAG = 0.0001 Drosophila: r = 0.97, PAG = 0.001).

Estimación independiente de la ganancia y pérdida de genes

Como una verificación adicional de la precisión del número de genes duplicados estimados en las ramas informativas, calculé el número de genes duplicados y pérdidas de genes utilizando un método de probabilidad no relacionado [3]. Este método no utiliza árboles genéticos y, por lo tanto, se espera que proporcione un apoyo independiente para el número inferido de duplicaciones en las ramas informativas. Brevemente, el método infiere ganancias y pérdidas solo del número de copias de genes presentes en cada una de las especies incluidas, y no considera las relaciones entre los genes constituyentes. No espero que haya ninguna similitud entre el número de pérdidas estimado por los dos métodos, en ninguna rama del árbol de la especie.

La Figura 7 muestra la correlación en el número de duplicaciones inferidas a través de ramas informativas por los dos métodos tanto para mamíferos como para Drosophila. Existen correlaciones muy significativas en ambos: r = 0.95 (PAG = 0,0003) para mamíferos y r = 0.89, (PAG & lt 0.00001) para Drosophila. Esto proporciona evidencia de la precisión de los métodos de reconciliación de árboles cuando se considera solo el número de genes obtenidos en las ramas informativas (aquellas con dos o menos descendientes). Las duplicaciones en estas ramas deben inferirse correctamente mediante todos los métodos. Sin embargo, incluidas las ramas no informativas, la correlación en el número de duplicaciones de genes inferidas entre los métodos ya no es significativa (mamíferos: r = 0.25, PAG = 0.48 Drosophila: r = -0.18, PAG = 0,43). Como ejemplo de la desconexión entre los dos métodos cuando se aplica a ramas no informativas, el método de verosimilitud infiere 15 duplicaciones de genes en la rama corta (aproximadamente 4 millones de años) que conduce a la reconciliación del árbol de 4 mamíferos no caninos que infiere la ganancia de 2774 genes en la misma rama.

Relación entre la reconciliación de árboles y los métodos de probabilidad para estimar el número de ganancias genéticas. El número de genes duplicados inferidos sólo en ramas informativas de la (a) árbol de mamíferos, y (B) Drosophila se muestran árboles.

El número de pérdidas de genes también parece estar mal estimado por los métodos de reconciliación de árboles: la correlación con las estimaciones de probabilidad no es significativa (mamíferos: r = 0.52, PAG = 0,18) o levemente significativo (Drosophila: r = 0.63, PAG = 0,01). Incluso la correlación levemente significativa observada para las pérdidas es engañosa: el número de pérdidas estimado por el método de conciliación es, en promedio, siete veces mayor que el número estimado por probabilidad. Por ejemplo, en el linaje que conduce a Drosophila melanogaster el método de probabilidad infiere la pérdida de 547 genes desde la división con D. simulanos (hace aproximadamente 5 millones de años [28]). El método de reconciliación de árboles infiere la pérdida de 3.461 genes.

En promedio, el número de duplicados en ramas informativas inferidos a través de la reconciliación de árboles es 1,25 (Drosophila) a 1,5 (mamíferos) veces mayor que el número inferido mediante el método de verosimilitud (Figura 7). La estimación más alta que utiliza la reconciliación de árboles puede tener dos causas: el ligero sesgo hacia la colocación de duplicados en las puntas del árbol con un aumento de la rigurosidad de corte de arranque o la tendencia del método de probabilidad a subestimar el número de ganancias y pérdidas cuando ambos tipos de eventos ocurren en la misma familia de genes en la misma rama del árbol filogenético [3]. Sin embargo, la discrepancia entre los dos métodos sigue siendo la misma en las ramas informativas incluso cuando se usa un límite de arranque del 60%, lo que sugiere que la causa más probable es la subestimación a través del método de verosimilitud.

Implicaciones para la evolución del genoma de vertebrados

El sesgo descrito aquí afectará a todos los estudios anteriores que han utilizado métodos de reconciliación de árboles. Los efectos de este sesgo se mitigarán mediante el uso de métodos de reconciliación que tengan en cuenta el soporte de bootstrap (por ejemplo, [13, 14]) en lugar de aquellos que no lo hacen [10, 11], los efectos se minimizarán aún más mediante el uso de genes más precisos. métodos de inferencia de árbol (como máxima verosimilitud) en lugar de métodos rápidos y aproximados (como unión de vecinos). Finalmente, como los caprichos de la inferencia de árboles están fuertemente influenciados por la información particular contenida en las secuencias de proteínas de los genes que se están considerando, la reconciliación de cualquier árbol genético en particular puede verse afectada o no por el sesgo descrito aquí. Sin embargo, cuando se realizan análisis a escala del genoma, incluso los efectos leves del sesgo de reconciliación se magnificarán en los miles de árboles genéticos considerados.

En un artículo reciente, Blomme et al. [16] utilizó la reconciliación de árboles para inferir la historia de ganancia y pérdida de genes entre siete especies de vertebrados. Se construyeron árboles genéticos para 8.165 familias mediante la unión de vecinos y se reconciliaron con el árbol de especies conocidas utilizando un límite de arranque del 70% [16]. Dos de las conclusiones del artículo fueron que "la mayoría de los genes duplicados en los genomas de vertebrados existentes son antiguos" y que "todos los vertebrados continúan perdiendo duplicados que fueron creados en épocas mucho anteriores". Con base en los sesgos en los métodos de reconciliación de árboles demostrados aquí, parece probable que los patrones observados por Blomme y sus colegas sean en gran parte artefactos. Los mismos sesgos que muestran los métodos de reconciliación de árboles (inferencias falsas de un gran número de duplicaciones antiguas seguidas de un número aún mayor de pérdidas recientes) son precisamente el resultado de sus análisis. Dados los límites de arranque relativamente bajos utilizados en los análisis publicados, uno esperaría una reducción tanto en las ganancias como en las pérdidas con el aumento de la rigurosidad topológica.

Una conclusión más del Blomme et al. El estudio se relaciona con la asociación de un gran número de duplicaciones inferidas con múltiples duplicaciones del genoma completo (WGD). No es inmediatamente obvio que la ubicación precisa de las duplicaciones de genes en las ramas no informativas del árbol de vertebrados deba verse afectada por un sesgo de reconciliación y, por lo tanto, que el momento de los eventos de WGD deba inferirse erróneamente. No existe una correlación significativa entre el número de duplicaciones inferidas en una rama y la distancia desde las puntas, aunque existe una tendencia en esa dirección (Drosophila: r = 0.44, PAG = 0,39). Esto indica que no parece haber un sesgo (entre las ramas no informativas) al colocar duplicados en la rama de la raíz, exactamente donde se infieren dos eventos de WGD en la historia de los vertebrados.

Sin embargo, existe una posibilidad interesante de un sesgo específico en la ubicación de las duplicaciones de genes: si la discordancia topológica entre el árbol de genes y el árbol de especies se debe a una clasificación de linaje incompleta, entonces se colocará una gran cantidad de duplicaciones de muchos árboles de genes diferentes. en la rama inmediatamente anterior a tal evento. La clasificación de linaje incompleta se debe a distancias cortas entre nodos, de modo que el polimorfismo en la población ancestral no se fija completamente entre los eventos de especiación. La clasificación incompleta del linaje puede resultar en desacuerdos entre árboles genéticos y árboles de especies, aunque ninguno de los árboles genéticos inferidos sea incorrecto per se [23, 24]. Estos desacuerdos pueden extenderse a análisis de genoma completo de ortólogos de copia única, donde no se encuentra un árbol genético único de la mayoría de los ortólogos considerados (por ejemplo, [25]).

Como parece haber un ejemplo de clasificación de linaje incompleta entre los Drosophila [25], pregunté si se colocó un gran número de duplicaciones en la rama que precede a la discordancia topológica (la rama marcada con un asterisco en el archivo de datos adicional 1). Como se predijo, se infirió una gran cantidad de duplicaciones en esta rama: 2.757 en la topología con mejor soporte, en comparación con 278 y 415 duplicaciones en las ramas no informativas por encima y por debajo de esta. El número de duplicaciones inferidas en la rama que precede a la clasificación de linaje incompleta también fue mucho mayor en las dos topologías alternativas (datos no mostrados). Estos análisis parecen mostrar que los breves tiempos de divergencia entre los eventos de especiación pueden conducir a un exceso de eventos de duplicación inferidos. Un caso en el que la clasificación por linaje incompleta es común es durante las radiaciones adaptativas; dichas radiaciones son notoriamente difíciles de construir árboles de especies consistentes para [23]. Esto implica que los análisis de reconciliación de árboles asociarán un gran número de eventos de duplicación con radiaciones adaptativas. En estos casos, deben utilizarse métodos que permitan árboles de especies no binarias (por ejemplo, [14, 29]) para que no se infiera un gran número de duplicaciones incorrectas. Aunque no parece que haya habido una radiación adaptativa en el origen de las especies de vertebrados consideradas por Blomme et al. [16], se debe tener precaución al inferir eventos de WGD a partir de la gran cantidad de duplicaciones colocadas en cualquier rama en particular por métodos de reconciliación de árboles.


Discusión

Detección de duplicaciones de genes eucariotas muy antiguas

En este estudio, investigamos el grado de duplicación de genes eucariotas antes de la divergencia de plantas y animales / hongos mediante la construcción de grupos de genes con miembros de especies procariotas y eucariotas representativas y realizando análisis filogenéticos completos.

Como muestreamos solo una pequeña cantidad de especies de cada linaje, se realizaron análisis de conglomerados adicionales agregando genes de pez cebra (pez teleósteo), medaka (pez teleósteo), Drosophila melanogaster (insecto) o la almeja gigante Lottia gigantean (molusco), respectivamente (consulte el archivo adicional 3 para obtener los resultados completos de la agrupación). Descubrimos que la adición de genes de cada una de las especies adicionales resultó en cambios muy leves en el número de grupos de genes (Tabla S7 en el archivo adicional 1). Por lo tanto, creemos que nuestros resultados generales no se verían afectados dramáticamente por la inclusión de especies animales adicionales.

Nuestro análisis I se basó en los grupos de genes delineados por el método MCL y reveló que aproximadamente el 25% (BS ≥ 50%) o el 15% (BS ≥ 70%) de los ortogrupos habían experimentado una duplicación de genes antiguos. La prueba ML-aLRT (también en los análisis II y III) informó de mayores números y porcentajes de ortogrupos que mostraron duplicación de genes antiguos, posiblemente porque la prueba bootstrap es consistentemente conservadora [42]. Se sabe que, en estudios de genómica comparada como los que realizamos aquí, la precisión del agrupamiento de familias de genes tiene un gran impacto en la confiabilidad de análisis posteriores como la reconstrucción filogenética. Por lo tanto, es de interés comprobar si las estrategias alternativas de agrupación de familias de genes conducirían a resultados similares a los del enfoque MCL utilizado en el análisis I. COG y su equivalente eucariota, KOG, se encuentran entre las bases de datos más ampliamente utilizadas de agrupaciones de genes ortólogos. En nuestro análisis III, tomamos los grupos de KOG a COG identificados por Makarova et al. [36] y los analizamos usando los mismos procedimientos que se usaron en el análisis I. En comparación con el análisis I, en el análisis III obtuvimos un porcentaje muy similar de ortogrupos que mostraban duplicación eucariota temprana, aunque el número total de ortogrupos identificados fue mayor. Curiosamente, sin embargo, encontramos que menos de la mitad de los ortogrupos con duplicación se superponen entre los dos análisis. Las diferencias se debieron principalmente a dos razones: primero, los miembros procariotas en un grupo de MCL en particular no estaban en ningún COG o el COG correspondiente no estaba en ningún grupo de KOG a COG en segundo lugar, un grupo de KOG a COG puede incluir secuencias de similitud muy limitada, lo que resulta en una filogenia diferente a la del correspondiente grupo de MCL. No obstante, el hecho de que diferentes métodos de agrupación de familias de genes (MCL y COG / KOG) y enfoques filogenéticos (NJ y ML) revelaron porcentajes similares de ortogrupos que habían experimentado una duplicación eucariota temprana todavía respalda la confiabilidad de nuestros resultados.

Un posible sesgo en nuestro análisis I es que sólo se estudiaron los genes eucariotas con homólogos procariotas detectables. Esto significa que nos centramos en genes relativamente conservados. Teniendo en cuenta la antigüedad de los eventos de duplicación de genes que nos interesan, algunos genes eucariotas pueden carecer de homólogos detectables en los procariotas en nuestro estudio debido a la pérdida de genes o la divergencia de secuencia y, por lo tanto, no se incluyeron en nuestro análisis I.Por esta razón, nosotros también llevó a cabo el análisis II para analizar los grupos de genes MCL específicos de eucariotas y encontró que más del 10% de los 1.903 grupos de genes mostraban una duplicación eucariota temprana. Es posible que esta cifra sea todavía una subestimación, ya que algunos de los duplicados antiguos podrían no agruparse debido a un alto grado de divergencia y aparecerían como grupos de genes separados sin una duplicación eucariota temprana.

Nuestros análisis filogenéticos identificaron aproximadamente 300 (soporte BS ≥ 70%) o aproximadamente 500 (soporte aLRT ≥ 70%) duplicaciones de genes en la ventana de tiempo desde el origen de los eucariotas hasta la división plantas-animales / hongos. Sin embargo, la estimación de la duración de esta ventana de tiempo varía según la filogenia eucariota que se adopte. De acuerdo con el modelo 'corona-tallo' de la filogenia eucariota (Figura 1a), las plantas y los animales / hongos son miembros de un grupo de la corona y varios grupos de protistas forman ramas profundas en el árbol [18, 19]. Se estimó que las plantas y los animales / hongos se separaron hace aproximadamente 1.600 millones de años (MYA), y Giardia, que se consideró la rama más profunda del árbol eucariota de la vida, divergió aproximadamente 2300 MYA [43]. Dado el origen estimado de eucariotas en aproximadamente 2.700 MYA [44], los eventos de duplicación identificados en nuestro estudio podrían haber tenido lugar durante el largo período de tiempo antes de la separación de plantas y animales / hongos (aproximadamente 1.100 millones de años). La clasificación más reciente de eucariotas en 'seis supergrupos' representa una imagen contrastante (Figura 1b) [21-23].

En este modelo y otros modelos relacionados, tanto la topología 'unikont-bikont' [26, 27] como la reciente bipartición 'fotosintético-no fotosintética' [29] sugieren que la separación Archaeplastida-Opisthokonta podría representar la primera división importante, o al menos una de las primeras divisiones, en la evolución eucariota (Figura 1b). En esta perspectiva, los eventos de duplicación que identificamos podrían ubicarse durante una etapa muy temprana de la evolución eucariota, antes de la divergencia de la mayoría de los principales grupos protistas existentes.

Independientemente de si el modelo 'corona-tallo', o 'seis supergrupos' y otros modelos similares son correctos, investigamos las duplicaciones de genes entre una representación más amplia de eucariotas utilizando análisis filogenéticos con secuencias adicionales de ejemplos de grupos protistas principales divergentes, Excavata, Amoebozoa y Chromalveolata (Figura 1b). Para la mayoría de las familias de genes con un 70% de soporte de BS, la duplicación probablemente ocurrió antes de la separación de estos protistas altamente divergentes de las plantas y / o animales / hongos. Incluso de acuerdo con el modelo 'corona-tallo' de la historia eucariota temprana, estos protistas divergentes se separaron de las plantas / animales / hongos en un momento anterior. Por lo tanto, independientemente de los modelos de filogenia eucariota temprana, estas duplicaciones se colocarían antes que cualquier divergencia eucariota importante conocida. Por lo tanto, nuestros resultados apoyan muchos eventos de duplicación de genes durante la evolución eucariota muy temprana.

Implicación funcional para la evolución eucariota temprana

Las duplicaciones de genes que detectamos probablemente generaron materias primas para la evolución funcional, como se propuso anteriormente [4]. De hecho, los duplicados de las 300 o más duplicaciones de genes que identificamos probablemente se eliminarían si no proporcionaran una ventaja selectiva. Por lo tanto, estas primeras duplicaciones de genes eucariotas podrían haber sido de gran importancia para el éxito y la radiación de los primeros eucariotas y, por lo tanto, se han retenido en el último ancestro común de los principales grupos eucariotas existentes.Si las familias de genes duplicadas están involucradas en procesos que son fundamentales para los primeros eucariotas, que probablemente también compartan los eucariotas existentes, podrían mostrar patrones evolutivos similares en diferentes reinos eucariotas. Específicamente, el número de copias de genes con funciones altamente conservadas parece ser más estable que el número de genes con funciones más divergentes (comparar RAD51, MSH, y SMC con JmjC y genes MADS-box) [30, 31, 33-35].

De hecho, observamos una correlación más positiva del tamaño de la familia de genes entre animales y plantas en las familias con duplicación eucariota temprana que en las familias sin dicha duplicación (Figura 4). En otras palabras, las familias con la duplicación eucariota temprana tienden a tener patrones evolutivos más similares tanto en plantas como en animales / hongos que aquellas familias sin la duplicación temprana, lo que sugiere que estos genes podrían tener funciones relativamente conservadas entre los tres reinos principales. Esta idea de conservación funcional también está respaldada por el hallazgo de que el patrón (RO) (RO), en el que ambos duplicados se retienen tanto en las plantas como en los linajes de animales / hongos, es el patrón más frecuente entre todos los patrones posibles.

Asimismo, es de interés conocer si genes con funciones bioquímicas o moleculares específicas o involucrados en procesos específicos se encuentran enriquecidos entre las familias con duplicación. Curiosamente, nuestro análisis de Ontología Genética (GO) no reveló ningún término de GO enriquecido significativamente entre los ortogrupos con duplicación (datos no mostrados). Esto podría sugerir que las duplicaciones de genes detectadas, que proponemos, podrían haber beneficiado al ancestro eucariota temprano y a los ancestros de los linajes de plantas y animales / hongos, afectaron muchos tipos de funciones y procesos, no solo unas pocas clases especializadas de funciones.

Una hipótesis para la duplicación eucariota temprana a gran escala

La duplicación de genes puede generarse mediante varios mecanismos, incluida la duplicación en tándem, la transposición y la duplicación a gran escala (por ejemplo, duplicación segmentaria / del genoma completo (WGD)). En principio, las 300 o más duplicaciones de genes que identificamos podrían ser eventos independientes resultantes de la duplicación y transposición en tándem. Sin embargo, en ausencia de evidencia de apoyo, un patrón tan complejo de múltiples eventos independientes no es parsimonioso. Alternativamente, las duplicaciones podrían explicarse por una o unas pocas duplicaciones a gran escala. La duplicación a gran escala, como WGD, es de especial interés porque permite la generación de múltiples módulos funcionales nuevos con muchos genes que no están relacionados en el nivel de secuencia [45], lo que no sería probable por otros mecanismos de duplicación. Además, las duplicaciones segmentarias (SD) se reconocen cada vez más como fenómenos frecuentes, especialmente en los genomas de primates; por ejemplo, aproximadamente el 5% del genoma humano consta de segmentos duplicados [46]. Por lo tanto, las SD con un número suficientemente grande de genes también podrían explicar las duplicaciones de genes que detectamos. Después de WGD / SD, los diferentes destinos de genes duplicados en diferentes poblaciones podrían generar la diversidad genética que luego permite tanto el aislamiento / especiación reproductiva como la adaptación ambiental [47, 48].

La gran cantidad de eventos de duplicación eucariotas antiguos que hemos detectado aquí podría haber sido el resultado de una o más duplicaciones eucariotas tempranas a gran escala. Para eventos de duplicación relativamente recientes a gran escala, es posible identificar regiones genómicas sinténicas [49]. Por ejemplo, tales regiones sinténicas se encontraron para el WGD más reciente en Arabidopsis, álamo y levadura, que probablemente ocurrieron aproximadamente 100 MYA o más recientemente [10-12, 50]. Sin embargo, para los más antiguos, como los WGD en vertebrados (1R / 2R aproximadamente 525 a 875 MYA [51]), la sintencia ya no es detectable debido a numerosos reordenamientos del genoma y pérdida de genes [52]. Si una duplicación a gran escala fue la causa de los eventos de duplicación de genes antiguos identificados en este estudio, este evento habría ocurrido al menos 1,600 MYA (posiblemente incluso antes), por lo que es extremadamente improbable que aún se pueda detectar cualquier sintenia. Otro enfoque para la detección de la duplicación a gran escala es analizar la tasa de sustituciones de bases sinónimos (dS) entre genes parálogos, como se informó para muchas especies de plantas [53, 54]. Desafortunadamente, este método tampoco es factible para eventos de más de aproximadamente 150 millones de años debido a la saturación de los valores de dS.

Una forma alternativa de obtener pruebas de la duplicación a gran escala es examinar la filogenia de un gran número de familias de genes, como hemos hecho aquí. Nuestros resultados indican que una fracción significativa de los ortogrupos en nuestro conjunto de datos había experimentado duplicación antes de la divergencia de los tres principales reinos eucariotas. Al combinar los resultados de los análisis I y II, estimamos que el porcentaje de ortogrupos que muestran duplicación antes de la separación de plantas y animales / hongos es superior al 15% (BS ≥ 50% nivel de apoyo) y 10% (BS ≥ 70% nivel de apoyo ), o alrededor del 30% (soporte aLRT ≥ 50%) y 20% (soporte aLRT ≥ 70%). Análisis filogenéticos similares a gran escala mostraron que, entre los pares duplicados resultantes de WGD más reciente en vertebrados (1R / 2R aproximadamente 525 a 875 MYA) y levadura (aproximadamente 100 MYA), el 26,6% y el 20,1% de los pares sobrevivieron, respectivamente [ 51, 55]. Las primeras duplicaciones eucarióticas que estudiamos eran mucho más antiguas que las duplicaciones a gran escala reportadas anteriormente en animales, plantas y levaduras. Por lo tanto, durante los al menos 1.600 millones de años de evolución, los pares duplicados que surgieron en los primeros eucariotas podrían haber tenido una mayor probabilidad de perderse o de ser demasiado divergentes para ser reconocidos. Por lo tanto, es razonable esperar que sobreviva un porcentaje menor de los pares duplicados, y nuestros resultados filogenéticos podrían respaldar la hipótesis de que los eventos de duplicación identificados aquí son los restos de una duplicación a gran escala (por ejemplo, WGD o SD) en eucariotas tempranos. En otras palabras, considerando la antigüedad de las primeras duplicaciones eucariotas, las 300 o más duplicaciones que detectamos probablemente representan solo una pequeña fracción del número real de duplicaciones en las primeras eucariotas, que podrían ser de miles. Nuestros resultados se podrían interpretar de la manera más parsimoniosa mediante una o más duplicaciones a gran escala, que probablemente fueran WGD / SD, en lugar de miles de duplicaciones independientes.


Resultados y discusión

Inferencia de árbol a partir de perfiles de mutación unicelulares

Primero proporcionamos una breve descripción de nuestro enfoque para la inferencia de árboles a partir de perfiles de mutación unicelulares. Comenzamos con un modelo para representar historias de mutaciones unicelulares y el enfoque basado en la probabilidad para hacer frente a los errores de secuenciación. A continuación, damos una descripción general de las diferentes variantes del esquema de muestreo MCMC implementado en SCITE. Una descripción más técnica de SCITE se encuentra en la sección "Métodos".

Modelo de evolución tumoral y representación de árboles

Restringimos el modelo evolutivo para señalar mutaciones en este trabajo y hacemos la suposición de sitios infinitos, que establece que cada posición del genoma muta como máximo una vez en la historia evolutiva de un tumor. No son necesarias más restricciones, en particular no se hace ninguna suposición sobre el origen monoclonal del tumor, una suposición fundamental en la reconstrucción de árboles a partir de muestras mixtas.

Representamos el estado de mutación de metro celdas individuales en norte diferentes loci en un binario norte×m matriz de mutación E donde un 1, respectivamente un 0, en la entrada (I,j) denota la presencia, respectivamente la ausencia, de mutación I en la celda j (Figura 1 c). Con la exclusión de la evolución convergente debido al supuesto de sitios infinitos, esta matriz define una filogenia perfecta de las células individuales. Esto significa que existe un árbol binario enraizado con las células como hojas en el que cada mutación se puede colocar en un borde de modo que el estado de mutación de cada hoja sea igual al conjunto de mutaciones en su camino hacia la raíz (Fig.1 b). Las mutaciones presentes en todas las células se pueden eliminar de los datos ya que se conoce su ubicación en el árbol. Lo mismo es cierto para las mutaciones observadas solo en una sola célula. Estos están directamente asociados con la celda y no son informativos en la reconstrucción del árbol. Por ejemplo, la matriz de mutación de la Fig.1 c se reduce a:

donde ahora representamos las tres mutaciones restantes como METRO 1, METRO 2, y METRO 3. En general, el árbol binario definido por la matriz mi no será único. En el ejemplo de la Fig. 1 b, dado que las tres hojas más a la izquierda tienen todas el mismo estado de mutación, su orden de ramificación en el árbol es, por lo tanto, arbitrario. Además, la colocación correcta de la cuarta hoja no es única, ya que no tiene más mutación que las compartidas por todas las muestras. Igualmente bien podría ramificarse en el subárbol izquierdo después de las dos mutaciones ubicuas en lugar de la derecha. Una representación de árbol más compacta de mi es un árbol de mutación T, que representa las mutaciones como nodos y conecta los nodos según su orden en la historia evolutiva. Se utiliza un nodo vacío para indicar la raíz (Fig. 1 d). El árbol de mutaciones puede verse como el árbol de filogenia perfecto, donde en lugar de colocar las mutaciones a lo largo de los bordes, las encapsulamos dentro de los nodos internos. Este ligero cambio en la representación facilita nuestra inferencia posterior. El árbol de mutación se puede aumentar con las células secuenciadas uniéndolas al nodo que coincida con su estado de mutación (Fig. 1 f). El orden de mutaciones compartido por el mismo conjunto exacto de células no es identificable en el árbol de mutaciones, como es el caso de las dos mutaciones superiores en la Fig. 1 f. Estos subconjuntos de mutaciones se resumen en un solo nodo, aquí resaltado como un cuadro sombreado.

Errores de observación

En datos reales, no observamos una matriz de mutación perfecta (Fig.1 c) sino una versión ruidosa de la misma (Fig.1 g), que denotamos por D en el siguiente. Si el verdadero valor de la mutación es 0, podemos observar un 1 con probabilidad α (falso positivo), y si el verdadero valor de la mutación es 1, podemos observar un 0 con probabilidad β (falso negativo) tal que

Suponiendo que los errores de observación son independientes entre sí, la probabilidad de que los datos proporcionen un árbol de mutación T, conocimiento del adjunto de las muestras σy las tasas de error θ=(α,β) es entonces

dónde mi es la matriz de mutación definida por T y σ.

podemos factorizar lo anterior, PAG(T,σ,θ)=PAG(σ|T,θ)PAG(T,θ), y asumimos la independencia de las tasas de error para establecer PAG(T,σ,θ)=PAG(σ|T)PAG(T)PAG(θ) para que el archivo adjunto antes PAG(σ|T) depende de T. Un a priori de este tipo podría ser útil si se sospecha que es más probable que se muestreen células de etapas posteriores en el desarrollo del tumor y más abajo en el árbol. Aunque aquí usamos un accesorio uniforme antes.

Muestreo de MCMC

Nuestro modelo para aprender historias de mutaciones a partir de perfiles de mutaciones unicelulares consta de tres partes: el árbol de mutaciones T, el vector adjunto de muestra σ, y las tasas de error del experimento de secuenciación θ. El espacio de búsqueda resultante tiene un componente continuo para θ y un componente discreto de tamaño (norte+1) (norte−1) (norte+1) metro por (T,σ), que prohíbe una búsqueda exhaustiva. En cambio, con las Ecs. 3 y 4 construimos SCITE, un esquema MCMC para tomar muestras de la articulación posterior dados los datos. Desde el estado actual (T,σ,θ), proponemos un nuevo estado (T ′ ,σ ′ ,θ ′) Con una mezcla ergódica de movimientos donde cambiamos un componente a la vez. Con probabilidades de transición y razón de aceptación correctamente definidas, nuestra cadena converge hacia la parte posterior. En la práctica, marginamos los adjuntos de muestra en nuestro modelo no solo para acelerar la convergencia sino también para enfocarnos en el árbol de mutación. T como parte informativa para comprender el historial de mutaciones. Por lo tanto,

Entonces solo necesitamos considerar los movimientos en la articulación (T,θ) espacio, reduciendo así el espacio de búsqueda en un factor de (norte+1) metro . Todavía es posible aumentar el árbol con las muestras en un paso de posprocesamiento muestreándolas condicionalmente en el árbol.

Después de la convergencia, la cadena MCMC se puede utilizar para muestrear árboles y tasas de error proporcionalmente a la distribución posterior conjunta en la ecuación. 4. Además, es posible obtener una combinación única de mejor ajuste de árbol de mutación y tasas de error mediante estimaciones puntuales de los parámetros del modelo. Una forma de hacerlo es mediante estimaciones máximas a posteriori (MAP):

Otra posibilidad es utilizar estimaciones de ML. Dado que la probabilidad depende del conjunto completo de parámetros del modelo (T,σ,θ), es más natural optimizarlos todos juntos en lugar de marginar el archivo adjunto de muestra:

En el marco de ML, SCITE incluye un parámetro γ que amplifica la probabilidad y que puede acelerar el descubrimiento del árbol ML.

Por último, SCITE ofrece una opción para omitir el aprendizaje de las tasas de error cuando se proporcionan tasas de error fijas. Dado que a menudo están disponibles para secuenciar datos, se pueden utilizar en su lugar para reducir el tamaño del espacio de búsqueda.

Reconstrucción de historias de mutaciones a partir de datos de tumores reales

Para una primera evaluación de SCITE, lo aplicamos a tres conjuntos de datos de tumores unicelulares reales de diferente calidad de datos.

Neoplasia mieloproliferativa JAK2 negativa

Los primeros datos tumorales son los datos de secuenciación del exoma unicelular de una neoplasia mieloproliferativa negativa para JAK2 (trombocitemia esencial) [30]. Originalmente consta de 712 SNV detectados en los exomas de 58 células tumorales. En nuestra evaluación, nos centramos en los 18 sitios de mutación seleccionados como relacionados con el cáncer por [30]. Las tasas de error de la secuenciación se estimaron como α= 6.04 × 10 −6 (falsos positivos) y β= 0,4309 (falsos negativos, abandono alélico). Además, el conjunto reducido tiene un 45% de puntos de datos faltantes (en comparación con el 58% del conjunto de datos completo). La matriz de mutación (archivo adicional 1: Figura S1a) se toma de [34]. Distingue tres estados observados: mutación normal, heterocigótica y homocigótica. Esto significa solo que se observa una mutación homocigótica, no que realmente esté presente en los datos. Esto último contradiría el modelo de sitios infinitos de que cada sitio muta como máximo una vez. Las explicaciones consistentes con sitios infinitos son que tenemos un falso negativo para la copia normal de un sitio heterocigoto o, menos probable, una combinación de un falso positivo y un abandono alélico para un sitio cuyo estado verdadero es normal homocigoto. Otra explicación para observar una mutación homocigótica podría ser una pérdida de heterocigosidad. Adaptamos nuestro enfoque para integrar el tercer estado de mutación utilizando las mismas probabilidades de error que [34]. Asumen que es igualmente probable que un abandono alélico provoque que una mutación heterocigótica se registre como un estado normal o como homocigota. Denotando sitios heterocigotos por 1 y sitios homocigotos por 2, esta suposición da como resultado las probabilidades de error:

Reconstrucción del árbol de mutaciones

Calculamos el árbol ML para los 18 sitios de mutación con SCITE. Al optimizar el árbol y la muestra adjunta, obtenemos un árbol de mutación principalmente lineal con una sola ramificación en la parte inferior del árbol (archivo adicional 1: Figura S2a) con una puntuación de registro ML de -378,4.

Observamos que bastantes muestras se colocan en los nodos en lo alto del árbol (archivo adicional 1: Figura S3), aunque muchas de estas ubicaciones son inciertas, como lo indican los múltiples adjuntos co-óptimos. Teniendo en cuenta las incertidumbres debidas a las altas tasas de error y al gran número de valores perdidos (45%), no es de extrañar que muchas celdas encajen igualmente bien en varios nodos vecinos. La naturaleza lineal del árbol coincide con un desarrollo monoclonal secuencial. La expansión del subclón que comienza hacia la parte inferior del árbol indica la coexistencia de múltiples subclones en el punto de muestreo. Sin embargo, a partir de los datos de un solo punto de tiempo, no es posible decidir si los subclones más recientes están a punto de reemplazar a los clones más ancestrales o coexistirán por más tiempo.

Además de encontrar el árbol ML con archivos adjuntos, realizamos un muestreo completamente bayesiano de árboles y archivos adjuntos desde la parte posterior. Para resumir tal muestra, consideramos como ejemplo el número de ramas que poseen los árboles. La distribución de los datos de [30] (Fig. 2 a) muestra que la mayoría de los árboles tienen un solo punto de ramificación (con dos ramas) como el árbol ML y, a menudo, se presentan como una cadena lineal simple con una sola rama.

La rama del árbol posterior y las distribuciones de error. La distribución posterior del número de ramas de árboles para los datos de [30] en (a), para los datos de [35] en (C), y para los datos de [36] en (mi), todos con una tasa de error fija de falsos negativos β. Las distribuciones anteriores de árboles muestreados uniformemente están en violeta claro. Las distribuciones posteriores para β para los mismos conjuntos de datos se dan en (B), (D), y (F) con los priores incluidos como líneas violetas claras. Cuando β se aprende, la distribución posterior del número de ramas de los árboles se desplaza ligeramente como lo indica el cruces negras en (a), (C), y (mi). Dakota del Sur Desviación Estándar

Comparación con árboles encontrados con otros enfoques

Los mismos datos se han analizado previamente con dos métodos competidores [33, 34].

Kim y Simon [34] emplean la misma probabilidad subyacente con errores que en la Ec. 8, pero usan los datos para aprender las relaciones ancestrales entre cada par de nodos de mutación en lugar de todo el árbol a la vez. También utilizan los datos para aprender un parámetro que representa la rapidez con la que se ramifican los árboles de mutación. Este parámetro se usa luego para calcular la probabilidad previa de relaciones ancestrales, que se alimenta en su prueba por pares y la posterior reconstrucción del árbol.

Con los datos de [30] (sobre las mismas 18 mutaciones seleccionadas), [34] estiman que el 92% del tiempo evolutivo del árbol filogenético debería ser antes de la primera división binaria. En su modelo, esto se traduce en esperar que más del 80% de las mutaciones ocurran antes de cualquier ramificación en el árbol de mutaciones. A pesar de esta estimación de árbol muy lineal, su algoritmo para convertir las relaciones ancestrales por pares en un árbol de mutación conduce al árbol muy ramificado en el archivo adicional 1: Figura S2c, que tiene una probabilidad logarítmica mucho menor de −1059.7 que el árbol ML encontrado con SCITE (con una probabilidad logarítmica de −378,4). Esto puede deberse al uso del algoritmo de árbol de expansión mínimo por Kim y Simon. El método necesita efectivamente convertir las relaciones ancestrales en relaciones estrictas entre padres e hijos y, por lo tanto, esencialmente descarta la historia más profunda incrustada en sus pruebas por pares.

No podemos comparar directamente con el árbol encontrado por BitPhylogeny [33] ya que su algoritmo tiene como objetivo encontrar la conexión filogenética entre las muestras en sí en lugar del árbol de mutación. Además, el algoritmo agrupa las muestras en clones de acuerdo con los datos y un previo de rotura de palos. Por ejemplo, utilizando todos los datos de mutación de [30], así como una secuencia de cáncer en masa normal y en masa, y con un árbol de rotura de palos en particular antes, encuentran un clon grande que representa más de la mitad de las muestras y ocho clones más pequeños dispuestos en una estructura de árbol [33]. Sin embargo, podemos ver su resultado como un árbol de mutaciones con archivos adjuntos donde las mutaciones en sí mismas han sido censuradas. Esto deja solo la información de archivo adjunto de muestra, así como la estructura de árbol global entre sus agrupaciones.

Para construir un árbol de mutaciones completo, permitimos que cada mutación se coloque antes de cualquiera de las agrupaciones clonales de muestras (o completamente después). Para cada mutación, encontramos su posición ML y, por tanto, encontramos el árbol ML (con archivos adjuntos), que respeta el resultado de [33]. El árbol resultante (archivo adicional 1: Figura S2b) es una cadena principalmente lineal como el árbol ML que SCITE encuentra e involucra algunos de los mismos genes en las ramas, aunque una de nuestras ramas se pierde. La probabilidad logarítmica de −642,3 para este árbol es sustancialmente mejor que la del árbol de [34] pero peor que la del árbol que SCITE encuentra (con una probabilidad logarítmica de −378,4). Con la secuenciación unicelular podemos, como lo hacemos aquí, simplemente tratar cada célula como su propio clon y descubrir la filogenia directamente. BitPhylogeny [33], en cambio, se centra en agrupar muestras en subclones durante la inferencia del árbol, lo que reduce la resolución de la reconstrucción.

Aprendizaje de tasa de error

Dentro de nuestro enfoque de MCMC bayesiano, también podemos muestrear las tasas de error desde la parte posterior. Centrándose en la tasa de errores de falsos negativos β manteniendo el falso positivo α fijo, para la versión beta anterior a β con una media de 0,4309, elegimos una gran desviación estándar de 0,1. En la cadena MCMC, con probabilidad del 10% un nuevo β ′ Se propone siguiendo una caminata aleatoria gaussiana con una desviación estándar igual a un tercio de la anterior. Ejecutando la cadena durante 10 millones de pasos, desechando el primer trimestre y trazando el resultado posterior de β llegamos a la Fig. 2 b. La media posterior es 0,455 con una desviación estándar de 0,027, por lo que los datos indican que el valor medido de 0,4309 está un poco subestimado pero dentro de las tolerancias.

Más interesante para nuestros propósitos es cómo estas tasas de error afectan la inferencia del árbol. El mapa β es 0.455 mientras que el árbol MAP (con archivos adjuntos marginados) es una cadena simple (Archivo adicional 1: Figura S4). El orden de mutación es similar al árbol ML (archivo adicional 1: Figura S2a) hasta el punto de ramificación que sugiere el desarrollo de un tumor monoclonal. Manteniendo la tasa de error fija en 0.4309 en cambio, encontramos un árbol MAP idéntico que nos da la confianza de que la inferencia es robusta frente a diferencias menores en las tasas de error.

Inferencia del árbol de mutaciones para un conjunto más amplio de mutaciones

También consideramos un conjunto más grande de mutaciones que comprende las 78 mutaciones no sinónimas del conjunto de datos completo. Para este número de mutaciones, con solo 58 células muestreadas y altos niveles de datos faltantes (48%), la parte posterior es bastante plana, lo que dificulta el descubrimiento de un óptimo global en lugar de un óptimo local. Incrementando el parámetro γ a 2–3 para ampliar el panorama de probabilidades ayudó a descubrir árboles de alta puntuación. También probamos que la representación de árbol alternativo (ver “Métodos”) diseñada para instancias con más mutaciones que muestras ayudó a encontrar el árbol ML (Archivo adicional 1: Figura S5). El árbol ML es nuevamente muy lineal, pero el orden especialmente de algunas de las 18 mutaciones varía en comparación con el árbol ML inferido para ese subconjunto de los datos (archivo adicional 1: Figura S3). Con datos faltantes, las mutaciones pueden encajar igualmente bien a lo largo de varios bordes y se colocaron en su posición más temprana, lo que puede explicar algunas de las variaciones. Sin embargo, de manera más general, los altos niveles de datos faltantes permiten que las mutaciones y las muestras se muevan sin afectar la probabilidad, mientras que las altas tasas de error permiten más reordenamientos con solo un efecto pequeño. Por ejemplo, la mutación en el gen PDE4DIP que más cambia entre los dos conjuntos de datos tiene un 59% de datos faltantes. Además, el orden está esencialmente determinado por el menor número de muestras que se adhieren más arriba en los árboles. Este número más pequeño se reduce aún más con los datos faltantes, lo que limita la precisión de cualquier reconstrucción de árbol, como se explora más adelante con las simulaciones.

Carcinoma de células renales de células claras

El segundo conjunto de datos procede de los datos de secuenciación del exoma unicelular de un carcinoma de células renales de células claras [35]. Los estados de mutación de 50 sitios en 17 células tumorales se detallan en el material complementario de [35]. Marcamos la presencia de un SNV cuando la llamada era diferente del consenso de cinco células de tejido normal (en línea con los totales proporcionados en su material complementario). En cuanto a los datos de [30, 35], se distingue entre mutaciones heterocigotas y homocigotas, por lo que de nuevo usamos la Ec. 8. De los 50 sitios, solo 35 no mutaron en al menos una célula. Solo se seleccionaron aquellos, ya que los 15 restantes simplemente se colocarían en la parte superior del árbol de mutaciones. [35] estimó las tasas de error como α= 2,67 × 10 −5 (falsos positivos) y β= 0.1643 (falsos negativos) y los datos también tienen un 22% de entradas faltantes (Archivo adicional 1: Figura S1b).

Reconstrucción del árbol de mutaciones

Los árboles ML y MAP poseen una acumulación de mutaciones completamente lineal (archivo adicional 1: Figuras S6 y S7a), lo cual es consistente con una serie de expansiones monoclonales y las conclusiones de [35]. La linealidad se confirma en la distribución posterior completa de árboles con una cadena lineal que es dominante (Fig. 2 c). Además, observamos que casi todas las muestras se colocan hacia el final del árbol. Nuevamente un valor mayor del parámetro γ y la representación de árboles alternativos aceleró el descubrimiento de árboles ML.

Aprendizaje de tasa de error

Arreglando una beta anterior para β con una media de 0,1643 y una desviación estándar de 0,06 la distribución posterior de β se obtuvo promediando más de diez corridas de 10 millones de pasos (con una cuarta parte como quemado) (Fig. 2 d). La media posterior es un poco más grande en 0,207 con una desviación estándar de 0,019, por lo que el valor indicado está justo dentro de las incertidumbres. El valor MAP de β en cambio, está un poco más cerca de 0.198 mientras que el árbol MAP (archivo adicional 1: Figura S7b) es esencialmente idéntico al que tiene un valor fijo de β= 0.1643 (Archivo adicional 1: Figura S7a). Sin embargo, el orden de algunas de las mutaciones superiores varía, ya que su ubicación exacta apenas afecta la probabilidad posterior.

Cáncer de mama con receptor de estrógeno positivo (ER +)

El tercer conjunto de datos procede de la secuenciación del exoma de un solo núcleo de 47 células tumorales de un cáncer de mama con receptor de estrógeno positivo (ER +) [36]. Solo se llaman dos estados para cada sitio: la presencia o ausencia de un SNV. Las tasas de error estimadas de [36] son ​​del 9,72% para la deserción alélica y de 1,24 × 10 −6 para el descubrimiento falso. En nuestro análisis, utilizamos las 40 mutaciones presentes en al menos dos células tumorales (archivo adicional 1: Figura S1c).

Reconstrucción del árbol de mutaciones

El árbol MAP calculado para este conjunto de datos se muestra en la Fig. 3. En el Suplemento, también mostramos el árbol ML (Archivo adicional 1: Figura S8) y una versión del árbol MAP con muestras adjuntas (Archivo adicional 1: Figura S9a ). Tanto en los árboles MAP como ML, observamos una acumulación lineal de mutaciones en las primeras etapas del tumor, lo que sugiere que el desarrollo fue a través de un reemplazo secuencial de subclones sin ramas laterales supervivientes y solo unas pocas células con estados ancestrales que sobrevivieron hasta regalo. En las últimas etapas del tumor, observamos una ramificación compleja en subclones coexistentes. Esta ramificación se muestra de manera más general en la distribución posterior completa de los árboles como se resume en la Fig. 2 e.

Árbol MAP para el cáncer de mama (ER +) para los datos [36]. Consulte el archivo adicional 1: Figura S9a para ver una versión con ejemplos adjuntos. Amarillo genes indican mutaciones no sinónimos en genes de cáncer conocidos [36]

A partir de los datos puntuales únicos disponibles para este tumor, no se puede inferir si habrá una coexistencia a largo plazo de subclones, o si observamos un estado transitorio que eventualmente conducirá a un solo subclón superviviente. Sin embargo, para el tratamiento inicial del cáncer, el status quo, cualesquiera que sean las mutaciones que coexistan en las células, ya es informativo para dirigirse conjuntamente a los subclones presentes y, por lo tanto, minimizar el riesgo de una mayor diferenciación en subclones resistentes a la terapia.

Aprendizaje de tasa de error

Usando una beta anterior para β con una media de 0.0972 y una desviación estándar de 0.04, promediamos más de 20 corridas de 10 millones de pasos (con un cuarto como quemado) para obtener la distribución posterior de β (Figura 2 f). La media posterior es más del doble en 0,228 (con una desviación estándar de 0,015), lo que no está de acuerdo con el valor establecido. Este resultado contrasta con nuestras simulaciones posteriores sobre el aprendizaje de la tasa de error (Fig. 4) que muestran que el valor de MAP está cerca del verdadero. Una posible explicación de la discrepancia es que la deserción alélica solo comprende una parte de la tasa de falsos negativos. Otros factores contribuyentes podrían incluir inexactitudes en la denominación de mutaciones heterocigotas con cobertura baja.

Tasas de error de aprendizaje. Comparación de la tasa de falsos negativos de MAP β aprendido usando SCITE para norte= 20 contra el β utilizado para generar los datos. los bloques sólidos son una y dos desviaciones estándar de inferir β si el árbol fuera conocido. MAPA probabilidad máxima a posteriori

El valor MAP de β es 0.226 con un árbol MAP (archivo adicional 1: Figura S9b), que comparte muchas características con el árbol MAP en fijo β= 0.0972 (Archivo adicional 1: Figura S9a) pero tiene algunos reordenamientos de las ramas más abajo y algunos reordenamientos de las mutaciones más arriba. Conocer la tasa de error también conduce a un número ligeramente menor de ramas en la distribución posterior, como lo indican las cruces negras en la Fig. 2 e.

Evaluación sistemática de SCITE sobre datos simulados

Con la disponibilidad limitada de datos de secuenciación de una sola celda en este punto y la falta de la verdad básica en los datos reales, realizamos una evaluación más sistemática de SCITE en conjuntos de datos simulados. Nuestro análisis se centra en la precisión de la inferencia de árboles y el aprendizaje de la tasa de error, el efecto de la calidad de los datos y los tiempos de ejecución prácticos de SCITE.

Precisión de la inferencia de árboles

Para comprobar la coherencia de nuestro enfoque, simulamos árboles de mutación aleatoria con adjuntos de manera uniforme, lo que permite topologías de árboles policlonales. Primero, por norte= 20 y α= 10 −5, generamos 100 árboles de este tipo con hasta 100 archivos adjuntos. Para tasas de error 100β ∈ <5,15,25>, para cada árbol tomamos muestras de un lognormal con desviación estándar de 0.1 y lo multiplicamos por β para obtener β ∗. Luego agregamos ruido a los datos perfectos con tasas (α,β ∗) y eliminó el 1% de los datos. Tomando subconjuntos de los datos de tamaño metro, aprendimos los árboles ML y MAP para las tasas de error β. Esto nos da una especificación errónea aleatoria de alrededor del 10% en comparación con β ∗ .

Cuantificamos la diferencia entre los árboles inferidos y el árbol verdadero contando la frecuencia con la que un nodo tiene el padre incorrecto (Fig. 5 y la fila superior del archivo adicional 1: Figura S10). En la configuración de ML, si no hay muestras adjuntas a una cadena de mutaciones, entonces cualquier orden de esas mutaciones tiene la misma probabilidad. Aquí, en la partitura no penalizamos esta no identificabilidad y tomamos el ordenamiento que minimiza la distancia al árbol generador. Sin embargo, la no identificabilidad tenderá a disminuir a medida que el número de muestras metro aumenta. El árbol MAP selecciona un orden (siguiendo aproximadamente las frecuencias) y, por lo tanto, tiene distancias más altas que el árbol ML. En general, la inferencia de MAP debería ser más robusta y menos propensa al sobreajuste, pero puede tener un sesgo mayor. Para comparar la inferencia ML y MAP de manera justa, elegimos un orden aleatorio de las mutaciones en regiones no identificables en los árboles ML y volvimos a calcular las distancias al árbol generador. Observamos una mejora marginal en la reconstrucción del árbol con el árbol MAP (archivo adicional 1: Figura S11).

Comparación de diferentes métodos. Comparación del aprendizaje de árboles para norte= 20 usando SCITE para el árbol ML (estropeado) y árbol MAP (punteado) contra los resultados de [34] (lineas solidas). Las distancias del árbol ML no incluyen regiones no identificables. K & ampS Kim y Simon [34], MAPA máximo a posteriori, ML máxima verosimilitud

Sin embargo, los errores no son el resultado del método de inferencia, ya que SCITE encuentra el árbol ML (archivo adicional 1: Figura S12). En cambio, estos errores son inherentes a los datos ruidosos donde podría ocurrir que otro árbol se ajuste mejor a los datos que el árbol generador. La discrepancia solo se puede resolver reduciendo los errores o aumentando el tamaño de la muestra y el archivo adicional 1: la figura S10 da una indicación de cómo ocurre esto. Para poner los errores en escala, un valor de dos se referiría a mutaciones adyacentes en una cadena que se intercambia. Dado que las muestras contienen las mutaciones a lo largo de toda su historia en el árbol de mutaciones, tenemos un mayor consenso sobre la estructura de la mutación más arriba en el árbol que más abajo. La ubicación exacta de las mutaciones cerca de la parte inferior del árbol puede determinarse solo con un par de muestras, de modo que los errores que normalmente vemos con mayores metro son mutaciones cerca de la parte inferior del árbol que se están cambiando, o dos mutaciones adyacentes que se están intercambiando. Teniendo esto en cuenta, obtenemos muy buenos árboles con unas 60 muestras, dependiendo de la tasa de error.

Repetimos las simulaciones para norte= 40 y hasta 200 archivos adjuntos como se muestra a lo largo de la fila inferior del archivo adicional 1: Figura S10 y nuevamente encontramos una buena reconstrucción cuando tenemos varias muestras por mutación.

Aprendiendo las tasas de error

Dado que SCITE también puede realizar inferencias de árboles completamente bayesianos, examinamos su capacidad para inferir la tasa de falsos negativos a partir de los datos. Para 2000 árboles aleatorios con 60 adjuntos, generamos datos con un rango de β del 5 al 25%, α= 10 −5 y 1% de datos faltantes. Además, arreglamos un uniforme antes de aprender. β de modo que no se pasa información a SCITE aparte de la ruidosa e incompleta matriz de mutación.

Existe una correlación muy alta entre la generación β y el valor de MAP aprendido (Fig. 4). Para poner esto en contexto, consideramos la distribución teórica si se conociera el árbol. De los árboles y adjuntos aleatorios, alrededor del 22% de las entradas en la matriz de mutación perfecta son unas. Se cambian aleatoriamente con la tasa. β, lo que lleva a una distribución binomial y una desviación estándar de

al inferir β del resultado. En la Fig. 4 se incluyen uno y dos intervalos de desviación estándar, lo que muestra nuevamente que SCITE se desempeña muy bien, ya que también debe inferir la estructura del árbol y manejar los datos faltantes.

Parcelas similares para metro= 40 y metro= 80 (archivo adicional 1: Figura S13) muestran también un ajuste de la β inferencia como metro aumenta.

El efecto de los datos faltantes

Las altas tasas de puntos de datos faltantes debido a estados de mutación no observados son típicos de los datos de secuenciación unicelulares actuales. Realizamos experimentos de simulación para probar cómo esta característica afecta la precisión de la reconstrucción del árbol de mutaciones. Con una tasa de error de β= 10% y la misma especificación incorrecta que antes, generamos hasta 400 árboles aleatorios con hasta 80 adjuntos. Acuerdo α= 10 −5, variamos la cantidad de datos faltantes del 1 al 20% para ver el efecto en la reconstrucción del árbol para metro= <40,60,80>. Vemos un aumento muy débil en los errores de reconstrucción a medida que aumenta la tasa de datos faltantes (fila superior del archivo adicional 1: Figura S14). Dado que SCITE trata la inferencia de manera probabilística, los datos faltantes son similares a reducir efectivamente el número de muestras. metro, por lo que el comportamiento en el archivo adicional 1: Figura S14 está en línea con el cambio metro ligeramente en el archivo adicional 1: Figura S10. El comportamiento también muestra que SCITE es robusto incluso contra altas tasas de datos perdidos.

Mirando hacia atrás a las tasas de datos faltantes aún más altas en los primeros conjuntos de datos, simulamos hasta un 60% de datos faltantes con 400 árboles y la misma configuración que antes. La reconstrucción empeora progresivamente con el aumento de los datos faltantes (fila inferior del archivo adicional 1: Figura S14). Alrededor del 30-40% de datos faltantes con 80 adjuntos, tenemos un rendimiento similar al de 40 celdas adjuntas sin datos faltantes, por lo que hemos reducido a la mitad el tamaño de la muestra. Con un 60% de datos faltantes, la reconstrucción es notablemente más pobre nuevamente, aunque SCITE encuentra aproximadamente la mitad de los padres correctamente para la solución MAP y una gran mayoría con el enfoque ML. Esta diferencia se debe a que se elige el orden óptimo para las soluciones de ML en caso de no identificabilidad.

Muestras de doblete

En raras ocasiones, en lugar de aislar una sola célula para secuenciar, se captura un par de células. Verificamos cuán robusto es SCITE para este tipo de perturbaciones simulando nuevamente datos de 400 árboles aleatorios con 20 nodos y hasta 100 adjuntos. Para representar las secuencias de las muestras de doblete, tomamos hasta 20 pares de muestras adjuntas y las combinamos registrando una mutación siempre que estuviera presente en cualquiera de las células individuales originales. Los errores se agregaron con una tasa de β=10 % (mal especificado como anteriormente), α= 10 −5 y 1% de datos faltantes. Ejecutamos SCITE con metro= <40,60,80> muestras totales, incluyendo hasta 20 dobletes, para ver su efecto en la reconstrucción del árbol.

Observamos un aumento lineal en los errores de reconstrucción a medida que aumenta el número de dobletes (archivo adicional 1: Figura S15) con gradiente decreciente como metro aumenta desde entonces los dobletes representan una proporción menor de la muestra total. A diferencia de los datos faltantes, que reducen el tamaño efectivo de la muestra, los dobletes agregan mutaciones confusas, que podrían no estar de acuerdo con la topología del árbol. Sin embargo, dado que SCITE emplea inferencia probabilística, y en el nivel del árbol de mutación en lugar del árbol de muestra, el consenso de las muestras unicelulares modera los efectos negativos de los dobletes. Incluso con altas tasas de muestreo de doblete, como 10 o 20%, la reconstrucción del árbol, por lo tanto, funciona bien.

Tiempos de ejecución

Para descubrir la complejidad de la búsqueda estocástica y el esquema MCMC, simulamos datos de 400 árboles muestreados uniformemente con hasta 100 nodos y 400 muestras adjuntas. Nosotros definimos α= 10 −5 y β= 0.1 (con la misma especificación incorrecta que antes), incluyó 1% de datos faltantes y configuró el parámetro γ= 1 como en el caso MCMC. Para cada árbol, ejecutamos SCITE 100 veces y registramos cuántos pasos tomó el algoritmo para llegar primero al árbol de mayor probabilidad descubierto por esa ejecución, así como el tiempo de la ejecución. Las longitudes de las cadenas se eligieron de modo que casi todas las corridas compartieran la misma probabilidad más alta. Luego, se puede calcular el número promedio de pasos necesarios para encontrar el árbol ML de consenso (para aquellas ejecuciones con una probabilidad más baja, agregamos la longitud de la cadena y luego asumimos que encontrarían el árbol ML en un número promedio adicional de pasos) . Luego, esto se puede multiplicar por el tiempo promedio por paso para dar una medida de cuánto tiempo tarda SCITE en encontrar un árbol ML en promedio, y repetirse para los 400 árboles para obtener la Fig.6.

Comportamiento de escala. El tiempo promedio que tarda SCITE en encontrar por primera vez un árbol ML como el número de mutaciones norte en el árbol se varía junto con el número de muestras adjuntas metro=<norte,2norte,4norte>

En el aspecto teórico, argumentos análogos a los de [37] indican que la cadena MCMC requiere O(norte 2 ln (norte)) pasos para converger o encontrar árboles ML. El panorama de probabilidades también puede depender de norte y metro de formas no triviales, lo que puede afectar aún más la convergencia. Con cada paso de MCMC O(Minnesota) para puntuar el árbol, obtenemos una estimación general de O(Minnesota 3 ln (norte)) para la convergencia.

En comparación con los resultados numéricos de la figura 6, los gradientes en las gráficas log-log son 4.5, 4.5 y 4.2 para metro=<norte,2norte,4norte> respectivamente. Ya que metronorte en las simulaciones, estos son un poco más altos que la potencia de 4 sugerida por la estimación, pero más o menos en línea con ella. Para comprobar la escala lineal con metro, tomamos las líneas de ajuste en norte= 60 en el medio de la simulación y encontramos que duplicar metro de norte a 2norte y luego 4norte aumenta el tiempo en un factor de 1,9 y luego 1,95, un poco menos del doble y en línea con la escala lineal. Con escala lineal en metro, y para un número razonable de mutaciones, SCITE podrá, por lo tanto, manejar un gran número de células muestreadas de manera eficiente.

Otros parámetros que influyen en el rendimiento práctico de SCITE son las probabilidades de movimiento y para el descubrimiento del árbol ML, además, el parámetro γ. Realizamos una búsqueda sistemática de los parámetros óptimos, que se describe en el archivo adicional 1. Nuestra observación es que una elección óptima de probabilidades de movimiento da un factor de aceleración constante en comparación con los valores predeterminados. Se observaron resultados similares para γ, para el cual el óptimo para encontrar un árbol ML rápidamente es justo por debajo de 1, el valor requerido para el muestreo de MCMC.

Comparación con enfoques de la competencia

Para evaluar aún más el rendimiento de SCITE, lo comparamos con un enfoque de filogenia perfecto simple, dos métodos diseñados para datos de una sola célula y dos métodos recientes para la inferencia de árboles a partir de datos de secuenciación masiva.

Filogenia perfecta

Primero comparamos SCITE con un algoritmo simple para resolver el problema de filogenia perfecto (es decir, probar si los datos definen una filogenia, y si lo hace para construir una [12]). Una matriz de mutación tiene una filogenia perfecta si se puede construir un árbol de modo que las hojas sean las muestras y las mutaciones se coloquen cada una exactamente en un borde, de modo que para cada hoja las mutaciones en el camino que conduce a ella desde la raíz reflejen su mutación. estado. Tal árbol existe solo si no hay contradicciones en los datos debido al ruido o mutaciones recurrentes. Pero si existe, se puede representar como un árbol de mutación etiquetando nodos en lugar de bordes. Para probar la filogenia perfecta, usamos una versión de los datos sin valores perdidos. De nuestros árboles y datos simulados, solo unos pocos están libres de contradicciones, lo que limita la comparación de árboles a unos pocos casos. Las filogenias perfectas en promedio se desvían más del árbol verdadero que los árboles ML y MAP y no se encuentra ninguna para instancias con más de 45 muestras. Las diferencias entre la filogenia perfecta y el árbol verdadero se deben tanto a los errores introducidos como a la información insuficiente para reconstruir completamente el árbol. Los detalles de la comparación se dan en el archivo adicional 1: Tabla S1.

El acercamiento de Kim y Simon [34]

El método de [34] reconstruye el mismo tipo de árboles de mutación que nuestro enfoque. Sin embargo, en su enfoque, un parámetro que representa la rapidez con que las ramas del árbol de mutación se aprenden por primera vez a partir de los datos. Este parámetro se utiliza luego para calcular la probabilidad previa de relaciones ancestrales, lo que informa una prueba de ordenación por pares y la posterior reconstrucción del árbol. En lugar de aprender el parámetro de los datos, le damos a su método el valor exacto del árbol que realmente se usó para generar los datos, ya que esto simplifica la ejecución de la prueba de simulación. Por supuesto, en la práctica, esta información no estaría disponible, por lo que los resultados de su algoritmo son demasiado optimistas. Sin embargo, la aproximación por pares funciona comparativamente mal (Fig. 5). En particular, hay poca mejora a medida que aumenta el número de muestras. Aunque las pruebas ancestrales por pares serán más precisas, esta información adicional parece tener poco impacto en la conversión a un árbol de mutación.

Comparación con BitPhylogeny

BitPhylogeny [33] proporciona una inferencia probabilística más avanzada. Sin embargo, este método reconstruye una estructura de subclon jerárquica en lugar de un árbol de mutación, lo que impide una comparación directa con SCITE y el enfoque de [34]. Por lo tanto, convertimos el resultado de cada método en un árbol de mutación completo con muestras adjuntas. Para SCITE, esto significa encontrar el árbol ML con archivos adjuntos. Para el enfoque de [34], colocamos las muestras en su mejor posición en el árbol encontrado. En cambio, para BitPhylogeny, colocamos las mutaciones a lo largo de las ramas de su árbol clonal en la posición que maximiza la probabilidad. Dado que las mutaciones y las muestras pueden agruparse, como medida de ajuste utilizamos la distancia de ruta más corta basada en el nodo de consenso (como se define en [33]) entre el árbol inferido (completado) y el árbol generador. En particular, para cada árbol, la distancia más corta por pares entre dos muestras es su número de mutaciones diferentes. Luego normalizamos promediando las diferencias absolutas entre las distancias por pares en los árboles inferidos y generadores, en lugar de tomar la suma.

Para norte=20, α= 10 −5 y β= 0.1 (con la misma especificación incorrecta que antes), generamos 400 árboles de este tipo con un 1% de datos faltantes. Por simplicidad y para darle a BitPhylogeny una ligera ventaja, le pasamos los datos completos. Los resultados para metro ∈ <40,60,80> se presentan en la Fig. 7. Los métodos comparados funcionan significativamente peor que SCITE, con BitPhylogeny [33] funcionando mejor que el algoritmo de [34], pero ninguno se acerca al rendimiento de SCITE.

Comparación de métodos adicionales. Comparación de la inferencia de árbol de SCITE, el algoritmo de [34], BitPhylogeny [33], PhyloWGS [24] y AncesTree [22]. La cantidad Δd es la distancia de ruta más corta basada en nodos de consenso normalizada (como se define en [33]) entre los árboles inferidos y generadores. A AncesTree, BP Bitfilogenia, Kansas Kim y Simon [34], PW PhyloWGS

También podemos comparar el rendimiento de los diferentes métodos en términos de la diferencia en las verosimilitudes logarítmicas entre los árboles inferidos y generadores, normalizados dividiendo por el número de elementos de la matriz de datos (archivo adicional 1: Figura S12). Esto muestra un comportamiento similar al de la Fig. 7 y observamos que SCITE siempre proporciona una diferencia no negativa. Por lo tanto, SCITE siempre encontró el árbol generador o uno con una probabilidad ligeramente mayor que el árbol generador.

Comparación con métodos de secuenciación masiva

Finalmente, comparamos SCITE con métodos diseñados para la deconvolución y la reconstrucción de árboles a partir de secuencias mixtas a granel. Elegimos PhyloWGS [24] y AncesTree [22] como dos métodos recientes de alto rendimiento que permiten tratar las muestras tanto por separado como combinadas. PhyloWGS emplea un árbol que rompe palos antes (como BitPhylogeny) mientras que AncesTree resuelve la deconvolución y la ascendencia como una factorización de matriz. Al pasar las mutaciones unicelulares simuladas como muestras individuales a ambos métodos, ninguno devolvió nada más que un solo grupo de mutaciones. Una posible explicación de este resultado es que los dos métodos interpretan los estados de mutación binaria como prevalencia celular en muestras mixtas, lo que probablemente cause problemas en el paso de deconvolución. Se obtuvo un mejor rendimiento al combinar las células individuales en una mezcla a granel, y ambos métodos devolvieron árboles de mutaciones con las mutaciones posiblemente agrupadas en los nodos. Para comparar con los otros métodos, colocamos nuevamente las muestras en sus mejores posiciones en los árboles inferidos para obtener los resultados en la Fig. 7. AncesTree se desempeña ligeramente peor que PhyloWGS y ambos son notablemente peores que BitPhylogeny y SCITE. Esto no es inesperado, ya que solo los dos últimos están diseñados para manejar datos de una sola celda. La principal conclusión aquí es que los métodos especializados son necesarios para los datos unicelulares, ya que los enfoques para muestras mixtas no son fácilmente aplicables.


Obtención de secuencias de homólogos y mdash Enfoque 2: búsqueda en bases de datos

Afortunadamente, no es necesario realizar la secuenciación real para obtener secuencias de interés. Hoy en día, estos se pueden obtener buscando en bases de datos de secuencias. Las principales bases de datos en línea almacenan información de secuencias tanto publicadas como no publicadas (se dan ejemplos en la Tabla 27.2). Además, miles de bases de datos en línea más pequeñas se enfocan en organismos particulares, tipos particulares de datos o datos producidos en instituciones particulares. También se pueden crear bases de datos personalizadas para búsquedas que incluyan información en bases de datos públicas, así como información privada (los resultados de los esfuerzos de secuenciación de un investigador y rsquos), como la secuenciación aleatoria discutida anteriormente. A continuación, se pueden buscar secuencias de interés en cualquiera de estas bases de datos utilizando métodos computacionales.

Están disponibles diversos métodos para buscar homólogos de una secuencia de interés en bases de datos de secuencias. En esencia, todos estos métodos llevan a cabo algún tipo de alineación de secuencia donde una consulta se escanea contra la base de datos en una búsqueda de secuencias en la base de datos que son similares a la consulta. Los métodos que se utilizan varían tanto en lo que utilizan como consulta como en la forma en que identifican y puntúan la similitud con la base de datos. Como básicamente se utilizan los mismos métodos para llevar a cabo múltiples alineaciones de secuencia, las discutiremos en la siguiente sección. Para nuestros propósitos aquí, lo más importante es que todos los métodos de búsqueda de bases de datos utilizan el mismo principio general. Las coincidencias reciben una puntuación según el tipo de coincidencia con la base de datos, y las herramientas de búsqueda de la base de datos producen una tabla de puntuaciones o probabilidades para cada elemento de la base de datos en comparación con la consulta. Se utiliza un límite para desechar los fósforos débiles y los fósforos superiores se almacenan. Observamos que hay muchas formas de asignar puntuaciones a los partidos, algunas de las cuales se analizan en la siguiente sección. Finalmente, se debe tomar una decisión entre los partidos resultantes en cuanto a cuáles son verdaderamente homólogos de interés y cuáles no.

Este último paso es crítico y la fuente de muchos problemas porque la similitud de secuencia no es prueba de homología. Por ejemplo, al buscar en grandes bases de datos de secuencias, los investigadores esperarían encontrar regiones cortas de similitud con su secuencia de consulta solo por casualidad. Cuanto mayor sea la base de datos, es más probable que se produzcan estas coincidencias falsas. Incluso cuando se encuentran similitudes aparentemente no aleatorias, las secuencias similares no son necesariamente homólogas. La similitud de secuencia podría ser un reflejo de la homología, pero también podría ser el resultado de una evolución convergente o paralela (también conocida como analogía).

¿Cómo se distingue la similitud de secuencia debida a la homología de la debida a la analogía? Un enfoque común es simplemente establecer un umbral de similitud conservadora y concluir que las secuencias son homólogas solo si tienen niveles muy altos de similitud. Otro enfoque es tomar cada una de las secuencias en cuestión e intentar inferir cómo eran sus antepasados ​​recientes. Esto sería similar a los estudios de alas de aves y murciélagos, que sabemos que son similares como resultado de la convergencia porque los ancestros relativamente recientes de los murciélagos no tenían alas (figura 27.3). Más importante aún, uno debe entender que la homología es una inferencia y no se sigue directamente de medidas de similitud.


Conclusión

Presentamos el nuevo método MulRF para inferir árboles de especies a partir de árboles de genes incongruentes que se basa en una forma generalizada de la distancia de RF. A diferencia de la mayoría de los métodos filogenéticos anteriores que utilizan árboles genéticos, nuestro enfoque se basa en una medida genérica de la distancia del árbol que no está vinculada a ningún proceso biológico específico. Como resultado, es intuitivamente atractivo para los análisis de conjuntos de datos genómicos, en los que muchos procesos como la coalescencia profunda, la recombinación, las duplicaciones y pérdidas de genes y LGT, así como el error filogenético, probablemente contribuyan a la discordia del árbol genético. En experimentos de simulación, el método MulRF estimó árboles de especies con mayor precisión que varios métodos GTP, y parece ser relativamente robusto a los efectos del error filogenético, la duplicación y pérdida de genes y LGT. Además, el método MulRF es rápido, estimando árboles de especies de 100 taxones de cientos de árboles genéticos en menos de dos minutos y un conjunto de datos de plantas con 22 taxones y casi 2000 árboles genéticos en poco más de 4 minutos.

Nuestros experimentos de simulación simplifican enormemente los verdaderos procesos de evolución genómica. Nos enfocamos solo en procesos que reflejan los objetivos de los métodos GTP, y enfatizamos en la duplicación y pérdida, porque eso es especialmente relevante para la evolución de árboles genéticos de múltiples copias. Aún así, incluso en estas condiciones en las que podríamos esperar que GTP funcione bien, encontramos que MulRF obtiene resultados más precisos que GTP en la mayoría de los casos. Esto no significa que MulRF siempre superará a GTP, pero sugerimos que MulRF puede proporcionar rápidamente una perspectiva alternativa interesante sobre la inferencia de especies de árboles. Se necesitan más pruebas para caracterizar el rendimiento de los métodos MulRF en diferentes escenarios evolutivos.

Otra dirección futura será incorporar estimaciones de la incertidumbre del árbol genético en el análisis de superárboles ponderando las divisiones de manera diferente al calcular la distancia de RF. Además, la eficacia del método MulRF para inferir árboles de especies a partir de árboles genéticos de copias múltiples sugiere que se pueden utilizar otras medidas de distancia de árboles en el mismo contexto. Un candidato natural para el estudio es el cuarteto a distancia. El trabajo futuro también debería evaluar la idoneidad de diferentes métricas de distancia para estimar árboles de especies bajo diferentes modelos de error y escenarios evolutivos.


Resultados

A continuación, presentamos los resultados de nuestros experimentos. Para todos los métodos, informamos la calidad GFT (medida por la distancia Robinson-Foulds [RF] a los árboles verdaderos en conjuntos de datos simulados y verosimilitud conjunta en conjuntos de datos empíricos) y eficiencia computacional (medida por tiempo de ejecución secuencial y eficiencia paralela). Todos los datos y todos los árboles inferidos están disponibles en https://cme.h-its.org/exelixis/material/generax_data.tar.gz.

Distancias de RF a árboles verdaderos

En la figura 5 mostramos las distancias de RF relativas entre las 1.099 GTR verdaderas de cianobacterias simuladas y las respectivas GTR inferidas. Para los métodos que producen más de una GFT potencial por familia de genes (ALE y RAxML-NG), promediamos la distancia entre todos los árboles inferidos .

Distancias de RF relativas a árboles verdaderos, mediante la inferencia de árboles genéticos con el modelo de sustitución real (LG + Γ + I) y un modelo de sustitución mal especificado (WAG).

Distancias de RF relativas a árboles verdaderos, mediante la inferencia de árboles genéticos con el modelo de sustitución real (LG + Γ + I) y un modelo de sustitución mal especificado (WAG).

GeneRax y ALE funcionan mejor que todos los demás métodos, excepto en el caso del modelo de sustitución mal especificado donde Treerecs funciona igualmente bien. Según el modelo real, los métodos STA que no tienen en cuenta la HGT pero utilizan una puntuación de probabilidad conjunta (Phyldog y Treerecs) funcionan mejor que el método puramente basado en secuencias (RAxML-NG), pero peor que los métodos que tienen en cuenta la HGT. Aunque EcceTERA tiene en cuenta las transferencias, solo funciona tan bien como Treerecs, presumiblemente porque el algoritmo EcceTERA solo usa parsimonia. Presumimos que Notung se desempeña peor que todos los otros métodos porque reordena los árboles en función de una puntuación de parsimonia y un umbral de valor de soporte arbitrario.

Resumimos los resultados de las simulaciones de GenPhyloData donde variamos los parámetros (parámetros de intensidad DTL, etc.) en presencia de HGT en la figura 6 y los resultados de las simulaciones en ausencia de HGT en el Material Suplementario en línea. GeneRax encuentra los mejores árboles en el 90% de nuestros escenarios de simulación, pero ALE encuentra árboles que son casi tan buenos en la mayoría de las simulaciones. Treerecs y Phyldog funcionan casi tan bien como GeneRax y ALE en ausencia de HGT, pero peor bajo HGT. Notung funciona significativamente peor que todos los métodos SPA.

Comparación de diferentes herramientas de corrección GTF en conjuntos de datos simulados, en el presencia de transferencias horizontales de genes. (a) Número de taxones de la especie, (B) número de sitios, (C) árbol de especies cada vez más incorrectas, (D) tasas medias de DTL, (mi) relación entre tasas de duplicación y transferencias, y (F) longitudes de las ramas de los árboles genéticos.

Comparación de diferentes herramientas de corrección GTF en conjuntos de datos simulados, en el presencia de transferencias horizontales de genes. (a) Número de taxa de la especie, (B) número de sitios, (C) árbol de especies cada vez más incorrectas, (D) tasas medias de DTL, (mi) relación entre tasas de duplicación y transferencias, y (F) longitudes de las ramas de los árboles genéticos.

Todos los métodos STA muestran un patrón de precisión análogo cuando variamos los parámetros: funcionan mejor con el aumento de la fuerza de la señal de la secuencia de genes (fig. 6b yf) y funcionan peor con el aumento de la discordancia entre el árbol de especies y las GFT (fig. 6c-e).

En la figura 7 mostramos los resultados de las simulaciones SimPhy sobre diferentes puntuaciones de discordancia ILS. GeneRax supera a todas las demás herramientas de STA. Encuentra mejores GFT que el único método que no es STA (RAxML-NG) hasta una puntuación de discordancia ILS de 0,6. Nuestros hallazgos sugieren que GeneRax se puede implementar para analizar conjuntos de datos que exhiben un grado moderado de ILS.

Distancia de RF a árboles verdaderos en conjuntos de datos simulados con discordancia creciente debido a ILS.

Distancia de RF a árboles verdaderos en conjuntos de datos simulados con discordancia creciente debido a ILS.

Distancias de puntaje de rama a árboles verdaderos

Para comparar la calidad de las longitudes de las ramas de los genes en términos del número esperado de sustituciones por sitio, medimos la distancia promedio de puntuación de las ramas (Kuhner y Felsenstein 1994) entre los árboles inferidos y los árboles verdaderos (fig.8) con la biblioteca Phangorn R (Schliep 2011). GeneRax funciona mejor que todas las herramientas de la competencia. En particular, GeneRax muestra una mejor distancia promedio de puntaje de sucursal (1.02) que ALE (1.48). Una posible explicación de esto es que ALE no infiere las longitudes de las ramas optimizando la puntuación de probabilidad filogenética, a diferencia de GeneRax, Treerecs y RAxML-NG. Al usar ALE, Notung, Phyldog o EcceTERA, los usuarios interesados ​​en la precisión de la longitud de las ramas necesitarían incluir una herramienta adicional en su canalización (por ejemplo, RAxML-NG).

Distancia de puntuación de rama a árboles verdaderos. Se excluyeron de la gráfica los métodos que no infieren las longitudes de las ramas.

Distancia de puntuación de rama a árboles verdaderos. Se excluyeron de la gráfica los métodos que no infieren las longitudes de las ramas.

Probabilidad conjunta

En la figura 9 informamos las puntuaciones conjuntas de ML de las GFT obtenidas con las diferentes herramientas. Dado que el árbol verdadero generalmente no se conoce para los datos empíricos, y dado que estamos dispuestos a aceptar el criterio de ML, debemos asumir que el árbol que produce el El mejor ML conjunto es también el que mejor explica los datos. Este enfoque de evaluación comparativa de herramientas de AA sobre conjuntos de datos empíricos se ha utilizado repetidamente para evaluar herramientas de inferencia de árboles estándar (Nguyen et al.2015 Kozlov et al.2019). La razón de esto es que las búsquedas de árboles estándar basadas en la probabilidad filogenética son intrínsecamente más difíciles en datos empíricos que en datos simulados suaves y perfectos. Es decir, las diferencias entre los algoritmos de búsqueda de árboles a veces solo pueden observarse en datos empíricos. Como era de esperar, GeneRax encuentra la puntuación de probabilidad conjunta más alta. ALE está cerca de GeneRax, porque se esfuerza por aproximarse al mismo modelo. Como las herramientas restantes implementan modelos distintos, nuestra comparación puede parecer injusta. Sin embargo, consideramos esto principalmente como un medio para verificar que GeneRax maximice adecuadamente la probabilidad bajo su modelo de reconciliación específico. Treerecs y Phyldog también están muy cerca de GeneRax en ausencia de transferencias, porque implementan un modelo de probabilidad conjunta similar. ALE funciona mejor que Treerecs y Phyldog en presencia de HGT, porque Treerecs y Phyldog solo dan cuenta de la duplicación y pérdida de genes. RAxML-NG, EcceTERA y Notung no implementan un modelo de probabilidad de conciliación conjunta, lo que explica sus bajas puntuaciones.

Probabilidades logarítmicas (cuanto más altas, mejor) evaluadas con GeneRax. Al evaluar la probabilidad conjunta para los primates, establecemos la tasa de HGT en 0. (a) Primates y (B) Cianobacterias.

Probabilidades logarítmicas (cuanto más altas, mejor) evaluadas con GeneRax. Al evaluar la probabilidad conjunta para los primates, establecemos la tasa de HGT en 0. (a) Primates y (B) Cianobacterias.

Además, al ejecutar GeneRax en el conjunto de datos empíricos de Cyanobacteria, registramos tanto la probabilidad de reconciliación como la probabilidad filogenética durante la búsqueda de árboles (fig. 10). Observamos que la optimización de la probabilidad conjunta se produce a través de un aumento de la probabilidad de reconciliación junto con una disminución de la probabilidad filogenética. Observamos esto de manera consistente en todos los conjuntos de datos empíricos y simulados con los que experimentamos. En general, observamos que nuestra heurística de búsqueda de árbol de verosimilitud conjunta no es eficiente para mejorar la puntuación de verosimilitud filogenética y, por lo tanto, debe partir de árboles con una alta probabilidad filogenética. Por esta razón, cuando el usuario no proporciona un árbol de inicio, inicialmente solo optimizamos la probabilidad filogenética y solo posteriormente comenzamos la optimización de la probabilidad conjunta.

Probabilidades de registro de reconciliación y secuencia durante la búsqueda del árbol GeneRax en el conjunto de datos de Cyanobacteria. La probabilidad de secuencia disminuye mientras que aumenta la probabilidad de conciliación.

Reconciliación y probabilidad de registro de secuencia durante la búsqueda del árbol GeneRax en el conjunto de datos de Cyanobacteria. La probabilidad de secuencia disminuye mientras que aumenta la probabilidad de conciliación.

Tiempos de ejecución secuenciales

Medimos los tiempos de ejecución secuenciales de todas las herramientas en el conjunto de datos empíricos de Cyanobacteria. Comparar los tiempos de ejecución no es sencillo: algunas herramientas son muy rápidas pero requieren un paso de preprocesamiento externo, como se describe en la tabla 1. Por ejemplo, Notung es la herramienta más rápida, pero requiere GFT con valores de soporte como entrada, y obtenerlos puede llevar mucho tiempo. Para una comparación justa, graficamos tanto el tiempo invertido en las herramientas de inferencia GFT solamente como el tiempo invertido en sus respectivos pasos de preprocesamiento (fig. 11).

Software utilizado en nuestro punto de referencia, con el tipo de método (ML, parsimonia o ambos), la naturaleza de los árboles de entrada (árbol aleatorio, árbol ML, árbol con valores de soporte de arranque o muestra de árboles MCMC), si el método Es STA y si el método tiene en cuenta HGT.

Software . Tipo de método. Árboles de entrada. STA. HGT. Árbitro. .
RAxML-NG ML Aleatorio No No Kozlov y col. (2019)
Notung Parsimonia ML admitido No Chen y col. (2000)
Treerecs Parsimonia + ML ML admitido No Comte y col. (2020)
Phyldog ML ML No Boussau y col. (2013)
EcceTERA Parsimonia Muestras de ML o MCMC compatibles Scornavacca y col. (2015)
CERVEZA INGLESA ML Muestras de MCMC Szöllősi, Rosikiewicz y col. (2013)
GeneRax ML Aleatorio o ML Este papel
Software . Tipo de método. Árboles de entrada. STA. HGT. Árbitro. .
RAxML-NG ML Aleatorio No No Kozlov y col. (2019)
Notung Parsimonia ML admitido No Chen y col. (2000)
Treerecs Parsimonia + ML ML admitido No Comte y col. (2020)
Phyldog ML ML No Boussau y col. (2013)
EcceTERA Parsimonia Muestras de ML o MCMC compatibles Scornavacca y col. (2015)
CERVEZA INGLESA ML Muestras de MCMC Szöllősi, Rosikiewicz y col. (2013)
GeneRax ML Aleatorio o ML Este papel

Software utilizado en nuestro punto de referencia, con el tipo de método (ML, parsimonia o ambos), la naturaleza de los árboles de entrada (árbol aleatorio, árbol ML, árbol con valores de apoyo de arranque o muestra de árboles MCMC), si el método Es STA y si el método tiene en cuenta HGT.

Software . Tipo de método. Árboles de entrada. STA. HGT. Árbitro. .
RAxML-NG ML Aleatorio No No Kozlov y col. (2019)
Notung Parsimonia ML admitido No Chen y col. (2000)
Treerecs Parsimonia + ML ML admitido No Comte y col. (2020)
Phyldog ML ML No Boussau y col. (2013)
EcceTERA Parsimonia Muestras de ML o MCMC compatibles Scornavacca y col. (2015)
CERVEZA INGLESA ML Muestras de MCMC Szöllősi, Rosikiewicz y col. (2013)
GeneRax ML Aleatorio o ML Este papel
Software . Tipo de método. Árboles de entrada. STA. HGT. Árbitro. .
RAxML-NG ML Aleatorio No No Kozlov y col. (2019)
Notung Parsimonia ML admitido No Chen y col. (2000)
Treerecs Parsimonia + ML ML admitido No Comte y col. (2020)
Phyldog ML ML No Boussau y col. (2013)
EcceTERA Parsimonia Muestras de ML o MCMC compatibles Scornavacca y col. (2015)
CERVEZA INGLESA ML Muestras de MCMC Szöllősi, Rosikiewicz y col. (2013)
GeneRax ML Aleatorio o ML Este papel

Tiempos de ejecución secuenciales y gastos generales adicionales de los pasos de precomputación (árboles de arranque con RAxML-NG para Notung y Treerecs, muestras de MCMC con MrBayes para ALE y EcceTERA, y árboles de inicio RAxML-NG para GeneRax-raxml). La columna RAxML-NG corresponde al tiempo empleado en una sola búsqueda de árbol. Representamos tiempos con una escala logarítmica.

Tiempos de ejecución secuenciales y gastos generales adicionales de los pasos de precomputación (árboles de arranque con RAxML-NG para Notung y Treerecs, muestras de MCMC con MrBayes para ALE y EcceTERA, y árboles de inicio RAxML-NG para GeneRax-raxml). La columna RAxML-NG corresponde al tiempo empleado en una sola búsqueda de árbol. Representamos tiempos con una escala logarítmica.

Cuando solo se consideran los tiempos de ejecución independientes de las herramientas, GeneRax es el método más lento. Sin embargo, al incluir el costo de preprocesamiento, GeneRax se convierte en el enfoque STA más rápido. Además, el uso de una única herramienta para todo el proceso de inferencia mejora sustancialmente la usabilidad y la reproducibilidad de los análisis.

Eficiencia paralela

Medimos los tiempos de ejecución paralelos de GeneRax para diferentes números de núcleos. Para este experimento, ejecutamos GeneRax en el conjunto de datos empíricos de Cyanobacteria (1.099 familias), a partir de árboles RAxML-NG. Usamos 4 hasta 512 núcleos. A pesar de los tamaños de MSA de la familia de genes altamente heterogéneos (en términos de número de sitios y número de taxones, consulte el Material complementario en línea), GeneRax logra una alta eficiencia paralela del 70% en 512 núcleos. Trazamos la aceleración en función del número de núcleos en el Material complementario en línea.

También medimos la eficiencia paralela de ejecutar los métodos de la competencia como se describe en la sección Materiales y métodos y los representamos en el Material complementario en línea. GeneRax es la única herramienta que logra una buena eficiencia (70%) porque paraleliza tanto, más, y dentro de las familias de genes, logrando así un "buen" equilibrio de carga. A pesar de un esquema similar de paralelización de dos niveles, la eficiencia paralela de RAxML-NG (programado con ParGenes, con un árbol inicial por familia) es inferior al 20%. La razón de esto es que ParGenes paraleliza las búsquedas de árboles individuales sobre los sitios, mientras que GeneRax las paraleliza sobre los movimientos SPR. Los MSA genéticos suelen ser cortos y, por lo general, no hay una cantidad suficiente de sitios para asignar varios núcleos por búsqueda de árbol con RAxML-NG. Otras herramientas de la competencia tampoco logran una buena eficiencia paralela (40%), porque no paralelizan las inferencias GFT individuales y, por lo tanto, están limitadas por el tiempo de inferencia individual por árbol más largo. La eficiencia paralela de GeneRax disminuye cuando se parte de árboles aleatorios, porque el paso inicial de optimización de probabilidad filogenética se basa en el código RAxML-NG, que aún no implementa nuestro esquema de paralelización de dos niveles antes mencionado.


Contenido

La inferencia bayesiana se refiere a un método probabilístico desarrollado por el reverendo Thomas Bayes basado en el teorema de Bayes. Publicado póstumamente en 1763, fue la primera expresión de probabilidad inversa y la base de la inferencia bayesiana. Independientemente, sin tener conocimiento del trabajo de Bayes, Pierre-Simon Laplace desarrolló el teorema de Bayes en 1774. [6]

La inferencia bayesiana o el método de probabilidad inversa fue el enfoque estándar en el pensamiento estadístico hasta principios del siglo XX antes de que RA Fisher desarrollara lo que ahora se conoce como la inferencia clásica / frecuentista / Fisheriana. Las dificultades computacionales y las objeciones filosóficas habían impedido la adopción generalizada del enfoque bayesiano hasta la década de 1990, cuando los algoritmos de Markov Chain Monte Carlo (MCMC) revolucionaron la computación bayesiana.

El enfoque bayesiano de la reconstrucción filogenética combina la probabilidad previa de un árbol P (A) con la probabilidad de que los datos (B) produzcan una distribución de probabilidad posterior en los árboles P (A | B). [7] La ​​probabilidad posterior de un árbol será la probabilidad de que el árbol sea correcto, dado el anterior, los datos y la exactitud del modelo de verosimilitud.

Los métodos MCMC se pueden describir en tres pasos: primero, utilizando un mecanismo estocástico, se propone un nuevo estado para la cadena de Markov. En segundo lugar, se calcula la probabilidad de que este nuevo estado sea correcto. En tercer lugar, se propone una nueva variable aleatoria (0,1). Si este nuevo valor es menor que la probabilidad de aceptación, se acepta el nuevo estado y se actualiza el estado de la cadena. Este proceso se ejecuta miles o millones de veces. La cantidad de tiempo que se visita un solo árbol durante el curso de la cadena es solo una aproximación válida de su probabilidad posterior. Algunos de los algoritmos más comunes utilizados en los métodos MCMC incluyen los algoritmos Metropolis-Hastings, el MCMC Metropolis-Coupling (MC³) y el algoritmo LOCAL de Larget y Simon.

Algoritmo de Metropolis-Hastings Editar

Uno de los métodos MCMC más comunes es el algoritmo Metropolis-Hastings, [8] una versión modificada del algoritmo original de Metropolis. [9] Es un método ampliamente utilizado para muestrear aleatoriamente a partir de probabilidades de distribución complicadas y multidimensionales. El algoritmo de Metropolis se describe en los siguientes pasos: [10] [11]

  1. Un árbol inicial, TI, se selecciona al azar
  2. Un árbol vecino, Tj, se selecciona de la colección de árboles.
  3. La razón, R, de las probabilidades (o funciones de densidad de probabilidad) de Tj y TI se calcula de la siguiente manera: R = f (Tj)/pieI)
  4. Si R ≥ 1, Tj se acepta como el árbol actual
  5. Si R & lt 1, Tj se acepta como el árbol actual con probabilidad R, de lo contrario TI se mantiene
  6. En este punto, el proceso se repite desde el paso 2 N veces.

El algoritmo sigue funcionando hasta que alcanza una distribución de equilibrio. También asume que la probabilidad de proponer un nuevo árbol Tj cuando estamos en el estado de árbol viejo TI, es la misma probabilidad de proponer TI cuando estamos en Tj. Cuando este no es el caso, se aplican las correcciones de Hastings. El objetivo del algoritmo Metropolis-Hastings es producir una colección de estados con una distribución determinada hasta que el proceso de Markov alcance una distribución estacionaria. El algoritmo tiene dos componentes:

  1. Una transición potencial de un estado a otro (i → j) usando una función de probabilidad de transición qyo, j
  2. Movimiento de la cadena al estado j con probabilidad αyo, j y permanece en i con probabilidad 1 - αyo, j. [2]

MCMC acoplado a Metropolis Editar

Se ha propuesto el algoritmo MCMC acoplado a Metrópolis (MC³) [12] para resolver un problema práctico de la cadena de Markov que se mueve a través de picos cuando se sabe que la distribución objetivo tiene múltiples picos locales, separados por valles bajos, que existen en el espacio del árbol. Este es el caso durante la búsqueda de árboles heurísticos bajo criterios de máxima parsimonia (MP), máxima verosimilitud (ML) y mínima evolución (ME), y lo mismo se puede esperar para la búsqueda de árboles estocásticos utilizando MCMC. Este problema dará como resultado que las muestras no se aproximen correctamente a la densidad posterior. El (MC³) mejora la mezcla de cadenas de Markov en presencia de múltiples picos locales en la densidad posterior. Ejecuta múltiples (m) cadenas en paralelo, cada una para n iteraciones y con diferentes distribuciones estacionarias π j (.) < Displaystyle pi _(.) >, j = 1, 2,…, m < displaystyle j = 1,2, ldots, m >, donde el primero, π 1 = π < displaystyle pi _ <1> = pi > es la densidad objetivo, mientras que π j < displaystyle pi _>, j = 2, 3,…, m < displaystyle j = 2,3, ldots, m > se eligen para mejorar la mezcla. Por ejemplo, se puede elegir el calentamiento incremental de la forma:

Al final de la corrida, solo se utiliza la producción de la cadena de frío, mientras que se descarta la de las cadenas calientes. Heurísticamente, las cadenas calientes visitarán los picos locales con bastante facilidad, y el intercambio de estados entre cadenas permitirá que la cadena fría ocasionalmente salte valles, lo que conducirá a una mejor mezcla. Sin embargo, si π i (θ) / π j (θ) < displaystyle pi _( theta) / pi _( theta) > es inestable, los intercambios propuestos rara vez serán aceptados. Ésta es la razón por la que se utilizan varias cadenas que se diferencian solo de forma incremental.

Algoritmo LOCAL de Larget y Simon Edit

Los algoritmos LOCAL [13] ofrecen una ventaja computacional sobre los métodos anteriores y demuestra que un enfoque bayesiano es capaz de evaluar la incertidumbre de forma práctica computacional en árboles más grandes. El algoritmo LOCAL es una mejora del algoritmo GLOBAL presentado en Mau, Newton y Larget (1999) [14] en el que todas las longitudes de las ramas se cambian en cada ciclo. Los algoritmos LOCAL modifican el árbol seleccionando una rama interna del árbol al azar. Los nodos en los extremos de esta rama están conectados cada uno a otras dos ramas. Uno de cada par se elige al azar. Imagínese tomando estos tres bordes seleccionados y ensartándolos como un tendedero de izquierda a derecha, donde la dirección (izquierda / derecha) también se selecciona al azar. Los dos extremos de la primera rama seleccionada tendrán un subárbol que cuelga como una prenda de vestir atada a la línea. El algoritmo procede multiplicando las tres ramas seleccionadas por una cantidad aleatoria común, similar a estirar o encoger el tendedero. Finalmente, el más a la izquierda de los dos subárboles colgantes se desconecta y se vuelve a unir al tendedero en una ubicación seleccionada uniformemente al azar. Este sería el árbol candidato.

Evaluación de la convergencia Editar

Por tanto, la distribución posterior no normalizada es:

Actualice la longitud de la rama eligiendo un nuevo valor uniformemente al azar desde una ventana de ancho medio w < displaystyle w > centrada en el valor actual:

Hay muchos enfoques para reconstruir árboles filogenéticos, cada uno con ventajas y desventajas, y no hay una respuesta sencilla a "¿cuál es el mejor método?". La máxima parsimonia (MP) y la máxima verosimilitud (ML) son métodos tradicionales ampliamente utilizados para la estimación de filogenias y ambos utilizan la información del carácter directamente, como lo hacen los métodos bayesianos.

La parsimonia máxima recupera uno o más árboles óptimos en base a una matriz de caracteres discretos para un determinado grupo de taxones y no requiere un modelo de cambio evolutivo. MP da la explicación más simple para un conjunto de datos dado, reconstruyendo un árbol filogenético que incluye la menor cantidad posible de cambios en las secuencias, este es el que exhibe el menor número de pasos evolutivos para explicar la relación entre taxones. El soporte de las ramas de los árboles está representado por el porcentaje de arranque. Por la misma razón que ha sido ampliamente utilizado, su simplicidad, MP también ha recibido críticas y ha sido relegado a un segundo plano por los métodos ML y Bayesianos. MP presenta varios problemas y limitaciones. Como lo muestra Felsenstein (1978), MP podría ser estadísticamente inconsistente, [15] lo que significa que a medida que se acumulan más y más datos (por ejemplo, longitud de secuencia), los resultados pueden converger en un árbol incorrecto y conducir a la atracción de ramas largas, un fenómeno filogenético donde Los taxones con ramas largas (numerosos cambios de estado de carácter) tienden a parecer más estrechamente relacionados en la filogenia de lo que realmente están. Para los datos morfológicos, estudios de simulación recientes sugieren que la parsimonia puede ser menos precisa que los árboles construidos con enfoques bayesianos, [16] potencialmente debido a la sobreprecisión, [17] aunque esto ha sido discutido.[18] Los estudios que utilizan métodos de simulación novedosos han demostrado que las diferencias entre los métodos de inferencia son el resultado de la estrategia de búsqueda y el método de consenso empleados, en lugar de la optimización utilizada. [19]

Como en la máxima parsimonia, la máxima probabilidad evaluará árboles alternativos. Sin embargo, considera la probabilidad de que cada árbol explique los datos dados basándose en un modelo de evolución. En este caso, se elige el árbol con mayor probabilidad de explicar los datos sobre los demás. [20] En otras palabras, compara cómo diferentes árboles predicen los datos observados. La introducción de un modelo de evolución en los análisis de ML presenta una ventaja sobre MP ya que se tiene en cuenta la probabilidad de sustituciones de nucleótidos y las tasas de estas sustituciones, lo que explica las relaciones filogenéticas de los taxones de una manera más realista. Una consideración importante de este método es la longitud de la rama, que la parsimonia ignora, y es más probable que ocurran cambios a lo largo de las ramas largas que en las cortas. Este enfoque podría eliminar la atracción de ramas largas y explicar la mayor consistencia de ML sobre MP. Aunque muchos lo consideran el mejor enfoque para inferir filogenias desde un punto de vista teórico, ML es computacionalmente intensivo y es casi imposible explorar todos los árboles ya que hay demasiados. La inferencia bayesiana también incorpora un modelo de evolución y las principales ventajas sobre MP y ML son que es computacionalmente más eficiente que los métodos tradicionales, cuantifica y aborda la fuente de incertidumbre y es capaz de incorporar modelos complejos de evolución.

  • Valores de bootstrap frente a probabilidades posteriores. Se ha observado que los valores de soporte de bootstrap, calculados bajo parsimonia o máxima verosimilitud, tienden a ser menores que las probabilidades posteriores obtenidas por inferencia bayesiana. [21] [22] [23] [24] [25] Esto lleva a una serie de preguntas tales como: ¿Las probabilidades posteriores conducen a un exceso de confianza en los resultados? [26] ¿Son los valores de bootstrap más robustos que las probabilidades posteriores?
  • Controversia del uso de probabilidades previas. El uso de probabilidades previas para el análisis bayesiano ha sido visto por muchos como una ventaja, ya que proporciona una forma de incorporar información de fuentes distintas de los datos que se analizan. Sin embargo, cuando falta tal información externa, uno se ve obligado a usar un previo, incluso si es imposible usar una distribución estadística para representar la ignorancia total. También es motivo de preocupación que las probabilidades posteriores bayesianas puedan reflejar opiniones subjetivas cuando el anterior es arbitrario y subjetivo.
  • Elección del modelo. Los resultados del análisis bayesiano de una filogenia están directamente correlacionados con el modelo de evolución elegido, por lo que es importante elegir un modelo que se ajuste a los datos observados, de lo contrario las inferencias en la filogenia serán erróneas. Muchos científicos han planteado preguntas sobre la interpretación de la inferencia bayesiana cuando el modelo es desconocido o incorrecto. Por ejemplo, un modelo demasiado simplificado podría dar mayores probabilidades posteriores. [21] [27]

MrBayes es una herramienta de software gratuita que realiza inferencias bayesianas de filogenia. Fue escrito originalmente por John P. Huelsenbeck y Frederik Ronquist en 2001. [28] A medida que los métodos bayesianos aumentaron en popularidad, MrBayes se convirtió en uno de los programas de elección de muchos filogenéticos moleculares. Se ofrece para los sistemas operativos Macintosh, Windows y UNIX y tiene una interfaz de línea de comandos. El programa utiliza el algoritmo estándar MCMC, así como la variante MCMC acoplada a Metropolis. MrBayes lee matrices alineadas de secuencias (ADN o aminoácidos) en el formato estándar NEXUS. [29]

MrBayes usa MCMC para aproximar las probabilidades posteriores de los árboles. [9] El usuario puede cambiar los supuestos del modelo de sustitución, los antecedentes y los detalles del análisis MC³. También permite al usuario eliminar y agregar taxones y caracteres al análisis. El programa utiliza el modelo más estándar de sustitución de ADN, el 4x4 también llamado JC69, que asume que los cambios en los nucleótidos ocurren con la misma probabilidad. [30] También implementa varios modelos 20x20 de sustitución de aminoácidos y modelos de codones de sustitución de ADN. Ofrece diferentes métodos para relajar la suposición de tasas de sustitución iguales en todos los sitios de nucleótidos. [31] MrBayes también es capaz de inferir estados ancestrales acomodando la incertidumbre al árbol filogenético y los parámetros del modelo.

MrBayes 3 [32] era una versión completamente reorganizada y reestructurada del MrBayes original. La principal novedad fue la capacidad del software para adaptarse a la heterogeneidad de conjuntos de datos. Este nuevo marco permite al usuario mezclar modelos y aprovechar la eficiencia del análisis de MCMC bayesiano cuando se trata de diferentes tipos de datos (por ejemplo, proteínas, nucleótidos y morfológicos). Utiliza el MCMC Metropolis-Coupling de forma predeterminada.

MrBayes 3.2 fue lanzado en 2012 [33] La nueva versión permite a los usuarios ejecutar múltiples análisis en paralelo. También proporciona cálculos de probabilidad más rápidos y permite que estos cálculos se deleguen en unidades de procesamiento de gráficos (GPU). La versión 3.2 proporciona opciones de salida más amplias compatibles con FigTree y otros visores de árboles.

Esta tabla incluye algunos de los programas filogenéticos más comunes utilizados para inferir filogenias en un marco bayesiano. Algunos de ellos no utilizan métodos exclusivamente bayesianos.

La inferencia bayesiana ha sido ampliamente utilizada por los filogenéticos moleculares para un amplio número de aplicaciones. Algunos de estos incluyen: