Información

17.5: Descubrimiento de motivos de novo - Biología

17.5: Descubrimiento de motivos de novo - Biología



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Como se discutió al comienzo de este capítulo, el problema central para la búsqueda de motivos es definir los criterios para determinar qué es un motivo válido y dónde se ubican. Alternativamente, se podría usar ChIP-seq para buscar motivos, pero este método se basa no solo en tener un factor de transcripción conocido de interés, sino que también requiere el desarrollo de anticuerpos para reconocer dicho factor de transcripción, lo que puede ser costoso y llevar mucho tiempo.

Idealmente, uno podría descubrir motivos de novo, o sin depender de un conjunto de genes o factor de transcripción ya conocido. Si bien esto parece un problema difícil, de hecho se puede lograr aprovechando la conservación de todo el genoma. Debido a que las funciones biológicas generalmente se conservan en todas las especies y tienen firmas evolutivas distintas, se pueden alinear secuencias de especies cercanas y buscar específicamente en regiones conservadas (también conocidas como Isla de Conservación) para aumentar la tasa de búsqueda de motivos funcionales.

Descubrimiento de motivos mediante la conservación de todo el genoma

Las islas de conservación a menudo se superponen con motivos conocidos, por lo que hacer exploraciones de todo el genoma a través de regiones conservadas evolutivamente puede ayudarnos a descubrir motivos, de novo. Sin embargo, no todas las regiones conservadas serán motivos; por ejemplo, los nucleótidos que rodean los motivos también pueden conservarse aunque ellos mismos no sean parte de un motivo. Se puede distinguir los motivos de las regiones conservadas de fondo buscando enriquecimientos que seleccionarán más específicamente para los kmers implicados en motivos reguladores. Por ejemplo, se pueden encontrar motivos reguladores buscando secuencias conservadas enriquecidas en regiones intergénicas corriente arriba de genes en comparación con regiones de control tales como secuencias codificantes, ya que cabría esperar que los motivos estuvieran enriquecidos en o alrededor de promotores de genes. También se puede expandir este modelo para encontrar motivos degenerados: podemos buscar la conservación de motivos no degenerados más pequeños separados por un espacio de longitud variable, como se muestra en la figura siguiente. También podemos extender este motivo a través de una búsqueda codiciosa para acercarnos a encontrar el motivo de máxima verosimilitud local. Por último, la evolución de los motivos también puede revelar qué motivos están degenerados; Dado que es más probable que un motivo particular se degenere si a menudo es reemplazado por otro motivo a lo largo de la evolución, la agrupación de motivos puede revelar qué kmers probablemente correspondan al mismo motivo.

De hecho, la estrategia tiene su relevancia biológica. En 2003, el profesor Kellis argumentó que debe haber cierta presión selectiva para hacer que una secuencia particular ocurra en lugares específicos. Su doctorado. La tesis sobre el tema se puede encontrar en la siguiente ubicación:

Validación de motivos descubiertos con conjuntos de datos funcionales

Estos motivos predichos se pueden validar con conjuntos de datos funcionales. Es más probable que los motivos predichos con al menos una de las siguientes características sean motivos reales: -enriquecimiento en genes co-regulados. Se puede extender esto aún más a grupos de genes más grandes; por ejemplo, se ha encontrado que los motivos están enriquecidos en genes expresados ​​en tejidos específicos - superposición con experimentos de unión de TF - enriquecimiento en genes del mismo complejo - sesgos posicionales con respecto al sitio de inicio de la transcripción (TSS): los motivos están enriquecidos en genes TSS -en sentido ascendente o descendente de genes, sesgos positonales inter- vs. los motivos se conservan y los motivos conocidos pueden no ser exactamente correctos)


HOMERO

HOMER contiene un algoritmo de descubrimiento de motivos novedoso que fue diseñado para el análisis de elementos reguladores en aplicaciones genómicas (solo ADN, sin proteínas). Es un algoritmo de descubrimiento de motivos diferenciales, lo que significa que toma dos conjuntos de secuencias e intenta identificar los elementos reguladores que se enriquecen específicamente en el conjunto en relación con el otro. Utiliza la puntuación ZOOPS (cero o una ocurrencia por secuencia) junto con los cálculos de enriquecimiento hipergeométrico (o binomio) para determinar el enriquecimiento del motivo. HOMER también hace todo lo posible para tener en cuenta el sesgo secuenciado en el conjunto de datos. Fue diseñado teniendo en cuenta el análisis de promotores y ChIP-Seq, pero se puede aplicar a prácticamente cualquier problema de búsqueda de motivos de ácidos nucleicos.

Hay varias formas de realizar análisis de motivos con HOMER. Los enlaces a continuación presentan los distintos flujos de trabajo para ejecutar el análisis de motivos. En pocas palabras, HOMER contiene dos herramientas, findMotifs.pl y findMotifsGenome.pl, que gestionan todos los pasos para descubrir motivos en las regiones promotora y genómica, respectivamente. Estos scripts intentan facilitar al usuario el análisis de una lista de genes o posiciones genómicas en busca de motivos enriquecidos. Sin embargo, si ya tiene los archivos de secuencia que desea analizar (es decir, archivos FASTA), findMotifs.pl (y homer2) pueden procesarlos directamente.

Independientemente de cómo invoque a HOMER, se ejecutan los mismos pasos básicos para descubrir elementos regulatorios:

Preprocesamiento:

1. Extracción de secuencias (findMotifs.pl/findMotifsGenome.pl)

2. Selección de fondo (findMotifs.pl/findMotifsGenome.pl)

3. Normalización de GC (findMotifs.pl/findMotifsGenome.pl)

Las secuencias en los conjuntos objetivo y de fondo se agrupan luego en función de su contenido de GC (intervalos del 5%). Las secuencias de fondo se ponderan para parecerse a la misma distribución de contenido de GC observada en las secuencias diana. Esto ayuda a evitar que HOMER evite simplemente encontrar motivos ricos en GC al analizar secuencias de islas CpG. Para realizar la normalización de CpG% en lugar de la normalización de GC% (G + C), utilice "-cpg". Un ejemplo de distribución de regiones porcentuales de GC de un experimento de ChIP-Seq:


4. Autonormalización (nuevo con v3.0, homer2 / findMotifs.pl / findMotifsGenome.pl)

A menudo, las secuencias diana tienen un desequilibrio en el contenido de la secuencia diferente al% de GC. Esto puede ser causado por un fenómeno biológico, como el sesgo de codones en los exones, o el sesgo experimental causado por la secuenciación preferencial de tramos ricos en A, etc. Si estas fuentes de sesgo son lo suficientemente fuertes, HOMER las considerará como características que diferencian significativamente las secuencias objetivo y de fondo. HOMER ahora ofrece la autonormalización como una técnica para eliminar (o eliminar parcialmente) los desequilibrios en secuencias de oligo cortas (es decir, AA) asignando pesos a las secuencias de fondo. El procedimiento intenta minimizar la diferencia en la frecuencia de oligonucleótidos cortos (sumados sobre todos los oligos) entre los conjuntos de datos objetivo y de fondo. Calcula los pesos deseados para cada secuencia de fondo para ayudar a minimizar el error. Debido a la complejidad del problema, HOMER utiliza un enfoque simple de escalada haciendo pequeños ajustes en el peso de fondo a la vez. También penaliza los grandes cambios en el peso de fondo para evitar soluciones triviales que aumenten o disminuyan los pesos de las secuencias atípicas a valores extremos. La longitud de los oligos cortos se controla mediante la opción "-nlen & lt # & gt".


Descubriendo Motifs de novo (homer2)

Por defecto, HOMER usa la nueva versión homer2 del programa para encontrar motivos. Si desea utilizar la versión anterior al ejecutar cualquiera de los programas de la familia HOMER, agregue "-homer1" a la línea de comandos.

5. Analizar secuencias de entrada en una tabla Oligo

6. Autonormalización del oligo (opcional)

200 pb), también puede aplicar el concepto de autonormalización a la Oligo Table. La idea sigue siendo igualar los oligos más pequeños (es decir, 1,2,3 pb) dentro de los oligos alargados con motivos más grandes (es decir, 10,12,14 pb, etc.). Esto es un poco más peligroso ya que el número total de oligos alargados de motivo puede ser muy grande (es decir, 500 k para 10 pb, mucho más para motivos más largos), lo que significa que hay muchos pesos para "ajustar". Sin embargo, esto puede ayudar si hay un sesgo de secuencia extremo que podría tener problemas para eliminar del conjunto de datos (la opción "-olen & lt # & gt").

7. Fase de búsqueda global

Después de crear (y posiblemente normalizar) la tabla Oligo, HOMER realiza una búsqueda global de "oligos" enriquecidos. La idea básica es que si se va a enriquecer un "Motivo", también se deben enriquecer los oligos considerados parte del motivo. Primero, HOMER analiza cada posible oligo para enriquecimiento. Para aumentar la sensibilidad, HOMER permite luego desajustes en el oligo cuando se busca enriquecimiento. Para acelerar este proceso, que puede consumir muchos recursos para oligos más largos con una gran cantidad de posibles desajustes, HOMER omitirá los oligos cuando permita múltiples desajustes si no eran prometedores, por ejemplo, si tenían más instancias de fondo que instancias de destino, o si permitir más desajustes da como resultado un valor de enriquecimiento más bajo. El "-mis & lt # & gt" controla cuántas discrepancias se permitirán.

Cálculo del enriquecimiento de motivos:

El enriquecimiento del motivo se calcula utilizando distribuciones binomiales acumulativas hipergeométricas o acumulativas. Estas dos estadísticas asumen que la clasificación de las secuencias de entrada (es decir, objetivo frente a fondo) es independiente de la aparición de motivos dentro de ellas. Las estadísticas consideran el número total de secuencias diana, secuencias de fondo y cuántas de cada tipo contiene el motivo que se está comprobando para el enriquecimiento. A partir de estos números, podemos calcular la probabilidad de observar el número dado (o más) de secuencias diana con el motivo por casualidad si asumimos que no hay relación entre las secuencias diana y el motivo. Las distribuciones hipergeométrica y binomial son similares, excepto que la hipergeométrica asume muestreo sin reemplazo, mientras que el binomio asume muestreo con reemplazo. El problema del enriquecimiento del motivo se describe con mayor precisión mediante la hipergeométrica, sin embargo, el binomio tiene ventajas. La diferencia entre ellos suele ser menor si hay un gran número de secuencias y las secuencias de fondo & gt & gt diana. En estos casos, se prefiere el binomio ya que es más rápido de calcular. Como resultado, es la estadística predeterminada para findMotifsGenome.pl, donde el número de secuencias suele ser mayor. Sin embargo, si usa su propio fondo que tiene un número limitado de secuencias, podría ser una buena idea cambiar a la hipergeométrica (use "-h" para forzar el uso de la hipergeométrica). findMotifs.pl ejecuta un número más pequeño para el análisis del promotor y utiliza el hipergeométrico de forma predeterminada.

Una nota importante: dado que HOMER usa una tabla Oligo para gran parte de los cálculos internos de enriquecimiento de motivos, donde no sabe explícitamente cuántas de las secuencias originales contienen el motivo, se aproxima a este número utilizando el número total de ocurrencias de motivo observadas en segundo plano. y secuencias diana. Se asume que las ocurrencias se distribuyeron por igual entre las secuencias objetivo o de fondo con reemplazo, donde es probable que algunas de las secuencias tengan más de una ocurrencia. Utiliza las secuencias numéricas esperadas para calcular la estadística de enriquecimiento (el resultado final refleja el enriquecimiento real basado en las secuencias originales).

8. Optimización de la matriz

9. Enmascarar y repetir

Después de que el primer "oligo prometedor" se optimiza en un motivo, las secuencias unidas por el motivo se eliminan del análisis y el siguiente oligo prometedor se optimiza para el segundo motivo, y así sucesivamente. Esto se repite hasta que se encuentra el número deseado de motivos ("-S & lt # & gt", predeterminado: 25). Aquí es donde hay una diferencia importante entre la versión antigua (homer) y la nueva (homer2). La versión antigua de homer simplemente enmascararía los oligos unidos por el motivo de la Tabla de Oligo. Por ejemplo, si el motivo era GAGGAW, entonces GAGGAA y GAGGAT se eliminarían de la tabla de oligo para evitar que el siguiente motivo encontrara las mismas secuencias. Sin embargo, si GAGGAW se enriqueció en los datos, existe una buena posibilidad de que cualquier oligo de 6 unidades como nGAGGA o AGGAWn también se enriquezca un poco en los datos. Esto haría que Homer encontrara múltiples versiones del mismo motivo y proporcionaría un poco de confusión en los resultados.

Para evitar este problema en la nueva versión de HOMER (homer2), una vez que se optimiza un motivo, HOMER vuelve a visitar las secuencias originales y enmascara los oligos que forman la instancia del motivo, así como los oligos inmediatamente adyacentes al sitio que se superponen. con al menos un nucleótido. Esto ayuda a proporcionar resultados mucho más limpios y permite una mayor sensibilidad cuando se co-enriquecen los motivos. Para volver a la antigua forma de enmascarar motivos con homer2, especifique "-quickMask" en la línea de comando. También puede ejecutar la versión anterior con "-homer1".

Detección de enriquecimiento de motivos conocidos (homer2):

10. Cargar biblioteca de motivos

11. Proyecte cada motivo

Salida del análisis de motivos:

12. Archivos Motif (homer2, findMotifs.pl, findMotifsGenome.pl)

La verdadera salida de HOMER son archivos "* .motif" que contienen la información necesaria para identificar futuras instancias de motivos. Se informan en los directorios de salida de findMotifs.pl y findMotifsGenome.pl. Un archivo de motivo típico se verá así:

& gtASTTCCTCTT 1-ASTTCCTCTT 8.059752 -23791.535714 0 T: 17311.0 (44.
0.726 0.002 0.170 0.103
0.002 0.494 0.354 0.151
0.016 0.017 0.014 0.954
0.005 0.006 0.027 0.963
0.002 0.995 0.002 0.002
0.002 0.989 0.008 0.002
0.004 0.311 0.148 0.538
0.002 0.757 0.233 0.009
0.276 0.153 0.030 0.542
0.189 0.214 0.055 0.543

La primera fila comienza con "& gt" seguida de información diversa, y las otras filas son las probabilidades específicas de posiciones para cada nucleótido (A / C / G / T). La fila de encabezado está delimitada por TAB y contiene la siguiente información:

  1. "& gt" + Ejemplo de secuencia de consenso (en realidad no se usa para nada, puede estar en blanco): & gtASTTCCTCTT
  2. Nombre del motivo (debe ser único si hay varios motivos en el mismo archivo) ejemplo: 1-ASTTCCTCTT o NFkB
  3. Umbral de detección de probabilidades de registro, utilizado para determinar sitios vinculados frente a sitios no vinculados (obligatorio) Ejemplo: 8.059752
  4. log P-valor de enriquecimiento, ejemplo: -23791.535714
  5. 0 (Un marcador de posición para compatibilidad con versiones anteriores, utilizado para describir motivos "con huecos" en la versión anterior, resulta que no era muy útil :)
  6. Información de ocurrencia separada por comas, ejemplo: T: 17311.0 (44.36%), B: 2181.5 (5.80%), P: 1e-10317
    1. T: # (%) - número de secuencias objetivo con motivo,% del total de objetivos totales
    2. B: # (%) - número de secuencias de fondo con motivo,% del fondo total
    3. P: # - valor p de enriquecimiento final
    1. Tpos: posición promedio del motivo en las secuencias diana (0 = inicio de secuencias)
    2. Tstd: desviación estándar de posición en secuencias objetivo
    3. Bpos: posición promedio del motivo en secuencias de fondo (0 = inicio de secuencias)
    4. Bstd: desviación estándar de posición en secuencias de fondo
    5. StrandBias: relación logarítmica de ocurrencias de + cadena a - ocurrencias de cadena.
    6. Multiplicidad: el número medio de apariciones por secuencia en secuencias con 1 o más sitios de unión.

    13. Salida de motivo de novo (findMotifs.pl/findMotifsGenome.pl/compareMotifs.pl)

    HOMER toma los motivos identificados a partir del paso de descubrimiento de motivos de novo e intenta procesarlos y presentarlos de una manera útil. Se crea una página HTML en el directorio de salida llamado homerResults.html junto con un directorio llamado "homerResults /" que contiene toda la imagen y otros archivos de soporte para crear la página. Estas páginas se crean explícitamente ejecutando un subprograma llamado "compareMotifs.pl".

    Comparación de matrices de motivos:

    Primero se comprueba la redundancia de los motivos para evitar presentar los mismos motivos una y otra vez. Esto se hace alineando cada par de motivos en cada posición (y sus opuestos inversos) y anotando su similitud para determinar su mejor alineación. A partir de HOMER v3.3, las matrices se comparan utilizando el coeficiente de correlación de Pearson convirtiendo cada matriz en un vector de valores. Las frecuencias neutras (0,25) se utilizan donde las matrices de motivos no se superponen.

    La comparación anterior se realizó comparando las matrices de probabilidad utilizando la fórmula siguiente, que gestiona las expectativas de los cálculos al mezclar las identidades de nucleótidos como control. (freq1 y freq2 son las matrices para motif1 y motif2)


    A continuación, los motivos se comparan con una biblioteca de motivos conocidos. Para este paso, todos los motivos en JASPAR y los motivos "conocidos" se utilizan para la comparación. Puede especificar una biblioteca de motivos personalizada usando "-mcheck & ltmotif library file & gt" cuando use findMotifs [Genome] .pl o "-known & ltmotif library file & gt" cuando llame a compareMotifs.pl directamente.

    De forma predeterminada, busca el archivo "/path-to-homer/data/knownTFs/all.motifs" para encontrar el motivo y compararlo con los motivos de novo. Si se especifica "-rna", cargará el archivo "/path-to-homer/data/knownTFs/all.rna.motifs".

    A continuación se muestra un ejemplo del HTML de salida:


    Dependiendo de cómo se ejecutó el programa findMotifs [Genome] .pl, los "Resultados de enriquecimiento de motivos conocidos" y los "Resultados de enriquecimiento de ontología genética" pueden o no vincularse a nada. Los motivos se ordenan según el valor p, y se muestran las estadísticas básicas sobre el motivo (presente en los archivos de motivos).

    La última columna contiene un enlace al "archivo de motivo", que es importante si desea buscar el motivo en otras secuencias.

    En la columna Mejor coincidencia / Detalles, HOMER mostrará el motivo conocido que se asemeja más al motivo de novo. Es muy importante que TOME ESTA ASIGNACIÓN CON UN GRANO DE SAL. Desafortunadamente, a veces la mejor combinación aún no es buena. Además, es común que el motivo "conocido" no sea bueno para empezar. Para investigar más la tarea, haga clic en el enlace "Más información" que proporciona una página que se ve así:

    Información básica: La sección contiene información básica, incluidos enlaces al archivo del motivo (normal y reverso opuesto) y la versión en pdf del logotipo del motivo.


    Seguido de coincidencias con motivos conocidos. Esta sección muestra las alineaciones entre el motivo de novo y los motivos conocidos. Es importante verificar y ver si estas alineaciones parecen razonables:


    Al hacer clic en los "motivos similares" se mostrarán los otros motivos de novo encontrados durante la búsqueda del motivo que se asemejan al motivo pero tienen un valor de enriquecimiento menor. Contiene un "encabezado" similar al enlace "Más información", pero debajo muestra los motivos que se consideraron similares. Por lo general, es una buena idea revisar esta lista; a veces, un motivo distinto se agrupará incorrectamente en la lista porque comparte un par de residuos.


    Fondo

    Descubrir y caracterizar motivos de secuencias de proteínas y ADN son problemas fundamentales en biología computacional. Aquí, usamos el término "motivo" para referirnos a una matriz de probabilidad de posición específica que describe una secuencia corta de aminoácidos o nucleótidos que es importante para el funcionamiento de la célula. Por ejemplo, la regulación de la transcripción requiere la unión específica de secuencia de factores de transcripción a ciertos cis-motivos que actúan, que normalmente se encuentran aguas arriba de los sitios de inicio de la transcripción [1]. Por otro lado, los motivos de la secuencia de proteínas podrían corresponder a sitios activos en enzimas o sitios de unión en receptores [2].

    Se ha desarrollado una amplia variedad de métodos estadísticos para identificar motivos de secuencia de forma no supervisada a partir de colecciones de secuencias relacionadas funcionalmente [3]. Además, las bases de datos como JASPAR [4], TRANSFAC [5] y BLOCKS [6] se pueden utilizar para escanear una secuencia de interés en busca de ADN o motivos proteicos conocidos. En este trabajo desarrollamos un método estadístico para comparar dos motivos de ADN o proteínas entre sí. Este tipo de comparación es valiosa en el contexto del descubrimiento de motivos. Por ejemplo, imagine que se le proporciona una colección de regiones promotoras de genes que comparten perfiles de expresión de ARNm similares y que un algoritmo de descubrimiento de motivos identifica un motivo dentro de esos promotores. A menudo, la primera pregunta que se haría es si este nuevo motivo se parece a algún motivo del sitio de unión del factor de transcripción previamente identificado. Para abordar esta pregunta, necesita un programa de computadora que escanee una base de datos de motivos en busca de coincidencias con su nuevo motivo (consulta). El programa debe considerar todas las posibles compensaciones relativas entre los dos motivos, y para los motivos de ADN también debe considerar las coincidencias de complemento inverso. Un ejemplo de alineación entre dos motivos similares se muestra en la Figura 1. Un uso alternativo para un programa de comparación de motivos sería identificar y luego eliminar o fusionar motivos altamente redundantes dentro de una base de datos de motivos existente.

    Un par alineado de motivos similares. Los motivos de consulta y objetivo se derivan del motivo JASPAR NF-Y, siguiendo el protocolo de simulación descrito en el texto. Tomtom asigna un mi valor de 3,81 × e -10 para esta coincidencia en particular. La figura fue creada usando una versión de seqlogo [26], modificada para mostrar pares alineados de Logos.

    No somos los primeros en describir un método para cuantificar las similitudes entre pares de motivos. Pietrokovski [7] comparó motivos de proteínas utilizando un algoritmo sencillo basado en el coeficiente de correlación de Pearson (PCC). Posteriormente, Hughes et al. [8] aplicaron un método similar a los motivos de ADN. Wang y Stormo [9] introdujeron una función de comparación de columnas de motivo alternativo, denominada razón logarítmica de verosimilitud promedio (ALLR). Más recientemente, Schones y colaboradores [10] introdujeron dos funciones de similitud de motivos, una basada en el método de Pearson χ 2 y el otro en la prueba exacta de Fisher-Irwin (FIET). Demostraron que estas dos nuevas funciones tienen mejor poder discriminativo que las funciones de similitud de PCC y ALLR. Además, varios grupos de investigación han utilizado la divergencia de Kullback-Leibler (KLD) para comparar motivos [11-13], y Choi et al. [14] utilizaron la distancia euclidiana (ED) para comparar los perfiles de proteínas. Finalmente, Sandelin y Wasserman [15] utilizaron su propia función de comparación de columnas (SW) dentro del contexto de un enfoque de alineación de programación dinámica para comparar motivos de ADN. Este método difiere significativamente de todos los demás enfoques basados ​​en motivos de ADN en el sentido de que permite huecos en las alineaciones motivo-motivo.

    En este informe nos centramos en alineaciones sin huecos de motivos. Describimos un método general para modelar con precisión la distribución empírica nula de puntuaciones a partir de una función de comparación de columnas aditiva arbitraria. Estimamos la distribución nula de puntuaciones para cada columna en un motivo de "consulta" utilizando las puntuaciones observadas de alinearlo con cada columna de motivo en una base de datos de motivos "objetivo". Utilizando un algoritmo de programación dinámica inspirado en trabajos anteriores sobre la búsqueda de una base de datos de secuencias con un motivo [16-18], estimamos la distribución nula de la suma de puntuaciones para cualquier rango de columnas contiguas en el motivo de la consulta. Esto hace posible que el usuario determine si la puntuación de comparación de motivos entre el motivo de consulta y un motivo objetivo particular es estadísticamente significativa. Los métodos anteriores comienzan definiendo una puntuación entre dos columnas de motivos, y luego combinan estas puntuaciones sumando (como lo hacemos nosotros) [7-9, 14] o tomando la media [11-13] o la media geométrica [10] de las puntuaciones de la columna. Nuestro método de puntuación difiere en que calcula la PAG valores de las puntuaciones de coincidencia para las columnas del motivo de consulta alineadas con un motivo objetivo dado en todas las formas posibles (sin espacios). Estos 'compensados' PAG los valores se calculan utilizando las funciones de densidad acumulativa estimadas a partir de la base de datos de destino, como se describe anteriormente. El mínimo PAG valor entre estas compensaciones PAG los valores se utilizan para calcular el total PAG valor de la coincidencia entre el motivo de la consulta y el motivo objetivo, asumiendo la independencia del desplazamiento PAG valores. Esto se llama el 'motivo' PAG valor. Finalmente, aplicamos una corrección de Bonferroni al motivo. PAG valores para derivar un mi valor.

    Este algoritmo se implementa en una herramienta de software llamada Tomtom, que está disponible públicamente como parte de la suite MEME de herramientas de análisis de motivos [19-21]. Tomtom puede calcular mi valores basados ​​en cualquiera de las funciones de comparación de siete columnas: PCC, ALLR, PCS, FIET, KLD, ED o SW. En este trabajo, demostramos la precisión de las estimaciones estadísticas de Tomtom. También validamos la precisión de recuperación de motivos de Tomtom mediante un experimento de simulación. Los resultados muestran que, además de proporcionar semántica formal para las puntuaciones de similitud de motivos, Tomtom's PAG La estimación de valor produce clasificaciones mejoradas en relación con ad hoc esquemas de normalización.


    Resultados

    RADAR supera los desafíos en el modelado de datos MeRIP-seq y se adapta a diseños de estudios complejos

    Utilizando archivos BAM como entrada, RADAR primero divide las transcripciones (exones concatenados) en bins consecutivos de 50 pb y cuantifica los recuentos de lectura pre-IP y post-IP para cada bin (Fig. 1a). A diferencia de los métodos actuales de análisis de metilación diferencial [8,9,10,11] que escalan al tamaño de la biblioteca como una forma de normalización, que puede estar fuertemente sesgada por genes altamente expresados ​​[16] (Archivo adicional 1: Figura S1), RADAR utiliza el Método de mediana de razón [17] implementado en DEseq2 para normalizar la biblioteca INPUT en aras de la robustez. Para la biblioteca de IP, RADAR normaliza el enriquecimiento de veces calculado a partir de los recuentos de IP dividido por los recuentos de ENTRADA, que tiene en cuenta tanto la eficiencia de IP como la variación del tamaño de la biblioteca de IP.

    Características únicas de los datos m 6 A-seq (MeRIP-seq). RADAR divide los exones concatenados de un gen en contenedores consecutivos y modela los recuentos de lectura enriquecidos por inmunoprecipitación (IP) en dichos contenedores. a representa un par de recuentos de lectura en INPUT y la biblioteca de IP en el Ith bin como CI y tI. En el flujo de trabajo de RADAR, el recuento de lectura a nivel de gen de la biblioteca de entrada ( _> _m> ) sustituye el recuento de lecturas a nivel de contenedor CI como la representación de los niveles de ARN pre-IP de la Ith bin. B compara la variación relativa de los recuentos de lectura a nivel de gen y a nivel de bin (local) de diferentes tamaños de bin en cuatro conjuntos de datos de m 6 A-seq, lo que sugiere que la variación no deseada se puede reducir utilizando recuentos de nivel de gen como estimaciones de ARN pre-IP niveles. Panel C compara la media de muestras cruzadas y la varianza de los datos de RNA-seq (recuentos pre-IP) y m 6 A-seq (recuentos de lectura posteriores a IP ajustados para la variación del nivel de ARN pre-IP) en cuatro conjuntos de datos m 6 A-seq. La curvatura ajustada de m 6 A-seq puede diferir de la de RNA-seq, lo que indica que m 6 A-seq puede tener una relación de varianza media diferente de la de RNA-seq. Los factores de confusión biológicos y experimentales se encuentran a menudo en las muestras de pacientes. D muestra los dos primeros componentes principales (PC) del enriquecimiento de m 6 A en cada conjunto de datos, donde las muestras están coloreadas por covariables que deben tenerse en cuenta. m 6 Se representó un enriquecimiento mediante recuentos de lecturas de muestras de IP ajustados para la variación del nivel de ARN pre-IP (ENTRADA). mi muestra las dos primeras PC después de la regresión de las covariables conocidas: edad en el conjunto de datos de cáncer de ovario y lote en el conjunto de datos de T2D. Después de la regresión de la covariable, las muestras se separan según las condiciones de la enfermedad en el gráfico de PCA

    Después de la normalización adecuada en todas las muestras, RADAR calcula el nivel de metilación para cada contenedor condicionado en su nivel de expresión de ARN pre-IP para cada muestra. A diferencia de los métodos anteriores [8,9,10,11] que utilizan recuentos de lectura de nivel máximo en la biblioteca INPUT como medida del nivel de expresión de ARN pre-IP, utilizamos recuentos de lectura a nivel de gen como una representación más robusta, que se define como el número total de lecturas en todos los contenedores que abarcan el mismo gen (Fig. 1a). Esta elección está motivada por la observación de que la cobertura de lectura mediana dentro de cada pico es muy baja: 18 lecturas por pico (7 lecturas en un contenedor de 50 pb) (archivo adicional 1: Figura S2) en una muestra de entrada típica de MeRIP-seq de 20 millones (asignables) de lecturas (Archivo adicional 1: Figura S3). La dispersión excesiva de recuentos bajos debido al muestreo aleatorio en el proceso de secuenciación puede introducir una variación sustancial no deseada en la estimación del nivel de ARN pre-IP. Esto puede agravarse aún más por la distribución desigual de las lecturas provocada por las características de la secuencia local, como el contenido de GC y la capacidad de asignación. El uso de recuentos a nivel de genes como estimación del nivel de expresión de ARN pre-IP puede mitigar la dispersión aumentando el número de lecturas (272 lecturas en promedio) y simultáneamente disminuyendo los efectos de las características de la secuencia dentro de un gen (Fig. 1a). Al comparar la varianza de los recuentos de lectura en las réplicas a nivel de gen con la del nivel de contenedor, mostramos que la varianza entre muestras es mucho menor a nivel de gen que a nivel de contenedor en los tres conjuntos de datos (Fig. 1b).

    RADAR modela la distribución del recuento de lecturas utilizando un modelo de efectos aleatorios de Poisson en lugar de una distribución binomial negativa, que se utiliza comúnmente en el análisis de RNA-seq [13, 15, 17], así como en DRME y QNB para el análisis de MeRIP-seq [9, 10]. Los modelos basados ​​en distribución binomial negativa suponen una relación cuadrática entre los recuentos de lecturas medias y su varianza en todos los genes. Observamos en conjuntos de datos reales de m 6 A-seq que la relación de varianza media de los recuentos posteriores a IP a través de genes difiere significativamente de la de los recuentos regulares de RNA-seq (es decir, recuentos previos a IP). El primero no siempre sigue una curvatura cuadrática similar y puede exhibir patrones de variabilidad muy diferentes (Fig. 1c, archivo adicional 1: Figura S4). Para superar estas limitaciones, RADAR aplica un marco de modelo lineal generalizado más flexible (consulte la sección “Material y métodos”) que captura la variabilidad a través de efectos aleatorios.

    Otro avance importante de RADAR, en comparación con las herramientas de análisis de datos MeRIP-seq existentes [8,9,10,11], es la flexibilidad para incorporar covariables y permitir un diseño de estudio más complejo. Las covariables fenotípicas, como la edad y el sexo, así como las covariables experimentales, como la información de lotes, se encuentran a menudo en estudios de perfiles epitranscriptómicos con muestras de pacientes heterogéneas. Las covariables como la camada y la edad son comunes en los estudios experimentales con animales. Por ejemplo, en el conjunto de datos del cáncer de ovario, la edad de los donantes de tejido se confunde parcialmente con la variable predictora: el estado de la enfermedad. En el conjunto de datos de islotes T2D, la varianza de los dos primeros componentes principales se confunde con el lote de secuenciación (Fig. 1d). Después de la regresión del efecto de lote, la variación restante puede explicarse mejor por el estado de la enfermedad (Fig. 1e). Esto indica la importancia de controlar los posibles factores de confusión cuando se realizan pruebas de metilación diferencial. El marco del modelo lineal generalizado en RADAR permite la inclusión de covariables y ofrece soporte para diseños de estudio complejos.

    Puntos de referencia comparativos de diferentes métodos utilizando conjuntos de datos simulados

    Para evaluar el rendimiento de RADAR en comparación con los métodos actuales, aplicamos RADAR y otros métodos para el análisis diferencial MeRIP-seq, incluido exomePeak, la prueba exacta de Fisher, MeTDiff y QNB en conjuntos de datos simulados. We considered four scenarios: the proposed random effect model with/without covariates and the quad-negative binomial (QNB) model adopted from QNB [9, 10] with/without covariates. For each scenario, we evaluated the sensitivity and false discovery rate (FDR) of different methods using ten simulated copies. We first simulated a dataset of eight samples using the random effect model (“Materials and method” section Eq. (1), denoted as the simple case). The INPUT library was directly drawn from the T2D dataset. We simulated IP read count adjusted for pre-IP expression level of each bin according to Eq. (1) where μ is equal to mean log read count in the “control” group of T2D dataset. The final IP read counts were obtained by rescaling simulated data by the average IP/INPUT ratio observed in the T2D data. In total, we simulated three datasets of 26,324 sites in which 20% of sites are true positives with effect sizes of 0.5, 0.75, or 1, respectively.

    For DM loci with an effect size of 0.5, RADAR achieved 29.1% sensitivity and 12.0% FDR at an FDR cutoff of 10%. At the same cutoff, exomePeak and Fisher’s test achieved 72.8% sensitivity/52.5% FDR and 72.2% sensitivity/50.5% FDR, respectively. MeTDiff achieved 10.5% sensitivity and 16.2% FDR. QNB, on the contrary, did not own any power for the small effect size. When the effect size increased, RADAR achieved much higher sensitivity, 77.8% for an effect size of 0.75 and 95.7% for an effect size of 1, while FDR were well calibrated at 10.4% and 10.1%, respectively. exomePeak and Fisher’s test both achieved 89% and 96% sensitivity for effect sizes of 0.75 and 1, respectively, but at the cost of unsatisfactory FDRs, which were greater than 46%. MeTPeak exhibited well-calibrated FDR (12.3% and 11.4%) and moderate sensitivity of 50.4% and 81.5% for effect sizes of 0.75 and 1, respectively. QNB only had low power for an effect size of 1 (beta = 1, 13.9% sensitivity and 0.5% FDR). Overall, for the simple case without covariates, RADAR achieved high sensitivity while maintained low FDR at varying true effect sizes (Fig. 2a). We then applied the above analysis at varying FDR cutoff and found RADAR achieved the highest sensitivity at a fixed level of empirical FDR (Additional file 1: Figure S5A). We note exomePeak and Fisher’s test achieved high sensitivity at all effect sizes as combining read counts across replicates of the same group helped to gain power. As a tradeoff, failing to account for within-group variability resulted in high FDR. On the contrary, RADAR and MeTDiff exhibited well-calibrated FDR while achieved high sensitivity at same levels as exomePeak for large effect sizes. QNB was overconservative and possessed little power.

    Benchmarking RADAR on two simulation models. We benchmarked RADAR and other alternative methods on simulated data. Using two simulation models—a random effect (RADAR) model and a quad-negative-binomial (QNB) model, we simulated dataset of eight replicates of varying true effect sizes (0.5, 0.75, and 1) with and without covariates. We tested different methods on simulated dataset and compared the results at an FDR cutoff of 0.1 with simulated true sites. We show the sensitivity (fraction of true sites detected by the method at an FDR cutoff of 0.1) and false discovery rate (fraction of detected differential sites that are not true sites) of each method applied on data simulated by the random effect model without covariates (a) and with covariates (B) and the quad-negative-binomial model without covariates (C) and with covariates (D), respectivamente. The FDR cutoff used to select DM sites is labeled by a dashed line

    We next applied the aforementioned methods to the proposed model with a covariate (effect size equal to 2, denoted as the difficult case) (Fig. 2b). As a result, at an FDR cutoff of 10%, RADAR achieved 38.4%, 79.7%, and 95.7% sensitivity with empirical FDRs slightly higher than those in the simple case (18.2%, 14.4%, and 13.7% for effect sizes of 0.5, 0.75, and 1, respectively). MeTDiff, with similar performance as RADAR in the simple case, lost power in the difficult case due to incapability of accounting for confounding factors. exomePeak, Fisher’s test, and QNB behaved similarly as in the simple case. The advantage of RADAR over other methods is robust to the choice of FDR cutoff as shown in Additional file 1: Figure S5B. In summary, RADAR outperformed existing alternatives in both cases.

    Taking the covariate model with a DM effect size of 0.75 as an example, we also checked the distributions of effect size estimates and pag values obtained from each method. In all methods, effect sizes were overall correctly estimated with estimates for “true” sites centered at 0.75 (Additional file 1: Figure S6A) and that for null sites centered at zero (Additional file 1: Figure S6B). However, we note the distribution of beta estimates is narrower for RADAR, especially in the difficult case, suggesting a more confident estimation. pag values of exomePeak and Fisher’s test at null sites were enriched near zero, indicating over-detection of false-positive signals (Additional file 1: Figure S6C). We also observed many large pag values obtained by QNB for “true” sites in both cases and MeTDiff in the difficult case, which suggested a high false-negative rate (Additional file 1: Figure S6D).

    We then repeated simulation studies using the QNB model. Instead of setting the variances of INPUT and IP libraries equal as presented in the QNB paper, we let the variance of IP read count be larger than that of INPUT. This setting better reflects our observation in the real data as extra noise can be introduced during immunoprecipitation process for IP reads generation (Additional file 1: Figure S4). In the simple case without covariates, RADAR exhibited the lowest empirical FDR (18.9% and 18.5%) despite slightly lower sensitivity comparing to other methods (73.5% and 82.3%) when the effect sizes were relatively large (for effect sizes of 0.75 and 1). QNB performed better when the effect size was small with 58.6% sensitivity and 15.6% FDR for an effect size of 0.5 (Fig. 2c). The results were consistent when we evaluated their performance with different FDR cutoffs. Overall, QNB performed slightly better than RADAR with an effect size of 0.5. RADAR achieved similar sensitivity but better calibrated FDR when effect sizes equal to 0.75 and 1 (Additional file 1: Figure S5C). In the model with covariates, RADAR exhibited the lowest empirical FDR, with 25.8%, 23.0%, and 22.5% at effect sizes of 0.5, 0.75, and 1, respectively, while other methods either failed to detect the signal or had a higher empirical FDR. Specifically, MeTDiff had sensitivity below 0.5% at varying effect sizes and QNB reached FDRs of 64.1%, 55.8%, and 50.5% for effect sizes of 0.5, 0.75, and 1, respectively, at an FDR cutoff of 10% (Fig. 2d). The advantage of RADAR over alternative methods hold in the difficult case at varying cutoffs (Additional file 1: Figure S5D). In summary, RADAR outperformed other existing methods in most scenarios, particularly when covariates were present.

    Comparative benchmarks of different methods using four real m 6 A-seq datasets

    Next, we compared the performance of different methods using four real m 6 A-seq datasets: ovarian cancer (GSE119168), T2D (GSE120024), mouse liver (GSE119490), and mouse brain (GSE113781). To evaluate the sensitivity of different methods, we first checked the distributions of pag values obtained from corresponding DM tests (Fig. 3). In the ovarian cancer, T2D, and mouse liver data, Fisher’s test and exomePeak detected the most signals as the pag values are most dense near zero. In these three datasets, RADAR also returned a desirable shape for the pag value histogram in which pag values were enriched near zero while uniformly distributed elsewhere. MeTDiff returned a desired shape only in the ovarian cancer and mouse liver datasets. QNB were overconservative in the ovarian cancer and T2D dataset. All methods failed to return enriched pag values near zero for the mouse brain dataset, suggesting there was no or little signal in this dataset. This is consistent with the original publication that very few differential peaks were detected in this study [7].

    Sensitivity of benchmarked methods on real m 6 A-seq data. We benchmarked RADAR and other alternative methods on four m 6 A-seq data with different characteristics. Each panel shows the histogram of pag-values obtained from DM tests using RADAR, MeTDiff, QNB, Fisher’s exact test and exomePeak on each dataset, respectively

    To ensure that well-performed methods achieved high sensitivity while maintaining a low FDR, we further performed permutation analyses to obtain the null distribution of pag values for each dataset. Specifically, we shuffled the phenotype labels of samples such that the new labels were not associated with the true ones or any other important confounding factors. We expected the pag values from a permutation test to follow a uniform distribution and the enriched pag values near zero would be considered as false discoveries. For each dataset, we combined test statistics from 15 permuted copies and compared their distribution with the original tests (Fig. 4). pag values from Fisher’s test and exomePeak were strongly enriched near zero and only slightly lower than those from the original tests. This suggests the strong signals detected by these two methods are likely to be false discoveries, consistent with the conclusion from simulation analysis. On the contrary, the histograms of pag values from RADAR were close to flat in all datasets, indicating that strong signals detected by RADAR were more likely to be true. MeTDiff exhibited well-calibrated pag values in the ovarian cancer and T2D data but enriched for small pag values in the mouse liver data with an indicated high FDR. QNB test returned conservative pag value estimates in all datasets. Taking together these analyses, we demonstrated that RADAR outperforms the alternatives by achieving high sensitivity and specificity simultaneously in real datasets.

    Benchmarking false-positive signals using permutation analysis on real m 6 A-seq data. To assess empirical FDR of the test, we permuted the phenotype labels of samples so that the new labels were not associated with true ones. Each panel shows the histograms of pag values obtained from DM tests on 15 permuted copies (blue) and those from the tests on the original dataset (red)

    To better demonstrate that RADAR detects DM sites with better sensitivity and specificity in real data, we show examples of DM site that is only detected by RADAR as well as likely false discovery sites identified by exomePeak and Fisher’s test but not by RADAR in the T2D dataset. We plot sequence coverage of individual samples for the DM sites in the RNF213 gene (Additional file 1: Figure S7A) and show despite large variability in control samples, m 6 A enrichment of T2D samples is consistently lower on this locus. Conversely, in the bogus DM sites detected by alternative methods (Additional file 1: Figure S7B, C), enrichment differences are mainly driven by one or two outlier samples in one group.

    To further demonstrate the advantage of using gene-level read counts over local read counts to account for RNA expression level, we repeated the above analysis using post-IP counts adjusted by the local read counts of INPUT. We showed that in the T2D dataset, gene-level adjustment not only enabled stronger signal detection, but also lowered FDR as we observed that the permutation analysis using local count adjustment resulted in undesired stronger signals around zero in the pag value histogram (Additional file 1: Figure S8). In the ovarian cancer and the mouse liver datasets, local count adjustment achieved higher signal detection but at the cost of a higher FDR. This analysis suggested that using gene-level read counts as the estimates of pre-IP RNA expression levels could effectively reduce FDR and lead to more accurate DM locus detections.

    Attributed to the robust representation of pre-IP RNA expression level using gene-level read counts, RADAR’s performance is more robust to the sequencing depth of INPUT samples. To demonstrate this, we applied RADAR on data created by sub-sampling the read counts of INPUT samples in the T2D dataset so that the sequencing depth is half of the full dataset (average 17.5 million reads). We compared the DM sites detected in the reduced dataset with the results obtained from the full dataset (Additional file 1: Figure S9A). Using a 10% FDR cutoff, RADAR-detected DM sites in the reduced dataset showed the highest overlap with that in the full dataset. MeTDiff and QNB only had a few overlapping DM sites between the sub-sampled and full dataset. Fisher’s test and exomePeak had slightly fewer overlaps comparing to RADAR but had more false discoveries. We further compared the log fold change (logFC) estimates from reduced and full datasets to check their consistency. As a result, we found reduced sequencing depth had the least impact on the logFC estimated by RADAR while the estimates by others are much less reproducible with a shallower sequencing depth (Additional file 1: Figure S9A).

    Unlike earlier pipelines that perform DM tests only on peaks identified from peak calling, RADAR directly tests on all filtered bins and reports DM sites. To check if the DM sites reported by RADAR are consistent with known characteristics of m 6 A, we performed de novo motif search on these sites and found DM sites detected in ovarian cancer, mouse liver, and T2D datasets are enriched for known m 6 A consensus motif (Additional file 1: Figure S10A) [18], suggesting DM sites reported by RADAR are mostly true. We also examined the topological distribution of these DM sites by metagene analysis (Additional file 1: Figure S10B). The distributions in ovarian cancer and mouse liver datasets are consistent with the topological distribution of common m 6 A sites, indicating methylation changes that occurred in these two datasets were not spatially biased. Interestingly, DM sites detected in T2D dataset are strongly enriched at 5′UTR, suggesting T2D-related m 6 A alteration are more likely to occur at 5′UTR.

    RADAR analyses of m 6 A-seq data connect phenotype with m 6 A-modulated molecular mechanisms

    Finally, we investigated whether DM test results obtained from RADAR would lead to better downstream interpretation. In the ovarian cancer dataset, we performed KEGG pathway enrichment analysis on the differential methylated genes (DMGs) detected by RADAR (Fig. 5a). We found the detected DMGs were enriched with molecular markers related to ovarian cancer dissemination [19, 20]. For instance, we identified key regulators of the PI3K (enrichment pag value 7.8 × 10 −5 ) and MAPK pathways (enrichment pag value 1.1 × 10 −4 ), including hypo-methylated PTEN and hyper-methylated BCL2 (Additional file 1: Figure S11). Other notable DMGs include key markers of ovarian cancer such as MUC16 (CA-125) and PAX8, as well as genes that play key roles in ovarian cancer biology such as CCNE1 and MTHFR. Conversely, DMGs detected by MeTDiff were only enriched in three KEGG pathways (Fig. 5b), most likely due to its inadequate power. We showed through permutation analysis that exomePeak and Fisher’s test results included a significant portion of false positives and could lead to biased downstream interpretations.

    Pathways enriched in differential methylated genes identified in ovarian cancer and T2D datasets. We performed KEGG pathway enrichment analysis using ClusterProfiler [37] on DMGs identified in the ovarian cancer dataset by RADAR (a) and MeTDiff (B), respectivamente. The enrichment maps represent identified pathways as a network with edges weighted by the ratio of overlapping gene sets

    In the T2D dataset, DMGs identified by RADAR were enriched in related pathways including insulin signaling pathways, type II diabetes mellitus, mTOR pathways, and AKT pathways (Additional file 1: Table S1), indicating a role that m 6 A might play in T2D. We further analyzed these DMGs in related pathways and found the methylome of insulin/IGF1-AKT-PDX1 signaling pathway been mostly hypo-methylated in T2D islets (Additional file 1: Figure S12). Impairment of this pathway resulting in downregulation of PDX1 has been recognized as a mechanism associated with T2D where PDX1 is a critical gene regulating β cell identity and cell cycle and promoting insulin secretion [21,22,23,24]. Indeed, follow-up experiment on a cell line model validated the role of m 6 A in tuning cell cycle and insulin secretion in β cells and animal model lacking methyltransferase Mettl14 in β cells recapitulated key T2D phenotypes (results presented in a separate manuscript, [25]). To summarize, RADAR-identified DMGs enabled us to pursue an in-depth analysis of the role that m 6 A methylation plays in T2D. On the contrary, due to the incapability to take sample acquisition batches as covariates, the alternative methods were underpowered to detect DM sites in T2D dataset and could not lead to any in-depth discovery of m 6 A biology in T2D islets. These examples suggest that MeRIP-seq followed by RADAR analysis could further advance functional studies of RNA modifications.

    Validation of RADAR-detected DM sites by the SELECT method

    Recently, Xiao et al. developed an elongation and ligation-based qPCR amplification method (termed SELECT) for single nucleotide-specific detection of m 6 A [26]. This method relies on mechanism different from antibody pull-down-based MeRIP-seq to detect m 6 A, making it a suitable method for validating DM sites discovered by RADAR analysis. We selected six DM sites (Additional file 1: Table S2) including two sites only detected by RADAR and four sites in genes important in β cell for experimental validation using the SELECT method. Among six validated sites, the β cells regulator PDX1 and RADAR-specific DM sites showed significant m 6 A level alteration with pag values 0.009 and 0.017, respectively (Fig. 6). Three other sites, IGF1R in the insulin/IGF1-AKT-PDX1 signaling pathway, MAFA—another important regulator of β cell function, and RADAR-specific DM site in CPEB2, showed m 6 A changes consistent with RADAR result despite not reaching statistical significance. The sites in the TRIB3 gene are similarly methylated in control and T2D samples as measured by SELECT. Overall, five out of six experimentally validated sites were supported by orthogonal evidence by SELECT, confirming the reliability of RADAR-detected differential methylation sites.

    Experimental validation of RADAR-detected DM sites using the SELECT method. We applied antibody independent method SELECT on T2D samples (norte = 4). Shown are SELECT results of six putative DM sites for validation. SELECT measures the relative abundance of non-methylated RNA molecules of target locus as represented by the elongation and ligation “read through” of oligo probes. Thus, SELECT results—“relative read through”—are inversely correlated with m 6 A level


    3 BENCHMARK RESULTS

    We performed a benchmark study of GimmeMotifs on 18 TF ChIP-seq datasets. The ROC AUC and MNCP of the best performing motif were calculated and compared with the best motif of two other ensemble methods: SCOPE (Carlson et al., 2007) and W-ChipMotifs (Jin et al., 2009) (Supplementary Tables S1 and S2) . The results show that GimmeMotifs consistently produces accurate results (median ROC AUC 0.830). The method also significantly improves on the results of SCOPE (ROC AUC 0.613). The recently developed W-ChIPmotifs shows comparable results to GimmeMotifs (ROC AUC 0.824), although this tool does not cluster similar redundant motifs. In addition, the focus of GimmeMotifs is different. While the web interface of W-ChipMotifs is very useful for casual use, the command-line tools of GimmeMotifs can be integrated in more sophisticated analysis pipelines.


    Agradecimientos

    The authors acknowledge Jacqueline E. Boyle for genotyping mice staff at Monash ARL for animal husbandry Jelena Kezic of Monash Histology Platform for processing and Haemotoxylin and Eosin staining of embryos and yolk sacs and Geza Paukovics, Phil Donaldson and Eva Orlowski from AMREP flow cytometry facility for their assistance in flow cytometry. The authors would also like to thank Bertie Gottgens, University of Cambridge, for reading the manuscript and providing insightful feedback.


    17.5: De novo motif discovery - Biology

    Understanding gene regulatory networks has become one of the central research problems in bioinformatics. More than thirty algorithms have been proposed to identify DNA regulatory sites during the past thirty years. However, the prediction accuracy of these algorithms is still quite low. Ensemble algorithms have emerged as an effective strategy in bioinformatics for improving the prediction accuracy by exploiting the synergetic prediction capability of multiple algorithms.

    Resultados

    We proposed a novel clustering-based ensemble algorithm named EMD for de novo motif discovery by combining multiple predictions from multiple runs of one or more base component algorithms. The ensemble approach is applied to the motif discovery problem for the first time. The algorithm is tested on a benchmark dataset generated from E. coli RegulonDB. The EMD algorithm has achieved 22.4% improvement in terms of the nucleotide level prediction accuracy over the best stand-alone component algorithm. The advantage of the EMD algorithm is more significant for shorter input sequences, but most importantly, it always outperforms or at least stays at the same performance level of the stand-alone component algorithms even for longer sequences.

    Conclusión

    We proposed an ensemble approach for the motif discovery problem by taking advantage of the availability of a large number of motif discovery programs. We have shown that the ensemble approach is an effective strategy for improving both sensitivity and specificity, thus the accuracy of the prediction. The advantage of the EMD algorithm is its flexibility in the sense that a new powerful algorithm can be easily added to the system.

    Publication Info

    Publicado en Bioinformática BMC, Volume 7, Issue 342, 2006.

    © BMC Bioinformatics 2006, BioMed Central

    Hu, J., Yang, Y. D., & Kihara, D. (2006). EMD: An ensemble algorithm for discovering regulatory motifs in DNA sequences. Bioinformática BMC, 7(342).


    Computational Biology: Toward Deciphering Gene Regulatory Information in Mammalian Genomes

    Department of Statistics, Harvard University, 1 Oxford Street, Cambridge, Massachusetts 02138, U.S.A.

    Departments of Statistics and Health Research and Policy, Stanford University, 390 Serra Mall, Stanford, California 94305, U.S.A.

    Department of Statistics, Harvard University, 1 Oxford Street, Cambridge, Massachusetts 02138, U.S.A.

    Departments of Statistics and Health Research and Policy, Stanford University, 390 Serra Mall, Stanford, California 94305, U.S.A.

    Abstracto

    Resumen Computational biology is a rapidly evolving area where methodologies from computer science, mathematics, and statistics are applied to address fundamental problems in biology. The study of gene regulatory information is a central problem in current computational biology. This article reviews recent development of statistical methods related to this field. Starting from microarray gene selection, we examine methods for finding transcription factor binding motifs and cis-regulatory modules in coregulated genes, and methods for utilizing information from cross-species comparisons and ChIP-chip experiments. The ultimate understanding of cis-regulatory logic in mammalian genomes may require the integration of information collected from all these steps.


    Ectopic DNMT3L triggers assembly of a repressive complex for retroviral silencing in somatic cells

    Mammalian genomes are replete with retrotransposable elements, including endogenous retroviruses. DNA methyltransferase 3-like (DNMT3L) is an epigenetic regulator expressed in prospermatogonia, growing oocytes, and embryonic stem (ES) cells. Here, we demonstrate that DNMT3L enhances the interaction of repressive epigenetic modifiers, including histone deacetylase 1 (HDAC1), SET domain, bifurcated 1 (SETDB1), DNA methyltransferase 3A (DNMT3A), and tripartite motif-containing protein 28 (TRIM28 also known as TIF1β and KAP1) in ES cells and orchestrates retroviral silencing activity with TRIM28 through mechanisms including, but not limited to, de novo DNA methylation. Ectopic expression of DNMT3L in somatic cells causes methylation-independent retroviral silencing activity by recruitment of the TRIM28/HDAC1/SETDB1/DNMT3A/DNMT3L complex to newly integrated Moloney murine leukemia virus (Mo-MuLV) proviral DNA. Concurrent with this recruitment, we also observed the accumulation of histone H3 lysine 9 trimethylation (H3K9me3) and heterochromatin protein 1 gamma (HP1γ), as well as reduced H3K9 and H3K27 acetylation at Mo-MuLV proviral sequences. Ectopic expression of DNMT3L in late-passage mouse embryonic fibroblasts (MEFs) recruited cytoplasmically localized HDAC1 to the nucleus. The formation of this epigenetic modifying complex requires interaction of DNMT3L with DNMT3A as well as with histone H3. In fetal testes at embryonic day 17.5, endogenous DNMT3L also enhanced the binding among TRIM28, DNMT3A, SETDB1, and HDAC1. We propose that DNMT3L may be involved in initiating a cascade of repressive epigenetic modifications by assisting in the preparation of a chromatin context that further attracts DNMT3A-DNMT3L binding and installs longer-term DNA methylation marks at newly integrated retroviruses.

    Importance: Almost half of the mammalian genome is composed of endogenous retroviruses and other retrotransposable elements that threaten genomic integrity. These elements are usually subject to epigenetic silencing. We discovered that two epigenetic regulators that lack enzymatic activity, DNA methyltransferase 3-like (DNMT3L) and tripartite motif-containing protein 28 (TRIM28), collaborate with each other to impose retroviral silencing. In addition to modulating de novo DNA methylation, we found that by interacting with TRIM28, DNMT3L can attract various enzymes to form a DNMT3L-induced repressive complex to remove active marks and add repressive marks to histone proteins. Collectively, these results reveal a novel and pivotal function of DNMT3L in shaping the chromatin modifications necessary for retroviral and retrotransposon silencing.

    Copyright © 2014, American Society for Microbiology. Reservados todos los derechos.

    Cifras

    DNMT3L and the ZFP809-TRIM28 pathway…

    DNMT3L and the ZFP809-TRIM28 pathway are both required for epigenetic silencing of Mo-MuLV…

    DNMT3L- and ZFP809-TRIM28-mediated Mo-MuLV silencing…

    DNMT3L- and ZFP809-TRIM28-mediated Mo-MuLV silencing in C57BL/6 background ES cells. (A) Wild-type and…

    DNMT3L facilitated the formation of…

    DNMT3L facilitated the formation of the DNMT3A/SETDB1/HDAC1 protein complex in ES cells 2…

    DNMT3L-induced retroviral silencing activity depends…

    DNMT3L-induced retroviral silencing activity depends on PBSpro sequence and functional DNMT3L harboring proper…

    DNMT3L induces retroviral silencing activity…

    DNMT3L induces retroviral silencing activity in 3T3 cells. (A) Relative mRNA expression level…

    Mo-MuLV LUC and Mo-MuLV LUC/PBSQ…

    Mo-MuLV LUC and Mo-MuLV LUC/PBSQ have the same infection titers. (A) RAT2 cells…

    DNMT3L can recruit epigenetic modifiers…

    DNMT3L can recruit epigenetic modifiers to induce repressive histone modifications on Mo-MuLV LTR…

    Ectopic DNMT3L induces the formation…

    Ectopic DNMT3L induces the formation of a repressive chromatin modifier complex in DNMT3L-expressing…

    DNMT3L induces HDAC1 translocation to…

    DNMT3L induces HDAC1 translocation to the nucleus in later-passage MEFs. The subcellular localization…

    DNMT3L facilitates the formation of…

    DNMT3L facilitates the formation of the protein complex containing DNMT3A, SETDB1, and HDAC1…


    DNA motif discovery using chemical reaction optimization

    DNA motif discovery means to find short similar sequence elements within a set of nucleotide sequences. It has become a compulsory need in bioinformatics for its useful applications such as compression, summarization, and clustering algorithms. Motif discovery is an NP-hard problem and exact algorithms cannot solve it in polynomial time. Many optimization algorithms were proposed to solve this problem. However, none of them can show its supremacy by overcoming all the obstacles. Chemical Reaction Optimization (CRO) is a population based metaheuristic algorithm that can easily fit for the optimization problem. Here, we have proposed an algorithm based on Chemical Reaction Optimization technique to solve the DNA motif discovery problem. The four basic operators of CRO have been redesigned for this problem to search the solution space locally as well as globally. Two additional operators (repair functions) have been proposed to improve the quality of the solutions. They have been applied to the final solution after the iteration stage of CRO to get a better one. Using the flexible mechanism of elementary operators of CRO along with the additional operators (repair functions), it is possible to determine motif more precisely. Our proposed method is compared with other traditional algorithms such as Gibbs sampler, AlignACE (Aligns Nucleic Acid Conserved Elements), MEME (Multiple Expectation Maximization for Motif Elicitation), and ACRI (Ant-Colony-Regulatory-Identification) by testing real-world datasets. The experimental results show that the proposed algorithm can give better results than other traditional algorithms in quality and in less running time. Besides, statistical tests have been performed to show the superiority of the proposed algorithm over other state-of-the-arts in this area.

    Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


    Ver el vídeo: ADN Detras del descubrimiento Prof en Biología (Agosto 2022).