Información

Subconjunto de estructuras cristalinas de proteínas (de PDB)

Subconjunto de estructuras cristalinas de proteínas (de PDB)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Existe un subconjunto bien aceptado del conjunto de estructuras de proteínas del Protein Data Bank que:

  1. Tiene solo estructuras de "alta calidad" (pueden ser métricas diferentes de esto; por ejemplo, resolución, tamaño o integridad estructural)
  2. Tiene una redundancia mínima (por ejemplo, nada con identidad de secuencia exacta de la misma especie)
  3. Sigue siendo lo más grande posible, abarcando tantas moléculas y especies como sea posible.
  4. [Opcionalmente, pero mejor] No está demasiado sesgado (p. Ej., Ciertas clases de proteínas están muy sobrerrepresentadas en el AP)

Es posible descargar el PDB completo y crear reglas para mí, pero esto parece ser algo que la gente ya podría haber considerado bastante extensamente. Espero un conjunto de datos que pueda descargar y citar, en el mejor de los casos. :)


El laboratorio de Richardsons tiene una lista de los mejores 8000. Vea su artículo de 2016.

También tienen la lista top500, pero no se ha actualizado durante muchos años.


Bio.PDB se instala automáticamente como parte de Biopython. Biopython se puede obtener en http://www.biopython.org. Funciona en muchas plataformas (Linux / Unix, windows, Mac,…).

Bio.PDB se utilizó en la construcción de DISEMBL, un servidor web que predice regiones desordenadas en proteínas, y COLUMBA, un sitio web que proporciona estructuras de proteínas anotadas (ya no está disponible?). Bio.PDB también se ha utilizado para realizar una búsqueda a gran escala de similitudes de sitios activos entre estructuras de proteínas en el PDB (ver Proteínas 51: 96-108, 2003) y desarrollar un nuevo algoritmo que identifique elementos de estructura secundaria lineal (ver Bioinformática BMC 6: 202, 2005).

A juzgar por las solicitudes de características e información, Bio.PDB también es utilizado por varias LPC (grandes empresas farmacéuticas :-).


Pares de proteínas de secuencia similar y estructura diferente en el AP

A menudo se asume que en el Protein Data Bank (PDB), dos proteínas con secuencias similares también tendrán estructuras similares. Por consiguiente, ha resultado útil desarrollar subconjuntos del AP de los que se han eliminado las estructuras "redundantes", basándose en un criterio de similitud basado en la secuencia. De manera similar, cuando se predice la estructura de la proteína usando el modelado de homología, si una estructura de plantilla para modelar una secuencia diana se selecciona solo por secuencia, esto supone implícitamente que todas las plantillas de secuencia similar son equivalentes. Aquí, mostramos que esta suposición a menudo no es correcta y que los enfoques estándar para crear subconjuntos de la AP pueden conducir a la pérdida de información estructural y funcionalmente importante. Hemos llevado a cabo superposiciones estructurales basadas en secuencias y alineaciones estructurales basadas en geometría de un gran número de pares de proteínas para determinar hasta qué punto la similitud de secuencia asegura la similitud estructural. Encontramos muchos ejemplos en los que dos proteínas que son similares en secuencia tienen estructuras que difieren significativamente entre sí. La fuente de las diferencias estructurales suele tener una base funcional. El número de pares de proteínas que se identifican y la magnitud de la disimilitud dependen del enfoque que se utilice para calcular las diferencias en la superposición de estructuras basadas en secuencias particulares que identificará un número mayor de pares estructuralmente diferentes que las alineaciones estructurales basadas en geometría. Cuando dos secuencias se pueden alinear de una manera estadísticamente significativa, la superposición estructural basada en secuencias proporciona una medida significativa de las diferencias estructurales. Este enfoque y las alineaciones de estructuras basadas en geometría revelan información algo diferente y uno u otro podría ser preferible en una aplicación determinada. Nuestros resultados sugieren que en algunos casos, en particular el modelado de homología, el uso común de conjuntos de datos no redundantes, seleccionados del PDB en función de la secuencia, puede enmascarar información estructural y funcional importante. Hemos establecido una base de datos de pares de proteínas de secuencia similar y estructuralmente diferentes que ayudarán a abordar este problema (http://luna.bioc.columbia.edu/rachel/seqsimstrdiff.htm).

Cifras

Dos ejemplos de cómo estructura ...

Dos ejemplos de cómo la alineación de estructuras puede subestimar la disimilitud estructural. (A, B) Esquema ...

Comparación de superposición estructural basada en secuencia ...

Comparación de superposiciones estructurales basadas en secuencias y alineaciones estructurales. ( A ) secuencia- y ...

Abundancia de secuencia similar y estructuralmente diferente ...

Abundancia de pares de secuencia similar y estructuralmente diferente. ( A ) RMSD basado en secuencia de todos ...

Causas de la marcada estructural ...

Causas de la marcada diferencia estructural entre pares de proteínas con una identidad de secuencia ≥99% ...

Ejemplos de pares con muy similares ...

Ejemplos de pares con secuencias muy similares y disimilitud de estructura relacionada con ...


Resultados y discusión

Análisis y clasificación de la interfaz de cálculo previo EPPIC en toda la PDB

La importancia de utilizar información de la AP [1] para estudiar las interacciones proteína-proteína se destacó hace más de 15 años en un artículo de J. Janin [6]. En el momento de la publicación de su artículo, el PDB contenía alrededor de 6.500 entradas, y las bases de datos SwissProt y TrEMBL (luego fusionadas en la base de datos UniProt [7]) contenían alrededor de 68.500 y 150.000 entradas, respectivamente. Desde entonces, el PDB se ha multiplicado por 15 a más de 100.000 entradas (al 27 de mayo de 2014), mientras que la base de datos UniProt (versión 2014_05) ha alcanzado más de 52 millones de entradas con un aumento de 200 veces. Por tanto, el número medio de supuestas secuencias homólogas disponibles por entrada de PDB ha aumentado considerablemente.

Con el desarrollo del software EPPIC y la disponibilidad de suficiente potencia informática, es posible predecir la relevancia biológica de todas las interfaces en la PDB. Se implementó una canalización de cálculo automático para analizar todo el PDB con EPPIC y almacenar los resultados en una base de datos MySQL (consulte Métodos para obtener más detalles). La Tabla 1 ofrece una descripción general de la base de datos de interfaces. La canalización, que se muestra en la Figura 1 como un diagrama de flujo, aumentó en gran medida la velocidad, la eficiencia y la usabilidad del servidor web EPPIC, ya que todas las consultas de los usuarios correspondientes a las entradas de PDB existentes devuelven los resultados precalculados en lugar de ejecutar el cálculo. De esta manera, la potencia informática del servidor está casi completamente disponible para las consultas de los usuarios que aún no corresponden a las entradas de PDB. Una ventaja aún más importante de nuestra canalización es la posibilidad de extraer la base de datos y realizar análisis de interfaz a una escala que anteriormente estaba excluida de nuestro método.

Representación esquemática de la tubería de precálculo de EPPIC en toda la PDB. Los servidores web se indican con bloques verdes, las bases de datos locales y las entradas con bloques azules, las instancias del programa EPPIC con bloques marrones.

Además de las predicciones de la interfaz, EPPIC también proporciona información conveniente sobre secuencias relacionadas para cada estructura. El fácil acceso a alineaciones precalculadas precisas para todas las estructuras en el PDB y a la visualización de la entropía de secuencia en la superficie de la proteína podría ser útil para una variedad de tareas y análisis que van más allá de la clasificación de la interfaz.

Además del servidor, desarrollamos un complemento PyMOL que permite a los usuarios descargar directamente interfaces EPPIC precalculadas en PyMOL (Figura 2). Se pueden solicitar interfaces EPPIC individuales, o todas las interfaces para una proteína se pueden cargar simultáneamente. Las interfaces se pueden mostrar usando la visualización de línea predeterminada o en un modo híbrido donde una cadena se representa como una caricatura y la otra como una superficie que muestra la entropía de secuencia para cada residuo de superficie.

Ejemplo de visualización de interfaz con el complemento EPPIC Interface Loader para PyMOL. Interfaz 1 de la entrada 2trx (E. coli thioredoxin) obtenido en PyMOL con el complemento EPPIC Interface Loader y mostrado en modo híbrido (color de superficie mapeado por entropía de secuencia para un socio de interfaz y dibujos animados para el otro socio).

Más allá de los conjuntos de datos seleccionados manualmente

Uno de los principales obstáculos en el desarrollo de nuevos métodos para la clasificación o acoplamiento de interfaces de cristal es la disponibilidad de conjuntos de datos estándar de oro para el entrenamiento y la evaluación comparativa donde la estructura oligomérica tiene un sólido respaldo experimental. Este problema se ha resuelto en el pasado mediante la curación manual. Si bien son herramientas invaluables para el desarrollo de métodos y la evaluación comparativa, los conjuntos de datos seleccionados manualmente adolecen de varias deficiencias: requieren una gran cantidad de tiempo para su compilación y validación, son propensos a errores humanos y, lo que es más importante, pueden cubrir razonablemente solo un porcentaje muy pequeño. de las estructuras disponibles. Los conjuntos DCbio y DCxtal [3], que se utilizaron para optimizar los parámetros de EPPIC, contienen 81 entradas cada uno. El conjunto de datos de Ponstingl [8], que se utilizó en el desarrollo de otros métodos de clasificación [8], [9], contiene 86 interfaces biológicas y 52 contactos de cristal. En contraste con esas pequeñas cifras, el número de interfaces proteína-proteína en el AP mayor de 35 Å 2 es del orden de 820.000 al 27 de mayo de 2014.

Sería deseable un punto de referencia de al menos miles de interfaces para una sólida formación y evaluación de nuevos métodos. En lugar de intentar hacer esto manualmente, los conjuntos de datos "Muchos" se reunieron automáticamente basándose en evidencia independiente de contactos biológicos y cristalinos. Este problema ya fue reconocido y parcialmente abordado por Xu y Dunbrack [10], donde proporcionaron un conjunto de datos de interfaces biológicas basadas en su conservación a través de diferentes formas cristalinas.

Por lo tanto, basamos nuestro conjunto de datos de interfaz biológica (BioMany) en la base de datos ProtCID [10], [11], complementandola adicionalmente con interfaces validadas por RMN. El método ProtCID usa la presencia de una interfaz en múltiples formas cristalinas como una indicación de que es biológica. El método asume que es poco probable que los contactos de cristal se conserven en diferentes formas de celosía, mientras que las interfaces biológicas deben estar fuertemente unidas y presentes de manera consistente. La base de datos ProtCID [11] agrupa interfaces similares basadas en la arquitectura de dominio Pfam y la similitud estructural. Los grupos se filtraron utilizando umbrales conservadores, y luego se eligió un subconjunto no redundante de 2666 interfaces para su inclusión en el conjunto de datos de BioMany. Si bien la mayoría de las estructuras de RMN son monómeros (ver Tabla 2), los oligómeros restantes pueden asignarse con seguridad como interfaces biológicas. Para evitar sesgos sistemáticos que surgen de dos técnicas de determinación de estructuras diferentes, las estructuras de RMN no se utilizaron directamente, sino que se mapearon en estructuras equivalentes a partir de cristalografía de rayos X. Esto resultó en 171 interfaces con seis entradas redundantes, que, junto con el conjunto ProtCID, formaron un conjunto de datos con 2.831 interfaces biológicas únicas. Es importante destacar que en el conjunto de datos de BioMany, eliminamos las interfaces con áreas mayores de 2000 Å 2 para incluir interfaces con áreas que pertenecen solo al rango difícil de clasificar [3].

Para el conjunto de contactos de cristal (XtalMany), recolectamos interfaces homoméricas mediadas por ejes de tornillo o por traslaciones puras. El concepto de interfaces que conducen a ensamblajes infinitos, utilizado para compilar XtalMany, fue descrito por primera vez y con más elegancia por Monod [12]. Razonó que en una molécula hipotética solo son posibles dos tipos de interfaces homoméricas: las isólogas, formadas por los mismos parches en ambas moléculas, y las heterólogas, formadas por diferentes parches superficiales en ambas moléculas. El caso isólogo presenta necesariamente una simetría cerrada doble. Sin embargo, en el caso heterólogo, los monómeros pueden formar un anillo cerrado con simetría rotacional, o pueden formar una fibra o hélice y continuarán ensamblando indefinidamente. Con la excepción de un número muy pequeño de proteínas similares a fibras, los ensamblajes infinitos son de naturaleza desventajosa y se puede suponer que son contactos de cristales.

En el contexto de un cristal tridimensional, las interfaces que se producen mediante una traslación pura o un eje de tornillo solo pueden conducir a ensamblajes no cerrados y, por lo tanto, se puede asumir con seguridad que son contactos de cristal. Este es un hecho ampliamente reconocido y utilizado en la literatura, aunque no existe un acuerdo en una nomenclatura única para ello. Janin [6] lo usa para trazar la distribución de contactos de cristales en cristales de proteínas conocidos ("interfaces que no tienen simetría de grupo de puntos"). Krissinel [9] lo usa como un paso fundamental de su algoritmo de ensamblaje, cualquier interfaz de “unidades monoméricas en orientaciones paralelas” se descarta en la enumeración de todos los ensamblajes posibles compatibles con el cristal. Levy, en una revisión sobre ensamblajes oligoméricos [13], cubre ampliamente el tema de la simetría y discute la presencia de "simetrías abiertas" que pueden conducir a proteínas con mal funcionamiento como el caso de la hemoglobina en la anemia de células falciformes.

Para el conjunto de datos XtalMany, las interfaces se agruparon por secuencia y se filtraron para interfaces extremadamente pequeñas (área & lt600 Å 2), que son muy abundantes y sería trivial de clasificar. Además, las entradas para las que la anotación de unidad biológica en el AP indica una simetría helicoidal también se excluyeron de la lista (solo se encontraron cinco de tales estructuras). Esto resultó en un conjunto de 2.913 interfaces de cristal.

La distribución del área de interfaz para los muchos puntos de referencia, así como los puntos de referencia anteriores de DC y Ponstingl, se muestra en la Figura 3. El desempeño de EPPIC se evaluó en cada conjunto de datos (Tabla 3). Con los umbrales predeterminados, EPPIC obtuvo un desempeño en línea con lo descrito en el trabajo de 2012. El rendimiento en muchos conjuntos de datos es de 88% de precisión, 85% de sensibilidad y 90% de especificidad, que es comparable al obtenido en el conjunto de datos de Ponstingl más pequeño de 91%, 91% y 90%, respectivamente.

Distribución del área de interfaz de tres conjuntos de datos de interfaces. Las áreas de interfaz para contactos de cristal (rojo) e interfaces biológicas (verde) se muestran para tres conjuntos de datos de interfaz: DCBio / Xtal (izquierda), Bio / XtalMany (centro) y Ponstingl (derecha). Los números entre paréntesis se refieren a los recuentos de interfaces bio y xtal en cada conjunto de datos.

La Figura 4 proporciona curvas ROC para los tres indicadores EPPIC (geometría, núcleo-borde, núcleo-superficie) versus los tres conjuntos de datos: el indicador núcleo-superficie resulta ser consistentemente el más poderoso.

Rendimiento por indicador de EPPIC frente a tres conjuntos de datos de interfaces. Las curvas ROC a continuación muestran el desempeño de EPPIC por indicador frente a los mismos tres conjuntos de datos de interfaces que se muestran en la Figura 3.

Revisando la curva de Janin 15 años después

En su artículo de referencia [6], Janin utilizó un conjunto de datos de 1.320 interfaces por pares derivadas de 152 formas cristalinas de proteínas monoméricas para dibujar una curva (función exponencial) que relaciona el área de la interfaz de un contacto reticular con la probabilidad de que sea un contacto cristalino. Para este ajuste, Janin usó solo puntos de datos correspondientes a contactos sin simetría de grupo de puntos, que por lo tanto es muy poco probable que sean biológicamente relevantes, como se discutió en la sección anterior (interfaces que conducen a ensamblajes infinitos). Nos propusimos comparar la curva de Janin con nuestro enfoque, utilizando datos del AP ahora 15 veces más grande. El resultado se muestra en la Figura 5, donde la curva de Janin aparece en verde claro y la distribución de todas las interfaces de la PDB actual que conducen a ensamblajes infinitos, que abarcan 56,378 interfaces, aparece en marrón. Las dos curvas se superponen muy bien, lo que demuestra la validez del enfoque original de Janin y muestra que la distribución del área de contactos que conducen a ensamblajes infinitos no ha cambiado, a pesar del enorme aumento en el tamaño de la AP.

La curva de Janin (1997) revisada. La curva de Janin se traza contra llamadas EPPIC (basadas en indicadores evolutivos, cian, y en geometría, verde) para todas las interfaces PDB actuales (mayo de 2014) mayores de 600 Å 2 y contra todas las interfaces PDB que conducen a ensamblajes infinitos. Las curvas se trazan como probabilidad normalizada frente al área de la interfaz.

Comparación de toda la PDB de la clasificación de interfaces EPPIC y PISA

PISA [9] es un método bien establecido que estima la estabilidad termodinámica de una interfaz para predecir si debería existir en solución (interfaz biológica) o solo en estado cristalino (contacto cristalino). Dado que PISA no utiliza información de secuencia, es completamente complementario a nuestro método EPPIC. Llevamos a cabo una comparación en todo el PDB de la clasificación de la interfaz por PISA y EPPIC. Para obtener la clasificación PISA para una interfaz determinada (biológica o cristalina), utilizamos la lista de ensamblaje de la aplicación PISA de línea de comandos CCP4 [14]. En una lista de ensamblaje de PISA determinada, las interfaces que participan en el ensamblaje se marcan como biológicas y el resto como contactos de cristal. Hay algunos casos en los que la interfaz se clasifica como "sin predicción", por ejemplo, cuando PISA da una predicción "gris". De todas las interfaces en el AP, el 96,5% tenía una predicción PISA válida. Entre ellos, se predijo que aproximadamente el 25% sería biológicamente relevante. En comparación, EPPIC predice que el 14% de los contactos (114,001 de 818,358 contactos) serán biológicamente relevantes. El hecho de que PISA prediga un mayor número de interfaces biológicas parece coincidir con el análisis de Krissinel [15], donde, en ciertos casos, PISA tiende a predecir un ensamblaje demasiado grande debido al efecto de unión de las moléculas tampón.

Al comparar los resultados de PISA y EPPIC, encontramos que los dos enfoques dieron la misma llamada para el 88% de las interfaces. En la Figura 6, mostramos cómo varía la fracción de llamadas comunes en función del área de la interfaz. Como era de esperar, la concordancia más baja se observa en el rango de área de interfaz de 600-1200 Å 2, donde la clasificación es particularmente difícil. Esto confirma muy bien las observaciones anteriores basadas únicamente en el análisis de pequeños conjuntos de datos [3], [16].

Comparación de llamadas de interfaz entre EPPIC y PISA. El histograma representa la fracción de llamadas de interfaz convergentes y divergentes de EPPIC y PISA en función del área de interfaz. La llamada superior en la leyenda de colores corresponde a EPPIC y la inferior a PISA. También se dan los porcentajes generales de cada combinación de llamadas.

Una estimación de la tasa de error en las anotaciones de unidades biológicas de autor de AP

Un tema importante que afecta a los análisis bioinformáticos estructurales es el de los errores en el AP, reconocido ya en algunas publicaciones anteriores [11], [17] - [19].Un tipo de error muy importante es el relacionado con la asignación de unidades biológicas proporcionada en REMARK 350, que es esencial para la interpretación correcta de la estructura de una proteína. En muchos casos, las dificultades para determinar experimentalmente la composición correcta del estado de la solución [20] complican estas asignaciones. Incluso en los casos en los que la estructura cuaternaria se puede determinar experimentalmente, se pueden introducir errores en el proceso de anotación [11].

Intentamos una estimación de la tasa de error en las anotaciones de unidades biológicas del autor en el AP comparándolas con las predicciones EPPIC más sólidas por interfaz (en lugar de comparar conjuntos completos). Usamos los siguientes criterios para mantener solo las mejores predicciones: primero, consideramos solo las estructuras cristalinas resueltas a una resolución mejor que 2.5 Å y con un factor R libre de refinamiento menor a 0.3 segundos, requerimos al menos 30 homólogos de secuencia para el EPPIC predicciones evolutivas y, en tercer lugar, requerimos un llamado unánime por los tres criterios EPPIC (geometría, núcleo-borde, núcleo-superficie). Finalmente, solo retenemos las entradas con una puntuación de superficie del núcleo inferior a -3,3 para llamadas biológicas y superior a 0,15 para llamadas de contacto de cristal. Estos límites aseguran que las predicciones sean solo aquellas con las puntuaciones más sólidas y se elijan de tal manera que los grupos bio y xtal estén equilibrados en número. Al final, esto da como resultado 20.000 puntos de datos.

La Figura 7 muestra una comparación de llamadas de interfaz entre las predicciones EPPIC más sólidas y la anotación del autor, similar a la comparación de llamadas de interfaz entre EPPIC y PISA que se muestra en la Figura 6. Se sabe que una cierta tasa de error afecta las anotaciones de unidades biológicas del autor en el AP . Según Xu y Dunbrack, tampoco es infrecuente que la anotación de una unidad biológica del autor no coincida con la descripción de la estructura de la unidad biológica en la publicación correspondiente [11]. Algunos estudios anteriores también han intentado estimar esta tasa de error. En un esfuerzo en la anotación manual con la ayuda de la inferencia automática basada en homología, Levy [19] estima que la tasa de error es del 14,7%. Estimamos que la tasa de error de las anotaciones de los autores a nivel de interfaz es del 6,6%. Nuestra cifra más baja indica un nivel de línea de base de los errores más obvios, ya que intencionalmente apuntamos a encontrar los errores muy claros, basándonos en nuestras predicciones más seguras.

Errores de anotación de autor en el PDB. Las anotaciones de los autores se comparan con las predicciones de EPPIC. La comparación se realiza en un subconjunto de 10,000 interfaces cada una desde los extremos de la distribución de puntuación de la superficie del núcleo. La llamada superior en la leyenda de colores corresponde a EPPIC y la inferior a la anotación del autor.

Más estadísticas de interfaz

Además, analizamos la aparición de monómeros frente a multímeros en estructuras cristalinas y de RMN (Figura 8), nuevamente utilizando la clasificación EPPIC. Una entrada se consideró multimérica si poseía al menos una interfaz clasificada como biológica por EPPIC; de lo contrario, se consideró monomérica. Según este enfoque, las estructuras cristalinas de rayos X son multímeros biológicos en aproximadamente el 53,3% de los casos.

Distribución en todo el PDB de las predicciones de monómero EPPIC frente a multímero mediante técnica experimental. Las entradas de PDB se consideran monoméricas (rojo) si ninguna de sus interfaces está clasificada por EPPIC como bio; de lo contrario, se consideran multiméricas (verde).

Dado que los multímeros biológicos pueden estar mediados por simetría no cristalográfica o por diferentes operadores cristalográficos, analizamos los resultados de la clasificación de la interfaz en función del tipo de operador. Los resultados, que se muestran en la Figura 9, muestran una diferencia en la ocurrencia de contactos biológicos en la unidad asimétrica (es decir, mediada por operadores de simetría no cristalográfica), en comparación con aquellos a través de operadores de cristal. Entre los primeros, más de un tercio son contactos biológicos (37,3%), mientras que los contactos a través de operadores de cristales tenían muchas menos probabilidades de ser biológicos. Más concretamente, el 13,4% de los contactos a través de un eje cristalográfico de dos pliegues puros se clasifican como bio, el 19,8% para tres pliegues puros, el 25.2% para cuatro pliegues puros y el 12.6% para seis pliegues puros. Se predijo que solo el 1% de los operadores de eje de tornillo doble y triple tornillo era biológico, y otros tipos de operadores eran insignificantes. Los hallazgos anteriores proporcionan información que puede aplicarse de manera útil en la clasificación de interfaces. El mayor porcentaje de contactos biológicos mediados por simetría no cristalográfica puede atribuirse a varios factores, los más obvios de los cuales son la heterogeneidad conformacional intrínseca de los ensamblajes diméricos y la práctica común en la elección de la unidad asimétrica en las entradas del PDB. Además, los autores pueden haber elegido un grupo espacial de menor simetría que el permitido por la simetría de los datos de difracción, sustituyendo así los operadores cristalográficos por los no cristalográficos. Por tanto, un dímero mediado por un doble eje cristalográfico, con un monómero por unidad asimétrica, se convertiría en un dímero de simetría no cristalográfica.

Clasificación de interfaz en función del tipo de operador. Las porciones verdes de las barras representan interfaces clasificadas como bio, las rojas interfaces clasificadas como xtal. Los operadores se indican de la siguiente manera, de izquierda a derecha: 2S, eje de tornillo doble AU, simetría no cristalográfica XT, traslación de celda de cristal 2, eje doble 3S, eje de tornillo triple 4S, eje de tornillo cuádruple 3 , eje de tres pliegues FT, traslación fraccionada 6S, eje de tornillo de seis pliegues 4, eje de cuatro pliegues 6, eje de seis pliegues -1, centro de inversión -4, eje de rotoinversión de cuatro pliegues GL, plano de deslizamiento.

El papel de los operadores cristalográficos para la propensión a la cristalización de proteínas se abordó en un interesante estudio de Banatao. et al.[21], analizando proteínas monoméricas y diméricas del AP. Compararon la propensión de los dímeros y monómeros, respectivamente, a cristalizar en grupos espaciales que contienen al menos un eje de simetría doble puro versus grupos espaciales que no soportan ese elemento de simetría. Encontraron un enriquecimiento de dímeros en los grupos espaciales que sustentan los dobleces puros, y concluyeron que el hecho de que los homodímeros puedan cristalizar tanto en la unidad asimétrica como a través de un eje cristalográfico de dos pliegues les brinda oportunidades de cristalización adicionales en comparación con las proteínas monoméricas. Banatao et al. por tanto, abogó por el uso de la simetrización sintética para cristalizar proteínas monoméricas recalcitrantes.


Discusión

Relación con la similitud de secuencia

Aquí, usamos los Ejemplos 1 a 4 que comprendían de tres a cinco estructuras de la misma proteína con diferentes ligandos (o sin ligando) o en diferentes condiciones (serie de pH). En endotiapepsina (Ejemplo 3) identificamos cinco nodos conservados. Estos se ubicaron en los límites de las regiones de secuencia altamente conservadas. En el caso de una xilanasa (Ejemplo 4) con arquitectura de barril TIM, no encontramos nodos conservados. Se puede especular que esto puede ser una característica de la topología de barril TIM (muy abundante). En un ejemplo de la familia de las transferasas (Ejemplo 1), los dos nodos conservados se ubicaron en los límites de las regiones conservadas en la alineación de secuencia (Fig. & # X200B (Fig. 9). 9). De manera similar al caso de la xilanasa, la secuencia y la conservación de la estructura no coinciden del todo, hecho que también se observó usando los patrones de fragmentación de TLS para la citrato sintasa, la transcriptasa inversa del VIH-1 y la aspartato transcarbamilasa. 24

Alineación de secuencia para la estructura 1cz9 de la integrasa del virus del sarcoma aviar, ejemplo 1. El sombreado azul oscuro y verde indica & # x0003e50% de identidad, amarillo 30 & # x0201350% de identidad. Las flechas rojas señalan los nodos con movimiento conservado en las estructuras, que se encuentran en los bordes de las regiones conservadas en secuencia. La línea roja indica el bucle que cubre el sitio activo.

Observamos que los bloques conservados de movimiento molecular en un subconjunto dado de estructuras se encontraban generalmente en regiones con baja similitud de secuencia. Atribuimos esto al hecho de que los residuos conservados son a menudo los que tienen una alta relevancia funcional y, por lo tanto, también son dinámicamente importantes, que se encuentran en regiones flexibles. Por ejemplo, en un estudio de Zheng et al. 25 utilizando análisis de modo normal, los grupos de residuos de secuencia conservada en polimerasas se identificaron como dinámicamente más importantes.

Relación con los fragmentos de TLS

La estructura del factor de crecimiento de fibroblastos humano 1 (FGF-1, PDB-ID: 1rg8) se analizó en términos de fragmentos de TLS. 26 La estructura tiene una organización de subdominio en la que las hebras 1, 4, 5, 8, 9 y 12 forman un barril & # x003b2 sobre un triplete de horquilla & # x003b2 que consta de las hebras 2, 3, 6, 7 , 10 y 11 (Ref. 26 y Fig. & # X200B Fig. 10). 10). Las cadenas & # x003b2, de las que se compone en gran parte la estructura, se utilizaron como base para la definición del fragmento TLS. 26 Se asignaron dos dominios de cuerpo rígido TLS, uno que consta de las hebras 1 a 5 y el otro de las hebras 6 a 12 (Ref. 26 y Fig. & # X200B Fig. 10). 10). Usando nuestro análisis de movimiento basado en ADP identificamos cuatro fragmentos en la estructura, dos de los cuales eran grandes (contenían 79 y 48 del total de 146 residuos). Además, la hebra 12 y el enlace a la hebra 11 forman un tercer fragmento pequeño. Finalmente, el cuarto, también pequeño fragmento, consiste en el enlazador entre las cadenas 6 y 7 (residuos 68 & # x0201375) que corresponde a un puente entre los dos dominios de cuerpo rígido de TLS. El bloque que abarca los residuos 76 a 93 cubre la hebra 8 y una región de giro bien ordenada entre las hebras 8 y 9 que es una región clave para la dimerización y la unión / reconocimiento del receptor en diferentes miembros de la familia FGF. 26 Curiosamente, los fragmentos de movimiento deducidos de TLS o del análisis basado en ADP son diferentes de la estructura de dominio comúnmente asignada.

Estructura del factor de crecimiento de fibroblastos humanos 1. El panel (A) muestra la estructura coloreada de acuerdo con sus dominios estructurales con el barril & # x0201ctop & # x0201d & # x003b2 en rojo y el triplete de horquilla & # x0201cbottom & # x0201d en azul. Si bien persisten las similitudes, ni TLS (panel C) ni nuestro análisis de movimiento (panel B) apoyan completamente esta definición de dominio.

Relación con los modos normales

Comparamos los patrones de movimiento en las estructuras. 1cxq, 1cz9, y 1czb de la integrasa del virus del sarcoma aviar (Ejemplo 1) al análisis en modo normal (NMA) utilizando el servicio web elN & # x000e9mo. 27 Los modos normales predicen posibles modos vibracionales basados ​​en las posiciones atómicas y se generan como un conjunto de vectores que describen la dirección promedio del movimiento para cada residuo. Sin embargo, los diferentes sistemas de coordenadas utilizados en el análisis basado en NMA y ADP impiden la comparación directa de las direcciones de los vectores. Otra diferencia es que el análisis basado en ADP representa una superposición de varios modos de movimiento, mientras que NMA enumera los vectores y las diferencias de distancia para los modos individuales. Usamos los patrones de correlación interna NMA de los modos 7 & # x0201311 para compararlos con el análisis de ADP y encontramos similitudes. Por ejemplo, NMA sugirió los residuos del bucle del sitio activo del 1czb estructura para tener direcciones de movimiento similares, con correlaciones entre residuos vecinos en el rango de 0,92 & # x020130,99. De manera similar, la región adyacente de los residuos 156 a 163 muestra altas correlaciones de 0,96 a 0,99 en las tres estructuras de la NMA. El bloque de secuencia conservada que comprende los residuos 175 & # x02013183 exhibió direcciones comunes en el modelado NMA.

Implicaciones y aplicaciones

El análisis de los ADP anisotrópicos ofrece una herramienta poderosa para la recuperación de propiedades dinámicas de un modelo macromolecular. Esta información complementa las coordenadas atómicas 3D, revela los cambios sutiles que pueden no verse en la mera comparación de estructuras y pueden ser extremadamente útiles para la investigación de complejos proteína-ligando o series dependientes del pH. De hecho, en varios ejemplos presentados aquí, el r.m.s.d. entre las estructuras no reveló ninguna variación significativa, mientras que la dirección de movimiento de los fragmentos asignados sí lo hizo. Las regiones de movimiento concertado se pueden identificar basándose en clasificadores que son independientes del tamaño de la proteína o de la resolución de los datos de rayos X (siempre que sea lo suficientemente alto). El estado de unión de los sustratos y el pH tiene una influencia significativa en el movimiento direccional, que puede derivarse de una única estructura de rayos X. Si se aplica a una serie de estructuras que contienen diferentes ligandos, el análisis de movimiento basado en ADP puede cubrir una amplia gama de posibles conformaciones. El enfoque solo, o en combinación con los modos vibracionales y estudios vinculantes, puede conducir a una mejor comprensión de la energética de la catálisis enzimática.


Parámetros de desplazamiento atómico en biología estructural

Los parámetros de desplazamiento atómico (ADP, también conocidos como factores B), que dependen de la heterogeneidad estructural, proporcionan un amplio espectro de información sobre la estructura y la dinámica de las proteínas y encuentran varias aplicaciones, desde la predicción de trastornos conformacionales de proteínas hasta la termoestabilización de proteínas y la cinética de plegamiento de proteínas. predicción a la predicción de sitios de unión a proteínas. Un aspecto crucial es la estandarización de los ADP cuando se realizan comparaciones entre dos o más estructuras cristalinas de proteínas, ya que los ADP se ven afectados de manera diferente por varios factores, desde la resolución cristalográfica hasta los protocolos de refinamiento. Una limitación potencial del análisis de ADP es la tendencia moderna a permitir que los ADP se inflen hasta valores extremadamente grandes que tienen poco significado físico-químico.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


Bagaria A, Jaravine V, Huang YPJ, Montelione GT, Güntert P (2012) Validación de la estructura de proteínas mediante la predicción de la desviación de la media cuadrática del modelo lineal generalizado. Protein Sci 21: 229-238. doi: 10.1002 / Pro.2007

Bax A, Grishaev A (2005) RMN de alineación débil: una vista de ojo de halcón de la estructura biomolecular. Curr Opin Struc Biol 15: 563-570. doi: 10.1016 / J.Sbi.2005.08.006

Benkert P, Künzli M, Schwede T (2009) Servidor QMEAN para la estimación de la calidad del modelo de proteínas. Ácidos nucleicos Res 37: W510 – W514. doi: 10.1093 / Nar / Gkp322

Berjanskii MV, Wishart DS (2005) Un método simple para predecir la flexibilidad de las proteínas mediante cambios químicos secundarios. J Am Chem Soc 127: 14970-14971. doi: 10.1021 / Ja054842f

Berjanskii M, Tang P, Liang J, Cruz JA, Zhou JJ, Zhou Y, Bassett E, MacDonell C, Lu P, Lin GH, Wishart DS (2009) GeNMR: un servidor web para la determinación rápida de la estructura de proteínas basada en RMN. Ácidos nucleicos Res 37: W670 – W677. doi: 10.1093 / Nar / Gkp280

Berjanskii M, Liang YJ, Zhou JJ, Tang P, Stothard P, Zhou Y, Cruz J, MacDonell C, Lin GH, Lu P, Wishart DS (2010) PROSESS: una suite de evaluación de estructuras de proteínas y un servidor. Ácidos nucleicos Res 38: W633 – W640. doi: 10.1093 / Nar / Gkq375

Berjanskii M, Zhou JJ, Liang YJ, Lin GH, Wishart DS (2012) Resolución por proxy: una medida simple para evaluar y comparar la calidad general de las estructuras proteicas de RMN. J Biomol NMR 53: 167-180. doi: 10.1007 / S10858-012-9637-2

Berman HM (2008) El banco de datos de proteínas: una perspectiva histórica. Acta Crystallogr A 64: 88–95. doi: 10.1107 / S0108767307035623

Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (2000) El banco de datos de proteínas. Nucleic Acids Res 28: 235–242. doi: 10.1093 / Nar / 28.1.235

Berman H, Henrick K, Nakamura H, Markley JL (2007) El banco mundial de datos de proteínas (wwPDB): garantizar un archivo único y uniforme de datos de PDB. Ácidos nucleicos Res 35: D301 – D303. doi: 10.1093 / Nar / Gkl971

Bernard A, Vranken WF, Bardiaux B, Nilges M, Malliavin TE (2011) Estimación bayesiana del potencial de restricción de RMN y el peso: una validación en un conjunto representativo de estructuras de proteínas. Proteins 79: 1525-1537. doi: 10.1002 / Prot.22980

Bernstein FC, Koetzle TF, Williams GJB, Meyer EF, Brice MD, Rodgers JR, Kennard O, Shimanouchi T, Tasumi M (1977) Protein Data Bank: archivo de archivo informático para estructuras macromoleculares. J Mol Biol 112: 535–542

Best RB, Vendruscolo M (2004) Determinación de estructuras de proteínas consistentes con parámetros de orden de RMN. J Am Chem Soc 126: 8090–8091. doi: 10.1021 / Ja0396955

Bhattacharya A, Tejero R, Montelione GT (2007) Evaluación de estructuras de proteínas determinadas por consorcios de genómica estructural. Proteins 66: 778–795. doi: 10.1002 / Prot.21165

Borrell B (2009) El fraude sacude la comunidad de proteínas. Nature 462: 970. doi: 10.1038 / 462970a

Brunger AT (2007) Versión 1.2 del sistema de Cristalografía y RMN. Nat Protocol 2: 2728-2733. doi: 10.1038 / Nprot.2007.406

Brunger AT, Clore GM, Gronenborn AM, Saffrich R, Nilges M (1993) Evaluación de la calidad de las estructuras de resonancia magnética nuclear en solución mediante validación cruzada completa. Science 261: 328–331. doi: 10.1126 / Science.8332897

Brunger AT, Adams PD, Clore GM, DeLano WL, Gros P, Grosse-Kunstleve RW, Jiang JS, Kuszewski J, Nilges M, Pannu NS, Read RJ, Rice LM, Simonson T, Warren GL (1998) Cristalografía y sistema de RMN amp : un nuevo paquete de software para la determinación de estructuras macromoleculares. Acta Crystallogr D 54: 905–921. doi: 10.1107 / S0907444998003254

Cavalli A, Salvatella X, Dobson CM, Vendruscolo M (2007) Determinación de la estructura de proteínas a partir de desplazamientos químicos por RMN. Proc Natl Acad Sci U S A 104: 9615–9620. doi: 10.1073 / pnas.0610313104

Chen JM, Lu ZQ, Sakon J, Stites WE (2000) Aumento de la termoestabilidad de la nucleasa estafilocócica: implicaciones para el origen de la termoestabilidad de las proteínas. J Mol Biol 303: 125-130. doi: 10.1006 / Jmbi.2000.4140

Chen VB, Davis IW, Richardson DC (2009) KiNG (Kinemage, Next Generation): un programa de visualización científica y molecular interactivo versátil. Protein Sci 18: 2403-2409. doi: 10.1002 / Pro.250

Chen VB, Arendall WB, Headd JJ, Keedy DA, Immormino RM, Kapral GJ, Murray LW, Richardson JS, Richardson DC (2010) MolProbity: validación de la estructura de todos los átomos para cristalografía macromolecular. Acta Crystallogr D 66: 12–21. doi: 10.1107 / S0907444909042073

Clore GM, Schwieters CD (2006) Concordancia de acoplamientos dipolares residuales, parámetros de orden de la columna vertebral y factores B cristalográficos para una proteína alfa / beta pequeña: una imagen unificada de movimientos atómicos rápidos y de alta probabilidad en proteínas. J Mol Biol 355: 879-886. doi: 10.1016 / J.Jmb.2005.11.042

Clore GM, Omichinski JG, Sakaguchi K, Zambrano N, Sakamoto H, Appella E, Gronenborn AM (1995) Ángulos interhelicales en la estructura de la solución del dominio de oligomerización de P53. Science 267: 1515-1516. doi: 10.1126 / Science.7878474

Davis IW, Leaver-Fay A, Chen VB, Block JN, Kapral GJ, Wang X, Murray LW, Arendall WB, Snoeyink J, Richardson JS, Richardson DC (2007) MolProbity: contactos de todos los átomos y validación de estructuras para proteínas y nucleicos ácidos. Ácidos nucleicos Res 35: W375 – W383. doi: 10.1093 / Nar / Gkm216

Doreleijers JF, Raves ML, Rullmann T, Kaptein R (1999) Completitud de NOE en estructuras de proteínas: un análisis estadístico de datos de RMN. J Biomol NMR 14: 123-132. doi: 10.1023 / A: 1008335423527

Doreleijers JF, Nederveen AJ, Vranken W, Lin JD, Bonvin AMJJ, Kaptein R, Markley JL, Ulrich EL (2005) Bases de datos de BioMagResBank DOCR y FRED que contienen conjuntos convertidos y filtrados de restricciones y coordenadas experimentales de RMN de más de 500 estructuras de proteínas PDB. J Biomol NMR 32: 1–12. doi: 10.1007 / S10858-005-2195-0

Doreleijers JF, Vranken WF, Schulte C, Lin JD, Wedell JR, Penkett CJ, Vuister GW, Vriend G, Markley JL, Ulrich EL (2009) La cuadrícula de restricciones de RMN en BMRB para 5266 entradas de PDB de proteínas y ácidos nucleicos. J Biomol NMR 45: 389-396. doi: 10.1007 / S10858-009-9378-Z

Doreleijers JF, da Silva AWS, Krieger E, Nabuurs SB, Spronk CAEM, Stevens TJ, Vranken WF, Vriend G, Vuister GW (2012a) CING: una suite integrada de programas de validación de estructuras basada en residuos. J Biomol NMR 54: 267-283. doi: 10.1007 / S10858-012-9669-7

Doreleijers JF, Vranken WF, Schulte C, Markley JL, Ulrich EL, Vriend G, Vuister GW (2012b) NRG-CING: informes de validación integrados de datos y coordenadas de RMN biomoleculares experimentales remediados en wwPDB. Ácidos nucleicos Res 40: D519 – D524. doi: 10.1093 / Nar / Gkr1134

Eisenberg D, Luthy R, Bowie JU (1997) VERIFY3D: evaluación de modelos de proteínas con perfiles tridimensionales. Método Enzymol 277: 396–404

Engh RA, Huber R (1991) Parámetros precisos de enlace y ángulo para el refinamiento de la estructura de proteínas de rayos X. Acta Crystallogr A 47: 392–400. doi: 10.1107 / S0108767391001071

Engh RA, Huber R (2001) Tablas internacionales de cristalografía. En: Rossmann MG, Arnold E (eds) International Tables for Crystallography, vol F. Kluwer Academic Publishers, Dordrecht, págs. 382–392

Gabel F, Simon B, Nilges M, Petoukhov M, Svergun D, ​​Sattler M (2008) Un protocolo de refinamiento de la estructura que combina acoplamientos dipolares residuales de RMN y restricciones de dispersión de ángulo pequeño. J Biomol NMR 41: 199-208. doi: 10.1007 / S10858-008-9258-Y

Ginzinger SW, Gerick F, Coles M, Heun V (2007) CheckShift: corrección automática de referencias de desplazamiento químico inconsistentes. J Biomol NMR 39: 223-227. doi: 10.1007 / S10858-007-9191-5

Ginzinger SW, Skocibusic M, Heun V (2009) CheckShift mejorado: corrección de referencia de desplazamiento químico rápido con alta precisión. J Biomol NMR 44: 207-211. doi: 10.1007 / S10858-009-9330-2

Gore S, Velankar S, Kleywegt GJ (2012) Implementing an X-ray validation pipeline for the Protein Data Bank. Acta Crystallogr D 68: 478–483. doi: 10.1107 / S0907444911050359

Güntert P (1998) Cálculo de la estructura de macromoléculas biológicas a partir de datos de RMN. Q Rev Biophys 31: 145–237. doi: 10.1017 / S0033583598003436

Güntert P, Mumenthaler C, Wüthrich K (1997) Dinámica del ángulo de torsión para el cálculo de estructuras de RMN con el nuevo programa DYANA. J Mol Biol 273: 283-298. doi: 10.1006 / Jmbi.1997.1284

Haliloglu T, Bahar I, Erman B (1997) Dinámica gaussiana de proteínas plegadas. Phys Rev Lett 79: 3090-3093. doi: 10.1103 / Physrevlett.79.3090

Han B, Liu YF, Ginzinger SW, Wishart DS (2011) SHIFTX2: predicción de desplazamiento químico de proteínas significativamente mejorada. J Biomol NMR 50: 43-57. doi: 10.1007 / S10858-011-9478-4

Heller DM, Giorgetti A (2010) Analizador de restricciones de RMN: un servidor web para el análisis gráfico de las limitaciones experimentales de RMN. Ácidos nucleicos Res 38: W628 – W632. doi: 10.1093 / Nar / Gkq484

Henderson R, Sali A, Baker ML, Carragher B, Devkota B, Downing KH, Egelman EH, Feng ZK, Frank J, Grigorieff N, Jiang W, Ludtke SJ, Medalia O, Penczek PA, Rosenthal PB, Rossmann MG, Schmid MF , Schroder GF, Steven AC, Stokes DL, Westbrook JD, Wriggers W, Yang HW, Young J, Berman HM, Chiu W, Kleywegt GJ, Lawson CL (2012) Resultado de la primera reunión del grupo de trabajo de validación de microscopía electrónica. Estructura 20: 205-214. doi: 10.1016 / J.Str.2011.12.014

Hendrickx PMS, Gutmanas A, Kleywegt GJ (2013) Vivaldi: visualización y validación de estructuras de RMN biomacromoleculares del PDB. Proteins 81: 583–591. doi: 10.1002 / prot.24213

Herrmann T, Güntert P, Wüthrich K (2002) Determinación de la estructura de RMN de proteínas con asignación automatizada de NOE utilizando el nuevo software CANDID y el algoritmo de dinámica del ángulo de torsión DYANA. J Mol Biol 319: 209-227. doi: 10.1016 / S0022-2836 (02) 00241-3

Hooft RWW, Vriend G, Sander C, Abola EE (1996) Errores en las estructuras de las proteínas. Naturaleza 381: 272

Huang YJ, Powers R, Montelione GT (2005) Recuperación, precisión y puntuaciones de medidas F (puntuaciones RPF) de RMN de proteínas: medidas de evaluación de la calidad de la estructura basadas en estadísticas de recuperación de información. J Am Chem Soc 127: 1665-1674. doi: 10.1021 / Ja047109h

Jakovkin I, Klipfel M, Muhle-Goll C, Ulrich AS, Luy B, Sternberg U (2012) Cálculo rápido de los cambios químicos de las proteínas utilizando la teoría de la polarización de enlaces y su aplicación al refinamiento de la estructura de las proteínas. Phys Chem Chem Phys 14 (35): 12263-12276. doi: 10.1039 / C2cp41726j

Joosten RP, Beek TAHT, Krieger E, Hekkelman ML, Hooft RWW, Schneider R, Sander C, Vriend G (2011) Una serie de bases de datos relacionadas con PDB para las necesidades diarias. Ácidos nucleicos Res 39: D411 – D419. doi: 10.1093 / Nar / Gkq1105

Kabsch W, Sander C (1983) Diccionario de estructura secundaria de proteínas: reconocimiento de patrones de características geométricas y con enlaces de hidrógeno. Biopolymers 22: 2577-2637. doi: 10.1002 / Bip.360221211

Kelley LA, Sutcliffe MJ (1997) OLDERADO: base de datos en línea de representantes de conjuntos y dominios. Protein Sci 6: 2628-2630

Kelley LA, Gardner SP, Sutcliffe MJ (1996) Un enfoque automatizado para agrupar un conjunto de estructuras de proteínas derivadas de RMN en subfamilias relacionadas conformacionalmente. Protein Eng 9: 1063–1065. doi: 10.1093 / Proteína / 9.11.1063

Kelley LA, Gardner SP, Sutcliffe MJ (1997) Un enfoque automatizado para definir átomos y dominios centrales en un conjunto de estructuras proteicas derivadas de RMN. Protein Eng 10: 737–741. doi: 10.1093 / Proteína / 10.6.737

Kinjo AR, Suzuki H, Yamashita R, Ikegawa Y, Kudou T, Igarashi R, Kengaku Y, Cho H, Standley DM, Nakagawa A, Nakamura H (2012) Protein Data Bank Japan (PDBj): mantenimiento de un archivo y recurso de datos estructurales formato del marco de descripción. Ácidos nucleicos Res 40: D453 – D460. doi: 10.1093 / Nar / Gkr811

Kohlhoff KJ, Robustelli P, Cavalli A, Salvatella X, Vendruscolo M (2009) Predicciones rápidas y precisas de desplazamientos químicos de RMN de proteínas desde distancias interatómicas. J Am Chem Soc 131: 13894-13895. doi: 10.1021 / Ja903772t

Kuszewski J, Clore GM (2000) Fuentes y soluciones a problemas en el refinamiento de estructuras de RMN de proteínas frente a potenciales de ángulo de torsión de fuerza media. J Magn Reson 146: 249-254. doi: 10.1006 / Jmre.2000.2142

Lambert LJ, Schirf V, Demeler B, Cadene M, Werner MH (2004) Activar un interruptor genético por intercambio de subunidades (vol 20, pg 7149, 2001). EMBO J 23: 3186. doi: 10.1038 / Sj.Emboj.7600313

Laskowski RA, Macarthur MW, Moss DS, Thornton JM (1993) Procheck: un programa para comprobar la calidad estereoquímica de las estructuras de las proteínas. J Appl Crystallogr 26: 283–291. doi: 10.1107 / S0021889892009944

Laskowski RA, Rullmann JAC, MacArthur MW, Kaptein R, Thornton JM (1996) AQUA y PROCHECK-NMR: programas para comprobar la calidad de las estructuras proteicas resueltas por RMN. J Biomol NMR 8: 477-486. doi: 10.1007 / Bf00228148

Lehtivarjo J, Hassinen T, Korhonen SP, Peräkylä M, Laatikainen R (2009) Predicción 4D de cambios químicos de la proteína H-1. J Biomol NMR 45: 413–426. doi: 10.1007 / S10858-009-9384-1

Lemak A, Gutmanas A, Chitayat S, Karra M, Farès C, Sunnerhagen M, Arrowsmith CH (2011) Una nueva estrategia para la asignación de resonancia por RMN y la determinación de la estructura de la proteína. J Biomol NMR 49: 27-38. doi: 10.1007 / S10858-010-9458-0

Li DW, Brüschweiler R (2012) PPM: un predictor de cambio químico de cadena lateral y columna vertebral para la evaluación de conjuntos conformacionales de proteínas. J Biomol NMR 54 (3): 257-265. doi: 10.1007 / s10858-012-9668-8

Lindorff-Larsen K, Best RB, DePristo MA, Dobson CM, Vendruscolo M (2005) Determinación simultánea de la estructura y dinámica de las proteínas. Nature 433 (7022): 128-132. doi: 10.1038 / Nature03199

Linge JP, Williams MA, Spronk CAEM, Bonvin AMJJ, Nilges M (2003) Refinamiento de estructuras de proteínas en solvente explícito. Proteins 50: 496–506. doi: 10.1002 / Prot.10299

Lopez-Mendez B, Güntert P (2006) Determinación automatizada de la estructura de proteínas a partir de espectros de RMN. J Am Chem Soc 128: 13112-13122. doi: 10.1021 / Ja061136l

Lovell SC, Davis IW, Arendall WB, de Bakker PIW, Word JM, Prisant MG, Richardson JS, Richardson DC (2003) Validación de estructuras por geometría alfa C: desviación phi, psi y beta C. Proteins Struct Funct Genet 50: 437–450. doi: 10.1002 / Prot.10286

Lu Q, Ye F, Wei ZY, Wen ZL, Zhang MJ (2012) Dimerización antiparalela mediada por espirales en espiral de miosina X. Proc Natl Acad Sci USA 109: 17388–17393. doi: 10.1073 / Pnas.1208642109

Mao BC, Guan RJ, Montelione GT (2011) Las tecnologías mejoradas ahora proporcionan rutinariamente estructuras de RMN de proteínas útiles para el reemplazo molecular. Estructura 19: 757–766. doi: 10.1016 / J.Str.2011.04.005

McGuffin LJ, Bryson K, Jones DT (2000) El servidor de predicción de la estructura de la proteína PSIPRED. Bioinformática 16: 404–405. doi: 10.1093 / Bioinformática / 16.4.404

Meiler J (2003) PROSHIFT: predicción de desplazamiento químico de proteínas utilizando redes neuronales artificiales. J Biomol NMR 26: 25-37. doi: 10.1023 / A: 1023060720156

Möllhoff M, Sternberg U (2001) Mecánica molecular con cargas atómicas fluctuantes: un nuevo campo de fuerza con un cálculo de carga semi-empírico. J Mol Model 7 (4): 90-102. doi: 10.1007 / s008940100008

Montalvao RW, De Simone A, Vendruscolo M (2012) Determinación de fluctuaciones estructurales de proteínas a partir de cálculos basados ​​en la estructura de acoplamientos dipolares residuales. J Biomol NMR 53 (4): 281-292. doi: 10.1007 / S10858-012-9644-3

Montelione GT, Berman H, Nilges M, Bax A, Güntert P, Herrmann T, Kleywegt GJ, Markley JL, Richardson JS, Schwieters CD, Vuister GW, Vranken W, Wishart DS (presentado) Recomendaciones del grupo de trabajo de validación de RMN de wwPDB. Estructura

Moon S, Case DA (2007) Un nuevo modelo para cambios químicos de hidrógenos amida en proteínas. J Biomol NMR 38: 139-150. doi: 10.1007 / S10858-007-9156-8

Moseley HNB, Sahota G, Montelione GT (2004) Paquete de software de validación de asignaciones para la evaluación y presentación de datos de asignación de resonancia de proteínas. J Biomol NMR 28: 341–355

Moult J, Pedersen JT, Judson R, Fidelis K (1995) Un experimento a gran escala para evaluar los métodos de predicción de la estructura de proteínas. Proteínas Struct Funct Genet 23: R2 – R4. doi: 10.1002 / Prot.340230303

Moult J, Fidelis K, Kryshtafovych A, Tramontano A (2011) Evaluación crítica de métodos de predicción de la estructura de proteínas (CASP) - Ronda IX. Proteínas 79: 1–5. doi: 10.1002 / Prot.23200

Mulder FAA (2009) Conformación y dinámica de la cadena lateral de leucina en proteínas de cambios químicos de C-13 NMR. ChemBioChem 10: 1477–1479. doi: 10.1002 / Cbic.200900086

Nabuurs SB, Spronk CAEM, Krieger E, Maassen H, Vriend G, Vuister GW (2003) Evaluación cuantitativa de restricciones experimentales de RMN. J Am Chem Soc 125: 12026–12034. doi: 10.1021 / Ja035440f

Nabuurs SB, Nederveen AJ, Vranken W, Doreleijers JF, Bonvin AMJJ, Vuister GW, Vriend G, Spronk CAEM (2004) DRESS: una base de datos de estructuras de RMN de solución refinada. Proteins 55: 483–486. doi: 10.1002 / Prot.20118

Nabuurs SB, Krieger E, Spronk CAEM, Nederveen AJ, Vriend G, Vuister GW (2005) Definición de un nuevo parámetro de calidad por residuo basado en información. J Biomol NMR 33: 123-134. doi: 10.1007 / S10858-005-2826-5

Nabuurs SB, Spronk CAEM, Vuister GW, Vriend G (2006) La determinación de la estructura biomolecular tradicional por espectroscopia de RMN permite errores importantes. PLoS Comput Biol 2: 71–79. doi: 10.1371 / journal.pcbi.0020009

Neal S, Nip AM, Zhang HY, Wishart DS (2003) Cálculo rápido y preciso de los desplazamientos químicos de las proteínas H-1, C-13 y N-15. J Biomol NMR 26: 215-240

Parkinson G, Vojtechovsky J, Clowney L, Brunger AT, Berman HM (1996) Nuevos parámetros para el refinamiento de estructuras que contienen ácidos nucleicos. Acta Crystallogr D 52: 57–64. doi: 10.1107 / S0907444995011115

Pugalenthi G, Shameer K, Srinivasan N, Sowdhamini R (2006) HARMONY: un servidor para la evaluación de estructuras de proteínas. Ácidos nucleicos Res 34: W231 – W234. doi: 10.1093 / Nar / Gkl314

Leer RJ, Adams PD, Arendall WB, Brunger AT, Emsley P, Joosten RP, Kleywegt GJ, Krissinel EB, Lütteke T, Otwinowski Z, Perrakis A, Richardson JS, Sheffler WH, Smith JL, Tickle IJ, Vriend G, Zwart PH (2011) Una nueva generación de herramientas de validación cristalográfica para Protein Data Bank. Estructura 19: 1395-1412. doi: 10.1016 / J.Str.2011.08.006

Richardson JS, Schneider B, Murray LW, Kapral GJ, Immormino RM, Headd JJ, Richardson DC, Ham D, Hershkovits E, Williams LD, Keating KS, Pyle AM, Micallef D, Westbrook J, Berman HM (2008) Estructura de ARN: conformadores de consenso de todos los ángulos y nomenclatura de cuerdas modulares (una contribución del Consorcio de Ontología de ARN). ARN 14: 465–481. doi: 10.1261 / Rna.657708

Rieping W, Vranken WF (2010) Validación de cambios químicos archivados a través de coordenadas atómicas. Proteins 78: 2482–2489. doi: 10.1002 / Prot.22756

Rieping W, Habeck M, Nilges M (2005) Determinación de la estructura inferencial. Science 309: 303–306. doi: 10.1126 / Science.1110428

Rieping W, Habeck M, Bardiaux B, Bernard A, Malliavin TE, Nilges M (2007) ARIA2: asignación automatizada de NOE e integración de datos en el cálculo de la estructura de RMN. Bioinformática 23: 381–382. doi: 10.1093 / Bioinformática / Btl589

Rosato A, Bagaria A, Baker D, Bardiaux B, Cavalli A, Doreleijers JF, Giachetti A, Guerry P, Güntert P, Herrmann T, Huang YJ, Jonker HRA, Mao B, Malliavin TE, Montelione GT, Nilges M, Raman S , van der Schot G, Vranken WF, Vuister GW, Bonvin AMJJ (2009) CASD-NMR: evaluación crítica de la determinación de estructura automatizada por NMR. Nat Methods 6: 625–626. doi: 10.1038 / Nmeth0909-625

Rosato A, Aramini JM, Arrowsmith C, Bagaria A, Baker D, Cavalli A, Doreleijers JF, Eletsky A, Giachetti A, Guerry P, Gutmanas A, Güntert P, He YF, Herrmann T, Huang YPJ, Jaravine V, Jonker HRA , Kennedy MA, Lange OF, Liu GH, Malliavin TE, Mani R, Mao BC, Montelione GT, Nilges M, Rossi P, van der Schot G, Schwalbe H, Szyperski TA, Vendruscolo M, Vernon R, Vranken WF, de Vries S, Vuister GW, Wu B, Yang YH, Bonvin AMJJ (2012) Prueba ciega de determinación rutinaria y totalmente automatizada de estructuras de proteínas a partir de datos de RMN. Estructura 20: 227-236. doi: 10.1016 / J.Str.2012.01.002

Sahakyan AB, Vranken WF, Cavalli A, Vendruscolo M (2011a) Predicción basada en la estructura de cambios químicos de metilo en proteínas. J Biomol NMR 50: 331-346. doi: 10.1007 / S10858-011-9524-2

Sahakyan AB, Vranken WF, Cavalli A, Vendruscolo M (2011b) Uso de desplazamientos químicos de protones aromáticos de cadena lateral para un análisis cuantitativo de estructuras de proteínas. Angew Chem Int Edit 50: 9620–9623. doi: 10.1002 / Anie.201101641

Schubert M, Labudde D, Oschkinat H, Schmieder P (2002) Una herramienta de software para la predicción de conformaciones de enlaces peptídicos Xaa-Pro en proteínas basadas en estadísticas de desplazamiento químico C-13. J Biomol NMR 24: 149-154. doi: 10.1023 / A: 1020997118364

Schwieters CD, Clore GM (2008) Un pseudopotencial para mejorar el empaquetamiento de estructuras de proteínas elipsoidales determinadas a partir de datos de RMN. J Phys Chem B 112: 6070–6073. doi: 10.1021 / Jp076244o

Sheffler W, Baker D (2010) RosettaHoles2: una medida de empaquetamiento volumétrico para el refinamiento y la validación de la estructura de proteínas. Protein Sci 19: 1991-1995. doi: 10.1002 / Pro.458

Shen Y, Bax A (2007) Desplazamientos químicos de la columna vertebral de proteínas pronosticados a partir de la búsqueda en una base de datos para el ángulo de torsión y la homología de secuencia. J Biomol NMR 38: 289-302. doi: 10.1007 / S10858-007-9166-6

Shen Y, Bax A (2010a) Predicción de la conformación del enlace peptídico Xaa-Pro a partir de secuencias y cambios químicos. J Biomol NMR 46: 199-204. doi: 10.1007 / S10858-009-9395-Y

Shen Y, Bax A (2010b) SPARTA plus: una mejora modesta en la predicción empírica del cambio químico por RMN mediante una red neuronal artificial. J Biomol NMR 48: 13-22. doi: 10.1007 / S10858-010-9433-9

Shen Y, Lange O, Delaglio F, Rossi P, Aramini JM, Liu GH, Eletsky A, Wu YB, Singarapu KK, Lemak A, Ignatchenko A, Arrowsmith CH, Szyperski T, Montelione GT, Baker D, Bax A (2008) Generación consistente de estructuras proteicas ciegas a partir de datos de desplazamiento químico de RMN. Proc Natl Acad Sci USA 105: 4685–4690. doi: 10.1073 / Pnas.0800256105

Shen Y, Delaglio F, Cornilescu G, Bax A (2009a) TALOS plus: un método híbrido para predecir los ángulos de torsión de la columna vertebral de la proteína a partir de cambios químicos de RMN. J Biomol NMR 44: 213-223. doi: 10.1007 / S10858-009-9333-Z

Shen Y, Vernon R, Baker D, Bax A (2009b) Generación de estructura de proteína de novo a partir de asignaciones de cambios químicos incompletos. J Biomol NMR 43: 63-78. doi: 10.1007 / S10858-008-9288-5

Siemion IZ, Wieland T, Pook KH (1975) Influencia de la distancia entre el carbonilo de prolina y el carbono beta y gamma en los desplazamientos químicos de C-13. Angew Chem Int Ed Engl 14: 702-703. doi: 10.1002 / Anie.197507021

Snyder DA, Montelione GT (2005) Algoritmos de agrupamiento para identificar conjuntos de átomos centrales y para evaluar la precisión de conjuntos de estructuras de proteínas. Proteins 59: 673–686. doi: 10.1002 / Prot.20402

Spadaccini R, Perrin H, Bottomley MJ, Ansieau S, Sattler M (2006) Estructura y análisis funcional del dominio MYND (Artículo retractado. Ver vol 376, pp. 1523, 2008). J Mol Biol 358: 498-508. doi: 10.1016 / J.Jmb.2006.01.087

Spronk CAEM, Linge JP, Hilbers CW, Vuister GW (2002) Mejora de la calidad de las estructuras proteicas derivadas por espectroscopia de RMN. J Biomol NMR 22: 281-289. doi: 10.1023 / A: 1014971029663

Stein EG, Rice LM, Brunger AT (1997) La dinámica molecular del ángulo de torsión como una nueva herramienta eficiente para el cálculo de la estructura de RMN. J Magn Reson 124: 154-164. doi: 10.1006 / Jmre.1996.1027

Tjandra N, Garrett DS, Gronenborn AM, Bax A, Clore GM (1997) Definición de un orden de largo alcance en la determinación de la estructura de RMN a partir de la dependencia de los tiempos de relajación heteronuclear de la anisotropía de difusión rotacional. Nat Struct Biol 4: 443–449. doi: 10.1038 / Nsb0697-443

Tjandra N, Suzuki M, Chang SL (2007) Refinamiento de la estructura de la proteína contra la relajación de RMN de carbonilo C-13 no redundante. J Biomol NMR 38: 243-253. doi: 10.1007 / S10858-007-9165-7

Trewhella J, Hendrickson WA, Kleywegt GJ, Sali A, Sato M, Schwede T, Svergun DI, Tainer JA, Westbrook J, Berman HM (2013) Informe del grupo de trabajo de dispersión de ángulo pequeño de wwPDB: requisitos de datos para el modelado biomolecular y la PDB. Estructura 21: 875–881. doi: 10.1016 / j.str.2013.04.020

Ulrich EL, Akutsu H, Doreleijers JF, Harano Y, Ioannidis YE, Lin J, Livny M, Mading S, Maziuk D, Miller Z, Nakatani E, Schulte CF, Tolmie DE, Wenger RK, Yao HY, Markley JL (2008) BioMagResBank. Ácidos nucleicos Res 36: D402 – D408. doi: 10.1093 / Nar / Gkm957

Velankar S, Alhroub Y, Best C, Caboche S, Conroy MJ, Dana JM, Fernandez Montecelo MA, van Ginkel G, Golovin A, Gore SP, Gutmanas A, Haslam P, Hendrickx PMS, Heuson E, Hirshberg M, John M, Lagerstedt I, Mir S, Newman LE, Oldfield TJ, Patwardhan A, Rinaldi L, Sahni G, Sanz-Garcia E, Sen S, Slowley R, Suarez-Uruena A, Swaminathan GJ, Symmons MF, Vranken WF, Wainwright M, Kleywegt GJ (2012) PDBe: Banco de datos de proteínas en Europa. Ácidos nucleicos Res 40: D445 – D452. doi: 10.1093 / Nar / Gkr998

Vila JA, Arnautova YA, Martin OA, Scheraga HA (2009) Servidor de cambio químico C-13 (alfa) derivado de la mecánica cuántica (CheShift) para la validación de la estructura de proteínas. P Natl Acad Sci USA 106 (40): 16972–16977. doi: 10.1073 / Pnas.0908833106

Vranken WF, Boucher W, Stevens TJ, Fogh RH, Pajon A, Llinas P, Ulrich EL, Markley JL, Ionides J, Laue ED (2005) The CCPN data model for NMR spectroscopy: development of a software pipeline. Proteins 59: 687–696. doi: 10.1002 / Prot.20449

Vriend G (1990) ¿Y SI…? Un programa de modelado molecular y diseño de fármacos. J Mol Graphics 8: 52–56

Vuister GW, Tjandra N, Shen Y, Grishaev A, Grzesiek S (2011) Medición de restricciones estructurales. En: Lian L-Y, Robers G (eds) Espectroscopía de RMN de proteínas: técnicas y aplicaciones principales. Wiley & amp Sons Ltd, West Sussex (Reino Unido), págs. 83–158

Wang LY, Markley JL (2009) Correlación empírica entre los cambios químicos secundarios de la cadena principal de proteínas N-15 y C-13 y su aplicación a la re-referenciación del cambio químico del nitrógeno. J Biomol NMR 44: 95-99. doi: 10.1007 / S10858-009-9324-0

Wang LY, Eghbalnia HR, Bahrami A, Markley JL (2005) Análisis lineal de las diferencias de desplazamiento químico del carbono 13 y su aplicación a la detección y corrección de errores en las identificaciones de sistemas de referencia y de espín. J Biomol NMR 32: 13-22. doi: 10.1007 / S10858-005-1717-0

Wang BW, Wang YJ, Wishart DS (2010a) Un enfoque probabilístico para validar las asignaciones de desplazamiento químico de RMN de proteínas. J Biomol NMR 47: 85-99. doi: 10.1007 / S10858-010-9407-Y

Wang M, Feng YA, Yao HW, Wang JF (2010b) Importancia del bucle C-terminal L137-S141 para el plegado y la estabilidad de plegado de la nucleasa estafilocócica. Biochemistry-Us 49: 4318–4326. doi: 10.1021 / Bi100118k

Wiederstein M, Sippl MJ (2007) ProSA-web: servicio web interactivo para el reconocimiento de errores en estructuras tridimensionales de proteínas. Ácidos nucleicos Res 35: W407 – W410. doi: 10.1093 / Nar / Gkm290

Willard L, Ranjan A, Zhang HY, Monzavi H, Boyko RF, Sykes BD, Wishart DS (2003) VADAR: un servidor web para la evaluación cuantitativa de la calidad de la estructura de proteínas. Nucleic Acids Res 31: 3316–3319. doi: 10.1093 / Nar / Gkg565

Wishart DS, Arndt D, Berjanskii M, Tang P, Zhou J, Lin G (2008) CS23D: un servidor web para la generación rápida de estructuras de proteínas utilizando cambios químicos de RMN y datos de secuencia. Ácidos nucleicos Res 36: W496 – W502. doi: 10.1093 / Nar / Gkn305

Word JM, Lovell SC, LaBean TH, Taylor HC, Zalis ME, Presley BK, Richardson JS, Richardson DC (1999) Visualización y cuantificación de la bondad de ajuste molecular: puntos de contacto de sonda pequeña con átomos de hidrógeno explícitos. J Mol Biol 285: 1711-1733. doi: 10.1006 / Jmbi.1998.2400

Xu XP, Case DA (2001) Predicción automatizada de (15) N, (13) C (alfa), (13) C (beta) y (13) C 'cambios químicos en proteínas utilizando una base de datos funcional de densidad. J Biomol NMR 21: 321-333. doi: 10.1023 / A: 1013324104681

Zhang HY, Neal S, Wishart DS (2003) RefDB: una base de datos de cambios químicos de proteínas referenciados uniformemente. J Biomol NMR 25: 173-195. doi: 10.1023 / A: 1022836027055


Resultados y discusión

Propiedades del conjunto de datos

La versión más reciente de Binding MOAD 8 se agrupó utilizando un límite de identidad de secuencia muy estricto para obtener holoestructuras relevantes, y las estructuras de apo coincidentes se obtuvieron del PDB como se describe en la sección "Métodos". Al filtrar proteínas con al menos dos estructuras holo y dos estructuras apo y reducir todas las familias a un máximo de diez estructuras para cada estado apo / holo (consulte la sección "Métodos"), este conjunto de datos se reduce a 304 familias de proteínas diferentes, representadas por 1446 estructuras holo y estructuras 1082 apo. Este conjunto de datos está disponible en línea como el archivo LBSp_dataset.tar.gz en https://BindingMOAD.org/Home/download.

Las familias de proteínas con más holoestructuras antes de la reducción del tamaño de la familia son la anhidrasa carbónica II seguida de la tripsina, con 174 y 120 holoestructuras, respectivamente. Las familias de proteínas con más estructuras de apo antes de la reducción de tamaño son la lisozima seguida de la ribonucleasa-A, que tenía estructuras de 280 y 79 apo, respectivamente. Esta redundancia se explica de dos formas principales. Primero, al describir la evaluación de la predicción para cada familia de proteínas, el valor se dará como promedio, mediana, máximo o mínimo para toda la familia como un valor para representar todas las estructuras contenidas. En segundo lugar, las familias con más de 10 de cualquier tipo de estructura se reducen a los 10 representantes más diversos (a través de RMSD) para los cálculos de predicción. Por ejemplo, la familia de la anhidrasa carbónica II tiene 174 holoestructuras, y todos los ligandos de las 174 estructuras se utilizan para construir el UBS, por lo que todas las estructuras están realmente representadas; sin embargo, solo se utilizan las 10 holoestructuras más diversas en los cálculos de predicción. para ahorrar tiempo de cálculo. Este proceso se detalla en la sección "Métodos". Los resultados de esta reducción del tamaño de la familia son 2528 estructuras de proteínas (1446 holo, 1082 apo) que en realidad se prueban con cada uno de los siete métodos de predicción de LBS. Estos datos se proporcionan como parte de la tabla de información complementaria S1 enumera los resultados de cada método de predicción LBS en cada una de las estructuras de nuestro conjunto de datos.

Los ligandos biológicamente relevantes que ocupan las holoestructuras en este conjunto de datos son diversos y representan muchas clases diferentes de moléculas. El peso molecular medio (PM) de los ligandos es 374 g / mol con 80% de ligandos menos de 500 g / mol y 95% menos de 800 g / mol. Este amplio rango de tamaño molecular ayuda a construir diversos UBS. La distribución de los tamaños de UBS y el número de cada tipo de residuo representado en todos los sitios de unión se presentan en la Fig. 1a y b.

(A) Distribución de los tamaños de los sitios de unión unificados para las 304 familias de proteínas en este conjunto de datos, como% de frecuencia. (B) Distribución de la composición de aminoácidos de los 304 sitios de unión unificados.

Las proteínas y sus sitios de unión son bastante rígidos como un conjunto de datos completo, en términos de Cα RMSD. Exhaustiva Cα Se completaron los cálculos de RMSD para las 304 familias de proteínas, tanto para la columna vertebral global como específicamente para los residuos que caracterizan a las UBS de la familia. Las RMSD máxima y media para las 304 familias de proteínas se presentan en la Fig. 2. En el caso más focalizado (Fig. 2c), el 68% de las familias de proteínas muestran cantidades insignificantes de movimiento de la columna vertebral a lo largo de su UBS.

Análisis de RMSD de columna vertebral máxima y media para cada familia de proteínas. Cada punto representa el máximo o la media observada en una familia de proteínas, y el número de puntos de cada sección está marcado en negro (los números entre paréntesis son puntos con valores & gt 3,5 Å). (A) El máximo RMSD de la columna vertebral a través de los pares apo-apo se compara con el máximo de los pares holo-holo. 206 proteínas muestran RMSD ≤ 1 Å para ambos grupos. (B) La media de RMSD de la columna vertebral a través de los pares apo-apo se compara con la media de los pares holo-holo. 247 proteínas presentan RMSD ≤ 1 Å para ambos grupos. (C) El máximo UBS RMSD a través de los pares apo-apo se compara con el máximo de los pares holo-holo. 206 proteínas muestran RMSD ≤ 1 Å para ambos grupos. (D) La media de UBS RMSD a través de los pares apo-apo se compara con la media de los pares holo-holo. 235 proteínas presentan RMSD ≤ 1 Å para ambos grupos.

Predicción LBS

El poder predictivo se evalúa utilizando dos métricas en este trabajo: puntajes F y coeficientes de correlación de Matthew (MCC). La justificación de este tipo de análisis y su descripción se pueden encontrar en la sección “Métodos”. La comparación entre el rendimiento de diferentes métodos, o de diferentes conjuntos de datos (apo vs holo), estará representada por pag valores de las pruebas de suma de rangos de Wilcoxon. Se eligió la suma de rangos de Wilcoxon (también conocida como prueba de Mann-Whitney) porque no requiere conocimiento previo de la forma de la distribución ni de su simetría con respecto a la media o la mediana. Los puntajes F y los MCC brindan una buena descripción del éxito relativo de estos algoritmos, pero el caso absoluto de falla se basa en si un método produjo o no un sitio de unión predicho que contiene ninguno de los residuos en común con nuestra definición de la UBS. Esto no quiere decir que se deba elogiar solo tener en cuenta al menos un residuo en un sitio determinado, sino que predecir un residuo correcto o más implica que el algoritmo está cerca de la ubicación "correcta" en la superficie de unión de la proteína.

Aquí, intercalamos que nuestro análisis se basa en el enfoque clásico de utilizar pag & lt 0,05 para denotar significación estadística entre conjuntos o distribuciones de datos. Este enfoque ha sido cuestionado en nuestra comunidad 53, por lo que brindamos todos pag valores completos en lugar de truncarlos en el umbral de 0,05. Si bien investigar más allá de ese umbral de 0.05 tiene la tentación de obtener información significativa, en cambio, nos esforzamos por obtener información adicional al tener un conjunto de datos grande y sólido. La representación de las 304 proteínas únicas en múltiples estructuras de las formas unidas y no unidas producirá un enfoque más sólido que muchos estudios anteriores que se han adherido a pares de proteínas apo-holo.

Los archivos de biounidades para las 2528 estructuras de proteínas se prepararon como se describe en la sección "Métodos". Todas las estructuras se sometieron a cada uno de los siete métodos de predicción LBS y se analizó el bolsillo superior predicho de cada método. Para los métodos que producen una representación en cuadrícula del sitio de unión en lugar de los residuos reales del sitio de unión (AutoSite, LIGSITEcsc), los sitios de unión se calcularon de nuevo utilizando un límite de distancia de 4,5 Å a menos que se especificara un límite diferente en la cita del método (8 Å para LIGSITEcsc 11). A todas las estructuras que no arrojaron ningún bolsillo previsto se les asignaron valores cero para MCC, precisión (P), recuperación (R, también conocida como sensibilidad o tasa de verdaderos positivos) y puntuación F, después de que se inspeccionaran para garantizar que se completaran los programas. sus cálculos correctamente. En la sección “Métodos” se proporciona el procedimiento para tratar con estructuras que resultaron en errores para los diversos métodos, así como una lista de estas pocas estructuras. Luego, se calcularon las métricas de análisis para el resto de las estructuras resultantes utilizando scripts de análisis internos.

Apo versus estructuras holo

Nuestro análisis del poder predictivo para los siete métodos de predicción LBS comienza con la presentación de distribuciones de puntuaciones F para todos los métodos (Tabla 1, Fig.3) Estas son distribuciones de las puntuaciones F de la mediana familiar, divididas en las subcategorías de estructuras apo y holo estructuras. Aunque es interesante que las holoestructuras tengan puntuaciones F más altas en la mayoría de los métodos, es importante tener en cuenta que el análisis de suma de rangos de Wilcoxon de las distribuciones de apo versus holo produce pag & gt 0.05 para todos los métodos excepto para Fpocket (pag = 0,04). Observamos que las grandes poblaciones con puntuaciones F de cero para Ghecom, LIGSITEcsc, Fpocket y AutoSite son estructuras que no predicen el sitio de unión correcto como su sitio predicho # 1 o estructuras donde no se predice ningún sitio (una ocurrencia rara, vea la sección de “Métodos”). Además, observamos que estas cifras corresponden a los valores de la mediana familiar. A primera vista, Ghecom, LIGSITEcsc, Fpocket, AutoSite y Kalasanty parecen tener tasas similares de ocurrencias de puntuación cero (17-20% de los datos). Sin embargo, muchas de estas familias tienen un puntaje F promedio & gt 0, lo que indica que hay éxito en al menos una de las estructuras dentro de una familia determinada.

Distribución de las puntuaciones F de la mediana familiar de apo y holo estructuras proteicas para (A) Surfnet (pag = 0.90), (B) Ghecom (pag = 0.20), (C) LIGSITEcsc (pag = 0.56), (D) Fbolsillo (pag = 0.04), (mi) Profundidad (pag = 0.32), (F) AutoSite (pag = 0,13) y (GRAMO) Kalasanty (pag = 0.12).

Si bien Fpocket parece tener una ligera preferencia de rendimiento por las estructuras holoproteicas, los otros seis métodos no muestran una preferencia estadísticamente distinguible por las estructuras apo o holo. Esto implica que el poder predictivo de la mayoría de estos métodos no se ve fuertemente afectado por la presencia o ausencia de un sitio de unión preorganizado con un ligando en la estructura inicial. Se observa la misma tendencia cuando se utilizan los MCC como métrica de evaluación del poder predictivo (Tabla 1, Fig. 4). Solo Fpocket (pag = 0.03) tiene un valor estadísticamente significativo (pag & lt 0.05) correlación entre el poder predictivo y el tipo de estructura (holo vs. apo), lo que sugiere nuevamente que las holoestructuras funcionan un poco mejor con este método, pero la tendencia es débil. La evaluación de CavBench mostró el mismo rendimiento de las estructuras proteicas Apo y Holo en la detección de sitios de unión no redundantes para Fpocket y para Ghecom 22.

Distribución de la mediana familiar de los coeficientes de correlación de Matthews (MCC) de las estructuras de las proteínas apo y holo para (A) Surfnet (pag = 0.63), (B) Ghecom (pag = 0.17), (C) LIGSITEcsc (pag = 0.60), (D) Fbolsillo (pag = 0.03), (mi) Profundidad (pag = 0.17), (F) AutoSite (pag = 0,10) y (GRAMO) Kalasanty (pag = 0.11).

Tanto para el análisis MCC como para las puntuaciones F, se observan dos patrones principales de poder predictivo. Surfnet y Depth parecen tener una probabilidad más alta de poder predictivo de nivel medio (puntaje F & lt 0.7, MCC & lt 0.6), mientras que también tienen una tasa mucho más baja de fallas completas (puntajes cero). Los otros cinco métodos parecen tener una distribución más bimodal de puntuaciones, ya sea prediciendo con precisión una porción relativamente grande del sitio de unión o fallando por completo en su sitio predicho superior (18-22% de las familias de proteínas).

Variabilidad a través de estructuras de proteínas

Quizás el rendimiento enormemente variable de los diferentes métodos podría atribuirse a estructuras o proteínas específicas. Para probar esta idea, los casos de predicción fallida se evaluaron más de cerca. De las 2528 estructuras de proteínas (1446 holo, 1082 apo) procesadas con estos métodos, solo seis estructuras fallaron catastróficamente (cero predicciones correctas de residuos del sitio de unión, R = 0) en cada uno de los siete métodos. Dado el tamaño de todo el conjunto de datos,

La tasa de falla del 0.2% es muy baja. Hubo 1215 estructuras para las que al menos un método no pudo predecir ninguna parte del sitio de unión (R = 0). Sin embargo, 974 de esas 1215 estructuras tienen al menos el 50% de su sitio de unión predicho (R & gt 0,5) mediante al menos otro método. El desempeño de muchas estructuras parece ser diferente entre los métodos. Se realizó una comparación exhaustiva de las puntuaciones F y MCC resultantes para cada estructura PDB individual entre cada combinación de los siete métodos de predicción LBS, lo que dio como resultado una correlación R 2 & lt 0,1 para cada comparación. Esto sugiere que el desempeño de cualquier estructura con un método no proporciona ninguna indicación de cómo funcionará esa estructura con otro método. Esta variabilidad (la mayoría de las estructuras PDB funcionan muy bien con un método, pero fallan con otro) compromete los análisis de cómo mejorar los métodos de predicción LBS en general.

. Otro análisis para el éxito de cada método es ver las puntuaciones F y los MCC como una comparación por familia entre los dos tipos de estructura (es decir, ¿cómo se comportan las estructuras de apo de una proteína determinada en relación con las holoestructuras de la misma proteína exacta? ?). Utilizando medianas familiares para los puntos de datos familiares representativos, y mínimos / máximos familiares como barras de error, se presenta el poder predictivo de los siete métodos para las puntuaciones F en la Figura 5 y los MCC en la Figura 6. Curiosamente, los máximos y mínimos familiares la gama de rendimiento de cada método para casi todas las 304 familias de proteínas tanto en las puntuaciones F como en las MCC. Es decir: para la mayoría de las familias de proteínas en este estudio, hay estructuras para las cuales cada método predecirá con precisión la mayoría del sitio de unión del ligando, así como estructuras en las que el mismo método falla completamente en identificar cualquier porción del ligando. mismo sitio de unión que el sitio predicho superior. Esta observación es cierta para los estados apo y holo de las proteínas y tiene serias implicaciones para la evaluación comparativa de los métodos de predicción de LBS, ya que la elección de las estructuras de las proteínas influye en gran medida en el resultado. Esta variabilidad inherente hace que sea imposible clasificar los métodos y señala la necesidad de una mayor coherencia por parte de los métodos, así como el esfuerzo de la comunidad hacia conjuntos de datos de evaluación comparativa más robustos y comúnmente utilizados.

Puntuaciones F de la mediana familiar de estructuras de proteínas apo y holo para (A) Surfnet, (B) Ghecom, (C) LIGSITEcsc, (D) Fbolso, (mi) Profundidad, (F) AutoSite y (GRAMO) Kalasanty donde las barras de error se construyen a partir de los mínimos y máximos de la familia. Línea: y = X.

MCC medianas de la familia de estructuras de proteínas apo y holo para (A) Surfnet, (B) Ghecom, (C) LIGSITEcsc, (D) Fbolso, (mi) Profundidad, (F) AutoSite y (GRAMO) Kalasanty donde las barras de error se construyen a partir de los mínimos y máximos de la familia. Línea: y = X.

Sitios crípticos

Los autores de CryptoSite 20 anotaron 84 ejemplos de sitios de unión crípticos conocidos. Los sitios de unión crípticos requieren un reordenamiento de proteínas notable para que se hagan evidentes, incorporando los conceptos de ajuste inducido y selección conformacional. Extendiendo esta idea al paradigma computacional, los sitios crípticos no son tan fácilmente identificables por algoritmos de detección de bolsillo cuando se utilizan sus estructuras de apo, según los autores. Nuestro conjunto de datos en este trabajo comparte 30 de las mismas estructuras PDB (13 holo, 17 apo) con el conjunto CryptoSite. Además, 35 de las 304 familias de proteínas en nuestro conjunto de datos están representadas en el conjunto CryptoSite, según lo determinado por la identidad de secuencia y la inspección (consulte la sección "Métodos"). En 31 de esas 35 familias, estamos investigando el mismo sitio de unión "críptico" que CryptoSite, según lo determinado por una distancia de & lt 0.5 Å entre los ligandos unidos entre nuestras holoestructuras y el ligando contenido en la holoestructura designada de CryptoSite.

. El desempeño de esas 31 familias en comparación con las 273 familias restantes en nuestro conjunto de datos fue casi idéntico, en general. La evaluación de la diferencia en la distribución de las puntuaciones medias de desempeño familiar para las 31 familias superpuestas frente a las 273 familias restantes arrojó pag valores & gt 0,1 tanto para la puntuación F como para el MCC, tanto para los valores de la proteína apo como para los valores de la proteína holo. Los autores de CryptoSite definieron predicciones precisas de sitios crípticos para requerir valores de sensibilidad (recuperación) de & gt 0,33. Usando ese umbral, el 99,3% y el 99,7% de nuestras estructuras de proteínas apo y holo, respectivamente, tienen predicciones exitosas de al menos un método.

Aunque no observamos un rendimiento estadísticamente diferente de los bolsillos de enlace críptico en comparación con el resto de nuestro conjunto de datos, hemos anotado la superposición con el conjunto de CryptoSite en consecuencia. La descarga del conjunto de datos completo para este trabajo está debidamente separada, y las anotaciones de su contenido (Tablas de información complementaria S1 y S2) también están etiquetadas en consecuencia.

Relaciones entre el rendimiento del método y los datos estructurales

¿Era posible que el desempeño de una estructura cristalina dada en cualquier método de predicción LBS estuviera relacionado con la calidad general de esa estructura? La calidad de la estructura se evaluó de dos maneras: la resolución de la estructura y el índice de precisión de difracción de Cruickshank (DPI) 54. Aquí hay algo de redundancia, ya que la resolución se usa en el cálculo de DPI, pero DPI es una medida mucho más completa de la calidad de la estructura del cristal de rayos X. En todas las comparaciones de puntuación F versus resolución, puntuación F versus DPI, MCC versus resolución y MCC versus DPI, el valor de correlación R 2 más alto obtenido fue 0.03. Esto implica que no hay correlación entre la calidad de la estructura y el rendimiento de las estructuras en ninguno de los métodos de predicción de LBS que se muestran aquí.

Como métrica adicional de la calidad, se consideraron los residuos no resueltos. Para estos experimentos, se examinaron las UBS en todas las estructuras dentro de una familia y se anotó cualquier residuo faltante (no resuelto). Los residuos fuera de los sitios de unión no se contabilizaron en este proceso. Había 61 familias en el conjunto de datos que tenían al menos una estructura a la que le faltaba al menos un residuo de UBS. El rendimiento de las estructuras en esas familias se comparó por familia, es decir, las estructuras sin ningún residuo faltante frente a las estructuras con al menos un residuo faltante. El tipo de estructura (apo u holo) no se consideró para este análisis. De las 61 familias con residuos faltantes, solo 19 mostraron alguna diferencia estadísticamente significativa en el rendimiento.

Si los residuos no resueltos fueran problemáticos en este análisis, su impacto probablemente aparecería en las métricas de rendimiento de cada método que probamos. En cambio, 12 de las 19 familias solo mostraron diferencias de rendimiento estadísticamente significativas para un método, y no siempre fueron el mismo método: AutoSite (3 familias), Surfnet (1 familia), Depth (3 familias), Ligsitecsc (1 familia), Ghecom (4 familias). Fpocket y Kalasanty no mostraron diferencias de rendimiento en ninguna familia. De los 7 casos familiares restantes, 6 de las familias mostraron diferencias con solo dos métodos, y el último caso mostró diferencias significativas con cinco de los siete métodos.

Lo más interesante es que el impacto de estas estructuras con residuos faltantes no siempre es negativo. La familia de concanavalina A, que mostró diferencias de rendimiento estadísticamente significativas para seis métodos (la mayor parte de cualquiera de estas familias), tiene tres estructuras de apo (1apn, 1dq2, 1enq) a las que les faltan algunos residuos en el sitio de unión y siete estructuras de apo sin cualquier residuo faltante, así como 10 holoestructuras a las que no les falta ningún residuo. El rendimiento de los cinco métodos (Surfnet, Ghecom, Ligsite, Depth y AutoSite) mejora las estructuras a las que les faltan residuos, en todos los casos.

Las estructuras que carecían de residuos de UBS eran poco comunes, y aquellas estructuras que causaban una diferencia significativa en el rendimiento de cualquiera de los métodos eran aún menos comunes. Como tal, elegimos no excluir ninguno de estos datos, ya que los residuos faltantes parecen tener un impacto minúsculo general en el desempeño de los métodos.

Se examinaron las relaciones entre el rendimiento del método (puntuaciones F / MCC) y otras características estructurales. Familia de proteínas Mín / Máx / Promedio / Mediana F y los valores de MCC para cada método se compararon con la familia Mín / Máx / Promedio / Mediana C globalα RMSD, máxima familia UBS Cα RMSD, tamaño UBS, Cruickshank DPI y resolución para proteínas apo y holo. Las 896 comparaciones resultantes arrojaron valores de R 2 entre 0 y 0,03, sin mostrar correlación para ningún método con ninguna propiedad física de las proteínas apo o holo. Como ejemplo, las Figs. S1 y S2 en la Información complementaria muestran las comparaciones entre la puntuación máxima de RMSD de la familia frente a la puntuación F mediana de la familia y la puntuación de MCC, respectivamente, que no muestran ninguna relación entre el alcance total de la flexibilidad y el rendimiento de las proteínas para ninguno de los métodos de predicción de LBS.


Subconjunto de estructuras cristalinas de proteínas (de PDB) - Biología

Bases de datos y servidores de proteínas, ADN y difracción

Copia local de las tablas de Sasaki

Un registro de los patrones de enlace de hidrógeno de los grupos de enlace de hidrógeno estándar

Interfaz web de apuntar y hacer clic que proporciona acceso a bases de datos y herramientas de análisis

Clasificación de la estructura de proteínas

Alinea dos cadenas polipeptídicas utilizando características de su geometría local.

Comparando estructuras de proteínas en 3D

Base de datos de motivos estructurales en proteínas

Asignaciones de estructura secundaria

Subconjunto de proteínas, bases de datos de nucleótidos y MEDLINE

Doble clasificación basada en la alineación estructura-estructura de proteínas

Base de datos de estructura cuaternaria de proteínas (de EBI-MSD)

Heterocompuestos - Uppsala (PDB, archivos VRML X-PLOR, TNT, diccionarios O)

PubMed y otros servicios de información en línea

Centro Nacional de Información Biotecnológica (GenBank, BLAST, Entrez, etc.)

Repositorio para las coordenadas de la estructura cristalina que contiene ácido nucleico (Rutgers Univ.)

Base de datos de secuencias de proteínas compuestas

Rayos X, RMN y estructuras modelo (ahora RCSB)

Base de datos de secuencias de proteínas completa, anotada y no redundante

Todas las interfaces con residuos & gt9 interactuando. (Documento de JMB que describe esta base de datos)

Servidor de predicción de estructura de proteínas

Rayos X, RMN y estructuras modelo (ahora PDB)

Vínculos a muchas bases de datos y herramientas de análisis

Una colección completa de rutinas ANSI C para el manejo de la simetría del grupo espacial


Una búsqueda de motivos estructurales encuentra conjuntos PDB macromoleculares que contienen una disposición específica de un pequeño número de residuos en una determinada disposición geométrica (por ejemplo, residuos que constituyen el centro catalítico o un sitio de unión). Este ejemplo recupera apariciones de la superfamilia de enolasa, un grupo de proteínas diversas en secuencia y estructura que son todas capaces de abstraer un protón de un ácido carboxílico. Los intercambios de posiciones específicas son cruciales para representar a esta superfamilia con precisión.

Este ejemplo muestra cómo componer texto, secuencia, estructura y consultas químicas empleando el operador booleano AND. La búsqueda produce estructuras (entradas) que coinciden con todos los criterios, incluidas las estructuras cocristalinas con el inhibidor unido deseado, que coinciden con la cadena SMILES para un inhibidor de molécula pequeña designado 7J (QYS).


Ver el vídeo: PDB Tutorial: A Basic How-To (Mayo 2022).