Información

¿Son las proteínas MHC las proteínas humanas más polimórficas conocidas?

¿Son las proteínas MHC las proteínas humanas más polimórficas conocidas?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Hay un párrafo titulado "Las proteínas MHC son las proteínas humanas más polimórficas conocidas" en la "Biología molecular de la célula" de Alberts et al. 6ª ed. 2014.

Pero alguien me ha dicho recientemente que no se trata de un ejemplo de un conjunto de genes que ayudan a identificar a las personas en la medicina forense. (No recordaba los genes). ¿Es cierto?

¿Son las proteínas MHC las proteínas humanas más polimórficas conocidas?


Si. Hay muchos genes MHC (MHC en humanos se llama HLA). Los loci clásicos (Clase I A, B y C, y Clase II DP, DQ y DR) son los más polimórficos.

Aquí hay una tabla de un artículo de 2002 que muestra claramente el número de polimorfismos. No es un concurso.

Vale la pena señalar que esos números están muy desactualizados. El IPD-IMGT / HLA puede proporcionar listas completas de alelos HLA conocidos, pero los números exactos están en el Decenas de miles:


La persona con la que habló probablemente se refería a secuencias llamadas microsatélites. Estas son regiones pequeñas que son polimórficas y bastante variables entre los individuos, y el uso de varios de estos juntos puede ser útil para la identificación genética, pero cada microsatélite individual no será tan polimórfico como el HLA de clase I A, por ejemplo.


Fronteras en inmunología

Las afiliaciones del editor y los revisores son las últimas proporcionadas en sus perfiles de investigación de Loop y es posible que no reflejen su situación en el momento de la revisión.


  • Descargar Articulo
    • Descargar PDF
    • ReadCube
    • EPUB
    • XML (NLM)
    • Suplementario
      Material
    • EndNote
    • Administrador de referencias
    • Archivo de TEXTO simple
    • BibTex


    COMPARTIR EN

    ¿Son las proteínas MHC las proteínas humanas más polimórficas conocidas? - biología

    (= complejo mayor de histocompatibilidad (MHC))
    Volver a la página de búsqueda
    Si conoce algún término que se haya omitido de este glosario que crea que sería útil incluir, envíe los detalles a la Oficina Editorial de GenScript.

    MHC
    Abreviatura de complejo mayor de histocompatibilidad.
    microbio
    [G k. mikros, pequeño + bios, vida].

    MHC Las proteínas de clase I forman un receptor funcional en la mayoría de las células nucleadas del cuerpo.
    Hay 3 mayores y 3 menores MHC genes de clase I en HLA:
    HLA-A
    HLA-B
    HLA-C
    los genes menores son HLA-E, HLA-F y HLA-G
    La β2-microglobulina se une a subunidades de genes mayores y menores para producir un heterodímero.

    Ver complejo principal de histocompatibilidad.
    micelas Agregados lipídicos con una capa superficial de sales biliares. Etapa de la digestión de lípidos en el intestino delgado.

    los receptores de un donante incompatible se consideran "no propios" y son rechazados por el sistema inmunológico.
    Si la sangre de la madre y el feto se mezclan, las células de memoria que reconocen el antígeno Rh pueden formarse al final del primer embarazo.

    Las moléculas, que se encuentran en casi todas las células nucleadas del cuerpo, se unen a péptidos derivados de antígenos extraños que se han sintetizado dentro de la célula.

    antígenos, las posibles vacunas en etapa sanguínea pueden apuntar a antígenos de superficie infectados por anillo (RESA) específicos que se expresan en la superficie de los eritrocitos infectados.

    Complejo H-2: El complejo principal de histocompatibilidad (

    descubierto en 1937 por Peter Gorer.
    Bucle de horquilla: bucle de ácido nucleico formado por formación de dúplex dentro de una sola hebra (también llamado bucle de tallo). Si ocurre en un cebador de PCR, no funcionará.

    Inmunidad adaptativa: término colectivo para la respuesta específica y duradera de los linfocitos a los antígenos. Requiere el

    , Receptores de células T (TCR) e inmunoglobulinas (Ig), así como enzimas con actividad recombinasa (para los reordenamientos en los loci del gen TCR e Ig).

    -complejo antigénico, las células TC liberan la proteína perforina, que forma poros en la membrana plasmática de la célula diana, lo que hace que los iones y el agua fluyan hacia la célula diana, haciéndola expandirse y finalmente lisarse.

    procesamiento de antígenos de clase II en el desarrollo de células B ". International Reviews of Immunology. 19 (2-3): 139-55. doi: 10.3109 / 08830180009088502. PMID 10763706.
    ^ Kehry MR, Hodgkin PD (1994). "Activación de células B por membranas de células T auxiliares". Revisiones críticas en inmunología. 14 (3-4): 221-38. doi: 10.

    Si hay una infección viral en curso, los macrófagos y otras células inmunes entrarán en contacto con el virus y mostrarán antígenos virales en la superficie celular con

    2 moléculas se denominan células presentadoras de antígenos.

    Todas las células del cuerpo producen proteínas de superficie llamadas clase I

    proteína. Una célula T C con el receptor correspondiente reconocerá la célula anormal.

    Un caso de este fenómeno ocurre en los loci del complejo principal de histocompatibilidad (

    ) donde algunos alelos humanos están mucho más relacionados con algunos alelos de chimpancés que con otros alelos humanos (Fig. 7).

    La clase II son loci de genes que son altamente polimórficos, lo que significa que la probabilidad de que dos individuos compartan el mismo conjunto de loci de MHCII es baja. Por lo tanto, es una forma útil de discernir qué tan estrechamente están relacionados dos individuos.

    La primera es la selección positiva que verifica si la célula T tiene receptores capaces de reconocer

    moléculas que presentarán antígenos. La segunda es la selección negativa, que elimina las células T que atacan los tejidos del cuerpo y la flora residente porque responden a los antígenos de estas células.

    Genes HLA humanos (equivalente a

    genes en ratones) tienen muchos alelos, y no hay dos individuos que tengan alelos idénticos en todos los loci de genes. ¿Cuáles de las siguientes son consecuencias de esta diversidad genética?
    UNA.
    Maximiza los tipos de patógenos que pueden ser reconocidos y eliminados por una respuesta inmune dentro de una población.

    complejo mayor de histocompatibilidad (

    es parte del complejo inmunógeno principal.

    complejo mayor de histocompatibilidad (

    Los marcadores desencadenan respuestas de células T que pueden conducir al rechazo de tejidos y órganos trasplantados.
    Túbulo de Malpighi.

    Cuando el macrófago come bacterias, las proteínas (antígenos) de las bacterias se descomponen en cadenas de péptidos cortos y esos péptidos se "muestran" en la superficie del macrófago unidos a moléculas especiales llamadas

    II (para el complejo mayor de histocompatibilidad de clase II).

    Inmunoglobulina de superficie (reconocimiento de Ag)
    Receptor de inmunoglobulina Fc
    Complejo mayor de histocompatibilidad de clase II (

    Complejo H-2. El complejo principal de histocompatibilidad (

    ) del ratón, ubicado en el cromosoma 17.
    Haploide. Célula u organismo que contiene el conjunto de cromosomas que normalmente se encuentran en los gametos.

    Los científicos de la Escuela de Medicina de Harvard se propusieron investigar qué factores influyen en la actividad de un poderoso complejo genético conocido como antígeno leucocitario humano (HLA). Se sabe desde hace algún tiempo que variantes específicas de genes HLA en humanos y complejos principales de histocompatibilidad (

    Este gen se describió por primera vez para los linajes de células T y B (Behrens et al, 1994). El gen codifica una proteína asociada con el retículo endoplasmático y participa en la entrega de péptidos al

    moléculas de clase I (Snyder et al, 1997). IHC admite datos de RNAseq, mostrando ER-positividad en linfocitos.

    Histocompatible Perteneciente a un estado genético en el que las células de dos animales se pueden trasplantar de forma cruzada sin rechazo inmunológico. Lo contrario de histoincompatible. La histocompatibilidad está controlada predominantemente por genes en el Complejo Mayor de Histocompatibilidad o


    Los péptidos autoinformados iluminan el surco del MHC

    Los oligopéptidos sintéticos modificados químicamente con fluoróforos sensibles al medio ambiente permiten la visualización en tiempo real de la unión del péptido a las moléculas del MHC. Esta tecnología ampliará nuestra comprensión de la presentación de antígenos y permitirá la visualización de la unión de péptidos fluorescentes a una amplia variedad de receptores en células vivas.

    Las moléculas del complejo principal de histocompatibilidad (MHC) presentan antígenos de péptidos oligopéptidos de proteínas inmunogénicas para activar las respuestas de las células T. Un aspecto crítico de la presentación de antígenos es la unión de péptidos a moléculas de MHC. Sólo alrededor del 1% de los péptidos de longitud suficiente son capaces de unirse a cualquier producto génico del MHC de clase I o clase II. Aunque existen numerosos métodos para cuantificar la unión de péptidos a moléculas de MHC, ninguno detecta la unión en tiempo real, hasta ahora, claro. En este número de Biología química de la naturaleza, Venkatraman et al. 1 informan que al unirse a la molécula DR1 del MHC de clase II humano, los péptidos modificados con fluoróforos sensibles al medio ambiente demuestran grandes aumentos en la fluorescencia, un mayor cambio de Stokes en la emisión y un mayor tiempo de vida de la fluorescencia, todo lo cual se puede explotar para monitorear la unión del péptido en condiciones reales. tiempo.


    22 de marzo de 2021

    De las muchas preguntas desconcertantes que rodean al SARS CoV-2, un nuevo y misterioso patógeno que ha matado a aproximadamente 2,6 millones de personas en todo el mundo, quizás la más insistente es esta: ¿por qué la enfermedad parece atacar de una manera tan desordenada, a veces perdonando los 100 años? abuela, mientras mataba a hombres y mujeres jóvenes sanos en la flor de la vida?

    Un nuevo estudio de Karen Anderson, Abhishek Singharoy y sus colegas del Instituto de Biodiseño de la Universidad Estatal de Arizona puede ofrecer algunas pistas provisionales. Su investigación explora el MHC-I, un componente proteico fundamental del sistema inmunológico adaptativo humano.

    La investigación sugiere que ciertas formas variantes de MHC-I pueden ayudar a proteger el cuerpo, estimulando una fuerte respuesta inmunológica, mientras que otras pueden dejar a un individuo susceptible a un ataque viral, una enfermedad grave y posiblemente la muerte.

    “La implicación de nuestros hallazgos es que la capacidad de montar una respuesta de células T fuerte y diversa al SARS-CoV-2 puede ser importante para limitar la gravedad de la enfermedad”, dice Anderson. "La clave de este trabajo es utilizar la estructura de la proteína para predecir la capacidad de unión del péptido MHC-I individual".

    Policía celular

    Los seres humanos, como todos los vertebrados, transportan moléculas MHC-I en todas las células nucleadas. Una función central del MHC-I es ayudar al cuerpo a eliminar las infecciones de virus y otros patógenos. Lo hace recolectando fragmentos del virus, llevándolos a la superficie celular y presentándolos a agentes inmunes conocidos como células T CD8 +, que patrullan incesantemente el cuerpo.

    Sin embargo, el MHC-I es una molécula polimórfica, lo que significa que se presenta en una amplia variedad de formas, que difieren notablemente en su capacidad para unirse a fragmentos virales y presentarlos para el interrogatorio de las células T. Dependiendo de qué variantes o alelos del MHC-I estén presentes, el cuerpo puede montar una respuesta inmune exitosa al SARS CoV-2, o puede no hacerlo, dejando al cuerpo vulnerable.

    En una nueva investigación que aparece en la revista Cell Reports Medicine, Anderson, Singharoy y sus colegas describen un algoritmo sofisticado conocido como EnsembleMHC, diseñado para predecir qué alelos MHC-I son mejores para unir fragmentos virales y presentarlos a las células T. También identifican 108 péptidos virales derivados de proteínas estructurales CoV-2 del SARS, que se cree que son potentes estimuladores de la respuesta inmune.

    "Este es uno de los primeros ejemplos de epidemiología molecular con el pico de SARS-CoV2", dice Singharoy. El escalado de propiedades moleculares a propiedades de población, desarrollado por (primer autor) Eric Wilson, es bastante novedoso ".

    Wilson es investigador del Biodesign Institute y de la Facultad de Ciencias Moleculares de ASU.

    Gama de efectos

    La investigación examina 52 alelos comunes de MHC-I y encuentra disparidades significativas en su capacidad para unirse a fragmentos virales derivados del genoma completo del SARS CoV-2, así como a fragmentos derivados de un subconjunto clave de componentes estructurales que se cree que son las proteínas virales más importantes para generando respuestas inmunes robustas. Estas proteínas esenciales ayudan al virus a ensamblar 4 estructuras críticas y se conocen como proteínas S (pico), N (nucleocápside), M (membrana) y E (envolvente).

    Las células T CD8 + son capaces de reconocer regiones de acoplamiento en estas proteínas estructurales, conocidas como epítopos. Cuando estas células inmunes que patrullan se encuentran con las proteínas S, N, M y E, por lo general se dirigen a la célula infectada para su destrucción.

    Cuando los investigadores compararon las cifras de COVID-19 de 23 países, encontraron que las tasas de mortalidad por la enfermedad estaban estrechamente asociadas con la distribución de variantes del MHC-I. Específicamente, las poblaciones ricas en alelos MHC-I clasificados como enlazadores fuertes de fragmentos del péptido CoV-2 del SARS mostraron tasas reducidas de muerte por COVID-19, lo que sugiere que estos alelos MHC-I favorables generan una respuesta inmune robusta cuando se encuentran con el nuevo coronavirus.

    El trabajo tiene implicaciones importantes para monitorear la vulnerabilidad al COVID-19 tanto en individuos como en poblaciones y también puede ayudar a los investigadores a descubrir las piezas esenciales del patógeno SARS CoV-2 que mejor estimulan la respuesta inmune, un componente crítico en futuras vacunas.

    Medidas defensivas

    Las moléculas de MHC-I son generadas por el gen MHC, que es la parte más polimórfica de todo el genoma humano. Se sabe que el MHC codifica más de 160 proteínas de diversas funciones, la mitad de las cuales están directamente implicadas en las respuestas inmunitarias. La enorme diversidad de proteínas MHC-I proporciona al cuerpo un formidable sistema de defensa de alerta temprana, capaz de unir una amplia gama de fragmentos de patógenos y ajustar la respuesta inmune. La rica diversidad de moléculas de MHC-I también dificulta que un invasor extraño como un virus burle sigilosamente a todas las posibles moléculas de unión.

    Las células T CD8 + que llevan a cabo su vigilancia tienen una asombrosa capacidad para distinguirse entre sí y no. Si a las células T no les gusta lo que ven, cuando las moléculas de MHC-I presentadoras de antígeno muestran los fragmentos que han adquirido, las células T CD8 + terminarán con la célula infectada.

    Investigaciones anteriores han demostrado que incluso variaciones leves de aminoácidos en la composición del MHC-I pueden tener efectos profundos. Por un lado, algunas formas de MHC-I pueden promover enfermedades inflamatorias y autoinmunes, como la enfermedad de Graves, la psoriasis, la artritis reumatoide o la esclerosis múltiple, en las que los tejidos sanos se reconocen como extraños. Por otro lado, las variantes de MHC-I pueden no estar estructuralmente equipadas para unirse a los fragmentos adecuados de un virus u otro patógeno y no generar una respuesta inmune. Por esta razón, el genotipo MHC se considera un determinante crítico de los resultados del paciente después de una variedad de infecciones virales.

    El MHC-I también juega un papel importante en los casos de trasplante de tejidos, como sugiere su nombre completo, complejo principal de histocompatibilidad. Si el tejido donado no es compatible con el receptor, las moléculas de MHC-I presentan fragmentos del tejido del donante, que son reconocidos como extraños y atacados por las células T, fenómeno conocido como rechazo injerto-huésped, otra forma de autoinmunidad.

    Siguiendo el rastro de la protección

    En el estudio actual, los investigadores examinaron 52 alelos comunes de la proteína MHC-I, utilizando un algoritmo de diseño personalizado conocido como EnsembleMHC para predecir sus afinidades de unión por los fragmentos de la proteína CoV-2 del SARS. Se recopilaron dos conjuntos de datos, el primero, midiendo la afinidad de unión de cada alelo por el repertorio completo de proteínas en el genoma del SARS CoV-2. El segundo conjunto de datos examina las afinidades de unión de cada alelo sólo con los candidatos de péptidos virales estructurales S, N, M y E.

    Luego, los investigadores extrajeron un banco de datos masivo de alelos de proteínas, haciendo coincidir la prevalencia de los 52 alelos en el estudio con 23 condados. Cada país recibió una puntuación para toda la población, que combina la capacidad de unión del MHC-I con las frecuencias alélicas del MHC-I.

    Se encontró una correlación convincente entre países con tasas de mortalidad más bajas durante el período de estudio de enero a abril de 2020 y altos porcentajes poblacionales de alelos identificados por EnsembleMHC como moléculas de unión fuerte para las proteínas CoV-2 del SARS.

    Además, cuando solo se compararon los alelos que exhibían una alta afinidad de unión por las proteínas S, N, M y E, la asociación entre la baja mortalidad de COVID-19 y este conjunto de alelos favorables de MHC-I fue más fuerte, lo que nuevamente sugiere que la estructura del virus las proteínas son las más eficaces para producir una respuesta inmunitaria.

    Los hallazgos sugieren que los pacientes que tienen alelos del MHC-I capaces de interactuar con los péptidos proteicos estructurales del SARS-CoV-2 pueden estimular una respuesta mejorada de las células T CD8 +, con mejores resultados posteriores a la infección y una menor mortalidad.

    La poderosa técnica descrita en el nuevo estudio revela aún más la sutil relación de los alelos del MHC-I y la respuesta inmune y ayudará a los investigadores a identificar los fragmentos virales inmunogénicos más importantes del SARS CoV-2, ayudando al futuro desarrollo de vacunas. La combinación de dicha información con los datos clínicos del paciente y los perfiles genéticos puede ayudar a identificar a los que corren mayor riesgo de padecer esta enfermedad aún esquiva.


    Métodos

    Cultivo celular y tipificación de HLA

    Este estudio fue aprobado por el Comité d’Éthique de la Recherche de l’Hôpital Maisonneuve-Rosemont y todos los sujetos proporcionaron su consentimiento informado por escrito. Como se requerían muestras de sangre fresca para los ensayos de citotoxicidad, elegimos generar nuevos B-LCL a partir de donantes disponibles, en lugar de estudiar los B-LCL altamente caracterizados del Centre d'Etude du Polymorphisme Humain. Se aislaron PBMC de muestras de sangre de dos hermanas caucásicas no gemelas idénticas a HLA (54 y 56 años). Los B-LCL se derivaron de PBMC con Ficoll-Paque Plus (Amersham) seguido de infección por EBV como se describe 58. Se incubaron diez millones de PBMC en 2,5 ml de medio RPMI-10 completo con 1 ml de suspensión de EBV (cepa B95-8) obtenida del proveedor (ATCC VR-1492) durante 2 h en un baño de agua a 37ºC. Se añadió RPMI-10 completo que contenía 1 μ ml −1 de ciclosporina A (Sigma-Aldrich) a la suspensión celular para un volumen total de 10 ml) y se incubó durante 3-5 semanas en una atmósfera humidificada a 37 ° C, 5% CO2 incubadora. La genotipificación de HLA de alta resolución se realizó en el Hospital Maisonneuve-Rosemont. Los dos hermanos son HLA-A * 03: 01, * 29: 02 B * 08: 01, * 44: 03 C * 07: 01, * 16: 01 DRB1 * 03: 01, * 07: 01.

    Extracción de ARN y preparación de bibliotecas de transcriptomas.

    Se aisló el ARN total de 5 millones de B-LCL utilizando el mini kit RNeasy que incluye el tratamiento con DNasa I (Qiagen) de acuerdo con las instrucciones del fabricante. El ARN total se cuantificó utilizando el NanoDrop 2000 (Thermo Scientific) y la calidad del ARN se evaluó con el 2100 Bioanalyzer (Agilent Technologies). Se generaron bibliotecas de transcriptomas a partir de 1 μg de ARN total utilizando el kit de preparación de muestras de ARN TruSeq v2 (Illumina) siguiendo el protocolo del fabricante. En resumen, el ARN mensajero poli-A se purificó usando perlas magnéticas poli-T oligo-unidas usando dos rondas de purificación. Durante la segunda elución del ARN poli-A, el ARN se fragmentó y se preparó para la síntesis de ADNc. La transcripción inversa de la primera hebra se realizó utilizando cebadores aleatorios y SuperScript II (Invitrogen). Se realizó una segunda ronda de transcripción inversa para generar un ADNc de doble hebra, que luego se purificó usando el sistema de purificación de PCR Agencourt AMpure XP (Beckman Coulter). La reparación final del ADNc fragmentado, la adenilación de los extremos 3 'y la ligadura de los adaptadores se completaron siguiendo el protocolo del fabricante. El enriquecimiento de los fragmentos de ADN que contienen moléculas adaptadoras en ambos extremos se realizó utilizando 15 ciclos de amplificación por PCR y la mezcla de PCR de Illumina y el cóctel de cebadores.

    Extracción de ADN y captura de exoma.

    Se extrajo ADN genómico de 5 millones de B-LCL utilizando el Mini Kit PureLink Genomic DNA (Invitrogen) de acuerdo con las instrucciones del fabricante. El ADN se cuantificó y se evaluó la calidad utilizando el NanoDrop 2000 (Thermo Scientific). Las bibliotecas genómicas se construyeron a partir de 1 μg de ADN genómico utilizando el kit de preparación de muestras de ADN TruSeq (v2) (Illumina) siguiendo el protocolo del fabricante. Usamos 500 ng de bibliotecas de DNA-Seq para el enriquecimiento del exoma basado en la selección híbrida con el kit de enriquecimiento del exoma TruSeq (Illumina) de acuerdo con las instrucciones del fabricante.

    Secuenciación y mapeo de todo el transcriptoma y el exoma

    La secuenciación de extremos emparejados (2 × 100 pb) se realizó utilizando la máquina Illumina HiSeq2000 que ejecuta la química TruSeq v3. Se secuenciaron dos bibliotecas de ARN-Seq o cuatro exómicas por carril (ocho carriles por portaobjetos). La densidad de conglomerados se apuntó a alrededor de 600 a 800 k conglomerados mm -1 (ref. 2). Se utilizó el filtro de calidad de castidad de Illumina para eliminar las lecturas de baja calidad. La castidad de una llamada de base es la relación entre la intensidad de la señal más grande dividida por la suma de las dos señales más grandes. Las lecturas pasaron este filtro si no más de una llamada de base en los primeros 25 ciclos tuvo una castidad & lt0.6. Más del 96% de las lecturas pasaron este filtro (Datos suplementarios 1). Los datos de la secuencia se mapearon en el genoma de referencia humano (hg19) utilizando el software de mapeo Casava 1.8.1 y Eland v2e (Illumina). Primero, los archivos * .bcl se convirtieron en archivos FASTQ comprimidos, seguidos de la demultiplexación de ejecuciones de secuencias multiplexadas separadas por índice. Las lecturas individuales se alinearon con el genoma de referencia humano utilizando el método de alineación de múltiples semillas y huecos. La alineación de semillas múltiples funciona alineando la primera semilla de 32 bases y las semillas consecutivas por separado. La alineación con huecos extiende cada alineación candidata a la longitud total de la lectura y permite huecos de hasta 10 bases. Se aplicaron los siguientes criterios: (i) una lectura contiene al menos una semilla que coincide con al menos dos desajustes sin espacios y (ii) se permitieron espacios para toda la lectura, siempre que corrijan al menos cinco desajustes en sentido descendente. Para cada alineamiento candidato, se calculó una puntuación de probabilidad, que se basa en los valores de calidad de la base de secuenciación y las posiciones de los desajustes. La puntuación de alineación de una lectura, que se expresa en la escala Phred, se calculó a partir de las puntuaciones de probabilidad de las alineaciones candidatas. La mejor alineación para una lectura dada correspondía a la alineación candidata con la puntuación de probabilidad más alta y se mantuvo si la puntuación de alineación excedía un umbral. Las alineaciones de lectura se filtraron aún más si contenían eventos de inserción / eliminación adyacentes o si estaban presentes anomalías en los extremos emparejados. Las lecturas que se mapearon en dos o más ubicaciones no se incluyeron en análisis posteriores. Para las bibliotecas de extremos emparejados de exoma, se calcularon las mejores alineaciones de puntuación para cada mitad del par y se compararon para encontrar las mejores alineaciones de lectura emparejada de acuerdo con la distribución de tamaño de inserción estimada. En el caso de las bibliotecas de RNA-seq, se realizó una alineación adicional contra las uniones de empalme y los contaminantes (RNA mitocondrial y ribosómico). Se descartaron las secuencias de mapeo de contaminantes, mientras que las lecturas de mapeo exclusivo de uniones de empalme se mantuvieron y se volvieron a convertir a las coordenadas del genoma.

    Cuantificación de la expresión de la transcripción

    Usamos dos métodos para estimar y comparar la expresión de la transcripción entre sujetos. En el primer método, se utilizó el software Casava 1.8.1 (Illumina) para estimar los niveles de expresión de genes o exones (RNA-seq) medidos como lecturas por kilobases del modelo de exón por millón de lecturas mapeadas utilizando la siguiente fórmula: gen o exón RPKM = 10 9 × Cb / Nb × L, donde Cb es el número de bases que caen en la entidad, Nb es el número total de bases mapeadas y L es la longitud de la característica en pares de bases. También utilizamos el paquete DESeq 59, que se basa en recuentos sin procesar, para comparar la expresión de la transcripción. El nivel de expresión de la transcripción no se consideró en las llamadas de SNP.

    Identificación de SNP y recuento de lecturas

    La llamada de variantes, la detección de indel y el recuento de lecturas se realizaron utilizando el software Casava 1.8.1 (Illumina). Las lecturas se volvieron a alinear en torno a los indeles candidatos para mejorar la calidad de las llamadas variantes y los resúmenes de cobertura del sitio. Las llamadas de base individuales se filtraron aún más en función de la densidad de desajuste o la ambigüedad y las llamadas de base restantes se utilizaron para predecir los genotipos del sitio. Casava también se utilizó para recuperar todos los SNP observados entre el genoma de referencia (GRCh37.p2, NCBI) y el transcriptoma secuenciado y el exoma de nuestros sujetos. Se eliminaron los SNP y las llamadas indel cerca de los centrómeros y dentro de las regiones de alto número de copias. Para cada SNP llamado, Casava calcula el genotipo más probable (max_gt) y un Q-valor que expresa la probabilidad del genotipo más probable (Qmax_gt). los Q-valor es un puntaje de calidad que mide la probabilidad de que una base se llame incorrectamente y se use para filtrar los SNP de baja calidad (consulte "En silico-proteomas generados y sección de bases de datos personalizadas). Se mantuvieron los SNP secuenciados con una cobertura de al menos 5 ×. Esta información (archivos .txt) se cargó en un módulo interno de Python, pyGeno 19, para su posterior procesamiento.

    En silico-proteomas generados y bases de datos personalizadas

    Usamos varios scripts internos que se basan en pyGeno para la recuperación, el análisis y el procesamiento de datos. Integramos los datos de secuenciación del exoma a los datos de secuenciación del transcriptoma. Para cada SNP encontrado por secuenciación del transcriptoma, retenemos el genotipo más probable si el Q-valor (Qmax_gt) fue ≥20, lo que corresponde a una tasa de error del 1% (una puntuación de calidad más alta indica una probabilidad de error menor). Si el SNP también estaba cubierto por la secuenciación del exoma, incluimos no solo el genotipo más probable encontrado por RNA-seq, sino también todas las bases en común con la secuenciación del exoma. También incluimos los genotipos de SNP que solo se encontraron mediante secuenciación del exoma y que tenían un Q-valor ≥20. Finalmente, incluimos todas las bases de SNP llamadas tanto por la secuenciación del transcriptoma como del exoma, independientemente de la Q-valor. Los genotipos retenidos de todos los SNP se integraron luego en el genoma de referencia (GRCh37.p2, archivo fasta) en su posición correcta para construir un "genoma personalizado" para cada sujeto. Estos genomas personalizados se utilizaron para extraer todas las transcripciones informadas en el conjunto de genes Ensembl (GRCh37.65, archivo gtf) para todos los cromosomas excepto el cromosoma Y y el ADN mitocondrial. Estas transcripciones fueron entonces en silico traducido en proteínas utilizando el marco de lectura especificado en el conjunto de genes Ensembl. Teniendo en cuenta que la gran mayoría de los MIP tienen una longitud máxima de 11 aminoácidos, establecimos una ventana de 21 aminoácidos centrada en cada ns-SNP heterocigoto. Cuando una ventana contenía más de un SNP, traducimos en silico todas las combinaciones posibles y las incluyó en las bases de datos personalizadas (Fig. 1b). Por último, compilamos todos los productos de traducción en dos bases de datos de archivos fasta (una para cada tema) que se utilizaron para la identificación de MIP (consulte la sección "Secuenciación de MS / MS y agrupación de péptidos"). Ambas bases de datos resultantes tenían un tamaño similar, en términos de número de residuos (36,007,210 en el tema 1 y 36,010,026 en el tema 2) y número de entradas (95,806 en el tema 1 y 95,687 en el tema 2). Además, su tamaño es comparable al tamaño de la base de datos humana UniProt de referencia utilizada (43.384.120 residuos y 75.530 entradas).

    Secuenciación MS / MS y agrupación de péptidos

    Sobre la base de nuestros estudios anteriores sobre la reproducibilidad de los datos de la EM a través de réplicas técnicas y biológicas 8, preparamos cuatro réplicas biológicas de 5 × 10 8 B-LCL de crecimiento exponencial de cada sujeto. Los MIP se liberaron mediante un tratamiento con ácido suave, se desalaron en un cartucho HLB de 30 cc, se filtraron con una membrana de corte de 3.000 Da y se separaron en siete fracciones mediante cromatografía de intercambio catiónico utilizando un sistema LC binario de la serie 1.100 fuera de línea (Agilent Technologies) como se describió anteriormente. 8,9. Las fracciones que contenían MIP se resuspendieron en ácido fórmico al 0,2% y se analizaron por LC-MS / MS usando un sistema de LC Eksigent acoplado a un espectrómetro de masas LTQ-Orbitrap ELITE (Thermo Electron). Los péptidos se separaron en un C personalizado18 columna de fase reversa (150 μm d.i. X 100 mm, Jupiter Proteo 4 μm, Phenomenex) con un caudal de 600 nl min -1 y un gradiente lineal de ACN acuoso al 3–60% (ácido fórmico al 0,2%) en 120 min. Los espectros de masas completos se adquirieron con el analizador Orbitrap operado a un poder de resolución de 30.000 (a metro/z 400). La calibración de masa utilizó una masa de bloqueo interna (protonada (Si (CH3)2O))6 m / z 445.120029) y la precisión de la masa de las mediciones de péptidos fue de 5 p.p.m. Los espectros MS / MS se adquirieron a una disociación de colisión de mayor energía con una energía de colisión normalizada del 35%. Se acumularon hasta seis iones precursores hasta un valor objetivo de 50.000 con un tiempo de inyección máximo de 300 ms y los iones de fragmentos se transfirieron al analizador Orbitrap que funciona a una resolución de 15.000 a m / z 400.

    Los espectros de masas se analizaron utilizando el software Xcalibur y las listas de picos se generaron utilizando el destilador Mascot Versión 2.3.2 (http://www.matrixscience.com). Las búsquedas en la base de datos se realizaron en la base de datos UniProt Human (43.384.120 residuos, publicada el 2 de abril de 2013), bases de datos específicas para los sujetos 1 y 2 (34.976.580 y 34.990.381 residuos, respectivamente, ver "en silicoproteoma generado y sección de bases de datos personalizadas) y la base de datos EBV_B95.8 (40,946 residuos), utilizando Mascot (Versión 2.3.2, Matrix Science). Para calcular el FDR, realizamos una búsqueda de Mascot contra una base de datos de señuelos / objetivos concatenados utilizando UniProt humano o bases de datos específicas de sujetos. El objetivo representa las secuencias hacia adelante y el señuelo sus contrapartes inversas. Las tolerancias de masa para iones precursores y fragmentos se establecieron en 5 p.p.m. y 0,02 Da, respectivamente. Las búsquedas se realizaron sin especificidad enzimática con modificaciones variables para cisteinilación, fosforilación (Ser, Thr y Tyr), oxidación (Met) y desamidación (Asn, Gln). Los archivos de datos sin procesar se convirtieron en mapas de péptidos que comprenden m / z valores, estado de carga, tiempo de retención e intensidad para todos los iones detectados por encima de un umbral de 8.000 recuentos utilizando software interno (Proteoprofile) 9. Los mapas de péptidos correspondientes a todos los iones de péptidos identificados se alinearon para correlacionar sus abundancias a través de conjuntos de muestras y réplicas. Los espectros MS / MS de MIP detectados exclusivamente en un sujeto se validaron manualmente.

    Identificación de MIP

    La identificación de MIP se basó en cuatro criterios: (i) la longitud canónica de MIP de 8-11 aminoácidos, (ii) la afinidad de unión a MHC predicha dada por el algoritmo de NetMHCcons 43, (iii) la puntuación de Mascot, que refleja la calidad de asignación de péptidos, y (iv) el FDR, que indica la proporción de identificaciones señuelo (falso) frente al objetivo (verdadero). Primero, evaluamos la correlación entre estos parámetros. Encontramos una fuerte correlación (0,88) entre los valores de FDR & lt60% y los valores de afinidad de unión a MHC ≤1,750 nM para todos los 8-11-mers (Fig. 1 complementaria). De hecho, la proporción de péptidos con una afinidad de unión a MHC ≤1,750 nM aumenta a medida que disminuye el FDR (Fig. 2a complementaria). Esta correlación fue específica para MIP, ya que no se encontró correlación para péptidos aleatorios (Figs. Suplementarias 1 y 2b). Estos resultados muestran que los valores bajos de FDR permiten el enriquecimiento de péptidos de alta afinidad (afinidad de unión a MHC ≤1,750 nM) y, por tanto, de MIP. Sin embargo, el inconveniente de utilizar un FDR bajo estricto como filtro principal es que el número total de identificaciones disminuye considerablemente (Figura complementaria 2a), así como la proporción de péptidos pequeños (8-9-meros) identificados (Figura complementaria 2c). ). Por consiguiente, la proporción relativa de péptidos encontrados en el objetivo frente al señuelo disminuyó al aumentar la longitud del péptido 60, de acuerdo con la noción de que los péptidos cortos como los MIP generalmente requieren puntuaciones Mascot más altas para lograr un FDR bajo. Además, los iones del fragmento MS en tándem de los MIP son menos predecibles y están distribuidos uniformemente que los de los péptidos trípticos, lo que complica aún más su asignación por los motores de búsqueda de bases de datos como Mascot. Para establecer un umbral de puntuación de Mascot más adecuado para la detección de MIP de alto rendimiento, evaluamos la relación entre la puntuación de Mascot y la afinidad de unión prevista para todos los péptidos de 8-11 meros identificados con un FDR≤5% (Fig. 1c). Then, we calculated the number of MIPs identified with all combinations of Mascot score and predicted binding affinity. We found that the highest number of MIP identifications was obtained by combining a Mascot score ≥21 and an MHC-binding affinity ≤1,250 nM at a 5% FDR (Fig. 1c).

    MS/MS validation of a subset of MIPs

    Polymorphic and non-polymorphic MIPs exclusively detected in one of the two subjects (Table 1 and Supplementary Data 3) were synthesized by Bio Basic Inc. and JPT peptide technologies. Subsequently, 500 fmols of each peptide were injected in the LTQ-Orbitrap ELITE mass spectrometer using the same parameters as those used to analyse the biological samples.

    Ns-SNPs found in MIP-coding regions in the population

    For each MIP, we retrieved the coordinates of the peptide-coding DNA region. These coordinates were then used to extract both the corresponding reference sequence and all non-synonymous validated SNPs reported by dbSNP (Build 137) for that region. For MIPs deriving from multiple source regions, the number of ns-SNPs reported corresponds to that of the MIP source region possessing the maximal number of ns-SNPs.

    Random peptide sampling

    We constructed a genome-wide index. To do so, we indexed every coding sequences reported in the Ensembl gene set (GRCh37.65), except for those located in the Y chromosome or the mitochondrial DNA, into a segment tree. Next, we kept only the first layer of the tree and removed the gaps between the indexed regions, effectively transforming the tree into a coding DNA sequence list, which was used for the random peptide sampling. For each of the 4,468 identified peptides, a random peptide of the same length and that fell entirely into a single coding DNA sequence, was chosen. Next, for each randomly selected peptide, we counted the number of ns-SNPs reported in dbSNP137 (validated and missense). The distribution was obtained after repeating the sampling of 4,468 random peptides 10,000 times.

    PCR and Sanger sequencing

    PCR amplification of the MiHA-encoding DNA and cDNA regions was performed with the Phusion High-Fidelity PCR kit (New England BioLabs). For each candidate, 1–2 pairs of sequencing primers were designed manually and with the PrimerQuest software (Integrated DNA Technologies, Supplementary Table 1), and were synthesized by Sigma. PCR products were purified with the PureLink Quick Gel Extraction Kit (Invitrogen). Sanger sequencing was performed on candidate DNA and cDNA at the IRIC’s Genomics Platform. Sequencing results were visualized with the Sequencher software v4.7 (Gene Codes Corporation).

    Cytotoxicity assays

    DCs were generated from frozen PBMCs, as previously described 61 . To generate cytotoxic T cells, autologous DCs were irradiated (4,000 cGy), loaded with 2 μM of peptide and cultured for 7 days with freshly thawed autologous PBMCs at a DC:T-cell ratio of 1:10. From day 7, responder T cells were restimulated for seven additional days with irradiated autologous B-LCLs pulsed with the same peptide (B-LCL:T-cell ratio 1:5). Expanding T cells were cultured in RPMI 1,640 (Invitrogen) containing 10% human serum (Sigma-Aldrich) and L -glutamine. IL-2 (50 U ml −1 ) was added for the last 5 days of the culture. Cytotoxicity assays were performed as described 9 , with minor modifications. In brief, B-LCLs were labelled with carboxyfluorescein succinimidyl ester (CFSE Invitrogen), extensively washed, irradiated (4,000 cGy) and then used as targets in cytotoxicity assays. Target cells were plated in 96-well U-bottom plates at 5,000 cells per well. Effector cells were added at different effector-to-target ratios in a final volume of 200 μl per well. Plates were centrifuged and incubated for 18–20 h at 37 °C. Flow cytometry analysis was performed using a LSRII cytometer with a high-throughput sampler device (BD Biosciences). The percentage of specific lysis was calculated as follows: [(number of CFSE + cells remaining after incubation with unpulsed target cells−number of CFSE + cells remaining after incubation with peptide-pulsed target cells)/number of CFSE + cells remaining after incubation with unpulsed target cells] × 100.

    Statistical analysis and data visualization

    The two-tailed Student’s t-test was used to identify differentially expressed MIPs and MiHAs that induced cytotoxicity. The two-tailed Mann–Whitney test was used to compare the MHC-binding affinity of MIPs detected exclusively in one subject. Differentially expressed transcripts were identified with the DESeq package that uses a model based on the negative binomial distribution 59 . The Spearman correlation was used to evaluate the relationship between differences in MIP abundance and differences in MIP-coding gene or exon expression. The genomic location of identified MIPs including MiHAs and the RNA-seq and exome sequencing coverage were visualized with the Circos software 62 . The Integrative Genomics Viewer v2.0 (ref. 63) was used to visualize and inspect regions coding MIPs including MiHAs.


    Structural and dynamic features of MHCII molecules during peptide exchange

    MHCII proteins reach the endosomal compartment preloaded with the class-II associated invariant chain peptide (CLIP) where HLA-DM catalyzes the exchange of CLIP for higher affinity antigens. DM-catalyzed peptide exchange determines the fate of immunogenicity of a number of antigens, however, the underlying molecular principles of peptide exchange are not well understood. We could show by a combination of NMR experiments and molecular simulations/Markov state modeling (with the group of Frank Noé, Freie Universität Berlin) how low populated pMHCII conformations dictate the catalyzed and non-catalyzed peptide exchange reactions and we are further interested in the role of how natural polymorphisms and particular antigens affect the proposed mechanistic model. With respect to this, the interference of small molecules, such as known drugs on MHC-peptide presentation and CD4+ T cell response represents an additional MHCII-related research field in our group.


    What is HLA

    The HLA (human leukocyte antigen) is a form of MHC gene complex present in humans. It consists of around 200 genes located close together on chromosome 6. These genes are expressed on all nucleated cells. The main function of the HLA molecules is to present antigens produced inside the cell on the cell surface in order to be recognized by T cells. Therefore, T cells can recognize foreign antigens upon self-antigens, initiating an acquired immune response. On the other hand, the recognition of antigens by T cells as self allows determining histocompatibility. But, the recognition of self-antigens as non-self by the immune system leads to autoimmune diseases.

    Figure 1: Human Chromosome 6

    However, HLA complex is the most polymorphic loci of the human genome. The two main classes of HLA complex are Class I, which contains HLA-A, HLA-B, and HLA-C genes, and Class II, which contains HLA-D genes. The most polymorphic HLA gene is the HLA-B, which has 425 alleles recognized up to date. Likewise, the HLA-DRB1 gene has 289 recognized alleles, and HLA-A gene has 214 recognized genes. The IPD-IMGT/HLA database contains all the reported and named sequences of HLA alleles up to date. According to the basic genetic principles, children inherit HLA alleles from parents.

    Figure 2: MHC Complex Function

    Furthermore, for successful organ transplantation, the HLA alleles of the donor and the recipient have to be matched to each other. The organs with unmatching or non-self HLA alleles will be rejected from the body by the immune system. Therefore, scientists have developed a number of techniques to type HLA alleles in individuals for various purposes, including organ transplantation, paternity tests to determine the percentage of a child, and to identify carriers of certain hereditary diseases such as cancer, diabetes, lupus, etc.


    Discusión

    MHC proteins are among the most polymorphic in the human genome, with the International Immunogenetics HLA database currently listing the sequences of more than 1,000 HLA-A and 1,500 HLA-B proteins (34). Experimental binding data, however, are lagging far behind and binding peptides have been reported for fewer than 150 proteins (6). As a result, significant computational efforts have been devoted in recent years to the development of peptide binding prediction methods (see refs. 6 and 7 for recent reviews) but their accuracy still depends, to a great extent, on the availability of a fairly large number of experimental measurements, ideally of unrelated peptides, for either the protein itself (6) or some “closely related” proteins (27). Notably, the most accurate predictors rely on convoluted machine-learning algorithms, thus, on the one hand, attesting to the complex nature of MHC-peptide binding, and, on the other hand, presenting no readily interpretable information to help investigate it.

    Here, we have used special purpose molecular modeling simulations to predict, for a given MHC protein, the sequence of thousands of binding peptides, to each of which is associated an atomically detailed structural model and a predicted intermolecular binding energy. We have demonstrated that a rather simple binding model—a PFM—inferred from these simulations agrees well with available experimental binding data. In addition, the accompanying structural models suggest plausible—and testable—mechanistic explanations for the observed binding preferences, and for divergences in binding specificity between closely related proteins. Predictions can be made for proteins without three-dimensional structures and for proteins with little or no experimental binding data. As a result, these predictions are insensitive to heterogeneities in the available peptide binding datasets, making them well-suited to comparisons of peptide binding between different proteins and across the MHC family.

    Our structure-based approach to binding specificity prediction also has significant limitations. The molecular modeling, although state-of-the-art, is still quite crude: The MHC backbone is held fixed throughout the simulations (the side chains near the peptide can rearrange) the force fields were parameterized for monomeric protein structure prediction and design, and likely could be substantially improved for modeling protein–peptide interactions modeling simulations focused exclusively on binding of 9-mer peptides. As a result of these and other limitations, the specificity predictions and related inferences from these modeling simulations are sometimes inaccurate: Anchor-position preferences are mispredicted in some of the homology-model-based binding profiles, and these mispredictions can have a disastrous effect on binding predictions. The fact that self-template binding predictions for these targets are significantly more accurate illustrates the sensitivity of our binding landscapes to the backbone of the template MHC molecule, and suggests that incorporation of MHC backbone flexibility may lead to substantial improvements in accuracy.

    Notwithstanding these significant limitations, we are optimistic that, given the large community of researchers working to improve molecular modeling force fields and sampling methods, the quality of simulation-derived inferences will continually improve. Indeed, an advantage of a large-scale modeling study such as this one, focused on a family of proteins with extensive experimental structural and binding data, is the ability to highlight current limitations in modeling methods and suggest avenues for improvement. As an example, analysis of an initial underprediction of beta-branched amino acids at the second anchor position (PAG9) revealed a systematic error in our modeling of rotamer preferences at C-terminal positions fixing this error substantially improved binding prediction for MHC proteins with aliphatic preferences at this position. Understanding the apparent bias toward histidine in many of the structure-based PFMs (Fig. S2) may also reveal specific force field deficiencies, whose correction could further improve performance.

    Our structure-based approach is highly complementary to traditional sequence-based predictors. Although the peptide binding prediction accuracies are on the whole lower, particularly for well-characterized proteins, the atomically detailed models allow the investigation of new aspects of MHC-peptide interactions. We have used these models to investigate the extent and mechanistic basis of pairwise correlations between peptide positions, and are currently examining the role of the peptide backbone conformation in determining specificity profiles. Structural modeling may also shed light on T-cell receptor (TCR) recognition of peptide-MHC complexes, given that the peptide’s structure, as well as its sequence, is being recognized doing so could lead to an improved understanding of T-cell alloreactivity and its role in transplant outcome. By explicitly modeling the TCR-peptide-MHC ternary complex, it may be possible to rationalize and perhaps predict patterns of TCR cross-reactivity to different peptide-MHC complexes. Finally, a physicochemical approach is well suited to modeling MHC interactions with peptides that contain nonnatural or posttranslationally modified amino acids, for which limited binding data currently exists. MHC molecules have been shown to specifically recognize and prefer phosphorylated variants of certain peptides, suggesting a mechanism for immune surveillance of cells with deregulated phosphorylation, a hallmark of malignant transformation (35). As molecular modeling methods continue to improve, we expect that structure-based predictions will play an increasingly important role in the investigation of MHC-peptide interactions.


    Materiales y métodos

    MHC Loci and Alleles Included in Analyses

    Five key classical human MHC genes (HLA-A, -B, -C, -DRB1, y -DQB1) were analyzed in this study. Alleles at each locus were defined at second field (four-digit) resolution and only alleles annotated as “común” in the CWD catalogue ( Mack et al. 2013) were included in the analyses. The allele annotation “común” in the CWD catalogue does not specifically indicate a high population frequency but more the extent and quality of documentation available for the given allele. This category indicates that there is universal agreement about the identity of this allele because it has been observed in multiple populations and there is sufficient data for robust frequency estimation ( Mack et al. 2013). These criteria resulted in the analysis of 63 alleles for HLA-A, 123 for HLA-B, 40 for HLA-C, 73 for HLA-DRB1, and 21 for HLA-DQB1 ( supplementary table S1 , Supplementary Material online).

    Pathogen Proteins

    Binding prediction analyses were performed on a data set of representative human pathogen proteins. Pathogens were selected from the Gideon database ( Berger 2005) based on the following criteria: a global distribution, a potential for high mortality and/or morbidity, and a significant impact over the course of human history ( Wolfe et al. 2007). The rational for these criteria was that such pathogens are likely to have contributed significantly to human evolution in general and to the evolution of MHC genes in particular. Wolfe et al. (2007) provided a comprehensive list of infectious diseases with the greatest evolutionary and historical significance. From that list, we have taken the majority of pathogens in our data set. However, to assess mortality and morbidity, epidemiological data were also collected from two published reports: the Annual report of the European Centre for Disease Prevention and Control ( European Centre for Disease Prevention and Control 2013) and the WHO Global Health Estimates ( World Health Organization 2016). First, pathogens with the highest current mortality were included. However, not just mortality, but also nonfatal morbidity can be historically and evolutionarily significant. Indeed, morbid pathogens can reduce the fitness of their host in different ways (e.g., by increasing the sterility), thus pathogens considered morbid were also included. Finally, eradicated pathogens known to be important in human history were taken into account. Here, we used protein sequences of present day pathogens to explore signatures of historical selection, even though ancient pathogen strains might have differed slightly in their antigen repertoires. While we do not expect an effect on the general patterns observed here, it might be interesting to explore subtle differences in future work. We further aimed for a balanced representation of different groups of pathogens (i.e., viruses, bacteria, parasites). Based on these criteria, we identified 27 pathogens (10 viruses, 10 bacteria, 7 macroparasites) that were classified into three groups: extracellular, intracellular, and intra-extracellular, based on their primary environment in the human body ( supplementary table S2 , Supplementary Material online). Then, for the selected pathogens, amino acid sequences of 232 pathogen proteins (8.5 ± 5.8 per pathogen) known to be antigenic ( Vita et al. 2015) and/or likely exposed to the host immune system (mostly secreted and surface proteins) ( Rana et al. 2016) were obtained from GenBank (for accession numbers see supplementary table S2 , Supplementary Material online).

    Peptide Binding Prediction Algorithms

    Computational antigen-binding prediction algorithms for MHC molecules were used to determine pathogen peptides potentially bound by the MHC alleles under investigation. Binding prediction was computed for all alleles at each of the five human MHC genes. Furthermore, as prediction analysis are likely to be more accurate for the core of the binding groove, which is known to be nine residues long and contributes the most to the recognition of the antigens, binding prediction was performed considering all possible 9mer pathogen-derived peptides. The data set of 232 representative human pathogen proteins described above resulted in a total of 118,097 unique pathogen-derived 9mer peptides that were analyzed using two different algorithms: NetMHCpan (v2.8) ( Hoof et al. 2009) for the alleles at class I loci (HLA-A, -B, -C) and NetMHCIIpan (v3.0) ( Karosiene et al. 2013) for the alleles at class II loci (HLA-DRB1, -DQB1). For alleles at the two class II loci (HLA-DRB1 y HLA-DQB1), we repeated the binding prediction analysis considering all possible 15mer pathogen-derived peptides. The predicted binding affinity between pathogen peptides and MHC molecule variants (defined in nanomolar IC50, i.e., half maximal inhibitory concentration) are ranked by the respective software, based on comparison with a large pool of naturally occurring peptides, and a rank percentage score (%rank) is assigned to each peptide. To define “bound” peptides, we used the default %rank threshold of 2, which includes weak and strong binders. All analysis were also repeated using another established binding threshold (%rank of 0.5) which includes only strong binders. El alelo HLA-A*30:04 was predicted to bind about four times as many peptides as the other 62 HLA-A alleles ( supplementary fig. S2 , Supplementary Material online) and was thus excluded as an outlier from subsequent analysis in order to prevent distortion of results. The binding prediction analyses were performed first on the complete data set of pathogen proteins (norte = 232), and then considering proteins within three groups separately: extracellular (norte = 58), intracellular (norte = 100), and intra-extracellular (norte = 75).

    Sequence Divergence

    Allele divergence was computed on the same set of alleles used in the binding prediction analysis reported in supplementary table S1 , Supplementary Material online. Protein sequences of HLA alleles were obtained from IMGT/HLA database ( Robinson et al. 2015). Exons forming the variable region in the peptide binding groove (i.e., exon 2 and 3 for class I alleles and exon 2 for class II alleles) were selected following the annotation obtained from Ensemble database ( Aken et al. 2016). Amino-acid sequence alignments were performed using MUSCLE ( Edgar 2004), and sites containing alignment gaps at the beginning or the end of sequences were removed. Genetic distances between alleles for all possible allele pairs at each locus were determined removing missing sites in pairwise comparisons and using five different pairwise parameters of allele divergence: p-distance ( Henikoff 1996), DayHoff ( Dayhoff et al. 1978), JTT ( Jones et al. 1992), Grantham ( Grantham 1974), and Sandberg ( Sandberg et al. 1998). Pairwise amino acid p-distance, DayHoff and JTT distances were calculated in MEGA 7 ( Kumar et al. 2016). Grantham and Sandberg sequence distances were calculated using a custom Perl script that required two input files: a FASTA file with aligned HLA alleles and a specific amino acid distance matrix. Grantham amino acid distance matrix was constructed from Grantham (1974). Sandberg amino acid distance matrix was calculated based on Euclidian distances between all 20 amino acids, using the Euclidian distance method in R version 3.4.1 ( R Development Core Team 2017) according to the five physicochemical z-descriptors described in Sandberg et al. (1998): z1 (hydorphobicity), z2 (steric bulk), z3 (polarity), z4, and z5 (electronic effects). Our perl script (together with the Grantham amino acid similarity matrix) is freely available for download from SourceForge (https://granthamdist.sourceforge.io/). It can be used for calculation of pairwise Grantham divergence for any set of aligned MHC alleles of any species.

    Allele Frequencies

    Information about HLA allele frequencies in different human populations where obtained from the Allele Frequency Net Database (AFND) ( Gonzalez-Galarza et al. 2015). We considered only populations of European ancestry with large sample sizes and for which frequencies of alleles at second field resolution were available: USA NMDP European Caucasian (norte = 1,242,890), German (norte= 39,689), and Polish (norte= 20,653) populations. Furthermore, as with the analyses above, we focused on alleles defined as “común” in the CWD catalogue, which led to exclusion of some alleles with a frequency <1%. For each population, we first determined the most common alleles (allele frequency >= 5%) and for all the alleles under investigation in a given population, we calculated the average Grantham pairwise divergence to the most common alleles, considering all possible heterozygote genotypes.

    Análisis estadístico

    Correlation Tests

    The Shapiro–Francia test was performed for all the parameters under investigation (i.e., measures of genetic distance, combined number of bound peptides and average Grantham pairwise amino acid divergence to the most common alleles) to explore samples’ distribution. As parameters were not normally distributed and tied ranks could be detected within our data, the nonparametric Kendall correlation was used to test for associations between parameters. When testing the association between sequence divergence and functional divergence, all PAG values were adjusted for multiple testing using a sequential Bonferroni correction across the number of alleles tested at each locus as well as across the number of different loci tested. When testing the association between the allele’s average divergence and its population frequency, PAG values were corrected across the number of populations tested. Correlations were performed in R version 3.4.1 ( R Development Core Team 2017).

    Permutation Tests

    To test for significant differences in the strength of correlation between allele divergence and the binding to pathogen group-specific peptides, we performed permutation tests. For this analysis, the set of 232 representative human pathogen proteins were randomly shuffled among the three groups of pathogens, maintaining the same number of proteins as observed in the original data (extracellular norte = 57, intracellular norte = 100 and intra-extracellular norte = 75). For each group of pathogens, permuted proteins were used to perform binding prediction analyses and compute correlation values between genetic distances and combined number of bound peptides counted for all possible allele pairs for the five HLA genes (analogous to original analysis). Each permutation was run 1,000 times, and the difference between correlation coefficients for intracellular and extracellular proteins for the five HLA genes was recorded. If there was no significant bias for intracellular or extracellular pathogens, on average this difference should be zero. The distribution of permuted differences was then used to infer the significance of our initial observations using a one-tailed test with a 0.05 cut-off.

    Artificial Proteins

    Four sets of artificial proteins were created and analyzed to test for potential differentiation of the amino acid composition (AAC) among the three groups of pathogens. The first set of artificial proteins was created by randomly shuffling amino acids within each pathogen protein by using the Shuffle Protein program ( Stothard 2000), thus maintaining the AAC of each protein intact. Three more sets of artificial proteins were created in R version 3.4.1 ( R Development Core Team 2017) by assembling random amino acids while maintaining several features as they occurred within each of the three pathogen groups used in the initial test (i.e., the number of proteins, the average length of sequences, the SD of the length and the minimum and maximum length). The second set of artificial proteins was created from random amino acids but maintaining the AAC as it occurred within each group of pathogen proteins. The third set of artificial proteins was created from random amino acids, while maintaining amino acid frequencies as they occur in the whole data set of pathogen proteins. Finally, amino acid composition computed from UniProtKB/Swiss-Prot data bank ( Gasteiger et al. 2005 Boutet et al. 2016) was used to create the fourth set of artificial proteins.

    Multivariate Analysis of Variance

    Multidimensional scaling is a multivariate statistical technique that can be used to display and summarize a high-dimensional data set in 2D graphical form. The technique was here applied to explore associations between subsets of pathogen proteins and amino acids. A nonparametric, permutational multivariate analysis of variance (PerMANOVA) was used to test for differences in the amino acid composition between pathogen groups. The PerMANOVA, based on a Bray–Curtis dissimilarity distance matrix, was run with 999 permutations to tests for statistical significance. Both procedures are implemented in the vegan package ( Oksanen et al. 2012) in R version 3.4.1 ( R Development Core Team 2017).

    Comparison of Average Amino Acid Compositions

    Comparison of mean amino acid compositions between the two groups of pathogen proteins (extracellular and intracellular) were performed using one-way analysis of variance all PAG values were adjusted for multiple testing using Bonferroni correction across the number of amino acids tested.


    Ver el vídeo: Κρεας=θάνατος (Mayo 2022).