Identificación de una vía evolutiva encubierta entre dos pliegues de proteínas

Noticias

HogarHogar / Noticias / Identificación de una vía evolutiva encubierta entre dos pliegues de proteínas

Sep 10, 2023

Identificación de una vía evolutiva encubierta entre dos pliegues de proteínas

Volumen de comunicaciones de la naturaleza

Nature Communications volumen 14, Número de artículo: 3177 (2023) Citar este artículo

317 Accesos

15 Altmetric

Detalles de métricas

Aunque se espera que las secuencias de proteínas homólogas adopten estructuras similares, algunas sustituciones de aminoácidos pueden interconvertir hélices α y láminas β. Tal cambio de pliegue puede haber ocurrido a lo largo de la historia evolutiva, pero la evidencia de apoyo ha estado limitada por: (1) la abundancia y diversidad de genes secuenciados, (2) la cantidad de estructuras de proteínas determinadas experimentalmente y (3) las suposiciones subyacentes a los métodos estadísticos utilizados para inferir homología. Aquí, superamos estas barreras mediante la aplicación de múltiples métodos estadísticos a una familia de ~ 600 000 proteínas reguladoras de la respuesta bacteriana. Encontramos que sus subunidades homólogas de unión a ADN asumen estructuras divergentes: hélice-giro-hélice versus hélice α + hoja β (hélice alada). Los análisis filogenéticos, la reconstrucción de secuencias ancestrales y los modelos AlphaFold2 indican que las sustituciones de aminoácidos facilitaron un cambio de hélice-vuelta-hélice a hélice alada. Esta transformación estructural probablemente amplió la especificidad de unión al ADN. Nuestro enfoque descubre una vía evolutiva entre dos pliegues de proteínas y proporciona una metodología para identificar el cambio de estructura secundaria en otras familias de proteínas.

La vida se sustenta en las interacciones químicas y las reacciones catalíticas de cientos de millones de proteínas plegadas. Las estructuras y funciones de estas proteínas están determinadas por sus secuencias de aminoácidos1. Como tal, los cambios de secuencia tienen varios efectos funcionales, que van desde ninguno hasta un deterioro intermedio y la pérdida completa2,3, con resultados biológicos que van desde ningún efecto observable hasta una enfermedad debilitante4,5,6. Si bien muchos estudios históricos indican que la variación de aminoácidos puede desplegar local o globalmente la estructura de la proteína7,8, dichos cambios generalmente no remodelan la estructura secundaria, como convertir hélices α en láminas β. Estos hallazgos respaldan la observación bien establecida de que las proteínas con secuencias similares tienen pliegues similares y ejecutan funciones similares. A su vez, estas similitudes se utilizan para clasificar los pliegues de proteínas en familias9,10,11 y subyacen a los métodos de predicción de estructura de proteínas de última generación12,13,14.

Sin embargo, un trabajo reciente muestra que un subconjunto de cambios de aminoácidos puede cambiar la estructura secundaria. Este proceso ha sido llamado "metamorfosis evolutiva15" y "cambio de plegado evolucionado16". Por ejemplo, la mutación asociada con el linfoma no Hodgkin más frecuente observada en el factor potenciador de micocito humano 2 (MEF2) cambia una hélice α C-terminal a una hebra β, lo que probablemente impide la función de MEF217. Además, numerosas mutaciones individuales desactivan el reloj circadiano de las cianobacterias al evitar una transformación que es crítica para su función normal: el cambio de su subdominio C-terminal de un pliegue βααβ a un pliegue αββα18. Finalmente, para una variante de proteína G diseñada, una sola mutación o incorporación a un dominio de proteína más grande puede cambiar el haz de 3-α-hélices que une la albúmina sérica humana a otros pliegues con funciones alteradas, como un pliegue de agarre α/β que se une a inmunoglobulinas o a un dominio de proteína ribosómica de trenza α/β19,20,21,22,23.

Estos ejemplos sugieren que el cambio de pliegue evolucionado de estructuras secundarias, a través de cambios de aminoácidos paso a paso, puede ser un mecanismo por el cual se originan nuevos pliegues de proteínas en la naturaleza. Si es así, este mecanismo evolutivo debería ser identificable mediante la búsqueda de secuencias de proteínas homólogas con diferentes estructuras determinadas experimentalmente (Fig. 1a). Enfoques similares han identificado con éxito relaciones evolutivas entre familias de pliegues de proteínas con estructuras secundarias conservadas pero diferentes arreglos terciarios24,25.

a Consultar la secuencia completa de FixJ (HTH4) contra el PDB con una ronda de BLAST produjo una coincidencia significativa con KdpE (wH) de longitud completa. En particular, en dos regiones, las hélices α determinadas experimentalmente se alinearon con las hojas β. b Una búsqueda posterior de PSI-BLAST confirmó una probable relación evolutiva entre las secuencias completas de FixJ y KdpE; las estructuras completas se muestran con NTD conservados en gris, conectores en naranja, HTH4 CTD en negro y wH CTD en amarillo. El alineamiento PSI-BLAST resultante incluye NTD y CTD (comenzando donde la secuencia KdpE está resaltada en amarillo); los aminoácidos en negrita son idénticos (negro) o similares (gris), las regiones en las que las hélices α se alinean con las hebras β son rosadas; los huecos se denotan '-'. c Regiones de estructura tridimensional (izquierda) y estructura secundaria (derecha) donde PSI-BLAST alinea hélices α en el pliegue HTH4 con secuencias de cadena β en el pliegue wH (rosa). Las regiones grises indican estructura secundaria y terciaria conservada; las regiones beige en wH corresponden a sus aminoácidos adicionales en la alineación, indicados como espacios abiertos en la estructura secundaria alineada de FixJ (derecha). Los datos de origen se proporcionan como un archivo de datos de origen.

Sin embargo, las observaciones de la interconversión de estructuras secundarias evolucionadas se han visto obstaculizadas por varias barreras técnicas: (1) la abundancia y diversidad limitadas de genes secuenciados, (2) la cantidad limitada de estructuras de proteínas determinadas experimentalmente y (3) las suposiciones subyacentes a los métodos estadísticos. se utiliza para inferir homología. De hecho, las tres limitaciones afectaron el trabajo pionero de Cordes y sus colegas, quienes identificaron una probable relación evolutiva entre los dos factores de transcripción claramente plegados, P22 Cro y λ Cro26,27,28. Estructuralmente, estas dos proteínas comparten un núcleo N-terminal de 3 hélices pero tienen regiones C-terminales divergentes: la región C-terminal de P22 Cro se pliega en dos hélices α, mientras que la C-terminal de λ Cro asume una horquilla β. Aunque estas diferencias podrían haber surgido del cambio de plegamiento evolucionado, los datos disponibles eran demasiado limitados para ser concluyentes: en el momento de su estudio, la familia de proteínas comprendía solo 55 secuencias y 5 estructuras resueltas (barreras (1) y (2)) . Los autores también propusieron la existencia de una barrera (3): dado que las búsquedas de PSI-BLAST en toda la base de datos no identificaron P22 Cro y λ Cro como homólogos, los autores concluyeron que27, "los métodos basados ​​en perfiles podrían ser intrínsecamente inadecuados... ha ocurrido un cambio, ya que los patrones de conservación de la secuencia cambiarán en tal caso".

Desde que se realizó el estudio mencionado hace casi 20 años, el número de secuencias disponibles en la base de datos RefSeq29 ha aumentado en tres órdenes de magnitud, y el número de estructuras determinadas experimentalmente depositadas en el Protein Data Bank (PDB) ha aumentado en un factor de 730,31. Por lo tanto, planteamos la hipótesis de que ahora se dispone de suficiente información sobre la secuencia y la estructura de la proteína para detectar cambios graduales de aminoácidos que conducen al cambio de pliegue evolucionado.

Con ese fin, buscamos evidencia entre una gran familia de reguladores de la respuesta bacteriana que comprende ~600 000 secuencias y 76 estructuras únicas determinadas experimentalmente. Cada homólogo de esta familia constituye la mitad de un "sistema de dos componentes" bacteriano; la otra mitad es una proteína sensora afín32. Estos pares de proteínas trabajan juntos para permitir que las bacterias respondan a su entorno a través de la quimiotaxis33, la resistencia a los antibióticos34, la detección de oxígeno35 y más36. Para llevar a cabo su función, cada proteína sensora tiene un dominio extracelular que se une a un ligando desencadenante, activando así el dominio histidina quinasa del sensor para fosforilar su regulador de respuesta afín en un aspartato conservado en el dominio receptor N-terminal. A su vez, esta modificación hace que el dominio de "salida" C-terminal del regulador de respuesta monte la respuesta del organismo, como una regulación alterada de la transcripción37.

Estructuralmente, las proteínas reguladoras de la respuesta comparten una arquitectura de dominio N-terminal común, mientras que las diferencias estructurales entre sus dominios C-terminal se han utilizado para dividirlas en subfamilias37,38. Casi el 50 % de los dominios C-terminales se pliegan en dominios de unión al ADN de hélice-giro-hélice (HTH) o hélice alada (wH)37. (Este ~50% corresponde a las ~600.000 secuencias mencionadas anteriormente). Ambos pliegues del dominio C-terminal comprenden un paquete central de 3 hélices flanqueado por (1) un enlazador helicoidal N-terminal y una cuarta hélice C-terminal (p. ej., un HTH tetrahelicoidal o HTH4) o (2) un conector de cuatro hebras. Hoja β N-terminal (aquí llamado enlazador para facilitar la comparación) y una horquilla β C-terminal (o "ala", Fig. 1b y c). En promedio, los reguladores de respuesta con dominios de salida HTH4 son ~30 residuos más cortos que sus contrapartes wH.

El descenso evolutivo común del regulador de respuesta HTH4 y los dominios wH se sugirió previamente39. Sin embargo, no se pudo detectar un mecanismo evolutivo, probablemente debido a la escasez de información sobre secuencias y estructuras disponible en el momento del estudio. Por lo tanto, no ha quedado claro si las diferencias en las estructuras secundarias de CTD se debieron a inserciones de secuencias, recombinación de dominios completa o parcial, cambios de aminoácidos por pasos (p. ej., cambio de pliegue evolucionado) o alguna combinación de los tres.

En este trabajo, informamos un fuerte apoyo estadístico para el cambio de pliegue evolucionado de la estructura secundaria C-terminal en los dominios HTH4 y wH y proponemos una vía evolutiva putativa entre los dos pliegues. Primero, mostramos que la hélice α C-terminal del HTH4 comparte una relación evolutiva con el ala de la hoja β del wH (Figs. 1 y 2). Luego, esta relación se reforzó mediante múltiples análisis estadísticos de relaciones filogenéticas, reconstrucción de secuencias ancestrales con modelos AlphaFold2 y análisis funcionales. Todas las líneas de evidencia apuntan consistentemente a una trayectoria evolutiva por la cual una hélice α se transformó en una hoja β a través de mutaciones escalonadas. Nuestros resultados sugieren cómo las mutaciones paso a paso pueden cambiar la estructura secundaria de la proteína y proporcionar una metodología para identificar el cambio de pliegue evolucionado en otras familias de proteínas.

Anteriormente usamos la proteína BLAST40 para buscar en el PDB pares de secuencias de proteínas con una identidad de secuencia alta (≥70% aunque no idéntica) pero estructuras secundarias divergentes determinadas experimentalmente41 (Fig. 1a). Este estudio respalda la hipótesis de que las proteínas homólogas pueden cambiar de pliegue a través de una mutación gradual, pero no pudo proporcionar una descripción detallada de cómo ocurrieron las transiciones estructurales. De hecho, de las proteínas de cambio de pliegue informadas, NusG tenía el conjunto de secuencias más grande, con ~ 16,000 secuencias no redundantes42; sin embargo, estas secuencias no están anotadas de forma fiable42 y la/s transición/es de pliegue es/son difícil de identificar43, lo que confunde los análisis filogenéticos que podrían revelar la transición de cambio de pliegue.

Aquí, razonamos que buscar familias con un mayor número de secuencias mejoraría las estadísticas subyacentes a la inferencia de homología, aumentaría la precisión de la anotación de pliegues y permitiría los análisis filogenéticos estadísticamente significativos necesarios para identificar proteínas homólogas pero claramente plegadas. Las familias más grandes también pueden proporcionar la capacidad de identificar vías de cambio de plegamiento evolucionadas entre secuencias con ≤70% de identidad. Con ese fin, utilizamos todas las secuencias ~ 150,000 en el PDB para consultar todas las demás secuencias con estructuras secundarias divergentes (sección "Métodos") e identificamos coincidencias de secuencias con valores e de 1e-04 o inferiores. Los valores e más bajos indican que es cada vez más improbable que surja una coincidencia por casualidad, lo que permite inferir la homología44. Nuestro umbral de 1e-04 es conservador; 5e-02 se usa a menudo para inferir homología40 y algunas secuencias con valores e incluso más altos también son homólogas40.

Entre los pares de posibles homólogos de cambio de pliegue en el PDB, identificamos una coincidencia entre las estructuras completas de FixJ de Bradyrhizobium japonicum (consulta) y KdpE de Escherichia coli, con un valor e de 1e-07. Es importante destacar que FixJPDB y KdpEPDB están definidos por varios anotadores independientes, incluidos Pfam, ECOD y SCOP (sección "Métodos") como si tuvieran diferentes pliegues. Tanto FixJPDB como KdpEPDB son reguladores de respuesta de sistemas bacterianos de dos componentes. Estas proteínas son muy abundantes dentro y entre innumerables especies bacterianas. Secuencias para >1,000,000 de genes diversos están presentes en la base de datos nr, que es casi 2 órdenes de magnitud más grande que la familia NusG mencionada anteriormente.

Estructuralmente, los dominios N-terminal (NTD) de FixJPDB y KdpEPDB mostraron una gran secuencia y similitudes estructurales (Fig. 1b, izquierda), mientras que sus enlazadores y dominios C-terminal (CTD) de unión al ADN mostraron similitudes de secuencia modestas y diferencias sorprendentes en estructura secundaria: el CTD de FixJPDB comprende una arquitectura tetrahelicoidal de hélice-giro-hélice (HTH4), mientras que el CTD de KdpEPDB comprende una hélice alada (wH, Fig. 1). El KdpEPDB CTD también es 15 aa más largo que el de FixJPDB. No obstante, el enlazador helicoidal de FixJ se alineó parcialmente con las cuatro hojas β del CTD de KdpE. (Para facilitar la comparación, llamamos a ambas regiones "enlazadores".) Además, la hélice α del terminal C de FixJPDB se alinea con la horquilla β del terminal C del CTD de KdpEPDB, también conocida como su "ala".

A diferencia de las consultas con proteínas de longitud completa, las búsquedas BLAST y PSI-BLAST del PDB utilizando las secuencias de CTD aislados de FixJPDB o KdpEPDB como consultas solo identificaron secuencias de las mismas familias de pliegues (HTH4 o wH). No se identificaron las secuencias que codifican la estructura alternativa.

Dos posibilidades podrían explicar estos resultados contradictorios. En primer lugar, en las secuencias de longitud completa, las fuertes similitudes de los NTD podrían dar lugar erróneamente a la alineación de CTD a través de la "sobreextensión homóloga", en la que las secuencias no homólogas flanqueantes se incluyen erróneamente en una alineación de secuencia local45. En este caso, los CTD claramente plegados no compartirían un ancestro común. En cambio, los genes que codifican los CTD separados probablemente se recombinaron con genes que codifican los NTD de los reguladores de respuesta. De acuerdo con esta posibilidad, la cobertura de alineación después de nuestra búsqueda BLAST inicial incluyó solo el 52% de la secuencia CTD. Alternativamente, los dominios HTH4 y wH podrían compartir un ancestro común que es difícil de inferir de manera sólida a partir de las secuencias CTD divergentes y aisladas. En este caso, la búsqueda con secuencias completas (NTD + CTD) produjo alineaciones estadísticamente significativas que sugirieron correctamente una relación evolutiva entre CTD plegados alternativamente. De hecho, el segundo fenómeno se propuso tanto para las proteínas Cro26,27,28 como para los factores de transcripción NusG bacterianos46.

Para discriminar aún más si nuestra coincidencia inicial FixJPDB/KdpEPDB HTH4/wH indicaba una verdadera relación evolutiva o era el resultado de una sobreextensión homóloga defectuosa, luego usamos FixJPDB completo para consultar el PDB con 3 rondas de PSI-BLAST40, un algoritmo iterativo que identifica la conservación. patrones entre secuencias de proteínas homólogas. A diferencia del algoritmo BLAST más rápido (que identifica coincidencias utilizando identidades por pares entre la secuencia de consulta y las entradas en una base de datos de secuencias), PSI-BLAST busca secuencias que coincidan con patrones de conservación dentro de un conjunto de secuencias homólogas utilizadas para generar una matriz de puntuación específica de posición. Esta matriz almacena puntajes para sustituir un aminoácido por otro en cada posición de secuencia y se actualiza después de cada iteración de PSI-BLAST si se encuentran nuevas secuencias en la búsqueda. Como tal, PSI-BLAST identifica patrones de conservación ocultos característicos de una familia de proteínas determinada que BLAST no puede detectar. De hecho, PSI-BLAST identificó patrones de conservación más fuertes entre las secuencias que codifican los pliegues HTH4 y wH. Este enfoque de alineación también cambió los registros de alineación de los CTD, de modo que el 97 % de la secuencia FixJPDB se alineó con KdpEPDB con un valor e de 6 × 10−39 (Fig. 1b, derecha). Este resultado respalda la hipótesis de que los pliegues HTH4 y wH de los CTD FixJ y KdpE son homólogos distantes en lugar de artefactos de alineación.

Además, para 11 de las 20 coincidencias principales de PSI-BLAST de esta búsqueda, los CTD asumieron el mismo pliegue wH que KdpEPDB, mientras que las otras 9 coincidencias asumieron el mismo pliegue HTH que la consulta FixJPDB (Tabla complementaria 1). Una búsqueda PSI-BLAST recíproca de tres rondas utilizando la secuencia KdpEPDB de longitud completa como consulta alineó el 90 % de esta proteína con FixJPDB, con un valor e de 10−29. En particular, las secuencias de dominios de unión a ADN aislados con pliegues HTH se emparejaron con el CTD de KdpEPDB (wH), y las secuencias de dominios de unión a ADN aislados con pliegues wH se emparejaron con la secuencia de CTD de FixJPDB (HTH4, Tabla complementaria 2). Juntos, estos resultados indican que: (1) los dominios HTH4 y wH comparten un ancestro común39 y (2) el uso de secuencias completas en nuestros análisis, en lugar de dominios aislados, es legítimo y necesario para identificar la relación. Por lo tanto, todas las búsquedas posteriores utilizaron secuencias completas como consultas, a menos que se indique lo contrario.

Un examen más detallado de los pliegues alineados FixJPDB HTH4 y KdpEPDB wH reveló regiones de similitud y diferencia estructural: ambos pliegues comparten un núcleo trihelicoidal conservado39 (Fig. 1c). Por el contrario, son evidentes regiones llamativas de disimilitud entre (1) el enlazador entre dominios helicoidal α de FixJPDB y la hoja β de cadena cuádruple correspondiente de KdpE; los largos espacios en esta alineación sugieren que la región del enlazador de KdpEPDB se extendió a través de una inserción, y (2) la hélice C-terminal de FixJPDB se alineó con el "ala" de horquilla β C-terminal de KdpEPDB (Fig. 1c); la alineación sin brechas de esta región sugiere que una de estas dos estructuras secundarias puede haber evolucionado hacia la otra a través de una mutación gradual.

Para probar más a fondo si las mutaciones paso a paso podrían haber generado un cambio de hélices α a hojas β (o viceversa), luego usamos un algoritmo de búsqueda de secuencia alternativo, jackhmmer, para evaluar la posible relación evolutiva entre los reguladores de respuesta con salida HTH4 y wH dominios Aunque las búsquedas iterativas basadas en el modelo oculto de Markov (HMM) son más sensibles desde el punto de vista computacional, suelen ser más sensibles que PSI-BLAST47 y pueden evitar mejor la sobreextensión homóloga45. Con ese fin, se identificaron secuencias para 23 reguladores de respuesta de longitud completa no redundantes con dominios HTH4 (11) y wH (12) del PDB utilizando la base de datos ECOD.

En esta ronda de análisis, nuestro objetivo fue determinar si las secuencias de todos los reguladores de respuesta de longitud completa determinados experimentalmente con pliegues HTH4 y wH podrían coincidir con las secuencias que codifican el pliegue alternativo (es decir, coincidencias de HTH4 con wH, y viceversa). Usando jackhmmer47, cada secuencia de longitud completa se usó para consultar todas las secuencias del PDB (sección "Métodos"). Como se esperaba, las identidades de secuencia por pares de 23 reguladores de respuesta de longitud completa se agruparon en dos subfamilias en función de sus arquitecturas CTD (HTH4 y wH, Fig. 2a), lo que indica que los CTD en las mismas familias de pliegues tienen relaciones evolutivas más cercanas que aquellos en diferentes pliegues. familias (Figura complementaria 1). No obstante, las hélices C-terminales de los dominios HTH4 se alinearon consistentemente con una región en las alas de horquilla β C-terminales de los dominios plegados wH (Fig. 2b). Además, los enlazadores de interdominio α-helicoidales de HTH4 se alinearon consistentemente con las cuatro cadenas β N-terminales del dominio wH. Para respaldar aún más la relación de pliegues cruzados, las consultas completas identificaron otras 19/34 estructuras de solo CTD, nuevamente con reconocimiento de pliegues cruzados.

Se utilizaron secuencias alineadas con Jackhmmer de reguladores de respuesta con estructuras determinadas experimentalmente (ID de PDB) para calcular las identidades de secuencia por pares. Las secuencias se agrupan en dos subfamilias, con dominios C-terminales HTH4 (soporte superior derecho) y wH (soporte inferior derecho). Cada fila informa el porcentaje de identidades alineadas (números dentro de los recuadros) calculados a partir de comparaciones por pares. Las secuencias idénticas son blancas; todos los demás están coloreados por % de identidad (barra de color izquierda). b Estructuras secundarias determinadas experimentalmente de cada secuencia en a. El dominio N-terminal, el enlazador y el dominio C-terminal se indican con diferentes colores de fondo. Las estructuras secundarias están coloreadas por sus alineaciones de estructuras secundarias basadas en secuencias con las estructuras plegadas alternativamente (HTH4 alineado con wH y viceversa). Las estructuras secundarias idénticas que se alinean constantemente son de color púrpura oscuro (p. ej., hélices que siempre se alinean con hélices); las estructuras secundarias que se alinean con las regiones de la espiral aleatoria van desde el violeta claro hasta el rosa; Las hélices α que se alinean con las hojas β y viceversa se colorean de rosa a amarillo, dependiendo de si la alineación es más o menos frecuente. c Diagramas de caja y bigotes de log10 (valores e) de búsquedas jackhmmer de secuencias que usaron un pliegue para consultar secuencias de la subfamilia alternativa (HTH4 contra wH o viceversa). Las distribuciones de cada cuadro HTH4 (fondo gris)/wH (fondo amarillo) se derivaron de N = 12 (1A04, 1YIO, 3C3W, 4GVP, 4HYE, 4LDZ, 4YN8, 5F64, 5HEV, 5O8Y), 11 (1KGS, 1P2F, 2HQR, 4B09), 10 (5XSO, 2GWR, 4S04), 9 (2OQR), 8 (4KFC, 5VFA, 7LZ9), 7 (1YS6, 5ED4) valores e; cada cuadro limita el rango intercuartil (IQR) de los datos (primer cuartil, Q1 a tercer cuartil, Q3); las medianas de cada distribución son líneas grises dentro de cada caja negra; el bigote inferior es el dato más bajo por encima de Q1-1.5*IQR; el bigote superior es el dato más alto por debajo de Q3 + 1.5*IQR. Los datos de origen se proporcionan como un archivo de datos de origen.

La posible relación entre los pliegues de HTH4 y wH se apoyó aún más al evaluar las distribuciones de valor e de las alineaciones entre las proteínas de longitud completa con (1) homólogos de su propia subfamilia y (2) homólogos de la subfamilia plegada alternativamente (Fig. 2c, fondos grises/amarillos, respectivamente). Los valores medianos de e de las alineaciones entre la secuencia de un pliegue determinado experimentalmente (HTH/wH) y el conjunto de secuencias con el pliegue alternativo (wH/HTH) variaron de e-33 a e-43, lo que sugiere relaciones evolutivas significativas a través de todos los miembros de las dos subfamilias (Fig. 2c). Como se esperaba, los valores medios de e entre secuencias de pliegues similares oscilaron entre e-54 y e-72 (Fig. 2a complementaria), lo que indica relaciones evolutivas más cercanas.

También se identificaron alineaciones estadísticamente significativas entre secuencias de consulta de longitud completa y CTD aislados con el pliegue alternativo en 22/23 reguladores de respuesta de longitud completa. Los valores medios de e de estas alineaciones oscilaron entre e-04 y e-09, mientras que los valores medios de e de las secuencias alineadas de la misma familia de pliegues oscilaron entre e-17 y e-30 (Fig. 2b complementaria). Estas alineaciones específicas de dominio respaldan aún más la relación evolutiva entre los dominios HTH4 y wH.

Por lo tanto, los resultados del martillo neumático (Fig. 2) son consistentes con la alineación PSI-BLAST (Fig. 1b) y sugieren dos tipos de eventos evolutivos: (1) El enlazador puede haberse extendido/acortado a través de una inserción/eliminación; y (2) la mutación paso a paso puede haber inducido una interconversión estructural entre la hélice α C-terminal de HTH4 y la hoja β C-terminal de wH.

Aunque estas búsquedas de secuencias basadas en la estructura fueron consistentes con el cambio de pliegue evolucionado en los dominios C-terminal HTH4 y wH, el mecanismo de conversión de la estructura secundaria fue oscurecido por las ubicaciones alternativas de las secuencias insertadas en los homólogos de wH más largos. PSI-BLAST alineó completamente la hélice α C-terminal del HTH4 con la horquilla β del wH (Fig. 1b), lo que sugiere una conversión de estructura secundaria completa. Por el contrario, jackhmmer alineó la hélice α C-terminal de HTH4 con solo la primera cadena β de wH (Fig. 2b), lo que sugiere una conversión parcial junto con una inserción. Para discriminar entre estas opciones, luego recopilamos un gran conjunto de secuencias reguladoras de respuesta con dominios de salida HTH4 y wH. Con ese fin, las secuencias FixJPDB y KdpEPDB se compararon con la base de datos nr utilizando proteína BLAST para identificar 581.791 homólogos putativos. Dado el tamaño de este conjunto de secuencias, desarrollamos varias estrategias para seleccionar y muestrear los datos (sección "Métodos") de modo que el subconjunto final de secuencias sea lo suficientemente pequeño para varios análisis filogenéticos pero lo suficientemente grande para representar adecuadamente la gran familia de respuestas. reguladores

Con ese fin, las 581 791 secuencias se agruparon en 367 grupos mediante un algoritmo de agrupamiento voraz y se filtraron al 85 % de redundancia para obtener un número final de 23 791 secuencias. Luego se compararon los grupos para identificar 13 006 secuencias similares a FixJ y 10 785 secuencias similares a KdpE. Las secuencias dentro de cada grupo se alinearon fácilmente; sin embargo, los dos grupos tenían identidades generales de secuencia baja entre sí. Se intentaron varios enfoques para alinear estos grupos. Un intento identificó una "vía de homología transitiva" de 7 secuencias que conectan HTH4 con secuencias wH (Tabla complementaria 3, sección "Métodos") que se usó para hacer coincidir las alineaciones tipo FixJ (HTH4) y tipo KdpE (wH). Sin embargo, cuando se construyó un árbol filogenético en IQ-Tree para las 23 791 secuencias combinadas, su calidad era deficiente (es decir, 140 espacios/360 posiciones en la secuencia KdpEPDB) y no logró converger después de 3 rondas de arranque.

Sin embargo, la ruta de homología transitiva sugirió la existencia de secuencias adicionales que podrían unir las familias de pliegues HTH4 y wH. Por lo tanto, buscamos el conjunto de secuencias original con un enfoque alternativo. Primero, clasificamos los grupos con ≥100 secuencias por sus arquitecturas CTD para identificar 74 741/387 276 secuencias con dominios de salida HTH4/wH. Estos conjuntos de secuencias se usaron para construir bibliotecas BLAST. A continuación, las secuencias con dominios de salida HTH4 se filtraron hasta una redundancia del 50 % y las 4520 secuencias restantes se consultaron frente a la biblioteca wH con proteína BLAST. Si una coincidencia era estadísticamente significativa, buscamos registros de secuencia NCBI de ambas secuencias para anotaciones de estructura CTD, que generalmente se infieren de los modelos ocultos de Markov. Estos resultados se utilizaron para distinguir las coincidencias BLAST entre diferentes familias de pliegues (pares de secuencias con 1 HTH4 anotado y 1 wH anotado) de las coincidencias entre la misma familia de pliegues. Se retuvieron los pares de secuencias con anotaciones de diferentes familias de pliegues; este proceso identificó 3136 coincidencias entre 664 HTH4 y 2541 proteínas wH con valores e medios/medianos de 4 × 10−10/5 × 10−16. Las búsquedas BLAST recíprocas, utilizando las secuencias wH como consultas, se realizaron con éxito en los 3136 casos, con valores e de media/mediana de 1 × 10-8/2 × 10-16; estos valores e más altos probablemente reflejen el tamaño más pequeño de la base de datos de HTH4 o las longitudes más largas de las secuencias de wH en relación con HTH4.

Luego, alineamos las secuencias 3205 usando dos métodos diferentes, Clustal Omega48 y MUSCLE49 (Datos complementarios 1). Nuevamente, una diferencia clave entre estas alineaciones de secuencias múltiples (MSA) entre familias fue la ubicación de las secuencias insertadas en/eliminadas de los homólogos de wH más largos/HTH4 más cortos. Sin embargo, en ambos MSA de familias cruzadas, la hélice C-terminal de HTH4 se alineó completamente con el ala de hoja β C-terminal de wH, lo que indica la evolución de hélice α a hoja β por mutación gradual en lugar de inserción o eliminación. (Fig. 3a y Fig. 3 complementaria). En la alineación Clustal Omega, también se encontró una brecha de dos residuos en> 99% de los pliegues HTH4 en un pliegue wH anotado (wHwing_gap), lo que sugiere además que la interconversión de la hélice α ↔ la hoja β se produjo a través de una mutación escalonada. Además, se identificaron varias secuencias de HTH4 con longitudes de enlace similares a las secuencias de wH (p. ej., inserto HTH4_ en la Fig. 3a), lo que demuestra que los enlaces largos no son exclusivos de los pliegues de wH. Las secuencias dentro de la alineación fueron diversas, con identidades medias por pares del 31 % entre los pliegues HTH4, el 40 % entre los pliegues wH y el 31 % entre los pliegues. En particular, los patrones de conservación evolutiva diferían entre los pliegues HTH4 y wH (Fig. 4 complementaria). En particular, la hélice C-terminal de HTH4 no mostró patrones de conservación fuertes, mientras que el ala de hebra β de wH sí lo hizo. Como sugirieron Cordes y colegas27, estos patrones de conservación distintos pueden explicar por qué la homología entre las secuencias para los dominios wH y HTH4 aislados no se pudo inferir de las búsquedas de PSI-BLAST y jackhmmer contra el PDB.

una alineación Clustal Omega de las secuencias 3205 HTH4 y wH indica una conversión completa de la estructura secundaria C-terminal a lo largo de la historia evolutiva. Los diagramas de estructura secundaria se generaron utilizando las estructuras de FixJPDB (negro) y KdpEPDB (amarillo). Los colores de fondo de las cuatro secuencias coinciden con los del árbol filogenético. Las notas en los espacios entre secuencias muestran cambios importantes: (1) inserción del conector naranja (o eliminación, dependiendo de las propiedades de las secuencias ancestrales) (2) conversión de pliegues (3) elongación/eliminación de la secuencia. La palabra delante de una barra inclinada representa lo que sucede si una secuencia cambia de arriba hacia abajo; la palabra que sigue a la barra inclinada representa lo que sucede si una secuencia cambia de abajo hacia arriba. También es posible un ancestro común entre las secuencias FixJPDB y KdpEPDB. Los datos de origen se proporcionan como un archivo de datos de origen. b Los árboles filogenéticos de máxima verosimilitud sugieren un camino evolutivo entre los reguladores de respuesta con pliegues HTH4 y wH. Las secuencias con dominios C-terminales anotados como HTH/wH de los registros de proteínas NCBI son de color gris/amarillo. El clado que contiene las 12 secuencias puente identificadas está resaltado en rosa. HTH4_insert proporciona un ejemplo de una secuencia HTH4 anotada cuya longitud de enlace era similar a wH; wHwing_gap proporciona un ejemplo de una secuencia wH con una deleción de 2 residuos similar a la que se encuentra en >99 % de las hélices C-terminales de las secuencias HTH4 alineadas. Las unidades de distancia son arbitrarias, aunque las secuencias más alejadas en el espacio tienen relaciones evolutivas más distantes.

Finalmente, generamos un árbol filogenético compatible con bootstrap para el MSA entre familias. Sorprendentemente, los resultados revelaron un clado de secuencia que parece unir las dos familias de pliegues (Fig. 3b y Figs. S5 y S6). Las 12 secuencias de este clado incluyen una identificada en la ruta de homología transitiva; los 12 tienen dominios de salida anotados como HTH4 y se originaron a partir de varios filos bacterianos (Tabla complementaria 4). En el árbol filogenético, estas 12 secuencias se unen a las ramas con los CTD wH y HTH4 (Fig. 3b), lo que sugiere que sus antepasados ​​​​podrían ser intermedios evolutivos entre los dos pliegues. Para evaluar la solidez estadística de la interfaz HTH-bridge-wH, cuantificamos la frecuencia de su aparición utilizando árboles enraizados en los 6393 puntos de ramificación posibles. La probabilidad logarítmica de cada árbol enraizado se calculó utilizando la prueba50 aproximadamente imparcial (p-AU, figura complementaria 7A). De los 6393 enraizamientos posibles, 18 tenían una puntuación de p-AU ≥0.8 (Fig. 7B complementaria), lo que indica significancia estadística. En los 18 casos, las secuencias puente se unieron a ramas con dominios wH y HTH4 anotados (Fig. 8 complementaria), lo que respalda firmemente el papel de este clado como puente evolutivo entre los dos pliegues.

A continuación, examinamos las propiedades estructurales predichas de las secuencias en el clado puente. Para ello, se produjeron modelos estructurales de cada secuencia puente con AlphaFold214 (AF2). Sorprendentemente, todos los modelos asumieron el pliegue HTH4 (Fig. 9 complementaria). Este resultado sugiere algunas posibilidades. En primer lugar, algunas secuencias puente podrían interconvertirse entre los pliegues HTH4 y wH; trabajos anteriores han demostrado que AF2 generalmente predice solo una conformación dominante de proteínas que puede cambiar entre dos pliegues42,51. En segundo lugar, las predicciones de AF2 podrían no ser fiables, y algunas o todas las secuencias puente podrían, de hecho, asumir pliegues wH. En tercer lugar, la transición de pliegue podría haber ocurrido en ancestros anteriores ubicados en los nodos que unen la mayoría de las secuencias HTH4 y wH. Estos nodos conectan las dos familias de pliegues en el árbol (Fig. 5 complementaria), lo que sugiere que sus secuencias ancestrales correspondientes pueden haber tenido propiedades de los pliegues HTH y wH.

Por lo tanto, luego realizamos la reconstrucción de la secuencia ancestral y generamos modelos AF2 adicionales para las secuencias ancestrales que unen los pliegues HTH4 y wH (Figs. 4 y S5). Tenga en cuenta que los enlazadores de todas las secuencias ancestrales eran tan largos como los enlazadores wH. Nuestro razonamiento fue que los enlazadores de algunas secuencias HTH4 cerca de la región del puente eran igualmente largos que los enlazadores de las secuencias wH (Fig. 3 y Fig. 3 complementaria), lo que sugiere que estos enlazadores pueden haber sido modificados por una gran inserción.

El antepasado más antiguo parece ser la versión más larga de una hélice tetrahélice-giro-hélice (HTH4), a partir de la cual evolucionaron los pliegues de hélice alada (wH). La hélice C-terminal/horquilla β de cambio de plegado se muestra en rosa, y el enlazador estructuralmente plástico se muestra en amarillo. La secuencia de puente utilizada en este gráfico fue TME68356.1, la más cercana al nodo ancestral en la Fig. 3b.

Curiosamente, los resultados de la reconstrucción ancestral sugieren que las secuencias ancestrales pueden haber tenido regiones estructuralmente plásticas que podrían cambiar entre hélices α y hojas β en respuesta a la mutación (Fig. 4 y Tabla complementaria 5). En particular, el elemento de estructura secundaria más C-terminal del Ancestro 0 es una hélice α, el Ancestro 1 es una horquilla β y el Ancestro 2 vuelve a ser una hélice α (Fig. 4, rosa). Curiosamente, la secuencia de la horquilla β de Ancestor 1 es 83% idéntica a las secuencias de las hélices C-terminales de Ancestor 0 y Ancestor 2, que son 75% idénticas entre sí. Estos resultados sugieren que solo dos mutaciones pueden cambiar la hélice α C-terminal a una hoja β y viceversa a través de un conjunto diferente de sustituciones de secuencia.

La región del conector N-terminal (Fig. 4, amarillo) también parece ser plástica. En los Ancestros 0-2, este enlazador está parcialmente plegado en una estructura de horquilla β, mientras que en el Ancestro 3 el enlazador asume una estructura de 4-láminas β completamente plegada. Por el contrario, el enlazador asume una estructura parcialmente helicoidal en Ancestros 4-5 y en la secuencia puente moderna (Fig. 4).

Tomados en conjunto, estos resultados sugieren que los ancestros de las secuencias en el clado puente pueden haber tenido propensión a los pliegues tanto wH como HTH4. Para probar aún más esta posibilidad, se realizaron búsquedas de PSI-BLAST y jackhmmer entre las secuencias ancestrales de CTD y las estructuras de PDB con pliegues HTH4 y wH. Se identificaron coincidencias cruzadas estadísticamente significativas en todos los casos, excepto en Anc. 3 (Datos complementarios 2). En comparación, las búsquedas anteriores de PSI-BLAST y jackhmmer de los CTD aislados de secuencias HTH4 y wH existentes coincidieron con homólogos con el mismo pliegue pero no con el alternativo.

Finalmente, buscamos identificar si el cambio de pliegues HTH4 a wH puede haber tenido alguna ventaja evolutiva. El examen de estructuras reguladoras de respuesta HTH4 y wH determinadas experimentalmente en complejo con sus socios de ADN afines sugiere que un beneficio de la transformación estructural podría haber sido la especificidad de unión ampliada. En promedio, los pliegues HTH4 contactan con 17 nucleótidos únicos, mientras que los pliegues wH contactan con 22 (Fig. 5a). Tanto los pliegues HTH4 como los wH tienen una sola hélice de reconocimiento que se une al surco principal, y la horquilla β C-terminal de las hélices aladas también entra en contacto con el surco menor (Fig. 5b). Como tal, los dominios wH probablemente pueden reconocer más secuencias de nucleótidos únicas que HTH.

un gráfico de caja y bigotes simplificado con puntos de datos superpuestos para el número de contactos entre HTH4 y ADN (negro) y wH y ADN (amarillo). En promedio, los dominios HTH4 tienen 5 contactos de ADN menos que los dominios wH. Las barras centrales corresponden a las medias, las barras superior/inferior a las desviaciones estándar. Las estadísticas se derivaron de 16/15 estructuras determinadas de forma independiente de complejos HTH-DNA/wH-DNA. Los datos de origen se proporcionan como un archivo de datos de origen. b Ejemplos de interacciones de ADN (gris) con los dominios HTH4 y wH, arriba y abajo, respectivamente. La hélice α C-terminal del HTH4 (negro, arriba) no hace contacto con el ADN, mientras que el ala de horquilla β del wH (amarillo, abajo) hace contacto con el surco menor. Las partes estructuralmente similares de los pliegues HTH4 (PDB ID: 1h0m, cadena D) y wH (PDB ID: 4hf1, cadena A) son de color gris claro. Este resultado y el correspondiente aumento en el número posible de secuencias de ADN únicas que podrían ser reconocidas por wH podrían explicar por qué evolucionó a partir de HTH4 en los reguladores de respuesta.

Décadas de investigación sugieren que la estructura secundaria de la proteína se conserva en gran medida a lo largo de la historia evolutiva52,53. En consecuencia, una variedad de estudios han demostrado que los nuevos pliegues de proteínas pueden evolucionar a través de varios mecanismos que mantienen fija la estructura secundaria, como inserciones, eliminaciones y permutaciones circulares54. Otros han demostrado que las proteínas con estructuras secundarias conservadas pueden evolucionar en diferentes arreglos terciarios24,25,55.

Por el contrario, varios estudios recientes sugieren que las mutaciones paso a paso pueden cambiar las estructuras secundarias de las proteínas, fomentando la evolución de nuevos pliegues de proteínas19,28,56,57. Nuestro trabajo respalda esta hipótesis al identificar una trayectoria evolutiva estadísticamente significativa entre dos pliegues de proteínas. Estos pliegues comprenden fragmentos de CTD reguladores de respuesta que cambian de hélice α a hoja β. Nuestros hallazgos están respaldados por la reconstrucción de secuencias ancestrales, modelos estructurales y varios métodos de alineación de secuencias. Además, este cambio de pliegue evolucionado probablemente tuvo una consecuencia funcional: expandir la especificidad de unión al ADN. En particular, los pliegues de HTH4 y wH no se limitan a la superfamilia de reguladores de respuesta. En otras familias, los wH podrían haber evolucionado a partir de ancestros HTH4 a través de mecanismos diferentes o adicionales (y el orden evolutivo puede diferir).

Dado que la región de cambio de pliegue observada aquí comprende un fragmento de la proteína completa, comparamos nuestro mecanismo paso a paso propuesto con otros mecanismos para la evolución de proteínas que involucran fragmentos de proteínas, como "palabras"58 y "temas puente"59,60,61. El trabajo presentado aquí difiere de estos estudios en varias formas importantes. Primero, las "palabras" se definieron como fragmentos de proteínas con "similitudes locales en secuencia y estructura dentro de pliegues globalmente diferentes"58, y los "temas" puente comprenden cada uno un conjunto de "fragmentos de proteínas homólogas que se encuentran en diferentes contextos secuenciales y estructurales"59. Como tal, las secuencias aisladas de estos fragmentos tienen una homología discernible sin el contexto del resto de la proteína. Por el contrario, las secuencias de cambio de pliegue de los fragmentos HTH4 y wH informados aquí solo exhibieron una homología discernible dentro del contexto de la proteína completa. En términos prácticos, las búsquedas utilizadas para identificar palabras y temas, que se basan en coincidencias entre secuencias homólogas de fragmentos de proteínas en diferentes contextos de proteínas, no podrían usarse para identificar la transición de cambio de pliegue evolucionado propuesta aquí.

En segundo lugar, el mecanismo evolutivo que subyace a las palabras y los temas puente difiere de la mutación gradual que probablemente hizo que los dominios HTH4 de los reguladores de respuesta evolucionaran hacia pliegues wH. Las palabras y los temas puente son fragmentos de proteínas conservados propuestos para recombinarse con segmentos no homólogos de la estructura de la proteína o acumularlos para formar dominios distintos. Por el contrario, la transición de cambio de pliegue propuesta aquí ocurre dentro de un contexto de proteína conservada. En este caso, las mutaciones escalonadas parecen haber causado que un fragmento de proteína cambie de hélice α a hoja β sin recombinación o acreción de fragmentos. Es importante destacar que la recombinación de fragmentos, la acumulación y la mutación paso a paso son todos mecanismos evolutivos válidos que ocurren en diferentes situaciones.

En tercer lugar, aunque algunos temas puente cambian de pliegues61, es probable que su cambio dependa de su contexto de proteína más grande. Es decir, dentro de dominios plegados de manera diferente, el mismo tema puente también puede asumir pliegues diferentes. Esto también es cierto para las secuencias de camaleón62,63, fragmentos de proteínas idénticos con diferentes pliegues en diferentes contextos de proteínas. Por el contrario, las secuencias homólogas en este trabajo asumen diferentes estructuras dentro de contextos de proteínas homólogas: ambos pliegues son C-terminales a una hélice trihélice-giro-hélice conservada39. No se puede exagerar que el cambio de pliegue que informamos fue encubierto: la homología entre las secuencias de la región de cambio de pliegue no se pudo identificar sin el contexto del resto de la proteína, incluido el dominio del receptor N-terminal. Este punto crítico distingue nuestros hallazgos de estudios previos de palabras y temas puente, así como del mecanismo de "destrucción creativa" por el cual los nuevos pliegues evolucionan a través de fusiones de genes que codifican dominios distintos64.

Aunque fuera del alcance de este estudio, las pruebas experimentales de las secuencias puente informadas y los ancestros reconstruidos pueden revelar detalles mecánicos de la transición de HTH4 a wH. Sería de particular interés si alguna de estas secuencias puebla ambos pliegues, como se ha observado para otras proteínas de cambio de pliegue57,65. Para los ancestros reconstruidos, la interconversión estructural sería análoga a los estudios funcionales de ancestros reconstruidos de proteínas fluorescentes verdes y rojas que emiten luz verde y roja66 o receptores de glucocorticoides promiscuos reconstruidos a partir de receptores existentes con especificidades de unión únicas67. Como se ha demostrado en trabajos anteriores57,68,69, la interconversión estructural se puede observar con espectroscopia de resonancia magnética nuclear (RMN). De hecho, los estudios de RMN del represor Arc70,71 y XCL157 identificaron un puñado de mutaciones clave que cambian los pliegues de las proteínas. En consecuencia, sería interesante identificar experimentalmente vías mutacionales mínimas que cambien las secuencias de HTH4 a wH y viceversa.

Los enfoques computacionales de base biofísica también pueden proporcionar información sobre el mecanismo y la evolución de las proteínas reguladoras de la respuesta con dominios HTH4 y wH. Dichos estudios predijeron con éxito transiciones de pliegues entre variantes de proteína G diseñadas con altos niveles de identidad de secuencia pero diferentes pliegues72,73. Se pueden utilizar otros modelos biofísicos o enfoques híbridos teórico-experimentales para inferir los roles de las mutaciones puntuales, la multifuncionalidad, la presión selectiva y la epistasis en la evolución de las proteínas74,75,76.

El cambio de estructura secundaria, como la instancia identificada aquí, puede ser más común en el registro evolutivo de lo que se cree actualmente. Entre nuestros resultados, se observó consistentemente una ruta evolutiva de HTH4 a wH, con un clado de "secuencias puente" que ocupan una ubicación clave en la ruta. En particular, estas secuencias puente se identificaron a partir de la secuenciación metagenómica realizada principalmente en 2018 y 2019, lo que demuestra la importancia de las nuevas técnicas e iniciativas de secuenciación para avanzar en los estudios evolutivos77 y sugiere que ahora podrían identificarse más instancias de cambio de pliegue evolucionado.

Por lo tanto, cerramos ofreciendo la siguiente guía paso a paso (Fig. 6) para ayudar a futuras búsquedas computacionales para el cambio de pliegue evolucionado:

Identificar pares de secuencias homólogas con distintos pliegues. Aquí, logramos esto realizando una búsqueda de todos contra todos del PDB utilizando la proteína BLAST (Fig. 1, sección "Métodos"). Se pueden identificar instancias adicionales de cambio de pliegue evolucionado a medida que se depositan más estructuras. Alternativamente, los modelos estructurales generados por algoritmos predictivos como AlphaFold214, ColabFold78, RGN213 o ESM-fold79 podrían usarse en lugar de predicciones determinadas experimentalmente. Aunque menos seguras que el experimento, estas estructuras predichas podrían proporcionar puntos de partida útiles para los análisis de secuencias y las pruebas experimentales posteriores. En particular, la identificación exitosa de la vía evolutiva informada aquí requirió que se buscara la secuencia de proteína completa (dominios N-terminal + C-terminal) en lugar de solo el dominio C-terminal de cambio de pliegue.

Valide de forma cruzada los hallazgos utilizando secuencias homólogas con estructuras determinadas experimentalmente. Aquí, realizamos búsquedas jackhmmer de todas las secuencias reguladoras de respuesta con dominios HTH4 y wH cuyas estructuras se habían determinado experimentalmente. Encontramos signos de homología cruzada para todas las secuencias (Fig. 2). Este enfoque brinda confianza de que la relación evolutiva identificada en el Paso 1 abarcó ambas familias de proteínas en lugar de ser un solo éxito obtenido por casualidad. Se podrían realizar análisis similares en estructuras determinadas experimentalmente de conmutadores de plegado evolucionados putativos de otras familias de proteínas. Si tales estructuras no están disponibles, podrían generarse utilizando algoritmos predictivos. Si es necesario realizar muchas predicciones, recomendamos utilizar ColabFold78 debido a su alta precisión y rendimiento superior.

Identificar y agrupar secuencias homólogas a las dos familias de pliegues. Identificar. Para las secuencias FixJ/KdpE, las búsquedas BLAST de la base de datos nr arrojaron >1 000 000 de secuencias. Usamos BLAST debido a su eficiencia en la búsqueda en una base de datos tan grande, aunque también se podría usar un método más sensible y de alta eficiencia como HHBlits80. Es posible que se requiera la conservación del conjunto de secuencias (sección "Métodos") para eliminar secuencias anómalas. Grupo. Aunque usamos un algoritmo de agrupamiento voraz escrito a medida, también se podría usar MMSeqs281. A continuación, asociamos cada grupo restante con un pliegue dado mediante BLASTing de las secuencias de FixJPDB y KdpEPDB contra cada grupo y calculando qué secuencia produjo más coincidencias con ≥200 residuos y valores de e ≥ 1e-04.

Obtenga una alineación de secuencias entre familias que contenga secuencias con valores altos de e pero con diferentes anotaciones estructurales. Para completar con éxito los análisis posteriores, este paso "Ricitos de oro" es clave: los alineamientos demasiado grandes pueden conducir a resultados no interpretables (sección "Métodos"), pero los alineamientos que son demasiado pequeños podrían omitir inadvertidamente importantes intermedios evolutivos. Para este trabajo, extrajimos y construimos la alineación entre familias relevante buscando todas las secuencias de los grupos asignados a un pliegue (Fold1) contra todas las secuencias de los grupos asignados al otro (Fold2). Dado que este proceso involucró miles de búsquedas independientes, se usó proteína BLAST por eficiencia. Para mantener la coherencia, son necesarias búsquedas recíprocas de coincidencias de Fold2 con la base de datos de Fold1. Como paso final de validación, se recomienda descartar las secuencias de los grupos Fold1/Fold2 que no se anotaron como Fold1/Fold2 en sus registros de secuencias NCBI. El conjunto restante de secuencias de familias cruzadas se puede alinear luego usando múltiples algoritmos. En este caso, usamos tanto Clustal Omega48 como MUSCLE49.

Realice análisis filogenéticos aguas abajo. Aquí, hicimos análisis filogenéticos en nuestra alineación de secuencias entre familias con IQ-Tree82 y Consurf83 y reconstrucción de secuencias ancestrales con IQ-Tree. Una alineación entre familias debe ser compatible con una variedad de otros métodos de análisis filogenético.

1. Consulte una secuencia de interés (negro) contra el PDB (o base de datos de estructuras predichas) con una ronda de proteína BLAST (o phmmer) y busque aciertos con distintas estructuras secundarias (amarillo). Los aciertos pueden indicar un cambio de pliegue evolucionado. 2. Realice una validación cruzada de los resultados del paso 1 realizando búsquedas de secuencias más sensibles (p. ej., jackhmmer) de todas las secuencias homólogas con estructuras determinadas experimentalmente. Secuencias negras=Fold1; secuencias amarillas=Fold2. Las regiones negras de Fold2 tienen los mismos pliegues que Fold1 para permitir la posibilidad de que Fold2 sea un subdominio de proteína. 3. Si la validación cruzada tiene éxito, encuentre todas las secuencias homólogas a Fold1 (negro) y Fold2 (amarillo); secuencias de grupos por posible familia de pliegues. 4. Obtener una alineación de secuencias entre familias buscando todas las secuencias de Fold1 contra Fold2 y recíprocamente buscando aciertos de Fold2 contra Fold1. 5. Utilice la alineación entre familias para análisis posteriores, incluidos, entre otros, IQ-Tree, ConSurf y AlphaFold2. Las descripciones completas de cada paso se pueden encontrar en el texto principal.

Para identificar la supuesta relación evolutiva entre FixJPDB y KdpEPDB, realizamos búsquedas de proteínas BLAST con un valor e máximo de 1e-04 en todas las secuencias dentro del Protein Data Bank (PDB) contra todas las demás secuencias de PDB16,41. Para determinar si las secuencias homólogas se plegaron en diferentes estructuras, las anotaciones de la estructura secundaria de cada PDB, por DSSP84, se alinearon en registro con sus alineaciones BLAST correspondientes y se compararon una por una, posición por posición. Este enfoque nos permitió evaluar cuantitativamente la similitud de las estructuras secundarias alineadas. Se requería una coincidencia potencial para tener una región continua de al menos 15 residuos en los que al menos el 50% de los residuos mostraran diferencias de hélice α ↔ hoja β. Usando este enfoque, la secuencia de FixJPDB coincidió con la secuencia de KdpEPDB con un valor e de 1e-07; Se identificaron diferentes estructuras secundarias en los dominios de salida C-terminal a través de la comparación de DSSP. Las búsquedas posteriores de PSI-BLAST de tres rondas de secuencias FixJPDB y KdpEPDB contra todas las secuencias PDB se realizaron con una penalización por espacio abierto de 10 y una penalización por extensión de espacio de 1. En las búsquedas CTD PSI-BLAST, las secuencias para FixJPDB y KdpEPDB abarcaron residuos 124 –205 y residuos 129–225, respectivamente. Es importante destacar que FixJPDB y KdpEPDB fueron definidos para tener diferentes pliegues por varios anotadores independientes: Pfam85 (http://pfam.xfam.org): PF00010 (helix-turn-helix), PF02319 (winged helix). ECOD86 (http://prodata.swmed.edu/ecod/) los ubica en diferentes grupos T (HTH tetrahelicoidal y alado), SCOP10 (https://scop.mrc-lmb.cam.ac.uk): HTH: 8034563 (Dominio efector C-terminal de la superfamilia de los reguladores de respuesta bipartitos) Hélice alada: 8075578 (Superfamilia: similar a PhoB).

Para probar los resultados de PSI-BLAST obtenidos previamente, también se realizaron búsquedas jackhmmer en secuencias HTH4 y wH con estructuras determinadas experimentalmente. En consecuencia, se identificaron estructuras de 23 reguladores de respuesta de longitud completa con dominios de salida HTH4 (11) y wH (12) a partir de la base de datos de Clasificación Evolutiva de Dominios de Proteínas (ECOD)86. Se ejecutaron cinco rondas de jackhmmer en cada una de las 23 secuencias con probabilidades de apertura/extensión de brecha de 0,05 y 0,5, respectivamente, usando una base de datos de todas las secuencias descargadas del PDB (15/7/2021) y eliminando los duplicados de secuencia después de la búsqueda. Las identidades de secuencia de cada fila de la Fig. 2a se calcularon a partir de cada alineación de secuencia generada por la ejecución de jackhmmer en la secuencia de la entrada de PDB con etiquetas de ID en cada fila respectiva.

Las anotaciones DSSP se alinearon en registro con cada alineación de secuencia generada por jackhmmer para componer los diagramas de estructura secundaria en la Fig. 2b. Con más detalle, las anotaciones de la estructura secundaria de cada uno de los 11 HTH4 se compararon con las anotaciones de la estructura secundaria de 48 wH identificados a partir de ECOD; Del mismo modo, las anotaciones de estructura secundaria de cada uno de los 12 wH se compararon con las anotaciones de estructura secundaria de 35 HTH4 identificados a partir de ECOD (Datos complementarios 3). Las similitudes de cada par de estructuras secundarias alineadas (46 pares para cada una de las 11 proteínas HTH4, 30 pares para cada una de las 12 proteínas wH) se puntuaron de la siguiente manera: +1 para una posición con estructuras secundarias idénticas (hélice:hélice [H, G,I en notación DSSP] o hebra:hebra [E en notación DSSP]) y −1 para una posición con estructuras secundarias alternativas (hélice:hebra o hebra:hélice usando las mismas notaciones DSSP que antes). Las puntuaciones específicas de la posición se normalizaron por la frecuencia de los pares de residuos sin espacios en cada posición, incluidas las alineaciones de la estructura secundaria de la bobina, puntuadas efectivamente como 0. Estas puntuaciones específicas de la posición normalizadas se usaron para generar los mapas de colores de cada diagrama de estructura secundaria.

Las secuencias completas de FixJPDB (PDB ID 5XSO, cadena A) y KdpEPDB (PDB ID 4KFC, cadena A) se buscaron en la base de datos nr (8/10/2020) usando proteína BLAST con un valor e máximo de 1e–04 y un máximo de 500.000 alineaciones por búsqueda. Las secuencias completas de cada alineación se recuperaron mediante sus códigos de acceso NCBI utilizando blastdbcmd en la base de datos nr. Se combinaron todas las secuencias de ambas búsquedas, que totalizaron 999 912 después de eliminar los duplicados de secuencia. Se eliminaron las secuencias con menos de 162 o más de 300 residuos porque probablemente carecían de la estructura adecuada del dominio regulador de la respuesta, dejando 581 791 secuencias. Esto era demasiado para seleccionar con herramientas estándar, y muchas identidades de secuencia estaban muy por debajo del umbral de identidad de ~40 %, por debajo del cual muchas herramientas de alineación se vuelven poco confiables87. Por lo tanto, para analizar más a fondo estas secuencias, realizamos los métodos de agrupamiento y muestreo descritos en las siguientes secciones.

Del conjunto de 581 791 secuencias, se seleccionó un conjunto base de 367 secuencias, cada una con <24 % de identidad por pares con todos los demás miembros del conjunto, para agrupar secuencias de semillas. Por encima de este umbral, se esperaría que las secuencias del regulador de respuesta asuman estructuras similares52. Para identificar este conjunto de secuencias semilla, se eligió la primera secuencia de la lista de 581.791 secuencias (FixJPDB). Las secuencias posteriores se alinearon con la secuencia de FixJPDB utilizando Biopython88 pairwise2.align.localxs con penalizaciones de apertura/extensión de brecha de −1, −0,5, respectivamente. Si la identidad por pares de una secuencia con la secuencia FixJPDB <24 %, se agregaba al conjunto base. Las secuencias de la lista se alinearon con todas las secuencias añadidas previamente al conjunto base y se incluyeron solo si las identidades de todas las alineaciones por pares eran <24 %, lo que arrojó un total de 367 secuencias base. Las 581.424 secuencias restantes se agruparon con la secuencia base a la que tenían la identidad por pares alineada más alta, determinada exhaustivamente alineando todas las secuencias con todas las secuencias base usando pairwise2.align.localxs, con parámetros como antes.

Para reducir aún más el número total de secuencias, ignoramos los 251 grupos con menos de 50 secuencias. Los 116 grupos restantes comprendían 103 grupos "medianos" (<5000 secuencias) y 13 grupos "grandes" (> 4000 secuencias). De los grupos grandes, uno contenía la secuencia de FixJ (PDB ID 5XSO) y otras 283 762 secuencias, y otro contenía la secuencia de KdpE (PDB ID 4KFC) y otras 25 035 secuencias.

Las secuencias dentro de cada grupo medio se alinearon primero usando Clustal Omega48. La inspección visual reveló que algunas alineaciones estaban sesgadas por secuencias que eran sustancialmente más cortas o más largas que la mayoría de los homólogos en su grupo. Para identificar y filtrar computacionalmente tales secuencias, identificamos (i) "zonas dispersas" buscando ventanas de 8 posiciones donde más del 95% de las secuencias contenían espacios, y (ii) "zonas pobladas" buscando ventanas de 10 posiciones donde más del 90% de las secuencias contenían residuos de aminoácidos. Las secuencias con (1) ≥10 % de sus aminoácidos en zonas escasas o (2) <10 % de sus aminoácidos en zonas pobladas se eliminaron del grupo. Los umbrales del 10 % se determinaron empíricamente para realizar mejor este paso de "sacrificio". A continuación, realizamos entre 2 y 7 iteraciones sucesivas de selección y alineamientos Clustal Omega, hasta que convergió el número de secuencias en cada grupo. Durante este proceso, 9 grupos medianos se redujeron a menos de 50 secuencias y posteriormente se ignoraron, dejando 94 grupos medianos.

Finalmente, dado que el algoritmo de alineación global de Clustal Omega no informa con precisión la filogenia ni sugiere estructura, las múltiples alineaciones de secuencias se alinearon aún más utilizando PROMALS89, que primero agrupa secuencias según la filogenia y luego realiza la alineación local de dominios estructurales reconocidos. La calidad de todas las alineaciones de grupos se inspeccionó visualmente.

Los grupos grandes, con miles de secuencias, requerían diferentes estrategias para generar adecuadamente una submuestra que fuera manejable para análisis de secuencias adicionales. Para determinar los tamaños de las submuestras que representaban adecuadamente la composición de la secuencia dentro de los grupos, se extrajeron tres submuestras aleatorias e independientes de 1000 y 5000 secuencias del grupo FixJ, y tres submuestras de 5000 secuencias se extrajeron del grupo KdpE. Estas submuestras se sometieron a selección iterativa y alineaciones como los grupos medianos (descritos anteriormente).

A continuación, las alineaciones de secuencias múltiples (MSA) de estas submuestras se cargaron en ConSurf83 (https://consurf.tau.ac.il/consurf_index.php). Las puntuaciones resultantes se compararon para determinar cuántas secuencias se requerían para dar tasas evolutivas consistentes. Los resultados indicaron que se requerían 5000 secuencias para una representación adecuada de los grupos FixJ y KdpE. La inspección visual de los mapas de calor generados a partir de matrices de identidad de secuencia de estas alineaciones de secuencia apoyó la conclusión de que 5000 secuencias muestrearon uniformemente el espacio de secuencia. Por lo tanto, para representar los grupos FixJ y KdpE, elegimos aleatoriamente uno de sus 5000 conjuntos de secuencias de submuestras. Para 8 de los 11 grupos grandes con > 5000 secuencias, submuestreamos de manera similar 5000 secuencias. Los 3 grupos grandes con <5000 secuencias se seleccionaron como se describe para los grupos medianos.

La alta diversidad de secuencias entre grupos, con identidades de secuencias alineadas por pares entre grupos a menudo <24 %, impidió el ensamblaje MSA de la superfamilia FixJ-KdpE. Por lo tanto, buscamos estrategias para ensamblar secuencias de los 94 grupos medianos, 11 submuestras de grupos grandes y las submuestras de 5000 secuencias de los grupos grandes FixJ y KdpE en un MSA combinado. Primero, clasificamos los grupos en dos medias familias con secuencias similares a las de los grupos grandes FixJ o KdpE. Con ese fin, emparejamos las secuencias de cada grupo con todas las secuencias de los grupos grandes FixJ y KdpE con la proteína BLAST. Las secuencias de estos grupos tendieron a alinearse con una alta significación estadística con uno de los grupos grandes, pero no con ambos, lo que simplifica la clasificación de grupos. Este enfoque se mostró prometedor porque las secuencias de cada grupo se alinearon con las secuencias de otros grupos con identidades ≥38 %, lo que fomentó alineaciones confiables. Después de completar todas las búsquedas de BLAST, se asignaron 45 grupos medianos y 6 grandes a la media familia FixJ para un total de 13 006 secuencias y 49 grupos medianos y 5 grandes a la media familia KdpE para un total de 10 785 secuencias.

A pesar del muestreo y la selección, ambas medias familias eran demasiado grandes para crear un MSA con herramientas convencionales. Por lo tanto, utilizamos un enfoque alternativo en el que se generaron dos alineaciones de referencia utilizando Clustal Omega para alinear secuencias representativas de cada grupo (51 secuencias para FixJ y 54 para KdpE). A continuación, se utilizó PROMALS para refinar las dos MSA de referencia de media familia. Tras la inspección visual, se eliminaron 7 secuencias del MSA de referencia de KdpE porque generaban muchas lagunas en la alineación; sus grupos de origen fueron posteriormente ignorados. Las secuencias restantes en el MSA de referencia de KdpE se realinearon utilizando Clustal Omega y PROMALS. Finalmente, tras la inspección visual, los registros de prolinas y aminoácidos cargados se editaron manualmente para que coincidieran en 3 secuencias (PSQ94266, HBD38673 y KEZ75144) entre los registros 225 y 270 en el MSA de referencia de KdpE. No se necesitaba tal curación manual en FixJ MSA. Luego, las secuencias dentro de cada uno de los 98 grupos restantes (i) se alinearon de forma independiente con PROMALS y (ii) se integraron en el MSA de referencia de media familia apropiado usando MARS (Mantenedor de alineaciones usando secuencias de referencia para proteínas90). El programa MARS permite que las alineaciones de secuencias seleccionadas con al menos una secuencia en común se fusionen entre sí sin volver a alinear todo el conjunto de secuencias. Con este programa, se fusionaron todas las secuencias de los 51 grupos de emparejamiento de FixJ y la submuestra seleccionada del grupo de FixJ, utilizando el MSA de referencia de la mitad de la familia FixJ como guía. De manera similar, se fusionaron todas las secuencias de los 47 grupos de coincidencia de KdpE junto con la submuestra seleccionada del grupo de KdpE.

Las identidades por pares de secuencias en las dos medias familias eran demasiado bajas para crear un MSA de manera confiable. Por lo tanto, probamos un enfoque de "homología transitiva" para combinar las alineaciones de la mitad de la familia en una alineación para la superfamilia. Primero, identificamos un "camino" de secuencias relacionadas91,92 siguiendo la lógica de que, si las secuencias A y B son homólogas y las secuencias B y C son homólogas, entonces se puede asumir la homología entre las secuencias A y C a través de la secuencia "puente" B Para llevar a cabo esta estrategia, utilizamos la proteína BLAST para buscar la coincidencia de identidad de secuencia más alta entre los grupos grandes FixJ y KdpE sin muestrear (es decir, los grupos con >250 000 y >25 000 secuencias). Luego, este éxito se consultó en la base de datos del pliegue opuesto y así sucesivamente hasta que identificamos 7 secuencias con alineaciones de secuencias por pares, cada una con ≥38% de identidad de secuencia que conectaba la secuencia FixJ con la secuencia KdpE (Tabla complementaria 3). Tenga en cuenta que la secuencia "puente" TME68356 (Tabla complementaria 4) podría alinearse bien con otra secuencia en cualquiera de las dos mitades de la familia, aunque originalmente se asignó a la mitad de la familia KdpE. Las cuatro secuencias superior/inferior en la Tabla complementaria 3 se alinearon con las medias familias FixJ/KdpE usando Clustal Omega. Luego usamos MARS para combinar alineaciones de media familia usando la secuencia puente como referencia. El MSA familiar completo resultante contenía 45.199 secuencias. Estas secuencias se filtraron al 85 % de redundancia con CD-HIT, lo que finalmente produjo un MSA con 23 791 secuencias. Sin embargo, cuando se construyó un árbol filogenético en IQ-Tree para este conjunto de secuencias, su calidad era deficiente (es decir, 140 espacios/360 posiciones en la secuencia KdpEPDB) y no logró converger después de 3 rondas de 1000 iteraciones de arranque cada una.

La ruta de homología transitiva identificada anteriormente (Tabla complementaria 3) sugirió la existencia de secuencias adicionales que podrían unir los pliegues HTH4 y wH. En consecuencia, los cinco/seis grupos de secuencias FixJ/KdpE previamente asignados con > 4000 secuencias se combinaron y convirtieron cada uno en dos bases de datos BLAST que representan secuencias HTH4 (similares a FixJ) y wH4 (similares a KdpE). Las secuencias dentro de los grupos de secuencias FixJ combinados se redujeron al 50 % de redundancia usando CD-HIT93 con un tamaño de palabra de 2, como se recomienda. Se realizaron búsquedas de proteína BLAST en cada una de las 4520 secuencias restantes con un valor e máximo de 1e–04 utilizando la base de datos KdpEPDB completa. Todos los 8607 alineamientos con identidades de secuencia mínimas y longitudes de 33% y 200 residuos, respectivamente, se consideraron significativos. Para garantizar que estas alineaciones coincidieran realmente con las secuencias de HTH4 y wH, se recuperaron los registros del NCBI de 1793 HTH4 y 4995 secuencias de wH mediante efetch de NCBI. Se buscó en cada registro las anotaciones estructurales de su CTD (HTH o wH). Finalmente, se retuvieron 3074 coincidencias BLAST, cada una con un HTH anotado y un wH CTD anotado.

Para identificar secuencias HTH adicionales que podrían coincidir con secuencias wH, se realizaron búsquedas BLAST adicionales en las 4 secuencias HTH4 en nuestro conjunto de 3074 coincidencias que se alinearon con secuencias wH con ≥38 % de identidad por pares. Esta vez, la base de datos comprendía las 581 791 secuencias de longitud limitada identificadas a partir de las búsquedas iniciales de FixJ y KdpE BLAST. Estas búsquedas, destinadas a identificar secuencias de HTH4 adicionales independientemente de cómo se agruparan, produjeron 66 secuencias de HTH supuestas que podrían coincidir bien con secuencias de wH adicionales. Finalmente, se realizaron 66 búsquedas adicionales de Protein BLAST consultando cada una de las 66 supuestas secuencias de HTH contra todas las secuencias de los 47 grupos de emparejamiento de KdpE identificados previamente. Se incluyeron las 62 coincidencias resultantes con identidades de secuencia mínima y longitudes del 33 % y 200 residuos y anotaciones HTH/wH de sus registros NCBI, identificados como antes, con un total de 3136 coincidencias entre 3203 secuencias. Como referencia, también se incluyeron las secuencias de FixJPDB y KdpEPDB; estas dos secuencias tenían identidades alineadas mínimas y longitudes del 32 % y 198, respectivamente, con respecto a las secuencias que codifican los pliegues alternativos.

Las secuencias 3205 resultantes se alinearon de dos maneras, con Clustal Omega y con MUSCLE49 versión 3 usando el comando super5. Las columnas con espacios >75 % se eliminaron de ambas alineaciones utilizando Geneious Prime 2022.2.2 (https://www.geneious.com) para análisis adicionales. Las alineaciones finales mostraron una superposición total entre la hélice C-terminal de HTH4 y el ala de horquilla β de wH. Se realizaron análisis filogenéticos posteriores y reconstrucción de secuencias ancestrales en la alineación Clustal Omega.

También se utilizó una versión de ConSurf que se podía ejecutar localmente, Rate4Site 2.0194 (https://www.tau.ac.il/~itaymay/cp/rate4site.html), para calcular las tasas evolutivas para la alineación completa de las secuencias 3205 como las subfamilias separadas HTH4 y wH (secuencias 664 y 2541, respectivamente; Fig. 4 complementaria). Este programa requiere un archivo MSA para calcular un árbol filogenético. Elegimos el método bayesiano empírico para generar las tasas, lo que mejora significativamente la precisión de las estimaciones de puntajes de conservación en comparación con el método de máxima verosimilitud94. Los puntajes se representan como grados que van desde conservado (9) hasta variable (1).

Se infirió un árbol filogenético de máxima verosimilitud (ML) a partir de la alineación con FastTree95,96, utilizando los modelos Jones-Taylor-Thorton/JTT97 de evolución de aminoácidos y la aproximación CAT98 para tener en cuenta las diferentes tasas de evolución entre sitios. Este árbol también fue compatible con el arranque ultrarrápido (UFBoot99) implementado en IQ-Tree282. Usamos ModelFinder100 para identificar el modelo evolutivo mejor ajustado para el MSA (modelo elegido: LG + F + R10) y luego evaluamos el soporte de la sucursal con 1000 réplicas de UFBoot. El coeficiente de correlación mínimo para el criterio de convergencia se fijó en 0,99. También se generó un árbol de consenso (Figura 5 complementaria).

Los árboles ML y de consenso generados por FastTree e IQ-Tree2, respectivamente, carecían de información sobre la ubicación de las raíces de la filogenia estimada. Idealmente, la información externa, como un grupo externo, se utiliza para enraizar el árbol. Sin embargo, no pudimos usar un grupo externo porque no fue posible identificar una sola secuencia fuera de nuestra alineación que fuera homóloga a ambos pliegues. Por lo tanto, combinamos el modelo no reversible con un modelo de máxima verosimilitud101 utilizado para calcular las probabilidades logarítmicas de que los árboles tengan raíces en cada rama del árbol. Se realizó un bootstrapping de 10.000 repeticiones para obtener resultados fiables. El método devuelve una lista de 6393 árboles enraizados en cada nodo y ordenados por log-verosimilitudes en orden descendente, junto con otras puntuaciones de diferentes pruebas, de la siguiente manera; bp-RELL: proporción de arranque usando el método RELL102, p-KH: valor p de la prueba unilateral de Kishino-Hasegawa103, p-SH: valor p de la prueba Shimodaira-Hasegawa104, c-ELW: peso de probabilidad esperado105 y el p- AU: valor p de la prueba aproximadamente imparcial (AU)50.

La prueba AU utiliza una técnica de arranque multiescala recientemente diseñada para reducir el sesgo de la prueba y obtener un conjunto confiable de árboles estadísticamente significativos. La prueba AU, al igual que la prueba SH, ajusta el sesgo de selección pasado por alto en el uso estándar de las pruebas de probabilidad de arranque y KH. También elimina el sesgo que puede surgir de la prueba SH50. En general, se ha demostrado que la prueba AU está menos sesgada que otros métodos en casos típicos de selección de árboles y se recomienda para problemas generales de selección50. Por lo tanto, confiamos en p-AU (valores p de AU) para obtener una lista de los 18 árboles con raíces más probables con p-AU> 0.8.

La reconstrucción de la secuencia ancestral se realizó utilizando métodos de máxima verosimilitud implementados en IQ-Tree2, que utiliza el algoritmo descrito en Yang et al.106. Las secuencias ancestrales se determinaron para todos los nodos del árbol de consenso (Fig. 5 complementaria) utilizando el método bayesiano empírico. Las probabilidades posteriores se informan para cada estado (aminoácido) en cada nodo. Marcamos los nodos en tres pasos. Primero, calculamos la probabilidad promedio considerando todos los estados asignados en el nodo. Luego, reemplazando los estados por los aminoácidos en la secuencia puente (TME68356.1), calculamos el valor de p total. Finalmente, calculó la identidad de secuencia por pares entre la secuencia ancestral y la secuencia puente. Usando los tres criterios, identificamos 6 secuencias reconstruidas con valores de p bajos cerca de las secuencias puente. Estas secuencias se utilizaron para el análisis posterior y la construcción de modelos.

Las secuencias FASTA de los 6 ancestros reconstruidos, junto con las 12 secuencias puente, se usaron como entrada para la construcción completa del modelo de predicción de estructura AlphaFold2.114. Los MSA se generaron mediante el procedimiento predeterminado de combinación de búsquedas de secuencias de las bases de datos BFD, MGnify y Uniref. Las predicciones se realizaron utilizando plantillas con una fecha máxima de 20/04/2022. Las estructuras clasificadas como 0 se representaron en la Fig. 4 y S9. Para probar la plausibilidad de las estructuras generadas por AF2 para los ancestros reconstruidos y las secuencias puente, examinamos las predicciones de AF2 publicadas recientemente para las secuencias 338 HTH4 y 937 wH107. Las predicciones de AF2 coincidieron con las anotaciones genómicas en todos los casos. Las cualidades de predicción variaron: de 1275 estructuras pronosticadas, el 29 % se predijo con alta confianza, el 58 % tuvo una confianza moderada y el 13 % restante tuvo una confianza baja.

Los contactos de nucleótidos únicos entre los reguladores de respuesta y sus secuencias de ADN correspondientes se identificaron mediante Resmap108, una herramienta que utiliza las coordenadas atómicas de archivos PDB para calcular distancias intraatómicas para interacciones no covalentes bajo umbrales establecidos. Los umbrales de distancia predeterminados para los diferentes tipos de interacción que se usaron son: (1) Enlaces de hidrógeno: ≤3,5 Å, (2) Interacciones hidrofóbicas: ≤4,5 Å, (3) Interacciones aromáticas: ≤4,5 Å, (4) Contactos desestabilizadores: ≤ 3,5 Å, (5) pares de iones - ≤5,0 Å, (6) otros contactos (que incluyen interacciones de van der Waals) - ≤3,5 Å. Dado que la nomenclatura de los átomos de ADN ha cambiado desde el desarrollo de Resmap, los archivos PDB se editaron manualmente para que coincidan con el formato de entrada de Resmap con los siguientes cambios: (1) reemplazos de símbolos de ' a *, (2) los átomos de nucleótidos (A,C , G o T) se agregaron con el prefijo 'D' (DA, DC, DG, DT), (3) a los átomos de nucleótidos editados también se les asignaron números de identificación de átomo únicos. Los archivos PDB con estos cambios luego se ingresaron en Resmap para identificar contactos únicos entre los átomos en las cadenas de proteínas con los átomos en las cadenas de ADN.

Las figuras de proteínas se generaron en PyMOL (The PyMOL Molecular Graphics System, Version 2.0 Schrödinger, LLC) (https://pymol.org/2/), gráficos y mapas de calor en Matplotlib109 (https://matplotlib.org/stable/index. html) y seaborn110 (https://seaborn.pydata.org/). Los árboles filogenéticos se visualizaron con ggtree (https://guangchuangyu.github.io/ggtree-book/chapter-ggtree.html) implementado como un paquete R111.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Los datos generados en este estudio, incluidas las alineaciones de secuencias y los grupos, los análisis filogenéticos y los modelos AlphaFold2, se han depositado en la base de datos de Zenodo con el código de acceso https://doi.org/10.5281/zenodo.7837636. Los datos de respaldo generados en este estudio se proporcionan en la Información complementaria y el archivo de datos de origen. Los datos estructurales utilizados en este estudio están disponibles en Protein Data Bank (PDB) con el código de acceso 5XSO, [https://doi.org/10.2210/pdb5SXO/pdb], cadena A (FixJPDB) 4KFC, [https:// doi.org/10.2210/pdb4KFC/pdb], cadena A (KdpEPDB), 1H0M [https://doi.org/10.2210/pdb1H0M/pdb], cadena D y 4HF1 [https://doi.org/10.2210/ pdb4HF1/pdb], cadena A. Las clasificaciones de estructuras utilizadas en este estudio están disponibles en ECOD (http://prodata.swmed.edu/ecod/), SCOP (https://scop.mrc-lmb.cam.ac .uk), y bases de datos Pfam (https://www.ebi.ac.uk/interpro/). Los datos de origen se proporcionan con este documento.

El código utilizado para generar los resultados informados en este manuscrito está disponible en: https://doi.org/10.5281/zenodo.7837636 y https://github.com/ncbi/FixJ_KdpE.

Anfinsen, CB Principios que gobiernan el plegamiento de las cadenas proteicas. Ciencia 181, 223–230 (1973).

Artículo ADS CAS PubMed Google Scholar

Meinhardt, S., Manley, MW Jr., Parente, DJ y Swint-Kruse, L. Reóstatos e interruptores de palanca para modular la función de las proteínas. PLoS ONE 8, e83502 (2013).

Artículo ADS PubMed PubMed Central Google Scholar

Markin, CJ et al. Revelación de la arquitectura funcional de la enzima a través de la cinética de enzimas microfluídicas de alto rendimiento. Ciencia https://doi.org/10.1126/science.abf8761 (2021).

Cole-Strauss, A. et al. Corrección de la mutación responsable de la anemia de células falciformes mediante un oligonucleótido de ARN-ADN. Ciencia 273, 1386–1389 (1996).

Artículo ADS CAS PubMed Google Scholar

Morral, N. et al. El origen de la principal mutación de la fibrosis quística (delta F508) en las poblaciones europeas. Nat. Gineta. 7, 169–175 (1994).

Artículo CAS PubMed Google Académico

Muller, PA & Vousden, KH Mutaciones de p53 en el cáncer. Nat. Biol celular. 15, 2–8 (2013).

Artículo CAS PubMed Google Académico

Bai, Y. & Englander, SW Direcciones futuras en el plegamiento: la naturaleza multiestado de la estructura de la proteína. Proteínas 24, 145–151 (1996).

3.0.CO;2-I" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0134%28199602%2924%3A2%3C145%3A%3AAID-PROT1%3E3.0.CO%3B2-I" aria-label="Article reference 7" data-doi="10.1002/(SICI)1097-0134(199602)24:23.0.CO;2-I">Artículo CAS PubMed Google Académico

Jackson, SE & Fersht, AR Plegamiento del inhibidor de quimotripsina 2. 1. Evidencia de una transición de dos estados. Bioquímica 30, 10428–10435 (1991).

Artículo CAS PubMed Google Académico

Orengo, CA, Pearl, FM & Thornton, JM La base de datos de estructura de dominio CATH. Métodos Bioquímica. Anal. 44, 249–271 (2003).

CAS PubMed Google Académico

Andreeva, A. et al. Crecimiento de datos y su impacto en la base de datos SCOP: nuevos desarrollos. Ácidos Nucleicos Res. 36, D419–D425 (2008).

Artículo CAS PubMed Google Académico

Greene, LH et al. La base de datos de estructura de dominio CATH: los nuevos protocolos y niveles de clasificación brindan un recurso más completo para explorar la evolución. Ácidos Nucleicos Res. 35, D291–D297 (2007).

Artículo CAS PubMed Google Académico

Baek, M. et al. Predicción precisa de estructuras e interacciones de proteínas utilizando una red neuronal de tres pistas. Ciencia 373, 871–876 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Chowdhury, R. et al. Predicción de estructura de proteína de secuencia única utilizando un modelo de lenguaje y aprendizaje profundo. Nat. Biotecnología. https://doi.org/10.1038/s41587-022-01432-w (2022).

Jumper, J. et al. Predicción de estructura de proteínas de alta precisión con AlphaFold. Naturaleza 596, 583–589 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Dishman, AF & Volkman, BF Revelando los misterios de la metamorfosis de proteínas. ACS química. Biol. 13, 1438–1446 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Porter, LL & Looger, LL Las proteínas de cambio de plegamiento existentes están muy extendidas. proc. Academia Nacional. ciencia EE. UU. 115, 5968–5973 (2018).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Lei, X. et al. La mutación del cáncer D83V induce un cambio de conformación de hélice alfa a hebra beta en MEF2B. J. Mol. Biol. 430, 1157–1172 (2018).

Artículo CAS PubMed Google Académico

Chang, YG et al. Ritmos circadianos. Un interruptor de plegamiento de proteínas se une al oscilador circadiano con la salida del reloj en las cianobacterias. Ciencia 349, 324–328 (2015).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Alexander, PA, He, Y., Chen, Y., Orban, J. & Bryan, PN Un código de secuencia mínimo para cambiar la estructura y función de las proteínas. proc. Academia Nacional. ciencia EE. UU. 106, 21149–21154 (2009).

Artículo ADS CAS PubMed PubMed Central Google Scholar

He, Y., Chen, Y., Alexander, PA, Bryan, PN y Orban, J. Puntos de inflexión mutacionales para cambiar los pliegues y funciones de las proteínas. Estructura 20, 283–291 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Porter, LL, He, Y., Chen, Y., Orban, J. & Bryan, PN Las interacciones de los subdominios fomentan el diseño de dos pares de proteínas con aproximadamente un 80 % de identidad de secuencia pero con pliegues diferentes. Biografía. J. 108, 154–162 (2015).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Ruan, B. et al. Diseño y caracterización de una red de conmutación de plegamiento de proteínas. Nat. común 14, 431 (2023).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Salomón, TL et al. Cambio reversible entre dos pliegues de proteínas comunes en un sistema diseñado usando solo temperatura. proc. Academia Nacional. ciencia EE. UU. 120, e2215418120 (2023).

Artículo CAS PubMed Google Académico

Alvarez-Carreno, C., Penev, PI, Petrov, AS & Williams, LD Fold Evolution antes de LUCA: Ascendencia común de los dominios SH3 y OB. mol. Biol. Evol. 38, 5134–5143 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Farias-Rico, JA, Schmidt, S. & Hocker, B. Relación evolutiva de dos superpliegues de proteínas antiguas. Nat. química Biol. 10, 710–715 (2014).

Artículo CAS PubMed Google Académico

Kumirov, VK et al. Transformación mutacional de varios pasos de un pliegue de proteína a través de intermediarios estructurales. Ciencia de las proteínas 27, 1767-1779 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Newlove, T., Konieczka, JH & Cordes, MH Cambio de estructura secundaria en la evolución de la proteína Cro. Estructura 12, 569–581 (2004).

Artículo CAS PubMed Google Académico

Roessler, CG et al. Los estudios estructurales guiados por homología transitiva conducen al descubrimiento de proteínas Cro con un 40 % de identidad de secuencia pero con diferentes pliegues. proc. Academia Nacional. ciencia EE. UU. 105, 2343–2348 (2008).

Artículo ADS CAS PubMed PubMed Central Google Scholar

O'Leary, NA et al. Base de datos de secuencias de referencia (RefSeq) en NCBI: estado actual, expansión taxonómica y anotación funcional. Ácidos Nucleicos Res. 44, D733–D745 (2016).

Artículo PubMed Google Académico

Berman, HM et al. El banco de datos de proteínas. Acta Crystallogr. D Biol. cristalogr. 58, 899–907 (2002).

Artículo PubMed Google Académico

Burley, SK et al. Protein Data Bank (PDB): el único archivo global de estructuras macromoleculares. Métodos Mol. Biol. 1607, 627–641 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Koretke, KK, Lupas, AN, Warren, PV, Rosenberg, M. & Brown, JR Evolución de la transducción de señales de dos componentes. mol. Biol. Evol. 17, 1956–1970 (2000).

Artículo CAS PubMed Google Académico

Stock, AM, Mottonen, JM, Stock, JB y Schutt, CE Estructura tridimensional de CheY, el regulador de respuesta de la quimiotaxis bacteriana. Naturaleza 337, 745–749 (1989).

Artículo ADS CAS PubMed Google Scholar

Leonard, PG, Golemi-Kotra, D. & Stock, AM Cambios conformacionales dependientes de la fosforilación y reordenamientos de dominio en la activación de Staphylococcus aureus VraR. proc. Academia Nacional. ciencia EE. UU. 110, 8525–8530 (2013).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Wright, GSA et al. Arquitectura del sistema completo de transducción de señales de dos componentes FixL-FixJ con detección de oxígeno. ciencia Señal. https://doi.org/10.1126/scisignal.aaq0825 (2018).

Gao, R., Mack, TR & Stock, AM Reguladores de respuesta bacteriana: estrategias regulatorias versátiles de dominios comunes. Tendencias Bioquímica. ciencia 32, 225–234 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Galperin, MY Diversidad de estructura y función de los dominios de salida del regulador de respuesta. actual Opinión Microbiol. 13, 150–159 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Galperin, MY Clasificación estructural de los reguladores de la respuesta bacteriana: diversidad de dominios de salida y combinaciones de dominios. J. Bacteriol. 188, 4169–4182 (2006).

Artículo CAS PubMed PubMed Central Google Scholar

Aravind, L., Anantharaman, V., Balaji, S., Babu, MM & Iyer, LM Las muchas caras del dominio hélice-giro-hélice: regulación de la transcripción y más allá. FEMS Microbiol. Rev. 29, 231–262 (2005).

Artículo CAS PubMed Google Académico

Altschul, SF et al. Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda de bases de datos de proteínas. Ácidos Nucleicos Res. 25, 3389-3402 (1997).

Artículo CAS PubMed PubMed Central Google Scholar

Kim, AK, Looger, LL y Porter, LL Un método predictivo de alto rendimiento para conmutadores de pliegue de secuencia similar. Biopolímeros https://doi.org/10.1002/bip.23416 (2021).

Porter, LL et al. Muchos dominios de proteína NusG diferentes cambian entre pliegues de hélice alfa y hoja beta. Nat. común 13, 3802 (2022).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Wang, B., Gumerov, VM, Andrianova, EP, Zhulin, IB y Artsimovitch, I. Orígenes y evolución molecular del parálogo NusG RfaH. mBio https://doi.org/10.1128/mBio.02717-20 (2020).

Kerfeld, CA & Scott, KM Uso de BLAST para enseñar conceptos de "E-value-tionary". PLoS Biol. 9, e1001014 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Gonzalez, MW & Pearson, WR Sobreextensión homóloga: un desafío para las búsquedas iterativas de similitud. Ácidos Nucleicos Res. 38, 2177–2189 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Belogurov, GA et al. Base estructural para convertir un factor de transcripción general en un regulador de virulencia específico de operón. mol. Celda 26, 117–129 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Eddy, SR Una nueva generación de herramientas de búsqueda de homología basadas en inferencia probabilística. información del genoma 23, 205–211 (2009).

Google Académico

Sievers, F. et al. Generación rápida y escalable de alineaciones de secuencias múltiples de proteínas de alta calidad utilizando Clustal Omega. mol. sist. Biol. 7, 539 (2011).

Artículo PubMed PubMed Central Google Académico

Edgar, RC MUSCLE: alineación de secuencias múltiples con alta precisión y alto rendimiento. Ácidos Nucleicos Res. 32, 1792–1797 (2004).

Artículo CAS PubMed PubMed Central Google Scholar

Shimodaira, H. Una prueba aproximadamente imparcial de selección de árboles filogenéticos. sist. Biol. 51, 492–508 (2002).

Artículo PubMed Google Académico

Chakravarty, D. & Porter, LL AlphaFold2 no puede predecir el cambio de pliegue de proteínas. Ciencia de las proteínas 31, e4353 (2022).

Artículo CAS PubMed Google Académico

Rost, B. Zona crepuscular de alineaciones de secuencias de proteínas. Ing. Proteínas 12, 85–94 (1999).

Artículo CAS PubMed Google Académico

Bateman, A. et al. La base de datos de familias de proteínas Pfam. Ácidos Nucleicos Res. 32, D138–D141 (2004).

Artículo CAS PubMed PubMed Central Google Scholar

Liberles, DA et al. La interfaz de la estructura de proteínas, la biofísica de proteínas y la evolución molecular. Ciencia de las proteínas 21, 769–785 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Yadid, I., Kirshenbaum, N., Sharon, M., Dym, O. y Tawfik, DS Las proteínas metamórficas median en las transiciones evolutivas de la estructura. proc. Academia Nacional. ciencia EE. UU. 107, 7287–7292 (2010).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Alexander, PA, He, Y., Chen, Y., Orban, J. y Bryan, PN Diseño y caracterización de dos proteínas con un 88 % de identidad de secuencia pero estructura y función diferentes. proc. Academia Nacional. ciencia EE. UU. 104, 11963–11968 (2007).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Dishman, AF et al. Evolución del cambio de pliegue en una proteína metamórfica. Ciencia 371, 86–90 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Alva, V., Soding, J. & Lupas, AN Un vocabulario de péptidos antiguos en el origen de las proteínas plegadas. Elife 4, e09410 (2015).

Artículo PubMed PubMed Central Google Académico

Kolodny, R., Nepomnyachiy, S., Tawfik, DS y Ben-Tal, N. Temas puente: segmentos cortos de proteínas que se encuentran en diferentes arquitecturas. mol. Biol. Evol. 38, 2191–2208 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Nepomnyachiy, S., Ben-Tal, N. & Kolodny, R. Huellas evolutivas complejas reveladas en un análisis de segmentos de proteínas reutilizados de diversas longitudes. proc. Academia Nacional. ciencia EE. UU. 114, 11703–11708 (2017).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Qiu, K., Ben-Tal, N. & Kolodny, R. Segmentos de proteínas similares compartidos entre dominios de diferentes linajes evolutivos. Ciencia de las proteínas 31, e4407 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Li, W., Kinch, LN, Karplus, PA y Grishin, NV ChSeq: una base de datos de secuencias de camaleón. Ciencia de las proteínas Rev. 24, 1075–1086 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Minor, DL Jr. & Kim, PS Formación de estructura secundaria dependiente del contexto de una secuencia de proteína diseñada. Naturaleza 380, 730–734 (1996).

Artículo ADS CAS PubMed Google Scholar

Alvarez-Carreno, C., Gupta, RJ, Petrov, AS & Williams, LD Destrucción creativa: Nuevas proteínas se pliegan de viejas. proc. Academia Nacional. ciencia Estados Unidos 119, e2207897119 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Liebau, J. et al. Revelación de la dinámica de activación de una glicosiltransferasa bacteriana de cambio de pliegue por (19) F NMR. J. Biol. química 295, 9868–9878 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Ugalde, JA, Chang, BS & Matz, MV Recreación de la evolución de los pigmentos de coral. Ciencia 305, 1433 (2004).

Artículo CAS PubMed Google Académico

Harms, MJ & Thornton, JW Contingencia histórica y su base biofísica en la evolución del receptor de glucocorticoides. Naturaleza 512, 203–207 (2014).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Tuinstra, RL et al. Interconversión entre dos pliegues de proteínas no relacionados en el estado nativo de linfotactina. proc. Academia Nacional. ciencia EE. UU. 105, 5057–5062 (2008).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Chakravarty, D., Schafer, JW y Porter, LL Características distintivas de las proteínas de cambio de pliegue. Ciencia de las proteínas 32, e4596 (2023).

Artículo CAS PubMed Google Académico

Cordes, MH, Burton, RE, Walsh, NP, McKnight, CJ y Sauer, RT Un puente evolutivo hacia un nuevo pliegue proteico. Nat. Estructura. Biol. 7, 1129–1132 (2000).

Artículo CAS PubMed Google Académico

Cordes, MH, Walsh, NP, McKnight, CJ & Sauer, RT Evolución de un pliegue de proteína in vitro. Ciencia 284, 325–328 (1999).

Artículo ADS CAS PubMed Google Scholar

Sikosek, T., Krobath, H. & Chan, HS Conocimientos teóricos sobre la biofísica de la biestabilidad de proteínas y los interruptores evolutivos. Cómputo PLoS. Biol. 12, e1004960 (2016).

Artículo ADS PubMed PubMed Central Google Scholar

Tian, ​​P. & Best, RB Exploración del panorama de aptitud de secuencia de un puente entre dos pliegues de proteínas. Cómputo PLoS. Biol. 16, e1008285 (2020).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Sikosek, T. & Chan, HS Biofísica de la evolución de proteínas y biofísica de proteínas evolutivas. JR Soc. Interfaz 11, 20140419 (2014).

Artículo PubMed PubMed Central Google Académico

Sikosek, T., Chan, HS y Bornberg-Bauer, E. Escape from Adaptive Conflict se deriva de compensaciones funcionales débiles y robustez mutacional. proc. Academia Nacional. ciencia EE. UU. 109, 14888–14893 (2012).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Morrison, AJ, Wonderlick, DR y Harms, MJ Epistasis de conjunto: orígenes termodinámicos de la no aditividad entre mutaciones. Genética 219, iyab105 (2021).

Artículo PubMed PubMed Central Google Académico

Ovchinnikov, S. et al. Determinación de la estructura de proteínas utilizando datos de secuencias de metagenomas. Ciencia 355, 294–298 (2017).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Mirdita, M. et al. ColabFold: hacer que el plegamiento de proteínas sea accesible para todos. Nat. Métodos 19, 679–682 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Rao, R., Meier, J., Sercu, T., Ovchinnikov, S. & Rives, A. Los modelos de lenguaje de proteínas transformadoras son aprendices de estructuras no supervisadas. bioRxiv https://doi.org/10.1101/2020.12.15.422761 (2020).

Remmert, M., Biegert, A., Hauser, A. & Soding, J. HHblits: búsqueda de secuencias de proteínas iterativas ultrarrápidas por alineación HMM-HMM. Nat. Métodos 9, 173–175 (2011).

Artículo PubMed Google Académico

Steinegger, M. & Soding, J. MMseqs2 permite la búsqueda de secuencias de proteínas sensibles para el análisis de conjuntos de datos masivos. Nat. Biotecnología. 35, 1026–1028 (2017).

Artículo CAS PubMed Google Académico

Nguyen, LT, Schmidt, HA, von Haeseler, A. & Minh, BQ IQ-TREE: un algoritmo estocástico rápido y efectivo para estimar filogenias de máxima verosimilitud. mol. Biol. Evol. 32, 268–274 (2015).

Artículo CAS PubMed Google Académico

Ashkenazy, H. et al. ConSurf 2016: una metodología mejorada para estimar y visualizar la conservación evolutiva en macromoléculas. Ácidos Nucleicos Res. 44, W344–W350 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Kabsch, W. & Sander, C. Diccionario de estructura secundaria de proteínas: reconocimiento de patrones de características geométricas y con enlaces de hidrógeno. Biopolímeros 22, 2577–2637 (1983).

Artículo CAS PubMed Google Académico

Mistry, J. et al. Pfam: La base de datos de familias de proteínas en 2021. Nucleic Acids Res. 49, D412–D419 (2021).

Artículo CAS PubMed Google Académico

Cheng, H. et al. ECOD: una clasificación evolutiva de dominios de proteínas. Cómputo PLoS. Biol. 10, e1003926 (2014).

Artículo PubMed PubMed Central Google Académico

Wang, Y., Wu, H. & Cai, Y. Un estudio de referencia de los métodos de alineación de secuencias para la agrupación de proteínas. BMC Bioinforme. 19, 529 (2018).

Artículo CAS Google Académico

Gallo, PJ et al. Biopython: herramientas de Python disponibles gratuitamente para biología molecular computacional y bioinformática. Bioinformática 25, 1422–1423 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Pei, J. & Grishin, NV PROMALS: hacia alineaciones precisas de secuencias múltiples de proteínas relacionadas de forma distante. Bioinformática 23, 802–808 (2007).

Artículo CAS PubMed Google Académico

Parente, DJ, Ray, JCJ y Swint-Kruse, L. Las posiciones de aminoácidos sujetas a múltiples restricciones coevolutivas pueden identificarse sólidamente mediante las puntuaciones de centralidad de la red de vectores propios. Proteínas 83, 2293–2306 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Bolten, E., Schliep, A., Schneckener, S., Schomburg, D. y Schrader, R. Predicción de estructura de secuencias de proteínas de agrupamiento por homología transitiva. Bioinformática 17, 935–941 (2001).

Artículo CAS PubMed MATH Google Scholar

Gerstein, M. Medición de la efectividad de la comparación de secuencias transitivas, a través de una tercera secuencia 'intermedia'. Bioinformática 14, 707–714 (1998).

Artículo CAS PubMed Google Académico

Fu, L., Niu, B., Zhu, Z., Wu, S. & Li, W. CD-HIT: acelerado para agrupar los datos de secuenciación de próxima generación. Bioinformática 28, 3150–3152 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Mayrose, I., Graur, D., Ben-Tal, N. y Pupko, T. Comparación de métodos de inferencia de velocidad específicos del sitio para secuencias de proteínas: los métodos bayesianos empíricos son superiores. mol. Biol. Evol. 21, 1781–1791 (2004).

Artículo CAS PubMed Google Académico

Price, MN, Dehal, PS & Arkin, AP FastTree: cálculo de grandes árboles de evolución mínima con perfiles en lugar de una matriz de distancia. mol. Biol. Evol. 26, 1641-1650 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Price, MN, Dehal, PS & Arkin, AP FastTree 2: árboles de probabilidad máxima aproximada para alineaciones grandes. PLoS ONE 5, e9490 (2010).

Artículo ADS PubMed PubMed Central Google Scholar

Jones, DT, Taylor, WR & Thornton, JM La generación rápida de matrices de datos de mutaciones a partir de secuencias de proteínas. computar aplicación Biosci. 8, 275–282 (1992).

CAS PubMed Google Académico

Stamatakis, A. In Proceedings 20th IEEE International Parallel & Distributed Processing Simposium. pag. 8 (2006).

Hoang, DT, Chernomor, O., von Haeseler, A., Minh, BQ y Vinh, LS UFBoot2: mejora de la aproximación de arranque ultrarrápido. mol. Biol. Evol. 35, 518–522 (2018).

Artículo CAS PubMed Google Académico

Kalyaanamoorthy, S., Minh, BQ, Wong, TKF, von Haeseler, A. y Jermiin, LS ModelFinder: selección rápida de modelos para estimaciones filogenéticas precisas. Nat. Métodos 14, 587–589 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Naser-Khdour, S., Quang Minh, B. y Lanfear, R. Evaluación de la confianza en la ubicación de las raíces en las filogenias: un estudio empírico que utiliza modelos no reversibles para mamíferos. sist. Biol. 71, 959–972 (2022).

Artículo CAS PubMed Google Académico

Kishino, H., Miyata, T. & Hasegawa, M. Inferencia de máxima verosimilitud de la filogenia de proteínas y el origen de los cloroplastos. J. Mol. Evol. 31, 151–160 (1990).

Artículo ADS CAS Google Académico

Kishino, H. & Hasegawa, M. Evaluación de la estimación de máxima verosimilitud de las topologías de árboles evolutivos a partir de datos de secuencias de ADN y el orden de ramificación en hominoidea. J. Mol. Evol. 29, 170–179 (1989).

Artículo ADS CAS PubMed Google Scholar

Shimodaira, H. & Hasegawa, M. Comparaciones múltiples de log-verosimilitudes con aplicaciones a la inferencia filogenética. mol. Biol. Evol. 16, 1114 (1999).

Artículo CAS Google Académico

Strimmer, K. & Rambaut, A. Inferir conjuntos de confianza de árboles de genes posiblemente mal especificados. proc. Biol. ciencia 269, 137–142 (2002).

Artículo PubMed PubMed Central Google Académico

Yang, Z., Kumar, S. & Nei, M. Un nuevo método de inferencia de secuencias ancestrales de nucleótidos y aminoácidos. Genética 141, 1641–1650 (1995).

Artículo CAS PubMed PubMed Central Google Scholar

Varadi, M. et al. Base de datos de estructuras de proteínas AlphaFold: expansión masiva de la cobertura estructural del espacio de secuencias de proteínas con modelos de alta precisión. Ácidos Nucleicos Res. 50, D439–D444 (2021).

Artículo PubMed Central Google Académico

Swint-Kruse, L. & Brown, CS Resmap: representación automatizada de interfaces macromoleculares como redes bidimensionales. Bioinformática 21, 3327–3328 (2005).

Artículo CAS PubMed Google Académico

Hunter, JD Matplotlib: un entorno de gráficos 2D. Ciencias de la Computación Ing. 9, 90–95 (2007).

Artículo Google Académico

Waskom, ML seaborn: visualización de datos estadísticos. J. Software de código abierto. https://doi.org/10.21105/joss.03021 (2021).

Yu, G., Smith, DK, Zhu, H., Guan, Y. & Lam, TT ggtree: un paquete R para visualización y anotación de árboles filogenéticos con sus covariables y otros datos asociados. Métodos Ecol. Evol. 8, 28–36 (2017).

Artículo Google Académico

Descargar referencias

Agradecemos a Carolyn Ott por sus útiles debates y a Loren Looger por leer críticamente este manuscrito. Este trabajo utilizó el grupo NIH HPS Biowulf (http://hpc.nih.gov). Fue apoyado en parte por fondos del Programa de Investigación Intramural de la Biblioteca Nacional de Medicina, Institutos Nacionales de Salud (LM202011, LLP), el Instituto Nacional de Ciencias Médicas Generales, Institutos Nacionales de Salud (GM118589 a LS-K.) y la Fundación WM Keck (LS-K.).

Centro Nacional de Información Biotecnológica, Biblioteca Nacional de Medicina, Institutos Nacionales de Salud, Bethesda, MD, 20894, EE. UU.

Devlina Chakravarty y Lauren L. Porter

Departamento de Bioquímica y Biología Molecular, Centro Médico de la Universidad de Kansas, Kansas City, KS, 66160, EE. UU.

Shwetha Sreenivasan y Liskin Swint-Kruse

Centro de Bioquímica y Biofísica, Instituto Nacional del Corazón, los Pulmones y la Sangre, Institutos Nacionales de Salud, Bethesda, MD, 20892, EE. UU.

lauren l porter

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Conceptualización: LLP y LSK Metodología: LLP, DC, LSK y SS Software: DC, LLP y SS Investigación: LLP, DC, LSK y SS Curación de datos: SS, DC y LLP Visualización: LLP, DC y SS Redacción: borrador original: LLP, DC y SS Redacción: revisión y edición: LLP, LSK, DC y SS Supervisión: LLP y LSK Administración del proyecto: LLP Adquisición de fondos: LLP y LSK

Correspondencia a Lauren L. Porter.

Los autores declaran no tener conflictos de intereses.

Nature Communications agradece a Nir Ben-Tal, Hue Sun Chan y los demás revisores anónimos por su contribución a la revisión por pares de este trabajo. Un archivo de revisión por pares está disponible.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Chakravarty, D., Sreenivasan, S., Swint-Kruse, L. et al. Identificación de una vía evolutiva encubierta entre dos pliegues de proteínas. Nat Comun 14, 3177 (2023). https://doi.org/10.1038/s41467-023-38519-0

Descargar cita

Recibido: 07 Diciembre 2022

Aceptado: 03 mayo 2023

Publicado: 01 junio 2023

DOI: https://doi.org/10.1038/s41467-023-38519-0

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.