Información

La predicción de Rosetta ab initio y la interacción proteína-proteína ayudan al fitness


He diseñado varias proteínas que, según predigo, tienen interacciones con otra proteína utilizando el método de la tríada conjunta basado en secuencias. Me gustaría saber cuáles estructuralmente se predice que se acoplarán y tendrán interacciones. He instalado Rosetta y he mirado un poco los ejemplos. Rosetta no tiene mucha documentación sobre "cómo hacer" sobre el diseño de proteínas y la selección de aptitud. ¿Podría alguien guiarme a través del proceso línea por línea de tomar un fasta con una serie de proteínas a través de la generación de pdb ab initio de Rosetta y luego cómo y dónde buscar la idoneidad de cada interacción / acoplamiento de proteínas? También leí en "Diseño de especificidad de interacción proteína-proteína usando métodos computacionales y selección de bibliotecas experimentales" página 91 que era posible generar combinaciones de proteínas específicas que se mapean en una estructura usando Rosetta. ¿Cómo haces eso? gracias :)

Rosetta commons enlaces a complementos de software adicionales, pero omite el crucial Sparks-X. Encontré Sparks-X en esta página web. Y descubrí que el código de make_fragments.pl necesita tener muchos cambios para que se ejecute correctamente. Varios archivos se enumeran en make_fragments.pl. Dos archivos sin enlaces pdb_seqres.txt y entries.idx se encuentran en RSCB, a continuación.

La base de datos NCBI nr requiere alrededor de 100 gigas de espacio libre para cargar y procesar correctamente. Cualquier cosa menos que eso resulta en errores.

make_fragments.pl requiere un solo gen en un archivo fasta. múltiples genes en el archivo fasta hacen que se bloquee.

Psipred nolonger tiene un dat4 por lo que esta línea necesita en make_fragments necesita tener el dat4 eliminado.

"$ PSIPRED sstmp.mtx $ PSIPRED_DATA / weights.dat $ PSIPRED_DATA / weights.dat2 $ PSIPRED_DATA / weights.dat3 $ PSIPRED_DATA / weights.dat4> psipred_ss",

Mi make_fragments no siempre termina, a veces da un error

ERROR: Error de lectura en FragmentPicker :: read_spine_x (): ¡no coincide con el tamaño de la consulta!

Este error fue causado por un ^ M en el archivo fasta eliminado con vi.

Estoy intentando omitir el selector de fragmentos con el kit de herramientas csrosetta de .csrosetta.org /

libstdc ++ 6 La versión de 32 bits debe usarse para talos + Usé una máquina Ubuntu de 32 bits para copiar el archivo /usr/lib/libstdc++.so.6 y lo cargué aquí. http://www.mediafire.com/?j0133qqwiilsuz1

cs-rosetta no crea fragmentos por razones desconocidas. He enviado un correo electrónico al creador y también he enviado un correo electrónico al soporte de rosetta commons. Por ahora recomiendo el servidor online roberta.

Hay ejemplos de cómo utilizar el preempaquetado y el acoplamiento en rosetta_tests.

El PPI se puede diseñar acoplando una proteína a otra proteína y luego ejecutando la tolerancia de secuencia. Aunque el resfile no parece poder limitar los cambios a ciertos nt en este momento.

La tolerancia de secuencia tiene un error de rotamer adicional y llena la memoria y el archivo de paginación para ciertas proteínas si se utilizan los indicadores de la serie "ex". También a veces ignora el resfile, así que verifique dos veces los resultados de los scripts iniciales antes de comenzar un estudio multigeneracional.

Ab initio relax tiene un error que evita que se ejecute dos veces en el mismo directorio. Elimine default.out para volver a ejecutar la predicción de estructura.

El acoplamiento se puede forzar a una ubicación mediante el uso de un archivo de restricciones, pero las opciones radomize y spin deben desactivarse para que funcione correctamente.

-constraints: cst_weight integer -constraints: cst_file cstfile

http://www.rosettacommons.org/manuals/archive/rosetta3.4_user_guide/de/d50/constraint_file.html

http://www.rcsb.org/pdb/static.do?p=general_information/about_pdb/summaries.html


Rosetta puede ser la clave para predecir el plegamiento de proteínas

12 de febrero de 2001 & mdash Un método computacional desarrollado por el investigador del Instituto Médico Howard Hughes David A. Baker y sus colegas ha demostrado ser bastante exitoso en la predicción de la estructura tridimensional de una proteína plegada a partir de su secuencia lineal de aminoácidos.

Rosetta, el nombre de la técnica computacional desarrollada por Baker y sus colegas en la Universidad de Washington, mostró un éxito sorprendente en la predicción de la estructura tridimensional de las proteínas durante la cuarta Evaluación Crítica de Técnicas para la Predicción de la Estructura de las Proteínas (CASP4).

En el experimento CASP4 (http://predictioncenter.llnl.gov/casp4), que comenzó en abril de 2000, más de 100 grupos de investigación generaron estructuras tridimensionales para 40 proteínas candidatas. Se consideró que una proteína candidata, o un objetivo, era elegible para CASP4 si su estructura tridimensional se había deducido mediante análisis estructural pero aún no había sido publicada por los investigadores o no se había hecho pública en una base de datos de estructura de proteínas. A cada grupo de investigación se le proporcionó la secuencia de aminoácidos de las proteínas diana y se les pidió que desarrollaran modelos tridimensionales de las proteínas plegadas. Los resultados de CASP4 se presentaron y debatieron en una conferencia en Asilomar, California, a principios de diciembre.

Incluso hace unos años, dice Baker, el éxito en la predicción de cómo las proteínas asumen sus intrincadas formas tridimensionales se consideraba muy poco probable si no existía una proteína relacionada de estructura conocida. Para aquellas proteínas cuya secuencia se asemeja a una proteína de estructura conocida, la estructura tridimensional de la proteína conocida puede usarse como "plantilla" para deducir la estructura de la proteína desconocida. Sin embargo, alrededor del 60 por ciento de las secuencias de proteínas que surgen de los proyectos de secuenciación del genoma no tienen homólogos de estructura conocida.

A pesar de la falta de éxito en el pasado, los investigadores han abordado el problema de predecir la estructura tridimensional de las proteínas solo a partir de la secuencia de aminoácidos, lo que se denomina predicción ab initio, porque es uno de los problemas centrales de la biología molecular computacional. Recientemente, el problema ha cobrado mayor importancia a medida que los esfuerzos de secuenciación de genes humanos han proporcionado a los investigadores cantidades masivas de datos de secuencias de genes sin procesar.

"Uno de los problemas con la predicción de la estructura es que es demasiado fácil producir un programa que predice correctamente la estructura de una proteína si se conoce la estructura correcta de antemano", dijo Baker. "Al desafiar a los investigadores a producir modelos antes de conocer la respuesta correcta, los experimentos CASP han proporcionado un impulso invaluable al campo".

El algoritmo informático de Rosetta para predecir el plegamiento de proteínas se basa en estudios experimentales de plegamiento de proteínas realizados por el laboratorio Baker & rsquos y muchos otros. "Durante el plegado, cada segmento local de la cadena parpadea entre un subconjunto diferente de conformaciones locales", dijo Baker. "El plegamiento a la estructura nativa ocurre cuando las conformaciones adoptadas por los segmentos locales y sus orientaciones relativas permiten el enterramiento de los residuos hidrófobos, el apareamiento de las cadenas beta y otras características de baja energía de las estructuras de proteínas nativas. En el algoritmo de Rosetta, la distribución de Las conformaciones observadas para cada segmento de secuencia corta en estructuras proteicas conocidas se toman como una aproximación del conjunto de conformaciones locales que el segmento de secuencia muestrearía durante el plegado. Luego, el programa busca la combinación de estas conformaciones locales que tenga la energía total más baja ".

Los resultados informados utilizando Rosetta en la reunión CASP4 revelaron que se ha logrado un enorme progreso en la predicción de la estructura ab initio, dijo Baker. Por ejemplo, hace cuatro años, en la reunión del CASP2, había pocas predicciones razonables sobre la estructura ab initio, dijo. "Por el contrario, en el experimento CASP4, el análisis de las estructuras predichas mostró que para la mayoría de proteínas sin homología con proteínas de estructura conocida, habíamos producido modelos razonables de baja resolución para grandes fragmentos de hasta aproximadamente 90 aminoácidos.

"Curiosamente, algunas de nuestras estructuras predichas eran bastante similares a las estructuras de proteínas que ya se habían resuelto, y que resultaron tener funciones similares a las de la proteína objetivo, aunque no había una similitud de secuencia significativa. Por lo tanto, nuestras estructuras predichas proporcionaron pistas sobre la función que no se podría obtener con los métodos tradicionales de comparación de secuencias ", dijo Baker.

Peter Kollman, un experto en modelado molecular computacional de la Universidad de California, San Francisco, que participó en el experimento CASP4, ofrece una perspectiva adicional: "Los evaluadores de las estructuras para las predicciones ab initio dieron dos puntos para una estructura que era ' entre los mejores, 'un punto para una estructura que era' bastante buena 'y cero si la estructura estaba razonablemente lejos de la correcta.

"Lo asombroso es que el grupo de David Baker tuvo 31 puntos y el siguiente mejor grupo tuvo 8 puntos. Es como el béisbol en 1927, cuando Babe Ruth conectó 60 jonrones y el segundo bateó 14 [y] algunos equipos no conectaron tantos como él.

"No obstante, todavía queda mucho camino por recorrer para predecir estas estructuras con precisión experimental", dijo Kollman, "pero todos tenemos la esperanza de que esto también avance".

Baker está de acuerdo: "Si bien estas estructuras tridimensionales no son lo suficientemente detalladas, por ejemplo, para el diseño de fármacos basado en la estructura, pueden producir información invaluable sobre la función de proteínas desconocidas", dijo Baker. "Entonces, nuestro objetivo es utilizar nuestro método de predicción de la estructura ab initio para producir modelos tridimensionales para proteínas de función desconocida. Y usando esos modelos, podemos buscar en la base de datos de estructuras de proteínas para determinar si son similares a proteínas de función conocida". A partir de esta similitud, podría ser posible hacer inferencias funcionales sobre lo que hacen esas proteínas.

"Estamos muy emocionados ahora por intentar hacer esto a gran escala, para hacer inferencias funcionales para la gran fracción de proteínas sobre las que actualmente no se puede decir nada en absoluto", dijo Baker. "El poder de estos métodos es que, dado que no se necesita más información que la secuencia de aminoácidos, uno puede concebir pasar por un genoma y generar estructuras y posiblemente conocimientos funcionales para cada proteína".


1. Introducción

El trabajo de proteínas y diseño en mi grupo se lleva a cabo mediante un programa informático llamado Rosetta. En el núcleo de Rosetta se encuentran las funciones potenciales para calcular las energías de las interacciones dentro y entre las macromoléculas, y los métodos de optimización para encontrar la estructura de energía más baja para una secuencia de aminoácidos (predicción de la estructura de la proteína) o un complejo de proteína & # x02013proteína, y para encontrar la más baja. secuencia de aminoácidos de energía para una proteína o proteína y complejo proteico (diseño de proteína). Tanto las funciones potenciales como los algoritmos de búsqueda se mejoran continuamente en función de los comentarios de las pruebas de predicción y diseño (consulte el esquema en la figura 1). Hay ventajas considerables en el desarrollo de un programa de computadora para tratar estos problemas tan diversos: primero, las diferentes aplicaciones proporcionan pruebas muy complementarias del modelo físico subyacente (la física / química física fundamental es, por supuesto, la misma en todos los casos), y segundo, muchos problemas de interés actual, como el diseño de la proteína de la columna vertebral flexible y el acoplamiento de proteínas y proteínas con la flexibilidad de la columna vertebral, implican una combinación de los diferentes métodos de optimización.

Diagrama esquemático de los esfuerzos de diseño y predicción de la estructura de Rosetta.

En las siguientes secciones, resumo los avances recientes y los aspectos más destacados en cada una de las diferentes áreas e ilustraré el desarrollo del modelo físico. Pondré especial énfasis en los resultados de cada una de las áreas que sugieren que se está logrando un progreso real en el modelado de alta resolución.

(a) Diseño de la estructura de la proteína

En los últimos años, hemos utilizado nuestro método de diseño de proteínas computacionales para estabilizar drásticamente varias proteínas pequeñas rediseñando por completo cada residuo de sus secuencias (Dantas et al. 2003), para rediseñar la conformación del esqueleto proteico (Nauli et al. 2001), para convertir una proteína monomérica en un dímero intercambiado de hebra (Kuhlman et al. 2002) y termoestabilizar una enzima (Korkegian et al. 2005). Un aspecto destacado fue el rediseño de la vía de plegado de la proteína G, una pequeña proteína que contiene dos horquillas beta separadas por una hélice alfa. En la proteína de origen natural, la primera horquilla se interrumpe y la segunda horquilla se forma en el paso de limitación de velocidad en el plegado, pero en una variante rediseñada en la que la primera horquilla se estabilizó significativamente y la segunda horquilla se desestabilizó, el orden de los eventos se invierte. : se forma la primera horquilla y la segunda horquilla se rompe en el estado de transición de plegado (Nauli et al. 2002). La capacidad de rediseñar racionalmente las vías de plegamiento de proteínas muestra que nuestra comprensión de los determinantes del plegamiento de proteínas ha avanzado considerablemente.

Particularmente emocionante más recientemente es el logro de un gran desafío del diseño computacional de proteínas: la creación de nuevas proteínas con estructuras tridimensionales elegidas arbitrariamente. Desarrollamos una estrategia computacional general para crear estructuras de proteínas tan novedosas que incorporan la flexibilidad de la columna vertebral completa en la optimización de secuencias basada en rotámeros. Esto se logró integrando ab initio predicción de la estructura de proteínas, refinamiento de energía a nivel atómico y diseño de secuencias en Rosetta. El procedimiento se utilizó para diseñar una proteína de 93 residuos llamada Top7 con una secuencia y topología novedosas. Se encontró experimentalmente que Top7 era monomérico y plegado, y la estructura cristalina de rayos X de Top7 es sorprendentemente similar (r.m.s.d. = 1.2 & # x0200a & # x0212b) al modelo de diseño (figura 2 Kuhlman et al. 2003). El diseño exitoso de un nuevo pliegue proteico globular y la estrecha correspondencia de la estructura cristalina con el modelo de diseño tienen amplias implicaciones para el diseño de proteínas y la predicción de la estructura de proteínas, y abren la puerta a la exploración de las grandes regiones del universo de proteínas que aún no se han realizado. observado en la naturaleza.

Comparación de la estructura de cristal de rayos X Top7 (rojo) y el modelo de diseño (azul). (a) Superposición de Calpha (B), detalle del empaque de la cadena lateral en el núcleo.

(b) Diseño de interacciones proteína & # x02013proteína

Para explorar la extensión de estos métodos a las interacciones proteína & # x02013proteína, y en particular al rediseño de la especificidad de interacción, elegimos como sistema modelo el complejo de alta afinidad entre Colicin E7 Dnase y su proteína de inmunidad inhibidora análoga. Se generaron nuevos pares de proteínas inhibidoras de ADNasa y # x02013 que se predice que interactúan estrechamente entre sí, pero no con las proteínas de tipo salvaje, utilizando el modelo físico descrito anteriormente y una modificación de nuestra estrategia de diseño computacional basada en búsqueda de rotámeros que incorpora elementos de diseño tanto positivo como negativo. La caracterización experimental demostró que los complejos de proteínas diseñados tienen afinidades sub-nanomolares, son funcionales y específicos. en vivo, y tienen una diferencia de afinidad de más de un orden de magnitud entre pares afines y no afines in vitro (Kortemme et al. 2004). El enfoque debería ser aplicable al diseño de pares de proteínas que interactúan con nuevas especificidades para delinear y rediseñar redes de interacción de proteínas en células vivas.

En colaboración con los grupos de investigación del Dr. Barry Stoddard y el Dr. Ray Monnat, generamos una endonucleasa artificial altamente específica fusionando dominios de endonucleasas homing I-DmoI e I-CreI a través de la optimización computacional de una nueva interfaz de dominio & # x02013domain entre estas proteínas que normalmente no interactúan. . La enzima resultante, E-DreI (Engineered I-DmoI / I-CreI), se une a un sitio objetivo de ADN quimérico largo con afinidad nanomolar, escindiéndolo precisamente a una velocidad equivalente a sus padres naturales (Chevalier et al. 2002). Actualmente estamos tratando de desarrollar una generación completamente nueva de nuevas endonucleasas rediseñando la interfaz de proteína & # x02013DNA utilizando una extensión de nuestra metodología de diseño a interfaces de proteína & # x02013ácido nucleico (Havranek et al. 2004).

En ambos sistemas, ha sido posible determinar las estructuras cristalinas de rayos X de los complejos diseñados. Como en el caso de Top7, las estructuras reales están muy cerca de los modelos de diseño, lo que es una validación independiente e importante de la precisión de nuestro enfoque de modelado de alta resolución.

(c) Predicción de la estructura de las proteínas

La imagen del plegamiento de proteínas que motiva nuestro enfoque de ab initio La predicción de la estructura terciaria de proteínas es que las interacciones locales dependientes de la secuencia sesgan los segmentos de la cadena para muestrear conjuntos distintos de estructuras locales, y que las interacciones no locales seleccionan las estructuras terciarias de energía libre más bajas de las muchas conformaciones compatibles con estos sesgos locales. Al implementar la estrategia sugerida por esta imagen, utilizamos diferentes modelos para tratar las interacciones locales y no locales. En lugar de intentar un modelo físico para la secuencia local y las relaciones de estructura, recurrimos a la base de datos de proteínas y tomamos la distribución de estructuras locales adoptadas por segmentos de secuencia corta (menos de 10 residuos de longitud) en estructuras tridimensionales conocidas como una aproximación a la distribución de estructuras muestreadas por péptidos aislados con las secuencias correspondientes. Las interacciones no locales primarias consideradas son el entierro hidrofóbico, la electrostática, los enlaces de hidrógeno de la cadena principal y el volumen excluido. Las estructuras que son simultáneamente consistentes con los sesgos de la estructura de secuencia local y las interacciones no locales se generan minimizando la energía de interacción no local en el espacio definido por las distribuciones de la estructura local utilizando recocido simulado.

Rosetta se ha probado en los experimentos bianuales de predicción de la estructura de la proteína CASP en los que se desafía a los predictores a realizar predicciones ciegas de las estructuras de secuencias cuyas estructuras se han determinado pero aún no se han publicado. Desde CASP3 en 1998, Rosetta ha sido consistentemente el método de mejor desempeño para ab initio predicción, como puede verse en los informes publicados de los evaluadores independientes. Por ejemplo, Rosetta se probó en 21 proteínas cuyas estructuras se habían determinado pero aún no se habían publicado en el experimento CASP4. Las predicciones para estas proteínas, que carecen de similitud de secuencia detectable con cualquier proteína con una estructura determinada previamente, fueron de una precisión y consistencia sin precedentes (Bonneau et al. 2002). También se hicieron excelentes predicciones en el experimento CASP5 (Bradley et al. 2003). Alentados por estos resultados prometedores, generamos modelos para todas las grandes familias de proteínas de menos de 150 aminoácidos de longitud (Bonneau et al. 2002). Para CASP6 (diciembre de 2004), desarrollamos métodos mejorados para la predicción de proteínas de hoja beta, y también me complació que muchos de los otros grupos principales usaran el software Rosetta, que ha estado disponible gratuitamente (código fuente además del ejecutable) en el pasado. varios años.

Desde CASP4, estoy convencido de que el progreso real en la predicción de estructuras (tanto de novo predicción y modelado comparativo) solo provendría del progreso en el refinamiento de alta resolución. Si bien las predicciones de Rosetta en CASP han sido bastante buenas en una escala relativa, han sido deficientes en una escala absoluta, con la topología aproximadamente correcta en casos favorables en al menos una de cada cinco predicciones enviadas, pero los detalles de alta resolución en su mayor parte Completamente mal. El refinamiento de estos modelos aproximados es fundamental para mejorar la precisión de los modelos, y quizás aún más crítico, para mejorar su confiabilidad. La estabilidad de las proteínas se deriva en gran parte del empaquetamiento complementario cercano de las cadenas laterales en el núcleo de la proteína y, por lo tanto, evaluar la plausibilidad física de un modelo requiere modelar estas interacciones. Desafortunadamente, el empaquetamiento complementario de la cadena lateral se ve interrumpido por cambios en la conformación de la columna vertebral de la magnitud de los errores en los modelos típicos de Rosetta de baja resolución. Por lo tanto, un enfoque principal de nuestro trabajo en los últimos 5 años ha sido desarrollar todos los métodos de refinamiento de átomos de alta resolución que pueden conducir a los de novo modelos hacia la estructura nativa y así transformar nuestras predicciones de conjeturas informadas de baja resolución a modelos confiables de alta resolución. Si bien hemos podido hacer un progreso constante tanto en el problema de muestreo como en la función de energía, el progreso medible en de novo El refinamiento de la predicción ha sido pequeño hasta hace poco. Sin embargo, los métodos mejorados resultaron ser muy útiles tanto para el diseño de Top7, descrito anteriormente, donde fueron críticos en el paso de optimización de la columna vertebral, como para el método de acoplamiento de proteínas y proteínas, descrito a continuación, que utiliza la misma función de energía y gran parte de la misma metodología de optimización.

Lo más destacado de CASP6 para mí fue Target 281, el primer de novo predicción ciega que utilizó nuestra metodología de refinamiento de alta resolución para lograr una precisión cercana a la alta resolución. Como la secuencia era relativamente corta (76 residuos), durante CASP tuvimos tiempo de aplicar nuestra metodología de refinamiento de todos los átomos no solo a la secuencia nativa sino también a la secuencia de muchos homólogos. El centro del grupo de estructuras de menor energía resultó estar notablemente cerca de la estructura nativa (1.5 & # x0200a & # x0212b). El protocolo de refinamiento de alta resolución disminuyó el r.m.s.d. de 2.2 a 1.5 & # x0200a & # x0212b y las cadenas laterales se empaquetan de una manera algo nativa en el núcleo de la proteína. Desde el verano pasado, hemos utilizado este protocolo en otras proteínas muy pequeñas y los resultados son muy prometedores. Todavía queda mucho por hacer en este problema tan desafiante, y la mejora de los métodos de refinamiento seguirá siendo un enfoque de nuestro trabajo durante los próximos cinco años. Un problema muy concreto de considerable importancia práctica es el problema de refinamiento de modelado comparativo estrechamente relacionado: para proteínas con similitud de secuencia a proteínas de estructura conocida, los modelos pueden construirse esencialmente & # x02018copiando & # x02019 las coordenadas del homólogo, pero la mayoría de los esfuerzos para mejorar en esta estructura de plantilla inicial han fallado (recientemente hemos tenido cierto éxito utilizando información evolutiva para guiar el muestreo Qian et al. 2004). Por lo tanto, los modelos comparativos no suelen representar con precisión las características estructurales que difieren entre los homólogos, lo que constituye una deficiencia grave que perjudica la predicción de la especificidad de la interacción y otros usos de los modelos. Por lo tanto, a medida que desarrollemos métodos mejorados, los probaremos tanto en el de novo el problema de refinamiento de la estructura y el problema de modelado comparativo. El objetivo es simple & # x02014 ser capaz de producir modelos suficientemente precisos con o sin una estructura de plantilla inicial para permitir conocimientos biológicos basados ​​en la estructura sin necesidad de una determinación de la estructura experimental tediosa y costosa & # x02014 o aún más simple, para resolver el problema del plegamiento de proteínas .

Hemos ampliado la Rosetta ab initio estructura de la estrategia de predicción al problema de generar modelos de proteínas utilizando datos experimentales limitados. Al incorporar información sobre el cambio químico y el efecto de sobrecarga nuclear (NOE) (Bowers et al. 2000) y más recientemente información de acoplamiento dipolar (Rohl & # x00026 Baker 2002) en el procedimiento de generación de estructura de Rosetta, ha sido posible generar modelos mucho más precisos que con ab initio predicción de estructura sola o utilizando los mismos conjuntos de datos limitados con la metodología convencional de generación de estructura de RMN. Un desarrollo reciente y emocionante es que el procedimiento Rosetta también puede aprovechar los datos de RMN no asignados y, por lo tanto, eludir el paso difícil y tedioso de asignar espectros de RMN (Meiler et al. 2003).

La Rosetta ab initio el método de predicción de la estructura, el método de determinación de la estructura de RMN basado en Rosetta y un nuevo método para el modelado comparativo (Rohl & # x00026 Baker 2003) que utiliza el método Rosetta de novo El enfoque de modelado para modelar las partes de una estructura (principalmente bucles largos) que no se pueden modelar con precisión en base a una plantilla de estructura homóloga se ha implementado en un servidor público llamado Robetta, que era uno de los mejores servidores de predicción de estructuras totalmente automatizados en el Pruebas CASP5 y CASP6 (Chivian et al. 2005) y tiene una acumulación constante de usuarios en todo el mundo.

(d) Predicción de interacciones proteína & # x02013proteína

Como se describió anteriormente, hemos estado trabajando durante varios años en el refinamiento de la estructura de las proteínas, lo cual es un desafío debido a la gran cantidad de grados de libertad. Me interesé en el problema del acoplamiento de proteínas y proteínas porque, con la aproximación de que los dos socios no experimentan cambios conformacionales significativos durante el acoplamiento, el espacio a buscar es mucho más pequeño, solo los 6 grados de libertad del cuerpo rígido además de la cadena lateral. grados de libertad y, por lo tanto, parecía un buen trampolín hacia el problema del refinamiento de estructuras más duras y, al mismo tiempo, era importante por derecho propio.

Desarrollamos un nuevo método para predecir proteínas y complejos proteicos # x02013 a partir de las coordenadas de los componentes monoméricos libres (Gray et al. 2003) que emplea una búsqueda de Monte Carlo de cuerpo rígido de baja resolución seguida de la optimización simultánea del desplazamiento de la columna vertebral y las conformaciones de la cadena lateral con el procedimiento de minimización de Monte Carlo y el modelo físico utilizado en nuestro trabajo de predicción de estructuras de alta resolución. La optimización simultánea de los grados de libertad de la cadena lateral y el cuerpo rígido contrasta con la mayoría de los otros enfoques actuales que modelan el acoplamiento de proteínas y proteínas como un problema de adaptación de la forma del cuerpo rígido con las cadenas laterales que se mantienen fijas. Recientemente hemos mejorado aún más el método (RosettaDock) (Wang et al. 2005) mediante el desarrollo de un algoritmo que permite un muestreo eficiente de las conformaciones de la cadena lateral de rotámeros durante el acoplamiento.

El poder de RosettaDock se destacó en el muy reciente desafío de acoplamiento ciego de proteínas y # x02013 proteínas CAPRI que se llevó a cabo en diciembre de 2004. En CAPRI, los predictores reciben las estructuras de dos proteínas que se sabe que forman un complejo, y se les desafía a predecir la estructura del complejo. Las predicciones de RosettaDock para objetivos sin cambios conformacionales significativos en la columna vertebral fueron bastante sorprendentes, como se muestra en la figura 3. No solo se predijeron casi perfectamente las orientaciones rígidas del cuerpo de los dos socios, sino que también casi todas las cadenas laterales de la interfaz se modelaron con mucha precisión. Es importante destacar que estos modelos correctos se destacaron claramente como más bajos en energía que todos los demás modelos que generamos, lo que sugiere que la función potencial no está demasiado lejos. Estas predicciones fueron cualitativamente mejores que las predicciones realizadas utilizando métodos estándar basados ​​en cuadrículas que mantienen fijas las cadenas laterales de proteínas durante el acoplamiento.

Resultados de acoplamiento de proteína CAPRI y # x02013proteína. (a) (i): Espectro de energía de los modelos generados en los cálculos de atraque global realizados antes de que se liberaran las estructuras experimentales (ii) paisaje de energía libre mapeado por trayectorias iniciales en los puntos de energía más bajos muestreados en recorridos de atraque global. (B): comparación de la orientación del cuerpo rígido predicha (azul) con la estructura del cristal de rayos X (rojo y amarillo). (C): primer plano de la interfaz que muestra que, además de la orientación del cuerpo rígido, también se predijeron correctamente las conformaciones detalladas de las cadenas laterales. Los modelos predichos son los presentados a los organizadores de CAPRI y son los modelos de energía más baja encontrados en las búsquedas globales y locales que se muestran en el (a).

Estos resultados muy prometedores sugieren que el método pronto puede ser útil para generar modelos de complejos biológicamente importantes a partir de las estructuras de los componentes aislados y, de manera más general, sugieren que el modelado de estructuras e interacciones de alta resolución está al alcance. Un objetivo claro de nuestro trabajo de predicción de estructuras monoméricas es acercarnos al nivel de precisión de estos modelos.


Predicción ab initio de la geometría de unión péptido-MHC para diversos alotipos de MHC de clase I

Dado que la determinación de la estructura cristalográfica de todos los complejos péptido-MHC no es factible, una predicción precisa de la conformación es un problema computacional crítico. Estos modelos pueden ser útiles para determinar la energía de unión, predecir las estructuras de complejos ternarios específicos con receptores de células T y diseñar nuevas moléculas que interactúen con estos complejos. Las principales dificultades son (1) muestreo adecuado del gran número de grados conformacionales de libertad para el péptido flexible, (2) predicción de cambios sutiles en la geometría de la interfaz MHC al unirse, y (3) construcción de modelos para numerosos alotipos MHC sin estructuras conocidas . Mientras que estudios anteriores han abordado el problema de muestreo dividiendo las variables conformacionales en diferentes conjuntos y prediciéndolos por separado, hemos refinado el protocolo de acoplamiento de Monte Carlo de probabilidad sesgada en coordenadas internas para optimizar una función de energía física para todas las variables peptídicas simultáneamente. También imitamos el ajuste inducido acoplándolo en una representación de cuadrícula suave más permisiva del MHC seguido de refinamiento y reordenación utilizando un modelo MHC de todos los átomos. Nuestro método se probó mediante una comparación de los resultados del cruce de 14 péptidos en HLA-A * 0201 y 9 péptidos en H-2.K B así como acoplar péptidos en modelos de homología para cinco alotipos de HLA diferentes con un conjunto completo de estructuras experimentales. La predicción sorprendentemente precisa (RMSD de columna vertebral de 0,75 Å) para el cross-docking de un decapéptido altamente flexible, diferente al péptido unido original, así como las predicciones de acoplamiento utilizando modelos de homología para dos alotipos con RMSD de columna vertebral promedio baja de menos de 1,0 Å ilustran la eficacia del método. Finalmente, los términos de energía calculados utilizando las estructuras predichas se combinaron con el aprendizaje supervisado en un gran conjunto de datos para clasificar los péptidos como aglutinantes HLA-A * 0201 o no aglutinantes. A diferencia de los métodos de predicción basados ​​en secuencias, este modelo también pudo predecir la afinidad de unión de los péptidos a un alotipo de MHC diferente (H-2K B ), no se utiliza para entrenamiento, con una precisión de predicción comparable. Proteínas 2006. © 2006 Wiley-Liss, Inc.

Los materiales complementarios a los que se hace referencia en este artículo se pueden encontrar en http://www.interscience.wiley.com/jpages/0887-3585/suppmat/

Nombre del archivo Descripción
jws-prot.20831.dat1.dat3 KB Carpetas A0201.
jws-prot.20831.dat2.dat3 KB A0201 no aglutinantes.
jws-prot.20831.dat3.dat250 B Carpetas kb.
jws-prot.20831.dat4.dat250 B Kb no aglutinantes.

Tenga en cuenta: El editor no es responsable del contenido o la funcionalidad de la información de apoyo proporcionada por los autores. Cualquier consulta (que no sea el contenido faltante) debe dirigirse al autor correspondiente del artículo.


RESUMEN

Aquí describimos una interfaz de servidor web fácil de usar para el protocolo Rosetta FlexPepDock para el modelado de alta resolución de interacciones péptido-proteína. Recientemente, hemos utilizado FlexPepDock para abordar con éxito varias tareas de modelado del "mundo real" (34–37) y esperamos que aumentar su usabilidad a través de este servidor web abra la puerta a una amplia gama de nuevos sistemas y aplicaciones.

Recientemente ampliamos el protocolo FlexPepDock y presentamos "FlexPepDock ab-initio ’, Un potente protocolo para de novo plegamiento y acoplamiento de péptidos en un sitio de unión conocido que no requiere una conformación inicial del esqueleto del péptido. FlexPepDock ab initio se desempeñó bien en un punto de referencia de interacciones péptido-proteína (38). Sin embargo, este protocolo es computacionalmente costoso y, por lo tanto, aún no está disponible en el servidor web. Se puede descargar como parte de la próxima versión de Rosetta.


4. Conclusiones

InterPep2 applies structural templates for docking peptide fragments, using a random forest regressor to score plausible interaction models. Because InterPep2 is using a residue-order-independent structural alignment for positioning the peptide, it is not limited to use peptide–protein interaction templates, but can use any protein–protein interaction surface as template to model peptide–protein interaction complexes.

InterPep2-Refined achieves state-of-the-art performance on a large set of 251 bound peptide–protein complexes with up to 25 residues long peptides, placing the peptide within 4.0 Å LRMSD of its native conformation in 50 structures considering top10 predictions, and with the highest precision across all recall levels, for example at 50% recall the precision is 61.5% compared to 47.8% precision for the second best method. This performance is maintained when testing on a new set (PDB16–19) of 252 complexes from structures deposited after the complexes used in the construction of the InterPep2 training and template sets, for which 67 peptides were placed in the correct conformation.

On a frequently used dataset of 27 unbound-to-bound complexes InterPep2-Refined performed second-best, successfully placing the peptide within 4.0 Å LRMSD in 15 of 27 peptide conformations, and modeling it with an fnat of at least 0.6 in 13 of the 27, without the use of templates with similar sequence to the target. More interesting however, is that a method combining the template-based InterPep2-Refined with the ab initio method PIPER-FlexPepDock vastly outperformed both methods it was derived from, successfully generating models with the peptide within 4.0 Å LRMSD of its native position for 22 of the 27 complexes, with an fnat of at least 0.6 in 19 of the 27.


The Rosetta macromolecular modeling software is a versatile, rapidly developing set of tools that are now being routinely utilized to address state-of-the-art research challenges in academia and industrial research settings. A Rosetta Conference (RosettaCon) describing updates to the Rosetta source code is held annually. Every two years, a Rosetta Conference (RosettaCon) special collection describing the results presented at the annual conference by participating RosettaCommons labs is published by the Public Library of Science (PLOS). This is the introduction to the third RosettaCon 2014 Special Collection published by PLOS.

The Rosetta macromolecular modeling software is a versatile, rapidly developing set of tools that are now being routinely utilized to address state-of-the-art research challenges in academia and industrial research settings. The software is being co-developed by 44 laboratories from universities, government labs, and research centers in the United States, Europe, Asia, and Australia. The Rosetta software package is the result of a collaborative effort among these research institutions, building upon shared discoveries and free exchange of knowledge and software tools. Every institution with a participating laboratory is a member of an organization called RosettaCommons that facilitates code development and collaboration (http://www.rosettacommons.org). To enhance this collaborative development effort, RosettaCommons holds an annual conference in Leavenworth, WA, USA in the last week of July or the first week of August. Every two years, a Rosetta Conference (RosettaCon) special collection describing the results presented at the conference by participating RosettaCommons labs is published by the Public Library of Science (PLOS). As organizers of the 2014 Rosetta Conference, we are pleased to introduce the third RosettaCon 2014 Special Collection published by PLOS.

The applications of Rosetta software can be broadly divided into two themes–modeling or predicting structures of natural biological polymers [1,2], and the design of novel biomacromolecules [3,4] using, in some cases, an expanded alphabet that included non-natural sidechain and/or backbone functional groups [5,6]. These diverse applications, however, use the same underlying conceptual and software framework consisting of generating various conformations (sampling) of a molecule and scoring these conformations to identify optimal atomic-resolution arrangements (energy function). A crucial early insight was that both scoring and sampling techniques should ideally be independent of the problem under consideration and trained on experimental data [7]. Examples of these datasets include the distributions of protein backbone conformations or side chain rotamers seen in the Protein Databank [1,8], or the measured changes in free energies upon mutation in protein cores [9]. In this framework, the successes and failures of each structural modeling or design exercise provides valuable feedback for improving the underlying methods to iteratively recapitulate a greater proportion of experimental results. Therefore, reproducibility, verification and generalizability of new Rosetta computational algorithms is crucial.

A recent report extrapolates that fully 50% of biological research is not reproducible [10]. Accessibility of new techniques to an outside user can significantly impact reproducibility [11]. In principle, computational biology simulations should offer greater control over both accessibility and reproducibility compared to “wet” lab experiments, as the number of uncontrolled ingredients (reagents etc.) are lower. Yet in practice both reproducibility and accessibility can suffer. This is because academic labs often develop shortcuts and shorthand in day-to-day practice of a newly developed technique, and often omit to mention these little details in their publications, which, in turn, may contribute negatively to reproducibility. Additionally, the structural and design complexity of multi-purpose software such as Rosetta is high (currently at 2.7 million lines of code) and new software developments are usually made in academic laboratories by non-professional software developers who are focused on solving a specific científico problema. For example, the use of specific data structures that assume molecular connectivity corresponding to canonical L-amino acids can frustrate the extension of a structure prediction algorithm to non-canonical side chains or backbone groups.

One idea to achieve reproducibility and accessibility was explored in the previous Rosetta collections—Protocol Capture [12]. In a Protocol Capture, all individual steps in a newly developed protocol are listed as a step-by-step flowchart [13]. Input and expected output files, along with a reference to the code executable (or version number), are provided to the user. In this manner, the user can identify what was actually done in the simulation. This helps both scientific reproducibility (by reporting exactly what was done) as well as accessibility (by allowing non-specialists to reproduce the main findings of the work). However, the issues of laboratories using their shorthand and assumptions, as well as insufficient attention being paid to generalizability still remained. In this collection, we sought to address these issues by requiring an author from an external (but still RosettaCommons) laboratory to serve as a “tester”. This follows from the well-established practice in the software industry where testing and development are separate functions. For the Rosetta community, this approach provides the additional benefit that the external “tester” author, while being an expert in the general area, is sufficiently removed from the laboratory-specific jargon and project-specific scientific goals. Thus, the perspective of the tester author should increase the clarity of description as well as generalizability of the underlying code itself.

This year’s collection contains 12 papers published in PLOS One and PLOS Computational Biology. These papers characterize the diversity of modeling applications present in the Rosetta Macromolecular Code framework, including structure prediction, protein design, modeling of conformational states, and enzyme redesign. We have grouped the papers into four broad categories: structure prediction, membrane proteins, scientific benchmarks, and docking. Many of these categories are artificial, as some of the papers in the collection can fit into multiple categories. Nevertheless, they serve as a useful rubric for appreciating the depth and breadth of the Rosetta Macromolecular software package.

Protein Structure Prediction

The structural prediction of monomeric, soluble proteins is still an unsolved problem, notwithstanding notable recent advances. One important necessity in computational prediction protocols is reducing the high dimensional search space during simulations. An increasingly successful approach is the incorporation of structural restraints derived from phylogeny or low-resolution experiments𠄻oth approaches provide valuable but sparse and/or noisy information, and the challenge is to productively use these data. For example, Braun et al. demonstrate that evolutionary information on the protein fold can be discretized as residue-residue 𠇌ontact maps”, and that these can be combined with iterative sampling techniques for more accurate protein structure prediction [14]. In another example, Huber and colleagues show the integration of Rosetta with sparse EPR constraints to model conformational states in a model protein [15]. One technical issue that arises with the incorporation of multiple experimentally derived restraints is that individual sets are incompatible with each other, thus requiring manual intervention from the coder. To address this problem, Porter et al. developed a computational framework that simplifies combined sampling strategies in Rosetta [16]. They then demonstrated this powerful framework on a range of modeling problems, including domain insertion and ab initio structure prediction with multiple sets of experimental restraints.

Proteínas de membrana

The design and modeling of membrane proteins is an emerging research area. Gray and colleagues present an integrated framework for membrane protein modeling and design [17]. In this work they showed application of the modeling framework to predict free energy changes upon mutation, high-resolution structural refinement, protein-protein docking, and assembly of symmetric protein complexes.

Docking

A significant issue limiting the success of both protein-protein and protein-small molecule docking is the large size and ruggedness of the search space. To efficiently sample conformational space, several approximations are made in the Rosetta approach: a low resolution Monte Carlo search, typically with a coarse-grained representation of the molecules and an approximate energy function, is first performed, followed by high resolution Monte Carlo refinement with atomic resolution [18]. In spite of these approximations, sampling remains computationally inefficient. Furthermore, the energy functions used in the high-resolution step, while being more accurate than the low-resolution step, are still built for speed over accuracy, and often suffer from incorrect modeling of interactions between polar groups, and protein with the solvent. More specifically, in the Rosetta high-resolution energy function, the balance of hydrogen bonding, electrostatics and desolvation forces is a known contributor to energy function inaccuracy [8,19]. It should be noted that the limitations in scoring and sampling are related𠄾nhanced sampling allows identification of false positive conformations, where as more accurate scoring increases ease of identification of true positive solutions by more efficient identification of more optimal basins. Several papers tackle the sampling and scoring issues in docking:

Zhang y col. show the application of replica exchange and other advance sampling techniques to increase the efficiency of Monte Carlo search during docking. Using a benchmark set of 20 protein-protein complexes, they identified an advanced sampling strategy showed better performance with equivalent computational resources. A new sampling approach was used by DeLuca et al. [20] to improve the accuracy and decrease the computational cost of the RosettaLigand docking protocol used in the prediction of protein-small molecule interactions [21]. For protein-small docking, the Karanicolas group report several significant improvements to a previously developed “ray casting” docking approach [22] used for the prediction of small molecules that disrupt protein-protein interactions [23]. Bazzoli et al. show that the use of two recent enhancements to the Rosetta energy function𠄾xplicitly including a Coulombic electrostatic term, and using a modified form of the implicit solvation potential�n markedly improve the ability to identify small-molecule inhibitors of protein-protein interactions [24].

Protein Multispecificity Design

The design of multi-specificity of proteins is important in applications ranging from structural vaccine design, bispecific antibody therapy, and combinatorial biocatalysis. Many computational design strategies rely on genetic algorithms, which are slow and limit search space. To address this problem, the Meiler group developed a new algorithm that can find multistate minima without reliance on techniques that limit search space like a fixed backbone approximation [25].

Scientific Benchmarks

Many of the above protocols were developed by evaluating performance against a benchmark set. Development of accessible, standard benchmarks for different end uses has the potential to increase the speed of method development, and aid reproducibility. For that reason, the Kortemme lab has developed a centralized web resource for standardized benchmark datasets (https://kortemmelab.ucsf.edu/benchmarks) [26]. This web resource includes analysis scripts, Rosetta commandlines, and tutorials for the given benchmark. There are three main sets of benchmarks in this resource: tests estimating the energetic effects upon mutation, tests for structure prediction, and ones for protein design. As a further example of the utility of benchmark sets, Ollikainen et al. developed a benchmark in order to test different protein design protocols on the re-design of enzyme substrate specificity [27]. They then showed that a protocol coupling backbone with side-chain flexibility improves prediction of sequence recovery over a competing fixed backbone approach.

Taken together, the articles in this collection highlight the utility of the Rosetta approach in tackling wide-ranging problems in biomolecular modeling and design using a common platform that allows the accessible and reproducible re-utilization of software. The common framework also provides an inherent feedback loop where new algorithms for sampling and scoring can be widely utilized and benchmarked for diverse scientific problems, in the process highlighting limitations of the approaches and areas where further developments are needed. We hope that through this collection readers will get a taste of the excitement and the unity in diversity that we enjoyed at RosettaCon 2014!


Protein Loop Modeling

Loop modeling is a complex and central element of protein structure prediction and design. There are two typical biological problems:

  • modeling loops into regions of low electron density in crystal structures
  • modeling loops into regions of low homology or with no secondary structure in homology models There exist a variety of tools for approaching these tasks. For an overview of loop modeling in Rosetta, please see this.

Modeling Loops in Regions of Low Electron Density

For explicit refinement of crystallography data, see here.

loops from density is a script to take badly fit electron data and a cutoff suggesting how much of the pose you're willing to rebuild and to generate input "loops" files for loop modeling.

For modeling of missing loops on existent protein structures, you can use any of the methods in the section below.

Modeling Loops in Regions of Low Homology or with No Secondary Structure

What if I am building a homology model and there are regions with low homology or no predicted secondary structure? These are the typical problems solved by loop modeling algorithms. Most loop modeling algorithms in Rosetta are contained within a single executable and run by setting different flags. The fastest, but least accurate method is cyclic coordinate descent (CCD). CCD closes a loop by iteratively solving for phi/psi angles which position the mobile terminus closer to the target anchor after fragment insertion. CCD is generally not recommended but can be used in specific cases (e.g. when time is a limiting factor). The currently (June 10th, 2015) accepted method of loop modeling is next-generation KIC (NGK). KIC sampling can be enhanced/concerted with fragments (KIC with fragments). There also exists an alternative, Monte Carlo stepwise, loop modeling method which can be applied to proteins and ARN. Unfortunately, stepwise loop modeling (for proteins and RNA) tends to be slow.

What if I am modeling a protein with a disordered region?

You probably should not be doing this using Rosetta, if at all. Disordered proteins are dynamic in the context of a cell. It is unlikely that any static, en silico, model of a disordered protein or protein region will be very accurate. Rosetta's scorefunctions are parameterized on crystallized proteins, not disordered proteins. However, if you have a specific question, such as "can my disordered tail of 20 residues plausibly interact with this other region of my protein?" Then you may begin to approach this question with FloppyTail.


Protein Structure Prediction: Conventional and Deep Learning Perspectives

Protein structure prediction is a way to bridge the sequence-structure gap, one of the main challenges in computational biology and chemistry. Predicting any protein's accurate structure is of paramount importance for the scientific community, as these structures govern their function. Moreover, this is one of the complicated optimization problems that computational biologists have ever faced. Experimental protein structure determination methods include X-ray crystallography, Nuclear Magnetic Resonance Spectroscopy and Electron Microscopy. All of these are tedious and time-consuming procedures that require expertise. To make the process less cumbersome, scientists use predictive tools as part of computational methods, using data consolidated in the protein repositories. In recent years, machine learning approaches have raised the interest of the structure prediction community. Most of the machine learning approaches for protein structure prediction are centred on co-evolution based methods. The accuracy of these approaches depends on the number of homologous protein sequences available in the databases. The prediction problem becomes challenging for many proteins, especially those without enough sequence homologs. Deep learning methods allow for the extraction of intricate features from protein sequence data without making any intuitions. Accurately predicted protein structures are employed for drug discovery, antibody designs, understanding protein–protein interactions, and interactions with other molecules. This article provides a review of conventional and deep learning approaches in protein structure prediction. We conclude this review by outlining a few publicly available datasets and deep learning architectures currently employed for protein structure prediction tasks.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


CONCLUSIÓN

We report recent advancements made to the online COFACTOR server for hybrid protein function annotations. In general, the biological function of a protein can be intricate and often contains multiple levels of categorizations. The COFACTOR server focuses on the three most widely-used and computationally amenable categories of function: GO, EC number and ligand-binding sites. Compared with the previous version of COFACTOR, which generated function annotations purely based on structural homology transfer, the updated server introduced several new pipelines built on sequence profile and PPI network information to enhance the accuracy and coverage of the structure-based function predictions. Accordingly, new sources of function templates, including sequence homologs and PPI partners, have been incorporated into the default function library (BioLiP) of the COFACTOR server. Our large-scale benchmark tests have shown that the new composite pipelines can generate function predictions with accuracy outperforming the former version of COFACTOR, as well as many state-of-the-art methods in the literature.

To facilitate the use and interpretation of the prediction results, a confidence scoring system has been introduced (as calibrated in Figure 2), which can help users to quantitatively estimate the accuracy of the predictions. Meanwhile, new DAG combined with animation software are introduced to facilitate the viewing, analysis and manipulation of the prediction models. These developments and updates significantly enhance the accuracy and usability of an already widely applied structure function service system and will make it continue to be a powerful tool, powered by new state of the art algorithms, both for rapid annotation of uncharacterized proteins and for providing a starting point to understand and further characterize targets that may be identified in high-throughput experimental studies.


Ver el vídeo: Topic 227 BIF401 - Bioinformatics I (Enero 2022).