Un modelo de aprendizaje que 'aprende' cómo los aminoácidos individuales determinan la función de las proteínas
La técnica podría mejorar las tareas de aprendizaje automático en el diseño de proteínas, pruebas de medicamentos u otras aplicaciones.
Rob Matheson | Sala de Presna del MIT
Fecha de publicación: marzo 22, 2019
Un modelo de aprendizaje automático de un equipo de investigadores del MIT desglosaba computacionalmente la forma en que la posición de los segmentos de las cadenas de aminoácidos determinan la función de una proteína. El descubrimiento de este mecanismo podría ayudar a los investigadores a diseñar, y probar nuevas proteínas, bien para el desarrollo y testeo de nuevos medicamentos o para la investigación biológica.
Las proteínas son cadenas lineales de aminoácidos, conectadas por enlaces peptídicos, que se pliegan en estructuras tridimensionales extremadamente complejas, dependiendo de la secuencia y las interacciones físicas dentro de la propia cadena. Esta estructura, a su vez, determina la función biológica de la proteína. Por lo tanto, conocer la estructura 3D de una proteína puede ser de gran utilidad para, por ejemplo, predecir la forma en que las proteínas pueden responder a ciertos medicamentos.
A pesar de décadas de investigación y el desarrollo de múltiples técnicas de imagen, sólo conocemos una fracción muy pequeña de las posibles estructuras de proteínas: decenas de miles, respecto a los millones de proteínas existentes. Los investigadores están comenzando a utilizar modelos de aprendizaje automático para predecir estructuras de proteínas basadas en sus secuencias de aminoácidos, lo que podría permitir el descubrimiento de nuevas estructuras de proteínas. Pero esto supone un desafío, ya que diversas secuencias de aminoácidos pueden formar estructuras muy similares. Y no hay muchas estructuras con las que se puedan entrenar los modelos.
En un artículo académico presentado en la International Conference on Learning Representations (Conferencia Internacional sobre Representaciones de Aprendizaje) en mayo, los investigadores del MIT exponen un método para "aprender" representaciones fácilmente computables de la posición de cada aminoácido en una secuencia de proteínas, utilizando inicialmente la estructura 3D de la proteína como guía de entrenamiento. Estas representaciones pueden ser utilizadas por los investigadores como base para ayudar a los modelos de aprendizaje automático a predecir las funciones de los segmentos individuales de aminoácidos, sin que vuela a ser necesario dato alguno sobre la estructura de la proteína.
En el futuro, el modelo podría usarse para mejorar la ingeniería de proteínas, proporcionando a los investigadores la oportunidad de concentrarse en modificar segmentos específicos de aminoácidos. El modelo podría incluso suponer que los investigadores ya no necesitaran preocuparse de la predicción de la estructura de las proteínas.
"Quiero minimizar el esfuerzo dedicado a la estructura", dice el primer autor del artículo académico, Tristan Bepler, estudiante graduado en el grupo de Computer Science and Artificial Intelligence Laboratory (CSAIL)(Computación y Biología en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial). "Queremos saber qué hacen las proteínas, y conocer la estructura es importante para eso. Pero ¿podemos predecir la función de una proteína dada, solo a partir de su secuencia de aminoácidos? La motivación es alejarse de la predicción específica de estructuras y avanzar hacia [encontrar] la forma en que las secuencias de aminoácidos se relacionan con su función".
Junto a Bepler está la coautora Bonnie Berger, Simons Professor of Mathematics (profesora Simons de Matemáticas) en el MIT con una posición conjunta en la facultad en el Department of Electrical Engineering and Computer Science (Departamento de Ingeniería Eléctrica y Ciencias de Computación) y jefa del Equipo de Computación y Biología.
Aprender de la estructura
En lugar de predecir la estructura directamente, como intentan los modelos tradicionales, los investigadores codificaron información estructural de proteínas ya disponible directamente en las representaciones. Para hacerlo, utilizaron similitudes estructurales conocidas de proteínas para supervisar su modelo, ya que el modelo aprende las funciones de aminoácidos específicos.
Entrenaron su modelo con unas 22,000 proteínas de la base de datos de Structural Classification of Proteins (SCOP) (Clasificación Estructural de Proteínas) que contiene miles de proteínas organizadas en clases por similitudes en su estructura y en las secuencias de aminoácidos. Para cada par de proteínas, calcularon una puntuación de similitud real, es decir, el grado de similitud de su estructura, según su clase SCOP.
A continuación, los investigadores alimentaron su modelo con pares aleatorios de estructuras de proteínas y sus secuencias de aminoácidos, que fueron convertidas por un codificador en representaciones numéricas llamadas ‘incrustaciones’. En el procesamiento del lenguaje natural, las incrustaciones son esencialmente tablas de varios cientos de números combinados de manera que correspondan a una letra o palabra en una oración. Cuanto más similares sean dos incrustaciones, más probable será que las letras o palabras aparezcan juntas en una oración.
En el trabajo de los investigadores, cada incrustación del par contiene información sobre el grado de similitud de cada secuencia de aminoácidos en el par. El modelo alinea las dos incrustaciones y calcula una puntuación de similitud para luego predecir cuán similares serán sus estructuras 3D. Después. el modelo compara la puntuación de similitud pronosticada respecto a la puntuación de similitud real SCOP para su estructura y envía una señal de retroalimentación al codificador.
Simultáneamente, el modelo predice un "mapa de contacto" para cada incrustación, que básicamente indica la distancia a la que está cada aminoácido de todos los demás en la estructura 3D estimada para esa proteína: básicamente, ¿están o no en contacto? El modelo también compara su mapa de contacto previsto con el mapa de contacto conocido de SCOP, y envía una señal de retroalimentación al codificador. Esto ayuda al modelo a aprender mejor la posición exacta en la que se sitúan los aminoácidos en la estructura de una proteína, lo que sirve para acotar aún más la función de cada aminoácido.
En esencia, los investigadores entrenan su modelo pidiéndole que prediga si las incrustaciones de secuencias pareadas compartirán o no una estructura de proteína SCOP similar. Si la puntuación prevista del modelo está cerca de la puntuación real, se sabe que está en el camino correcto; si no, se ajusta.
Diseño de proteínas
Al final, para cada cadena de aminoácidos imputada, el modelo producirá una representación numérica, o incrustación, de la posición de cada aminoácido en una estructura 3D. Los modelos de aprendizaje automático pueden usar esas incrustaciones de secuencias para predecir con precisión la función de cada aminoácido en función de su "contexto" estructural 3D previsto: su posición y su `contacto´ con otros aminoácidos.
Por ejemplo, los investigadores utilizaron el modelo para predecir qué segmentos, si los hay, pasan a través de la membrana celular. Dada una sola secuencia de aminoácidos, el modelo de los investigadores predijo todos los segmentos transmembrana, y no transmembrana, con mayor precisión que los modelos de última generación.
"El trabajo de Bepler y Berger es un avance significativo en la representación de las propiedades estructurales de posicionamiento de una secuencia de proteínas", dice Serafim Batzoglou, profesor de ciencias de la computación en la Universidad de Stanford. "La representación se aprende utilizando métodos de aprendizaje profundo de última generación, que han logrado grandes avances en la predicción de la estructura de proteínas en sistemas como RaptorX y AlphaFold. Este trabajo tiene la máxima aplicación en salud humana y en farmacogenómica, ya que facilita la detección de mutaciones deletéreas que alteran las estructuras de las proteínas".
Más adelante, los investigadores pretenden aplicar el modelo a más tareas de predicción, como averiguar qué segmentos de secuencia se unen a moléculas pequeñas, lo cual es crítico para el desarrollo de fármacos. También están trabajando en el uso del modelo para el diseño de proteínas. Usando sus incrustaciones como características, pueden predecir, por ejemplo, las longitudes de onda de color a la que una proteína emitirá fluorescencia.
"Nuestro modelo nos permite transferir información de estructuras de proteínas conocidas a secuencias con estructura desconocida. Usando nuestras incrustaciones como características, podemos predecir mejor la función y permitir un diseño de proteínas más eficiente, basándonos en datos", dice Bepler. " El objetivo a alto nivel es lograr ese tipo de ingeniería de proteínas".
Berger agrega: "Nuestros modelos de aprendizaje automático nos permiten aprender el 'lenguaje' del plegamiento de proteínas, uno de los enigmas originales del 'Santo Grial ', a partir de un pequeño número de estructuras conocidas".
Fuente artículo original: https://news.mit.edu/2019/machine-learning-amino-acids-protein-function-0322
Comentarios
Publicar un comentario