Investigación

IBEC / CRG

CANYA, la IA española que descifra el lenguaje secreto de la agregación de proteínas

Científicos del Instituto de Bioingeniería de Cataluña y del Centro de Regulación genómica han desarrollado una nueva herramienta de inteligencia artificial que permite predecir cuándo y por qué tiene lugar la agregación de proteínas, un mecanismo vinculado al alzhéimer y otras 50 enfermedades / El avance podrá utilizarse en la investigación en enfermedades neurodegenerativas y la mejora de la producción de fármacos

Una herramienta de IA ha dado un paso adelante en la traducción del lenguaje que utilizan las proteínas para determinar si forman grumos pegajosos similares a los asociados con la enfermedad de Alzheimer y alrededor de cincuenta tipos de enfermedades humanas. A diferencia de los modelos de IA de «caja negra», la nueva herramienta, CANYA, fue diseñada para explicar sus decisiones, revelando los patrones químicos específicos que impulsan o previenen el plegamiento dañino de las proteínas.

El descubrimiento, publicado en la revista Science Advances , ha sido posible gracias al mayor conjunto de datos sobre agregación de proteínas creado hasta la fecha. El estudio ofrece nuevos conocimientos sobre los mecanismos moleculares que causan la agregación, que está relacionada con enfermedades que afectan a 500 millones de personas en todo el mundo.

La aglomeración de proteínas, o agregación amiloide, es un peligro para la salud que altera la función normal de las células. Cuando ciertas partes de las proteínas se adhieren entre sí, estas se convierten en masas densas y fibrosas que tienen consecuencias patológicas.

Si bien el estudio tiene algunas implicaciones para acelerar los esfuerzos en la investigación de enfermedades neurodegenerativas, su impacto más inmediato será en la biotecnología. Muchos fármacos son proteínas y, a menudo, su función se ve obstaculizada por agregaciones no deseadas.

Agregación de proteínas

«La agregación de proteínas es un gran dolor de cabeza para las compañías farmacéuticas», afirma la Dra. Benedetta Bolognesi, coautora principal del estudio y líder de grupo en el Instituto de Bioingeniería de Cataluña (IBEC).

«Si una proteína terapéutica comienza a agregarse, los lotes de fabricación pueden fallar, lo que cuesta tiempo y dinero. CANYA puede ayudar a guiar los esfuerzos para diseñar anticuerpos y enzimas que tengan menos probabilidades de adherirse y reducir los contratiempos en el proceso», añade.

Las agregaciones proteicas se forman utilizando un lenguaje todavía poco conocido. Las proteínas están formadas por veinte tipos diferentes de aminoácidos. En lugar de las letras habituales A, C, G, T que componen el lenguaje del ADN, el lenguaje de una proteína tiene veinte letras diferentes, cuyas combinaciones forman «palabras» o «motivos».

Inteligencia artificial

Se ha intentado durante mucho tiempo descifrar qué combinaciones de motivos causan la agregación amiloide y qué otras permiten que las proteínas se plieguen sin errores. Las herramientas de inteligencia artificial que tratan los aminoácidos como el alfabeto de un idioma misterioso podrían ayudar a identificar las palabras o motivos específicos responsables, pero la calidad y el volumen de los datos sobre la agregación de proteínas necesarias para alimentar los modelos han sido históricamente escasos o se han restringido a fragmentos de proteínas muy pequeños.

El estudio ha abordado este reto mediante la realización de experimentos a gran escala. Los autores del trabajo crearon más de 100.000 fragmentos de proteínas completamente aleatorios desde cero, cada uno de 20 aminoácidos de largo. La capacidad de cada fragmento sintético para agregarse se probó en células de levadura vivas. Así, si un fragmento en concreto desencadenara la formación de agregados, las células de levadura crecerían de una manera particular que puede ser medida para determinar la causa y el efecto.

Alrededor de uno de cada cinco fragmentos de proteína (21.936/100.000) provocó aglomeración, mientras que el resto no lo hizo. Si bien estudios anteriores han podido rastrear un puñado de secuencias, el nuevo conjunto de datos ha registrado un catálogo mucho mayor de las diferentes variantes de proteínas que pueden causar la agregación amiloide.

«Hemos creado fragmentos de proteínas aleatorias, incluidas muchas versiones que no se encuentran en la naturaleza. La evolución ha explorado solo una fracción de todas las secuencias de proteínas posibles, mientras que nuestro enfoque nos ayuda a asomarnos a una galaxia mucho mayor de posibilidades, proporcionando una gran cantidad de puntos de datos para ayudar a comprender las leyes más generales del comportamiento de agregación», explica el Dr. Mike Thompson, primer autor del estudio e investigador postdoctoral en el Centro de Regulación Genómica (CRG).

CANYA

La gran cantidad de datos generados a partir de los experimentos se utilizó para entrenar a CANYA. El equipo decidió crearla utilizando los principios de la «IA explicable», haciendo que sus procesos de toma de decisiones fueran transparentes y comprensibles para los humanos. Esto significó sacrificar parte de su poder predictivo, que suele ser mayor en las IA de «caja negra». A pesar de ello, CANYA demostró estar alrededor de un 15% más preciso que los modelos existentes.

En concreto, CANYA es un modelo de convolución-atención, una herramienta híbrida que toma prestada de dos áreas distintas de la IA. Los modelos de convolución, como los que se utilizan en el reconocimiento de imágenes, escanean las fotos en busca de características como una oreja o una nariz para identificar una cara. De manera equivalente, CANYA ojea la cadena de proteínas para encontrar características significativas como motivos o «palabras».

Por otro lado, las herramientas de traducción de idiomas utilizan los modelos de IA para identificar frases clave en una oración antes de decidir cuál es la mejor traducción. El equipo incorporó esta técnica para ayudar a CANYA a descubrir qué motivos son los más importantes a escala general de toda la proteína.

Comprender por qué

Juntos, estos dos enfoques ayudan a CANYA a ver cerca de los motivos locales y, al mismo tiempo, a detectar su importancia a gran escala. Se puede usar esta información no solo para predecir qué motivos en la cadena de proteínas fomentan la aglomeración, la bloquean o provocan un estadio intermedio, sino también para comprender por qué.

Por ejemplo, CANYA demostró que las pequeñas regiones de aminoácidos repelentes al agua son más propensas a provocar aglomeración, mientras que algunos motivos tienen un mayor impacto en la aglomeración si se encuentran hacia el inicio de una secuencia de proteínas en lugar de hacia el final. Estas observaciones se alinean con hallazgos previos que se han visto bajo el microscopio en fibrillas amiloides conocidas.

Pero CANYA también encontró nuevas reglas que dirigen la agregación de proteínas. Por ejemplo, se pensaba que ciertos componentes básicos de las proteínas, los llamados aminoácidos cargados, evitan la aglomeración. Pero resulta que, en el contexto de otros bloques de construcción específicos, en realidad pueden promover la aglomeración.

En su forma actual, CANYA explica principalmente la agregación de proteínas en términos de sí o no, es decir, funciona como un llamado «clasificador». Cómo trabajo futuro, el equipo quiere refinar el sistema para que pueda predecir y comparar las velocidades de agregación en lugar de solo la probabilidad de agregación. Esto podría ayudar a predecir qué variantes de proteínas se forman agregados rápidamente y cuáles lo hacen más lentamente, un factor vital en las enfermedades neurodegenerativas en las que el momento de la formación de amiloide es tan importante como el hecho de que ocurra.

«Hay 1.024 quintillones de formas de crear un fragmento de proteína de 20 aminoácidos de largo. Hasta ahora, hemos entrenado una IA con solo 100.000 fragmentos. Queremos mejorar el proceso creando más fragmentos y más grandes. Aunque este es solo el primer paso, nuestro trabajo muestra que es posible descifrar el lenguaje de la agregación de proteínas. Esto es increíblemente importante para nuestra comprensión de las enfermedades humanas, pero también para guiar los esfuerzos de la biología sintética», concluye la Dra. boloñesa.

Acelerar la investigación

«Este proyecto es un gran ejemplo de cómo la combinación de la generación de datos a gran escala con la IA puede acelerar la investigación. También se trata de un método muy rentable para generar datos», dice el profesor de investigación ICREA Ben Lehner, coautor principal del estudio y jefe de grupo en el Centro de Regulación Genómica (CRG) y el Instituto Wellcome Sanger.

«Usando la síntesis y secuenciación de ADN, podemos realizar cientos de millas de experimentos en un solo tubo, generando los datos que necesitamos para entrenar modelos de IA. Este es un enfoque que estamos aplicando a muchos problemas difíciles de la biología, con el objetivode que esta sea predecible y programable», añade el Dr. Lehner.

El estudio es fruto de la colaboración entre el laboratorio del profesor de investigación ICREA Ben Lehner en el Centro de Regulación Genómica (CRG) y el laboratorio de Benedetta Bolognesi en el Instituto de Bioingeniería de Cataluña (IBEC). Equipos del Laboratorio Cold Spring Harbor (CSHL) y el Instituto Wellcome Sanger también colaboraron en el estudio. El trabajo ha recibido financiación de la Fundación de Investigación «la Caixa», el Consejo Europeo de Investigación y el Ministerio de Ciencia e Innovación.

Anterior noticia

Objetivo: pleno empleo

Siguiente noticia

Comer pasta mejora los factores de riesgo metabólico en comparación con las patatas, el pan o el arroz refinados

Contenidos relacionados

Descubren la presencia de amiloides en la microbiota intestinal asociados con la enfermedad de Parkinson

Diseñan nuevas estrategias para inhibir agregados de proteínas involucrados en demencias y ELA

Identifican una diana terapéutica para neutralizar las formas tóxicas de la proteína asociada al párkinson

STAMP, una técnica revolucionaria para estudiar células individuales sin necesidad de secuenciación

Comentarios (0)

Recordamos que SALUD A DIARIO es un medio de comunicación que difunde información de carácter general relacionada con distintos ámbitos sociosanitarios, por lo que NO RESPONDEMOS a consultas concretas sobre casos médicos o asistenciales particulares. Las noticias que publicamos no sustituyen a la información, el diagnóstico y/o tratamiento o a las recomendaciones QUE DEBE FACILITAR UN PROFESIONAL SANITARIO ante una situación asistencial determinada.

SALUD A DIARIO se reserva el derecho de no publicar o de suprimir todos aquellos comentarios contrarios a las leyes españolas o que resulten injuriantes, así como los que vulneren el respeto a la dignidad de la persona o sean discriminatorios. No se publicarán datos de contacto privados ni serán aprobados comentarios que contengan 'spam', mensajes publicitarios o enlaces incluidos por el autor con intención comercial.

En cualquier caso, SALUD A DIARIO no se hace responsable de las opiniones vertidas por los usuarios a través de los canales de participación establecidos, y se reserva el derecho de eliminar sin previo aviso cualquier contenido generado en los espacios de participación que considere fuera de tema o inapropiados para su publicación.

* Campos obligatorios

Deja un comentario Cancelar comentario

Opinión

SANIDAD SANA

En mayo no te quites el… aire acondicionado

*Asociación para la Defensa de la Sanidad Pública de Salamanca

El mes de mayo nos ha despedido con un nuevo récord para la historia: la ola de calor más intensa en este mes desde que hay registros. Pronto empezamos…

ABRIENDO CAMINO A LA ESPERANZA

El Corpus Christi. Una fiesta de presencia y encuentro

*Periodista y voluntaria de Cáritas Diocesana de Salamanca

Con el mes de junio llega la celebración del Corpus Christi, que este año supondrá una gran fiesta para la Iglesia española y para millones de católicos por la visita del Papa León XIV. Miles de voluntarios, entre ellos yo, nos preparamos con ilusión para este gran día.

EN ABIERTO

Sobre la aprobación de la Estrategia de Cuidados Paliativos 2026-2030 por parte del Consejo Interterritorial del Sistema Nacional de Salud (CISNS)

*Sociedad Española de Cuidados Paliativos

Una vez publicado el documento definitivo de la nueva Estrategia Nacional de Cuidados Paliativos 2026-2030, y tras realizar una revisión y una reflexión detallada sobre su contenido, desde SECPAL creemos necesario trasladar algunas consideraciones:

Salud Visual

colegio opticos optometristas de castilla y león

La óptica y la optometría reivindican su papel como profesión sanitaria consolidada y esencial para la salud visual

La óptica y la optometría viven uno de los momentos más importantes de su historia. Así quedó de manifiesto durante el acto Maestros de la Salud Visual, organizado por el Colegio de Ópticos Optometristas de Castilla y León (COOCYL) para rendir homenaje a sus colegiados más veteranos y reconocer la contribución de quienes han dedicado toda su vida al cuidado de la salud visual de la población.