Искусственный интеллект AlphaFold, разработанный в одном из проектов DeepMind, которая входит в материнскую компанию Google, сумел решить научную проблему, с которой не могли справиться около полувека.
Речь идет о прогнозировании структуры белка при сворачивании. Это — важная научная проблема, решение которой может, к примеру, влиять на противоэпидемиологические меры в будущем, отмечают в компании.
Если в базе данных о последовательностях аминокислот в белках (UniProt) — около 180 млн записей, то, в базе белковых структур Protein Data Bank — пока только 170 000. А AlphaFold может помочь получать такие данные.
Чего смог достичь ИИ?
AlphaFold показала результаты лучше, чем около 100 других команд, в решении задачи под названием Critical Assessment of Structure Prediction (CASP).
Ученые бились над ней около 50 лет. Еще в 1972 году, во время речи по поводу своей Нобелевской премии биохимик Кристиан Анфинсен высказал гипотезу о том, что последовательность аминокислот белка должна полностью определять его структуру.
Эта идея вдохновила ученых на поиски возможности вычислять 3D-структуру белка, основываясь только на «одномерных» данных о последовательности аминокислот. Основная сложность этой задачи: количество способов, которыми может сворачиваться белок, прежде чем достигнет финальной трехмерной структуры, может быть астрономическим.
Почему это важно?
AlphaFold научился предсказывать структуру белка с высокой точностью, в сравнении с результатами, полученными в лабораториях. На изображении снизу сравнивается две 3D-структуры: зеленая — это экспериментально подтвержденная структура, синяя — спрогнозированная программой.
Как отмечает команда исследователей, стоящая за AlphaFold, прогнозирование структуры белка может улучшить понимание того, как работают отдельные болезни, повлиять на точность и скорость разработки лекарств.
Также, как отмечают авторы разработки, прогнозирование 3D-структуры белка может помочь в борьбе против будущих эпидемий. К примеру, в 2020 году в DeepMind спрогнозировали несколько белковых структур для вируса SARS-CoV-2, включая ранее неизвестные структуры белка ORF3a.