Что такое AlphaFold2?

AlphaFold2 — это система глубокого обучения, которая может предсказывать трехмерную (3D) структуру белков по их аминокислотной последовательности с высокой точностью [1]. Он был разработан исследователями из британской лаборатории искусственного интеллекта (ИИ) DeepMind, принадлежащей Alphabet Inc. (материнской компании Google). Он был выпущен в июле 2021 года как второе поколение системы прогнозирования белков DeepMind до AlphaFold в 2018 году.

Почему AlphaFold2 важен?

Предсказание белковых структур является фундаментальной проблемой в биохимии и разработке лекарств и имеет решающее значение для понимания функции белков и их взаимодействия с другими молекулами. Хотя экспериментальные методы, такие как рентгеновская кристаллография и спектроскопия ядерного магнитного резонанса (ЯМР), использовались для определения структуры белков, эти методы могут быть трудоемкими, дорогими и трудными для применения ко всем белкам.

Как это работает?

AlphaFold2 — это система глубокого обучения, которая использует нейронную сеть для прогнозирования трехмерной структуры белка на основе его аминокислотной последовательности. Система обучается на большой базе данных известных белковых структур и последовательностей и использует эти данные для создания своих прогнозов [2].

Шаг 1 Входные данные: AlphaFold2 принимает в качестве входных данных белковую последовательность, представляющую собой строку аминокислот, представленную их однобуквенными кодами.

Шаг 2. Извлечение признаков: AlphaFold2 использует ряд нейронных сетей для извлечения признаков из последовательности белка, включая информацию о расстояниях между парами аминокислот и углах между связями в остове белка.

Шаг 3 Моделирование фолдинга: на основе этих функций AlphaFold2 затем выполняет симуляцию процесса фолдинга, прогнозируя наиболее вероятную трехмерную структуру белка. Это включает в себя прогнозирование расстояний и углов между всеми парами аминокислот в белке и использование этих прогнозов для создания трехмерной структуры, которая минимизирует энергию белка.

Известно, что DeepMind обучил программу более чем 170 000 белков [3]. Одним из ключевых нововведений AlphaFold2 является использование механизма внимания, который позволяет системе сосредоточиться на наиболее важных частях последовательности и структуры белка при прогнозировании. Этот механизм внимания позволяет системе лучше улавливать дальнодействующие взаимодействия между различными частями белка, которые имеют решающее значение для его фолдинга и функционирования.

Шаг 4. Уточнение: AlphaFold2 затем использует вторую нейронную сеть для уточнения своего первоначального прогноза, регулируя углы и расстояния между аминокислотами для дальнейшей оптимизации структуры.

Шаг 5 Выходные данные: Конечным результатом AlphaFold2 является трехмерная структура белка, представленная в виде набора координат для каждой аминокислоты в цепи.

Какие преимущества у AlphaFold2 по сравнению с AlphaFold?

AlphaFold2 значительно более точен, чем оригинальный AlphaFold. В 2018 году в задаче предсказания фолдинга белка CASP13 AlphaFold достигла точности 25–30% в прогнозировании белковых структур, в то время как AlphaFold2 достигла точности около 90% в задаче CASP14.

AlphaFold2 также намного быстрее, чем оригинальный AlphaFold. Версия 2018 года делала прогнозы за несколько дней, в то время как AlphaFold2 может делать прогнозы всего за несколько часов.

AlphaFold2 использует архитектуру глубокой нейронной сети, которая была специально разработана для прогнозирования сворачивания белков, в то время как исходный AlphaFold использовал комбинацию методов машинного обучения и физической модели сворачивания белков.

Что дальше с AlphaFold2? С какими проблемами он сталкивается?

Доступность данных: AlphaFold2 требует большого количества высококачественных последовательностей белков и структурных данных, чтобы делать точные прогнозы. Однако такие данные доступны не для всех белков, особенно для белков из немодельных организмов или белков с низкой идентичностью последовательности известным белкам.

Качество входных данных. На точность прогнозов AlphaFold2 может влиять качество входных данных, таких как ошибки или пробелы в последовательности белка или экспериментальные данные с низким разрешением.

Структурная сложность: некоторые белки имеют сложную структуру или являются частью многобелковых комплексов, что может быть трудно точно предсказать с помощью AlphaFold2.

Посттрансляционные модификации: AlphaFold2 в настоящее время не включает в свои прогнозы посттрансляционные модификации, которые могут повлиять на фолдинг и функцию белков.

Заключение

AlphaFold2 уже добился значительных успехов в области биологии и машинного обучения, быстро отслеживая прорывы на непредсказуемых уровнях, но еще предстоит проделать большую работу, чтобы раскрыть свой потенциал. Мир ждет в ожидании следующей версии этого программного обеспечения от DeepMind, и, без сомнения, бесчисленное множество других вдохновились попытаться решить эту многомерную головоломку.

Ссылки:

1. DeepMind, https://www.deepmind.com

2. Уилл Дуглас Хэвен. «Искусственный интеллект DeepMind, сворачивающий белки, решил 50-летнюю грандиозную задачу биологии». Обзор технологий Массачусетского технологического института. (2020)

3. Роберт Ф. Сервис. (2020). «Игра изменилась», — ИИ торжествует в решении белковых структур. Наука.